Збір даних для тренування роботів: XDOF вже заробляє на цьому брудному, але необхідному завданні

Ключові деталі:

  • Новий стартап XDOF зосереджений на розв’язанні проблеми браку високоякісних даних для навчання роботів, що є критичним для розвитку фізичного ШІ.
  • Компанія залучила $70 мільйонів від провідних інвесторів для розробки інфраструктури збору, обробки та анотації даних для робототехніки.
  • XDOF співпрацює з дослідницькими лабораторіями для випуску найбільшого набору даних для навчання роботів, ABC, що відкриває нові можливості для академічних досліджень.
Збір даних для тренування роботів: XDOF вже заробляє на цьому брудному, але необхідному завданні 2

Нещодавній ребрендинг робототехнічного напрямку одного з провідних AI-розробників свідчить про запеклу гонку за наданням штучному інтелекту здатності взаємодіяти з фізичним світом. Однак, ключова перешкода полягає не стільки в моделях, скільки в критичному браку навчальних даних, аналогічних тим, що використовуються для мовних моделей.

Саме ця прогалина стимулює появу нового типу інфраструктурного бізнесу. На відміну від великих мовних моделей (LLM), які навчалися на величезних обсягах загальнодоступного тексту, роботи потребують даних, що відображають фізичну взаємодію, а таких даних вкрай мало. Відео з YouTube чи записи від фрілансерів часто мають низьку якість і погано співвідносяться з реальним світом.

Компанія XDOF (вимовляється “Екс-доф”), яка виходить з тіні сьогодні, робить ставку на те, що наступним вузьким місцем у розвитку ШІ стане не продуктивність моделей чи обчислювальні потужності, а цикл зворотного зв’язку даних, необхідний для навчання роботів ефективній взаємодії з фізичним середовищем.

Стартап має на меті створити конвеєри даних, інструменти для їх збору та системи анотації, які передові лабораторії та робототехнічні компанії не можуть легко розробити самостійно. Компанія вже залучила 70 мільйонів доларів від Thrive Capital, Spark Capital, a16z, Lux та WndrCo. Співзасновник і генеральний директор Філіп Ву зазначає, що XDOF, штат якої налічує близько 60 співробітників, вже співпрацює з 20 клієнтами, серед яких кілька передових AI-лабораторій, але не може їх назвати.

«Усі провідні лабораторії активно займаються робототехнікою», — зауважив Ву. «Ми вже бачили певні недоліки через відставання у перегонах мовних моделей… Не хочемо опинитися в ситуації, коли ця технологія запізніла, а всі усвідомлюють, що фізичний ШІ — це наступний кордон».

Сам Ву зіткнувся з цією проблемою під час навчання в аспірантурі Каліфорнійського університету в Берклі. Його дослідження були зосереджені на тому, щоб навчити роботів навичкам на основі великомасштабних наборів даних. Проте існувала одна проблема.

«У нас не було масштабних даних для роботи», — розповів він. «Виникла проблема курки та яйця: спочатку нам потрібно було зібрати дані, перш ніж ми могли б навіть думати про тренування фундаментальної моделі для робототехніки».

Ву та його майбутній співзасновник і технічний директор XDOF, Фред Шенту, працювали над проєктом GELLO — недорогою системою телеоперації, яка дозволяє оператору керувати роботизованою рукою для генерації навчальних даних. «Це дослідження стало дуже впливовим у сфері робототехніки, оскільки багато хто мав схожі потреби та перешкоди, і багато хто почав використовувати цей тип пристрою для збору даних», — додав Ву.

Помітивши потенційну можливість, Ву, Шенту та третій співзасновник і операційний директор Немо Джин заснували XDOF у жовтні 2024 року з метою надання екосистеми даних для компаній, що розробляють робототехнічні моделі. Розуміючи, що саме надання даних може бути не надто прибутковим бізнесом, компанія також зосереджується на очищенні даних, створенні інструментів та анотації, формуючи самопідсилюваний цикл зворотного зв’язку для розробників роботів.

Як початковий крок, компанія співпрацює з лабораторією AI Research Каліфорнійського університету в Берклі для випуску найбільшої, на їхню думку, колекції високоякісних даних для навчання роботів під назвою ABC. Вона включає 130 000 траєкторій маніпуляційних даних роботів, 300 годин симуляцій та 100 годин оцінок. Такі масштабовані дані для попереднього навчання раніше не були доступні академічному співтовариству.

«Ми бачили в галузях обробки природної мови, генерації зображень та інших сферах, що коли випускаються моделі та дані, спільнота досягає результатів, які важко було передбачити», — зазначив Девід МакАллістер, аспірант Берклі, який допомагав організувати випуск.

Команда вже використовувала ці дані для навчання роботів виконувати такі завдання, як складання футболок, розправлення коробок або завантаження AirPods у їхні кейси.

Необмежені ступені свободи

Компанія планує працювати над трьома рівнями піраміди даних. Найціннішим є дані телеоперації, зібрані на реальних роботах, що вводяться в експлуатацію. Далі йдуть дані, зібрані за допомогою телекерованих роботів, які виконують більш загальні завдання, як у випадку з GELLO. Нарешті, це «егоцентричні» дані, зібрані людьми під час виконання повсякденних завдань, для яких XDOF планує розробити власні носимі сенсори.

«Вибір камери вплине на якість ваших даних, а це, своєю чергою, вплине на продуктивність вашого алгоритму відстеження рук», — пояснив Ву. «Якщо ви погано спроєктуєте апаратне забезпечення з самого початку, зібрані дані можуть мати специфічні проблеми, які ви не передбачили».

Компанія планує наймати та навчати велику кількість операторів телеоперації та операторів егоцентричних даних по всьому світу. Така трудомстка модель ставить очевидне питання: чому б великі лабораторії не займаються цією роботою з виробництва даних самостійно?

«Вам потрібен склад площею в сотні тисяч квадратних метрів із сотнями роботів», — пояснив Ву. «Вам потрібно обслуговувати цих роботів, калібрувати їхні фізичні параметри та належним чином навчати операторів».

Це вимагає значних інвестицій, капіталу та операційного масштабу, які більшість AI-лабораторій вважають за краще віддати на аутсорсинг — саме на це і робить ставку XDOF.

Назва XDOF є грою слів, що походить від терміну в робототехніці «ступені свободи», який описує кількість незалежних рухів, які може виконувати робот. Ваша рука, від плеча до зап’ястя, має сім ступенів свободи. Останній робот від компанії Figure AI має 30. Літера «X» у назві компанії відображає її амбіції: «Довільні ступені свободи, необмежені ступені свободи», — підкреслив Ву.

Джерело новини: techcrunch.com

Поділитися новиною:TelegramViberFacebook
No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *