В догонку к роботу еще вышла модель.
1 000 часов данных — в open source. Всего — 100 000 часов.
PsiBot представила Psi-R2 и Psi-W0 — обе модели предварительно обучены на масштабных данных человеческих манипуляций. 🤖
Датасет полностью мультимодальный: зрение, язык, состояния суставов и тактильные сигналы. Данные собирались с помощью экзоскелетных перчаток с субмиллиметровой точностью и охватывают промышленную сборку, повседневные задачи и манипуляции с объектами.
Psi-R2 — это world action model: на вход подаются изображение и текст, на выходе — будущее видео и действия робота. При масштабировании модель отказывается от ручных модулей и обучается напрямую на сырых данных, демонстрируя лучшую обобщающую способность и работу на длинных горизонтах.
Имея менее 100 реальных траекторий робота, она уже справляется с задачами вроде сборки телефонов, промышленной упаковки и складывания коробок.
Psi-W0 — это action-conditioned world model: принимает изображение, текст и действие, а предсказывает будущее видео. Используется для оценки политик, rollout’ов и обучения с подкреплением.
Модель:
учитывает данные об ошибках (failure data),
переводит динамику человека в динамику робота,
позволяет обучать политики внутри world model.
Вместе они формируют замкнутый цикл данных:
человеческие данные → политика робота → симуляция (rollout) → фильтрация качественных данных → дообучение → более сильные модели.