Робот зрозумів: штучний інтелект навчили виконувати голосові команди та прибирати (відео)

Читать на русском
Автор

Роботу поставили 170 завдань та відправили в кімнати, яку він бачив тільки на відео

Досить довго ідея про те, що штучний інтелект (ШІ) може розуміти візуальні та текстові сигнали так само як людина була частиною наукової фантастики. Наразі ШІ може розуміти одночасно кілька сигналів. Серед такого засточування — візуально-мовні моделі (VLM). Вони можуть обробляти й розуміти мову (текст) і бачити (обробляти зображення) одночасно.

Команда робототехніків з Університету Нью-Йорка, разом з фахівцем з AI в Meta, розробила робота, що може не тільки знайти описані об'єкти в незнайомій кімнаті, а й поставити їх на призначене місце. Про це пише Techxplore.

Робот мав колеса, жердину та висувні кронштейни із кріпленнями. Його назвали OK-Robot і він мав попередньо навчену VLM. В 10 приміщеннях вони створили 3D-відео за допомогою iPhone і передали їх роботу, щоб дати йому загальне відчуття макета даного будинку. Потім вони попросили його виконати кілька простих рухливих завдань — наприклад, "перемістити рожеву пляшку на полиці до сміттєвого відра".

Успішність розуміння та виконання роботом поставлених завдань — 58%. Чим менше предметів навколо, тим простіше роботу і якість можна підвищити до 82%. Загалом роботу поставили 170 команд. Зазначається, що робот не навчався в середовищі, в якому він працював. Дослідники також вважають, що можна досягти вищого показника успішності, використавши складнішого робота.

Раніше "Телеграф" розповідав про використання бойових роботів в Україні — дрони виконують завдання як в повітрі, так на землі чи на воді. За допомогою ШІ також визначають, де летять ракети, ворожі дрони чи гелікоптери.