Международная конференция по робототехнике и автоматизации (ICRA) является одной из ведущих международных площадок в области робототехники. ICRA 2023 будет гибридной конференцией с возможностью как личного, так и виртуального присутствия и пройдет с 29 мая по 2 июня в Лондоне, Англия.

В этом году Исследовательский институт Toyota (TRI) снова стал Серебряным спонсором и представит новые результаты исследований и примет участие в двух семинарах, а финалист конкурса будет награжден за доклад об автономном дрифте. Ознакомьтесь с основной конференцией и семинарами ниже, чтобы узнать, где будут присутствовать исследователи TRI. Мы с нетерпением ждем встречи и общения с вами онлайн и лично на выставке ICRA в этом году — вы можете найти нас на стенде № G10!

Примечание. Тезисы взяты из документов, и не все авторы являются сотрудниками TRI.

Переговоры

Роботы для общества

Дата и время: 30 мая 2023 г., 13:00–14:30 BST.

Джон Леонард, технический советник TRI, выступит с основным докладом под названием «На пути к воплощенному интеллекту, ориентированному на человека», во время первого основного доклада.

Аннотация:

Конечно, есть бесчисленное множество способов, которыми роботы могут помочь людям, и на этом основном заседании «Роботы для общества» рассматриваются некоторые связанные с этим проблемы и то, как недавний прогресс расширил широту возможностей. Достижения в разработке интеллектуальных алгоритмов теперь позволяют нам управлять роботами в средах, населенных людьми, при этом снижая риски, связанные с этим. Роботы разрабатываются, чтобы помогать с домашними делами, такими как уборка пылесосом и работа в саду, в то время как умные автомобили развиваются огромными темпами, чтобы поддерживать мобильность человека. В производственных цехах ко-боты используются все шире, а беспрепятственное взаимодействие человека и робота все чаще внедряется в производственные системы. Ключом к этому является тот факт, что современные роботы могут надежно и безопасно работать внутри и рядом с людьми. На этом основном заседании будет рассмотрена роль роботов в обществе и множество способов, которыми они облегчают нашу жизнь, выполняя задачи даже более эффективно, чем мы.

Мастерские

Семинар по масштабируемому автономному вождению

Дата: 2 июня 2023 г.

Местоположение: ICC Capital Suite 11

Веб-сайт: https://sites.google.com/view/icra2023av/home

Адриан Гайдон, директор отдела машинного обучения в TRI, выступит с докладом на тему «Геометрические базовые модели».

Семинар по сбоям при выполнении роботов и стратегиям управления сбоями

Дата: 2 июня 2023 г.

Местоположение: Южная галерея, комната 24.

Веб-сайт: https://robot-failures.github.io/icra2023/

Маша Иткина, научный сотрудник отдела машинного обучения TRI, выступит с докладом на тему «Интерпретируемые самосознательные нейронные сети для надежного прогнозирования траектории».

Аннотация: хотя нейронные сети добились огромного успеха в качестве прогностических моделей в различных областях, они могут быть чрезмерно уверены в своих прогнозах на данных вне распределения (OOD). Чтобы быть жизнеспособными для критически важных с точки зрения безопасности приложений в человеческой среде, таких как автономные транспортные средства или вспомогательная робототехника, нейронные сети должны точно оценивать свою эпистемическую или модельную неопределенность, достигая уровня самосознания системы.

В этом докладе я представлю подход, основанный на доказательном глубоком обучении, для оценки эпистемологической неопределенности в низкоразмерном интерпретируемом латентном пространстве в условиях прогнозирования траектории. Мы вводим интерпретируемую парадигму предсказания траектории, которая распределяет неопределенность между семантическими понятиями: поведение агента в прошлом, структура дороги и социальный контекст. Мы проверяем наш подход на реальных данных об автономном вождении, демонстрируя превосходную производительность по сравнению с самыми современными базовыми показателями. Глядя в будущее, я надеюсь создать в роботизированных системах пространственно-временной вывод с учетом неопределенности и создать безопасные и социально сплоченные взаимодействия человека и робота.

Семинар по управлению совместимыми роботами: вызовы и новые возможности

Дата: 2 июня 2023 г.

Местоположение: Южная галерея, зал 18.

Веб-сайт: https://sites.google.com/yale.edu/icra2023-compliablemanipulation/

Навин Куппусвами и Эрик Кузино, ученые-исследователи из группы манипулирования, выступят с докладом под названием «Да пребудет с вами сила: на пути к совместимым и контактно-ориентированным зрительно-моторным политикам».

Основная конференция

Финалист Paper Award: «Автономный дрифтинг с данными за 3 минуты с помощью изученных моделей шин”

Авторы: Франк Джему, Джон Го, Уфук Топку, Авинаш Балачандран

Подробности: вторник, 30 мая, 8:30–10:10 BST, постерная сессия, аудитория T8 с дополнительным выступлениемв среду, 31 мая, 15:30–15. :40 BST в актовом зале

Вывод: Вблизи пределов сцепления силы, создаваемые шиной, являются нелинейными и сложным образом взаимосвязанными. Эффективное и точное моделирование в этой области может повысить безопасность, особенно в аварийных ситуациях, когда требуются большие силы. С этой целью мы предлагаем новое семейство моделей силы в шинах, основанное на нейронных обыкновенных дифференциальных уравнениях и нейронной параметризации. Эти модели предназначены для удовлетворения физически проницательных предположений, а также имеют достаточную точность для захвата эффектов более высокого порядка непосредственно из измерений состояния транспортного средства. Они используются в качестве замены аналитической модели шины щетки в существующей структуре прогнозирующего управления нелинейной моделью. Эксперименты с кастомизированной Toyota Supra показывают, что небольшого количества данных о вождении — менее трех минут — достаточно для достижения высокопроизводительного автономного дрифта по различным траекториям со скоростью до 45 миль в час. Сравнение с эталонной моделью показывает 4-кратное улучшение производительности отслеживания, более плавные входные данные управления, а также более быстрое и стабильное время вычислений.

Документ: «SGTM 2.0: автономное распутывание длинных кабелей с помощью интерактивного восприятия»

Авторы: Кошик Шивакумар, Вайнави Вишванат, Анруи Гу, Яхав Авигаль, Джастин Керр, Джеффри Ихновски, Ричард Ченг, Томас Коллар, Кен Голдберг.

Подробности: вторник, 30 мая, 15:00–16:40 BST, постерная сессия, аудитория T8.

Вывод. Кабели часто используются в домах, больницах и промышленных складах и склонны к запутыванию. Этот документ расширяет предыдущую работу по автономному распутыванию длинных кабелей, вводя новые метрики количественной оценки неопределенности и действия, которые взаимодействуют с кабелем для уменьшения неопределенности восприятия. Мы представляем Sliding and Grasping for Tangle Manipulation 2.0 (SGTM 2.0), систему, которая автономно распутывает кабели длиной около 3 метров с двусторонним роботом, используя оценки неопределенности на каждом этапе для обоснования действий. Уменьшая неопределенность в интерактивном режиме, SGTM 2.0 значительно сокращает время выполнения. Физические эксперименты с 84 испытаниями показывают, что SGTM 2.0 может достичь 83% успеха распутывания на кабелях с 1 или 2 узлами в виде восьмерки и 70% успеха обнаружения обрыва в этих конфигурациях, превосходя SGTM 1.0 на 43% по точности распутывания и 200% во время завершения. Дополнительные материалы, визуализации и видео можно найти на сайте sites.google.com/view/sgtm2.

Документ: «Решения в режиме реального времени для мультимодальных частично наблюдаемых динамических игр»

Авторы: Освин Со, Пол Дрюс, Томас Балч, Велин Димитров, Гай Росман, Эвангелос Теодору.

Подробности: вторник, 30 мая, 15:00–16:40 BST, постерная сессия, аудитория T8.

Аннотация. Методы теории игр стали популярными для планирования и прогнозирования в ситуациях, связанных с насыщенным многоагентным взаимодействием. Однако эти методы часто предполагают существование одного локального равновесия по Нэшу и, следовательно, не могут учитывать неопределенность в намерениях различных агентов. В то время как динамические игры с максимальной энтропией (MaxEnt) пытаются решить эту проблему, практические подходы решают для MaxEnt равновесия Нэша с использованием линейно-квадратичных приближений, которые ограничены унимодальными откликами и не подходят для сценариев с несколькими локальными равновесиями Нэша. Переформулируя задачу как POMDP, мы предлагаем MPOGames, метод эффективного решения динамических игр MaxEnt, который фиксирует взаимодействия между локальными равновесиями Нэша. Мы показываем важность методов теории игр с учетом неопределенности на примере слияния двух агентов. Наконец, мы доказываем возможности нашего подхода в реальном времени с помощью аппаратных экспериментов на автомобильной платформе в масштабе 1/10.

Статья: «Простой BEV: что действительно важно для мультисенсорного восприятия BEV?»

Авторы: Адам В. Харли, Чжаоюань Фанг, Джи Ли, Рарес Амбрус, Катерина Фрагкиадаки

Подробности: вторник, 30 мая, 15:00–16:40 BST, постерная сессия, аудитория T8.

Аннотация: создание систем трехмерного восприятия для автономных транспортных средств, не использующих LiDAR высокой плотности, является серьезной исследовательской проблемой из-за стоимости систем LiDAR по сравнению с камерами и другими датчиками. Недавние исследования разработали множество методов, использующих только камеры, в которых элементы по-разному «поднимаются» из изображений с нескольких камер на двухмерную плоскость земли, что дает представление трехмерного пространства вокруг автомобиля «с высоты птичьего полета» (BEV). . Это направление работы породило множество новых «подъемных» методов, но мы заметили, что в то же время изменились и другие детали в тренировочных установках, из-за чего неясно, что действительно важно в наиболее эффективных методах. Мы также отмечаем, что использование одних только камер не является ограничением в реальном мире, учитывая, что дополнительные датчики, такие как радар, уже много лет интегрируются в реальные автомобили. В этой статье мы в первую очередь пытаемся выяснить факторы высокого воздействия в дизайне и протоколе обучения моделей восприятия BEV. Мы обнаружили, что размер пакета и разрешение ввода сильно влияют на производительность, в то время как стратегии подъема имеют более скромный эффект — даже простой подъемник без параметров работает хорошо. Во-вторых, мы демонстрируем, что данные радара могут значительно повысить производительность, помогая сократить разрыв между системами, в которых используются только камеры, и системами с поддержкой LiDAR. Мы анализируем детали использования радара, которые приводят к хорошей производительности, и предлагаем сообществу пересмотреть эту часто игнорируемую часть сенсорной платформы.

Документ: «AutoBag: учимся открывать пластиковые пакеты и вставлять предметы»

Авторы: Лоуренс Юньлян Чен, Байюй Ши, Дэниел Сейта, Ричард Ченг, Томас Коллар, Дэвид Хелд, Кен Голдберг

Подробности: среда, 31 мая, 9:00–10:40 BST, постерная сессия, аудитория T8.

Аннотация. Тонкие пластиковые пакеты повсеместно используются в магазинах розничной торговли, здравоохранении, пищевой промышленности, переработке, дома и школьных столовых. Они сложны как для восприятия (из-за зеркальности и окклюзии), так и для манипулирования (из-за динамики их трехмерной деформируемой структуры). Сформулируем задачу бэггинга: манипулирование обычными пластиковыми пакетами для покупок с двумя ручками из неструктурированного начального состояния в открытое состояние, когда хотя бы один твердый предмет можно вложить в пакет и поднять для транспортировки. Мы предлагаем систему обучения с самоконтролем, в которой робот с двумя руками учится распознавать ручки и края пластиковых пакетов с помощью флуоресцентной УФ-маркировки; во время выполнения робот не использует УФ-маркировку или УФ-свет. Мы предлагаем алгоритм AutoBag, в котором робот использует изученную модель восприятия, чтобы открыть пластиковый пакет посредством повторяющихся манипуляций. Мы представляем новые метрики для оценки качества состояния сумки и новые примитивы движения для переориентации и открытия сумок на основе визуальных наблюдений. В физических экспериментах робот YuMi, использующий AutoBag, может открывать сумки и достигать успеха 16/30 для вставки хотя бы одного предмета в различные исходные конфигурации сумок. Дополнительный материал доступен по адресу https://sites.google.com/view/autobag.

Документ: «Тканевые воронки: каноническое выравнивание для многоцелевых манипуляций с одеждой»

Авторы: Альпер Канберк, Ченг Чи, Хуй Ха, Бенджамин Бурчфил, Эрик Кузино, Сиюань Фэн и Шуран Сонг.

Подробности: среда, 31 мая, 9:00–10:40 BST, постерная сессия, аудитория T8.

Вывод. Автоматизация манипуляций с одеждой является сложной задачей из-за чрезвычайно высокой изменчивости конфигураций объектов. Чтобы уменьшить эту внутреннюю вариацию, мы вводим задачу «канонического выравнивания», которая упрощает последующие приложения за счет сокращения возможных конфигураций одежды. Эту задачу можно рассматривать как «воронку состояния ткани», которая манипулирует произвольно сконфигурированными предметами одежды в предопределенную деформируемую конфигурацию (т. е. канонизацию) в соответствующей жесткой позе (т. е. выравнивание). В конце концов, предметы из ткани приведут к компактному набору структурированных и хорошо заметных конфигураций, которые желательны для последующих навыков манипулирования. Чтобы выполнить эту задачу, мы предлагаем новую цель канонического выравнивания, которая эффективно направляет обучение, чтобы избежать неблагоприятных локальных минимумов во время обучения. Используя эту цель, мы изучаем многостороннюю, многопримитивную политику, которая стратегически выбирает между динамическими бросками и квазистатическими действиями выбора и размещения для достижения эффективного канонического выравнивания. Мы оцениваем этот подход на реальной системе глажки и складывания, которая опирается на эту изученную политику в качестве общего первого шага. Эмпирически мы демонстрируем, что наше независимое от задачи каноническое выравнивание может позволить даже простым разработанным вручную политикам хорошо работать там, где они ранее были неадекватными, тем самым преодолевая разрыв между автоматизированным недеформируемым производством и деформируемым манипулированием.

Статья: «Все, что вам нужно для монокулярного 3D-обнаружения, — это глубина»

Авторы: Деннис Парк, Джи Ли, Дайан Чен, Витор Гуизилини, Адриен Гайдон.

Подробности: среда, 31 мая, 15:00–16:40 BST, постерная сессия, аудитория T8.

Аннотация: ключевой вклад в недавний прогресс в 3D-детектировании по одиночным изображениям — монокулярная оценка глубины. Существующие методы сосредоточены на том, как явно использовать глубину, создавая псевдооблака точек или предоставляя сигналы внимания для особенностей изображения. В более поздних работах прогнозирование глубины используется в качестве задачи предварительной подготовки и выполняется точная настройка представления глубины при его обучении обнаружению 3D-изображений. Однако адаптация ограничена по масштабу ручными метками. В этой работе мы предлагаем дальнейшее согласование представления глубины с целевым доменом без присмотра. Наши методы используют общедоступные видео LiDAR или RGB во время обучения для точной настройки представления глубины, что приводит к улучшению 3D-детекторов. Особенно при использовании видео RGB мы показываем, что наше двухэтапное обучение с первым созданием псевдометок глубины имеет решающее значение из-за несоответствия в распределении потерь между двумя задачами. С любым типом эталонных данных наш многозадачный подход к обучению улучшается по сравнению с современными технологиями как KITTI, так и NuScenes, и в то же время соответствует сложности однозадачной подсети во время тестирования. Исходный код и предварительно обученные модели доступны на https://github.com/TRI-ML/DD3D.