Недавний кризис привлек внимание к использованию автономных роботов для практической пользы. Мы видели роботов, убирающих больницы, доставляющих еду и лекарства и даже оценивающих пациентов. Все это удивительные варианты использования, и они ясно иллюстрируют, как роботы будут играть большую роль в нашей жизни отныне.

Однако, несмотря на все их преимущества, в настоящее время способность робота автономно отображать свое окружение и успешно определять свое местоположение все еще весьма ограничена. Роботы все лучше справляются с определенными задачами в запланированных, последовательных условиях; но динамичные, необученные ситуации остаются проблемой.

Что меня волнует, так это следующее поколение SLAM, которое позволит разработчикам роботов создавать роботов, гораздо более способных к автономной работе в широком диапазоне сценариев. Он уже находится в стадии разработки и привлекает инвестиции и интерес в отрасли.

Мы называем это «эпохой восприятия», и оно сочетает в себе последние достижения в области машин и глубокого обучения для улучшения SLAM. Увеличение разнообразия карт с пониманием семантической сцены улучшает локализацию, качество карт и надежность.

Упрощение карт

В настоящее время большинство решений SLAM берут необработанные данные с датчиков и используют вероятностные алгоритмы для расчета местоположения и карты окружения робота. LIDAR используется чаще всего, но все более дешевые камеры обеспечивают потоки данных для улучшенных карт. Какие бы датчики ни использовались, данные создают карты, состоящие из миллионов трехмерных опорных точек. Они позволяют роботу вычислить свое местоположение.

Проблема в том, что эти облака 3D-точек не имеют никакого значения — они являются просто пространственной привязкой для робота, чтобы вычислить свое положение. Постоянная обработка всех этих миллионов точек также является большой нагрузкой на процессоры и память робота. Внедряя машинное обучение в «конвейер» обработки, мы можем как повысить полезность этих карт, так и упростить их.

Методы паноптической сегментации используют машинное обучение для классификации наборов пикселей с камеры на распознаваемые объекты. Например, миллионы пикселей, представляющие стену, могут быть классифицированы как один объект. Кроме того, мы можем использовать машинное обучение для прогнозирования геометрии и формы этих пикселей в трехмерном мире. Таким образом, миллионы трехмерных точек, представляющих стену, могут быть объединены в одну плоскость. Миллионы трехмерных точек, представляющих стул, могут быть объединены в модель формы с небольшим количеством параметров. Разбиение сцен на отдельные объекты в 2D и 3D снижает нагрузку на процессоры и память.

Добавление понимания

Помимо упрощения карт, этот подход обеспечивает основу для лучшего понимания сцен, которые фиксируют датчики робота. С помощью машинного обучения мы можем классифицировать отдельные объекты в сцене, а затем писать код, который определяет, как с ними следует обращаться.

Первая цель этой новой возможности — удалить движущиеся объекты, в том числе людей, с карт. Для эффективной навигации роботам необходимо ссылаться на статические элементы сцены; вещи, которые не будут двигаться, и поэтому могут быть использованы в качестве надежного ориентира. Машинное обучение можно использовать для обучения автономных роботов тому, какие элементы сцены использовать для определения местоположения, а какие игнорировать как части карты или классифицировать как препятствия, которых следует избегать. Сочетание паноптической сегментации объектов в сцене с базовой картой и данными о местоположении вскоре значительно повысит точность и возможности роботизированного SLAM.

Восприятие объектов

Следующим захватывающим шагом будет использование этой категоризации для повышения уровня понимания отдельных объектов. Машинное обучение, работающее в составе системы SLAM, позволит роботу научиться отличать стены и пол комнаты от мебели и других предметов внутри нее. Хранение этих элементов в виде отдельных объектов означает, что добавление или удаление стула не потребует полной перерисовки карты.

Эта комбинация преимуществ является ключом к огромному прогрессу в возможностях автономных роботов. Роботы плохо обобщают в необученных ситуациях; изменения, особенно быстрое движение, нарушают карты и добавляют значительную вычислительную нагрузку. Машинное обучение создает слой абстракции, повышающий стабильность карт. Более высокая эффективность обработки данных создает дополнительные затраты на добавление большего количества датчиков и данных, которые могут повысить детализацию и информацию, которая может быть включена в карты.

Естественное взаимодействие

Связывание местоположения, картирования и восприятия позволит роботам лучше понимать свое окружение и действовать более полезными способами. Например, робот, который может различать коридор и кухню, может выполнять более сложные наборы инструкций. Возможность идентифицировать и классифицировать такие объекты, как стулья, столы, шкафы и т. д., еще больше улучшит это. Инструктировать робота, чтобы он пошел в определенную комнату, чтобы получить конкретную вещь, станет намного проще.

Настоящая революция в робототехнике произойдет, когда роботы начнут больше взаимодействовать с людьми более естественным образом. Роботы, которые учатся в различных ситуациях и объединяют эти знания в модель, которая позволяет им выполнять новые необученные задачи на основе карт и объектов, сохраненных в памяти. Создание этих моделей и абстракций требует полной интеграции всех трех уровней SLAM. Благодаря усилиям команд SLAMcore, лидирующих в отрасли в этих областях, я считаю, что эпоха восприятия не за горами.

Первоначально опубликовано на https://blog.slamcore.com.