Приложения, которые обнаруживают объекты, классифицируют изображения и распознают лица, сегодня довольно универсальны, и большинство наших смартфонов и других мобильных устройств имеют одно или несколько таких приложений. Как многие знают, упомянутые выше функции ИИ основаны на сверточных нейронных сетях или CNN, которые представляют собой класс глубоких искусственных нейронных сетей, широко используемых для анализа визуальных образов. Однако разработка CNN для мобильных устройств по-прежнему остается сложной задачей, поскольку мобильные модели машинного обучения должны быть небольшими, быстрыми и точными. Хотя было проведено несколько экспериментов по улучшению мобильных моделей машинного обучения, ручное создание эффективных моделей затруднительно, учитывая множество архитектурных возможностей.

В своей недавней статье под названием MnasNet: поиск нейронной архитектуры с учетом платформы для мобильных устройств исследовательская группа из Google исследует и обсуждает подход к автоматизированному поиску нейронной архитектуры, который включает обучение с подкреплением для перепроектирования мобильных моделей машинного обучения. Автоматизированная система под названием MnasNet будет работать с ограничениями скорости мобильных устройств, открыто интегрируя информацию о скорости в основную функцию вознаграждения алгоритма поиска. Это помогает поиску определить модель, которая обеспечивает наилучшее соотношение между точностью и скоростью.

Вместо того, чтобы учитывать скорость модели через прокси (как это делалось ранее), предлагаемый подход к поиску архитектуры напрямую измеряет скорость модели, выполняя модель на конкретной платформе. Понимая, что каждое мобильное устройство имеет свои собственные характеристики программного и аппаратного обеспечения, которые требуют различных архитектур для эффективного баланса скорости и точности, этот новый «подход к поиску архитектуры с учетом платформы» для мобильных устройств поможет вам напрямую измерить то, что возможно в реальном мире.

Схема подхода состоит из трех компонентов:

  1. Контроллер на основе RNN (рекуррентная нейронная сеть), который изучает и создает образцы архитектуры модели.
  2. Тренажер, который строит и обучает модели для достижения точности
  3. Механизм логического вывода, который использует TensorFlow Lite для измерения скорости модели на мобильных телефонах в режиме реального времени.

Рис. Подход к архитектуре автоматизированного нейронного поиска для мобильных устройств

Исследовательская группа Google проверила эффективность этого подхода на следующих наборах данных:

  • ImageNet, база данных изображений, поддерживаемая Стэнфордом и Принстоном, и
  • Набор данных распознавания объектов Common Objects in Context (COCO).

Результаты показывают, что эти модели машинного обучения в 1,5 раза быстрее, чем мобильная модель MobileNetV2, и в 2,4 раза быстрее, чем NASNet, в которой также используется система поиска на основе нейронной архитектуры. При обнаружении объектов COCO модели обеспечивают более высокую точность и более высокую скорость, чем MobileNet. Новый автоматизированный подход может обеспечить высочайшую производительность при решении множества сложных задач мобильного зрения. Google планирует внедрить больше операций и оптимизаций в пространство поиска и применить их к большему количеству задач мобильного зрения, таких как семантическая сегментация.

Первоначально опубликовано на https://www.zerone-consulting.com.