В последние годы модели «Смесь экспертов» с редким управлением (разреженные МО) привлекли значительное внимание и признание за свою замечательную способность отделять размер модели от эффективности вывода. Это обеспечивает беспрецедентную масштабируемость, что приводит к значительным успехам в различных областях, включая обработку естественного языка, компьютерное зрение и распознавание речи.

Редкие MoE открывают заманчивую перспективу расширения возможностей модели и одновременного снижения вычислительных затрат. Это делает их привлекательным вариантом для интеграции с Transformers, преобладающим архитектурным выбором для крупномасштабного визуального моделирования, хотя и ограниченным из-за их ресурсоемкого характера.

Следуя этому начинанию, исследовательская группа Apple представила концепцию разреженных MoE Mobile Vision (V-MoE) в своей статье под названием «Mobile V-MoE: сокращение масштабов преобразователей машинного зрения с помощью разреженной смеси экспертов». Эти V-MoE представляют собой оптимизированную и удобную для мобильных устройств архитектуру Mixture-of-Experts, которая эффективно уменьшает масштаб Vision Transformers (ViT), сохраняя при этом впечатляющую производительность модели.

Команда суммирует свой основной вклад следующим образом:

  1. Мы предлагаем упрощенную, удобную для мобильных устройств разреженную структуру MoE, в которой один маршрутизатор назначает экспертам целые изображения (а не фрагменты изображений).
  2. Мы разрабатываем простую, но надежную процедуру обучения, в которой экспертный дисбаланс можно избежать за счет использования семантических суперклассов для управления обучением маршрутизатора.
  3. Мы эмпирически показываем, что предлагаемый нами разреженный подход MoE позволяет нам уменьшать масштаб моделей ViT за счет улучшения их производительности и компромисса между эффективностью.

Основная инновация предлагаемого разреженного мобильного V-MoE заключается в использовании одного маршрутизатора для каждого изображения в отличие от маршрутизации для каждого исправления. Обычная маршрутизация для каждого патча…