В последние годы модели «Смесь экспертов» с редким управлением (разреженные МО) привлекли значительное внимание и признание за свою замечательную способность отделять размер модели от эффективности вывода. Это обеспечивает беспрецедентную масштабируемость, что приводит к значительным успехам в различных областях, включая обработку естественного языка, компьютерное зрение и распознавание речи.
Редкие MoE открывают заманчивую перспективу расширения возможностей модели и одновременного снижения вычислительных затрат. Это делает их привлекательным вариантом для интеграции с Transformers, преобладающим архитектурным выбором для крупномасштабного визуального моделирования, хотя и ограниченным из-за их ресурсоемкого характера.
Следуя этому начинанию, исследовательская группа Apple представила концепцию разреженных MoE Mobile Vision (V-MoE) в своей статье под названием «Mobile V-MoE: сокращение масштабов преобразователей машинного зрения с помощью разреженной смеси экспертов». Эти V-MoE представляют собой оптимизированную и удобную для мобильных устройств архитектуру Mixture-of-Experts, которая эффективно уменьшает масштаб Vision Transformers (ViT), сохраняя при этом впечатляющую производительность модели.
Команда суммирует свой основной вклад следующим образом:
- Мы предлагаем упрощенную, удобную для мобильных устройств разреженную структуру MoE, в которой один маршрутизатор назначает экспертам целые изображения (а не фрагменты изображений).
- Мы разрабатываем простую, но надежную процедуру обучения, в которой экспертный дисбаланс можно избежать за счет использования семантических суперклассов для управления обучением маршрутизатора.
- Мы эмпирически показываем, что предлагаемый нами разреженный подход MoE позволяет нам уменьшать масштаб моделей ViT за счет улучшения их производительности и компромисса между эффективностью.
Основная инновация предлагаемого разреженного мобильного V-MoE заключается в использовании одного маршрутизатора для каждого изображения в отличие от маршрутизации для каждого исправления. Обычная маршрутизация для каждого патча…