Это отрывок из моего информационного бюллетеня AI, в котором я синтезирую повествование, которое анализирует и связывает важные новости, данные, исследования и деятельность стартапов из мира AI.

Научно-исследовательские работы

Оптимизация поведения агентов в долгосрочном масштабе за счет передачи ценности, DeepMind.

Как часто вы размышляли о результате решения, которое вы приняли неделю или месяц назад? Чтобы извлечь уроки из наших успехов и ошибок, необходимо связать действия и последствия в течение длительного периода времени («проблема присвоения кредита»). Это ключ к нашей способности эффективно учиться. В этой статье авторы исследуют эту особенность человеческой природы, которая отсутствует в современных моделях искусственного интеллекта, которые могут рассуждать только в короткие сроки. Авторы вводят новую парадигму обучения с подкреплением, основанную на следующих трех принципах, согласно которым агенты должны: 1) кодировать и сохранять перцепционные воспоминания и воспоминания о событиях; 2) Предсказывать будущие награды, идентифицируя и получая доступ к воспоминаниям о тех прошлых событиях; 3) Переоцените эти прошлые события, исходя из их вклада в будущую награду. Их система, Temporal Value Transport (TVT), интегрирует эти требования, используя механизмы памяти внимания нейронной сети, чтобы распределять отдаленные прошлые действия для будущих вознаграждений. По словам авторов, «алгоритм не лишен эвристических элементов, но мы доказываем его эффективность для набора задач, требующих долгосрочного временного присвоения кредита в течение периодов задержки, которые создают огромные трудности для традиционного глубокого RL».

Визуализация и понимание генеративных состязательных сетей, материалы ICLR 2019.

Авторы стремились определить интерпретируемую структуру для GAN, которая могла бы обеспечить окно в их внутренние представления. Интересно, что они обнаружили многие части представлений GAN, которые можно интерпретировать как причинные эффекты на синтез объектов в выходном изображении. Следует отметить, что эти интерпретируемые эффекты можно использовать для сравнения, отладки, изменения и анализа модели GAN. Например, это может быть использовано в программах для редактирования фотографий.

Масштабное обучение GAN для высококачественного синтеза естественных изображений , материалы, представленные на ICLR 2019.

Некоторые серьезно классно-условные сэмплы сгенерированы синтетически их BigGAN. И еще кое-что от NVIDIA Research.

Глубокие имитационные модели для гибкого вывода, планирования и контроля, Беркли.

Авторы представляют имитационные модели, класс вероятностных прогнозных моделей, которые могут планировать экспертные траектории для достижения произвольных целей. Они сочетают в себе преимущества гибкости от RL на основе моделей (MBRL) и способность имитационного обучения, чтобы учиться на человеческих демонстрациях. Они показывают, что глубинные имитационные модели существенно превосходят как прямую имитацию, так и классическую MBRL в моделируемых задачах вождения и могут быть эффективно изучены с помощью фиксированного набора демонстраций экспертов.

ChauffeurNet: учимся водить машину, подражая лучшему и синтезируя худшее , Waymo Research

В этом исследовании авторы стремятся создать систему управления автомобилем, подражая эксперту. Они создали глубокую RNN, ChauffeurNet, которая обучена генерировать траекторию движения, наблюдая среднеуровневое представление сцены в качестве входных данных. Интересно, что это представление не строится непосредственно на основе необработанных данных датчика. Таким образом, он выделяет задачу восприятия и позволяет Waymo комбинировать реальные и смоделированные данные для облегчения обучения передаче. Запись в блоге здесь.

Измерение влияния параллелизма данных на обучение нейронной сети , Google Brain.

Продолжая поиск эмпирических свидетельств требований к данным для построения высокопроизводительных моделей машинного обучения, я предлагаю вам эту статью. Здесь авторы исследуют точную взаимосвязь между размером пакета (например, сколько изображений использовать для каждого прохода через нейронную сеть) и количеством необходимых шагов обучения. Они исследуют, как эта взаимосвязь меняется в зависимости от алгоритма обучения, модели и набора данных. Исследование показало, что для идеализированного оборудования с параллельными данными существует универсальная взаимосвязь между временем обучения и размером пакета, но есть существенные различия в том, насколько хорошо разные рабочие нагрузки могут использовать пакеты большего размера. По аналогичной теме OpenAI публикует результаты о том, как градиентный шум предсказывает возможность распараллеливания обучения нейронной сети для широкого круга задач.

За пределами имитации: беспроблемная передача задач роботам путем изучения концепций в виде когнитивных программ, Vicarious AI.

В этой статье изучаются концепции в виде программ на «визуальном когнитивном компьютере», демонстрируя беспроблемную передачу задач на роботов и сильное обобщение. Vicarious привносит идеи когнитивной науки о системах восприятия символов и схемах изображений в сферу машинного обучения.

Эпизодическое любопытство через достижимость, DeepMind, GoogleAI, ETH Zurich.

В этой статье авторы предлагают новую основанную на эпизодической памяти модель предоставления вознаграждений агентам обучения с подкреплением, когда они решают задачи, которые в противном случае имели бы скудное вознаграждение. Награды в этой модели сродни любопытству, т. Е. Побуждают агента RL исследовать окружающую среду, а также решать исходную задачу. Они делают это, позволяя агенту RL сохранять в памяти наблюдения, полученные при его взаимодействии с окружающей средой. Затем рассчитывается вознаграждение в зависимости от того, насколько далеко текущее наблюдение находится от наиболее похожего наблюдения в памяти. В частности, нейронная сеть обучается предсказывать, были ли два наблюдения выполнены близко друг к другу по времени или далеко друг от друга. Если агент делает наблюдения, которые еще не сохранены в памяти, он получает большее вознаграждение.

Исследование методом случайной сетевой дистилляции, OpenAI и Эдинбург.

Вдохновленное связанными проблемами, чем статья Episodic Curiosity выше, это исследование представляет «бонус исследования», в котором мы прогнозируем выходные данные фиксированной случайно инициализированной нейронной сети на основе текущих наблюдений за глубоким RL-агентом в игровой среде. Этот бонус основан на представлении о том, что нейронные сети, как правило, имеют значительно меньшие ошибки прогнозирования на примерах, подобных тем, на которых они были обучены. Это мотивирует использование ошибок прогнозирования сетей, обученных на прошлом опыте агента, для количественной оценки новизны нового опыта. Авторы достигают современного перформанса о доходах Монтесумы:

Модельно-ориентированная активная разведка , NNAISENSE.

На той же неделе была выпущена третья статья о методах RL, которые поощряют исследования для улучшения обучения агентов!

Вознаграждайте обучение на примере человеческих предпочтений и демонстраций в Atari , OpenAI и DeepMind.

В этой статье рассматривается, как агенты могут решать задачи, в которых подцели плохо определены или их трудно определить как жестко запрограммированную функцию вознаграждения. Это важно, потому что для большинства сложных жизненных задач нет очевидной функции вознаграждения, которую можно было бы записать. Они решают эту проблему, инициализируя политику агента с помощью имитации обучения на демонстрациях экспертов с использованием предварительной части алгоритма DQfD (Hester et al., 2018). Во-вторых, они используют предпочтения траектории и демонстрации экспертов для обучения модели вознаграждения, которая позволяет им улучшить политику, извлеченную из имитации.

Три обзора EMNLP 2018, ведущей конференции по обработке естественного языка: здесь (Патрик Льюис, UCL), здесь (Себастьян Рудер, Эйлиен) и здесь (Клаудиа Хауфф, TU Delft) .

Вот список лучших бумажных наград на NeurIPS 2018.

Что может сделать машина из одного изображения? Во-первых, это была оценка глубины (сейчас команда работает в Niantic Labs). Теперь это обнаружение 3D-объектов (эта команда работает с Wayve.ai).

Обучение с подкреплением на основе визуальных моделей как путь к универсальным роботам:

В этой статье представлен алгоритм, позволяющий изучить универсальную прогностическую модель с использованием немаркированных сенсорных ощущений. Они показывают, что эта единственная модель может позволить роботу выполнять широкий круг задач. Группа Сергея Левина также выпустила свой внеполитический алгоритм обучения с подкреплением, не связанный с моделями, - мягкий актер-критик (SAC). Это, пожалуй, один из самых эффективных алгоритмов, не использующих модели, доступных сегодня для обеспечения передвижения роботов, манипулирования объектами и многого другого.

📑 Ресурсы

Сообщения в блогах

Использование исследований машинного обучения для коммерциализации продуктов: полезный ресурс от Расмуса Роте из Merantix. Пособие по этой теме продолжается!

Owkin опубликовал изящный учебник для врачей, чтобы понять основы ML, и пример использования для прогнозирования возраста мозга пациента по данным МРТ.

Либби Кинси опубликовала подробный обзор проблем, связанных с подключением к инфраструктуре приложений, ориентированных на ИИ, и текущих поставщиков решений, присутствующих на рынке. Хотя мы еще только начинаем видеть продукты, ориентированные на ИИ, текущие развертывания уже указывают на ключевые проблемы с существующей инфраструктурой, которая была разработана для традиционной среды веб-приложений SaaS / потребителей / торговых площадок. В частности, этот отрывок из статьи Google иллюстрирует некоторые различия в том, как мы должны думать о тестировании и мониторинге:

Команда Lyft уровня 5 разработала красивое введение в состав карт HD и их назначение.

Какие проблемы возникают при анализе биологических и искусственных нейронных сетей? Подробнее здесь!

Институт AI Now при Нью-Йоркском университете опубликовал свой последний отчет за 2018 год. В центре внимания исследования - разрыв в подотчетности в ИИ между создателями и пользователями, ИИ для наблюдения и использование правительством автоматизированных систем принятия решений, справедливость, предвзятость и дискриминация, а также нерегулируемый экспериментальный ИИ на человеческих популяциях. Авторы выявляют возникающие проблемы в рамках этих тем и предлагают практические пути решения, основанные на исследованиях, чтобы политики, общественность и технологи могли лучше понимать и снижать риски.

Новый опрос Pew, в котором приняли участие около 1000 технических экспертов, показал, что менее двух третей ожидают, что технологии искусственного интеллекта улучшат положение большинства людей в 2030 году, чем сегодня. Многие выражают серьезную обеспокоенность по поводу того, что ИИ нанесет конкретный вред.

Робот-экономика: готово или нет, вот оно: описывается технологическая структура, описывающая роботизированную экономику, и обсуждаются проблемы, которые она может представлять в текущем социально-экономическом сценарии.

Видео / лекции

Лекции DeepMind на тему Углубленное глубокое обучение и обучение с подкреплением в UCL в Лондоне в прямом эфире на YouTube.

Наборы данных

VoxCeleb - это крупнейший аудиовизуальный набор данных человеческих интервью с YouTube. Он включает в себя более 7000 идентификаторов, более 1 миллиона высказываний и более 2000 часов видео с аудиофайлами, функциями распознавания лиц, дорожками и метаданными говорящего. Это будет полезно для распознавания говорящего на видео, разделения речи, синтеза лиц и распознавания эмоций.

Исследователи из Института искусственного интеллекта Аллена в Вашингтоне предоставили набор данных для дальнейшего визуального здравого смысла. Набор данных включает 290 тыс. Задач обеспечения качества с множественным выбором, полученных из 110 тыс. Сцен из фильмов. В частности, авторы представляют подход к преобразованию обширных аннотаций в вопросы с несколькими вариантами ответов с минимальной предвзятостью.

Практический подход к обучению машинному обучению, все в тетрадях!

Инструменты с открытым исходным кодом

Серия Jupyter Notebooks, обеспечивающая пошаговое введение в науку о данных и машинное обучение.

В то время как код, лежащий в основе большинства ключевых программ DeepMind, по-прежнему имеет закрытый исходный код, группа инженеров-исследователей компании выпустила новую библиотеку на основе TensorFlow строительных блоков для написания агентов RL.

Две новые библиотеки для частного машинного обучения в TensorFlow (бумажный) или PyTorch (ссылка).

Molecular Sets (MOSES): Benchmarking Platform for Molecular Generation Models (ссылка). Это новый проект Insilico Medicine, направленный на открытие лекарств на основе искусственного интеллекта.

OpenAI выпустила CoinRun, новую среду обучения RL, которая обеспечивает показатель способности агента переносить свой опыт в новые ситуации.