Скорее нарисуй бутерброд! На что это похоже? Если вы были из Южной Кореи, вы могли добавить маринованный огурец, а если вы были из Швеции, вы могли нарисовать smörgås, то есть бутерброд с открытым лицом. То, как мы рисуем, отражает нашу среду и культуру. Я исследовал использование нейронного представления для анализа тысяч набросков со всего мира и обнаружил, что оно выявило удивительные различия между странами. Далее я исследовал, предсказывая страну по рисунку, выясняя, в каких странах рисунки наиболее характерны, а в каких категориях рисунков больше всего географических вариаций.

Фон

Данные

Ха и Эк создали набор данных QuickDraw из Quick, Draw!, игры, в которой игроки рисуют подсказку менее чем за 20 секунд и останавливаются, как только ИИ Google угадает подсказку. QuickDraw состоит из более чем 50 миллионов эскизов с меткой класса объекта (собака, дерево, пианино и т. Д.), Страной происхождения и даже точной последовательностью и направлением, в которых были нарисованы линии.

Поскольку данные были предоставлены общественности бесплатно, по ним было проведено много интересных исследований по различным темам: от сколько времени нужно рисовать собак по сравнению с кошками до автоматического распознавания граффити.

Проблема: как сравнить тысячи рисунков?

До сих пор анализ различий между странами в наборе данных QuickDraw был ограничен. Как объединить тысячи различных скетчей из каждой страны в нечто, что можно легко сравнить? Ха, Т. и Соннад рассчитали распределение людей, которые рисуют простые формы по часовой стрелке и против часовой стрелки, но гораздо сложнее резюмировать более сложные аспекты этих рисунков, такие как структура или стиль. Один из методов - это наложение рисунков: Яна и Лавджой, найденные с наложений, которые в разных странах люди склонны рисовать стульями в разных направлениях, в то время как Мартино, Стробельт и другие в Forma Fluens обнаружили различия между странами в рисовании арбузов и снеговиков.

Это хорошо работает для некоторых простых классов объектов, но для большинства результатом наложения более дюжины эскизов является непонятное размытие (явление, описанное в Forma Fluens как «расхождение»). Это потому, что люди рисуют каждую линию слишком сильно (например, растопыренные ноги насекомого или угол изгиба руки), даже если они рисуют одну и ту же общую картину.

Как можно обобщить большие, «расходящиеся» коллекции рисунков, чтобы отразить их качественные характеристики?

Мой подход: анализируйте элементы, а не пиксели

Я решил использовать sketch-rnn для кодирования качественных характеристик эскизов в векторы. Анализ этих векторов может позволить нам суммировать наброски, не отвлекаясь на высокую изменчивость низкоуровневых деталей. После манипулирования векторами мы можем даже декодировать их обратно в эскизы для упрощения интерпретации, поэтому для усреднения эскизов мы могли бы усреднить их векторные кодировки, а затем декодировать результат:

Введение в sketch-rnn

Вариационный автокодировщик sketch-rnn может кодировать рисунок (представленный как последовательность движений пера) в последовательность чисел с плавающей запятой, называемую скрытым вектором. Этот вектор фиксирует только качественные характеристики эскиза, поэтому его декодирование дает новый эскиз, который имеет аналогичную структуру (например, наличие ног или усов), но не идентичен исходному (например, имеет немного более длинный хвост). Декодер генерирует короткие серии движений пера, обеспечивая четкое изображение.

Сложение и вычитание векторов позволяет предположить, что они могут фиксировать концепции высокого уровня на чертежах. На каждом из следующих изображений черные рисунки были закодированы в векторы, и после арифметических операций полученный вектор был декодирован в синий рисунок (источник):

Это свойство ранее было продемонстрировано для векторных кодировок слов - например, наблюдение Миколова и др. О том, что король - мужчина + женщина = королева показывает, что заученные репрезентации фиксируют значимые синтаксические и семантические закономерности. Таким образом, кодирование всех рисунков в векторы казалось многообещающим подходом для поиска общих объектов из каждой страны.

Полученные результаты

Для каждого из 64 классов объектов (усы, шляпа, пингвин и т. Д.) Я обучил свежую модель sketch-rnn на 10 000 рисунков (400 из каждой из 25 стран с достаточным объемом данных), которые затем использовал для кодирования всех рисунков в скрытые векторы. Все результаты, представленные здесь, являются результатом анализа этих 640 000 векторов.

Создание средних эскизов

Для своего первоначального анализа я проигнорировал данные о том, из какой страны был взят каждый рисунок, и просто исследовал, используя закодированные векторы для создания средних рисунков.

«Универсальный» рисунок?

Для каждого класса объектов я усреднил все 10 000 скрытых векторов, а затем использовал соответствующую модель sketch-rnn для декодирования среднего вектора обратно в рисунок. При равном количестве рисунков из каждой страны хороший средний показатель может показать универсальное изображение объекта, свободного от культурных особенностей. Я сравнил результат с изображениями в Forma Fluens, полученными путем наложения пикселей (по 1000 рисунков из каждой из 34 стран).

Для многих классов объектов декодированный средний вектор был чистым изображением, которое ясно и просто представляло его класс. По сравнению со сходящимися наложенными изображениями, похоже, что векторный метод может сохранить детали, которые могут быть общими для большинства рисунков, но будут размыты в наложении из-за различий, таких как расположение щупалец осьминога.

Также следует отметить, что детали, которые нечасто появляются на рисунках, как правило, вообще не проявляются в среднем значении эскиза - например, текстура на конусе мороженого, лицо осьминога или ноги на пианино. Похоже, что усреднение sketch-rnn сохраняет наивысший общий знаменатель на усредненных рисунках. Единственным исключением является среднее значение мороженого, которое выглядит как две мерные ложки, но мы можем интерпретировать меньшую кривую, которая появляется немного выше и правее, как обобщенную «начинку» на мороженом, а не как конкретно мерную ложку, и в этом случае это не так. необычный. См. Дополнительные примечания в конце для дальнейшего изучения среднего значения sketch-rnn.

«Неудачные» случаи

Однако для некоторых классов объектов «универсальное среднее» sketch-rnn не имело интуитивного смысла.

Казалось, что это происходит, когда существует несколько очень разных по структуре способов рисования чего-либо, которые примерно одинаково распространены. Например, было даже сочетание людей, которые рисовали только голову медведя, а не все тело, или рисовали телефон как трубку, телефон с дисковым набором номера или мобильный телефон.

Усреднение между головой и всем телом не имеет значимого решения; что Давид Ха продемонстрировал, интерполировав между векторами для рисунков головы и всего тела свиньи и расшифровав вектор

Этот тип расхождения находится на другом уровне, чем тот, который обнаружил Forma Fluens, когда рисунки просто не совпадают хорошо в пиксельных наложениях: нет последовательного способа представления объекта класса объекта. В остальной части этой статьи я буду называть это расхождением представления, а расхождение наложения будет обозначаться как расхождение пикселей. См. Дополнительные примечания для дальнейшего анализа этих различных типов расхождений.

Страновой анализ

Сможете ли вы угадать страну по рисунку?

Если эскизы значительно различаются в зависимости от страны и скрытый вектор может уловить эти различия, тогда должна быть возможность угадать страну происхождения по скрытому вектору. Я пробовал обучать простые классификаторы для этого, обучая с нуля для каждого класса объектов (подробности в дополнительных примечаниях).

Подсчитав точность (оценка f1 на удерживаемых тестовых данных) для каждого класса объектов и взяв среднее значение, я обнаружил, что для всех стран она была больше 20% - намного выше, чем случайный шанс (1 из 25 = 4%). Это означает, что на рисунках действительно показаны различия между странами.

Конечная точность может быть намного выше, если изучить рисунки из нескольких категорий, поэтому я разработал игру в стиле рисования из 20 вопросов, которая угадывает вашу страну (описана в этой статье).

Почему французские и шведские рисунки так узнаваемы?

Почему рисунки из Франции были такими узнаваемыми с точностью 96%? Изучение нескольких их классов объектов показывает, что в большинстве случаев их рисунки (вверху) намного проще, чем в среднем по миру (внизу), с тенденцией рисовать большую часть изображения одним движением (см. Куртку, школьный автобус и НЛО) .

Как только ИИ Google правильно угадывает класс объекта, игрок не может продолжить рисование - возможно, участники во Франции добавили бы больше деталей, если бы у них была возможность, но они действительно хорошо уловили суть своего приглашения с помощью только первого несколько штрихов.

Между тем, страна со вторыми по узнаваемости (точность 90%) рисунками, Швеция, кажется особенной по противоположной причине:

У меня не было времени проанализировать порядок штрихов, но возможно, что участники в Швеции рисовали изображения в необычном порядке, добавляя детали перед общими контурами, так что к тому времени, когда их рисунки стали узнаваемыми, они уже были довольно сложными.

Рисунки каких стран больше всего похожи?

Чтобы получить представление о сходстве рисунков в разных странах, мы можем использовать, насколько классификатор перепутал их друг с другом.

Я посмотрел, как часто A предсказывался как B как часть того, как часто A предсказывался правильно как он сам (A- ›B / A-› A), а затем усреднил его с обратным (B- ›A / B-› B ) получить форму «взаимного смешения». Иерархическая кластеризация, основанная на взаимном замешательстве, показывает целые группы стран, которые часто путают (полную матрицу замешательства см. В дополнительных примечаниях).

Тремя парами стран, которые чаще всего путают, были Польша / Румыния, Финляндия / Россия и Филиппины / Таиланд. Наряду с очевидными географическими связями Польша и Румыния были частью Австро-Венгерской империи, а Финляндия была частью Российской империи в течение столетия до Первой мировой войны. Можно предположить, что похожие стили рисования могут отражать общую культуру - способ обучения рисованию в школах или, в более общем смысле, способ взглянуть на мир: какие особенности объекта наиболее важны, что в первую очередь приходит на ум, когда несколько Возможны версии или интерпретации подсказки для рисования. Но за пределами тройки лидеров есть пары и группы стран, которые не имеют очевидных связей. Толкования оставлены читателю!

Анализ классов объектов

Какие типы рисунков раскрываются больше всего?

Я рассчитал усредненную по всем странам точность для каждого класса объектов и обнаружил, что все классы, которые в среднем могут наиболее полно раскрыть информацию о стране происхождения, были сложными искусственными объектами: труба (49%) , фортепиано (45%), телефон (42%), поезд (42%).

Это может быть связано с тем, что рисунки простых объектов содержат слишком мало линий для предсказания, а естественные объекты имеют тенденцию выглядеть одинаково в любой точке мира, но искусственные объекты могут иметь разный дизайн, который может быть более или менее популярным в разных странах. Яна и Лавджой также заметили, что рисунки естественных объектов в разных культурах имеют тенденцию быть более похожими.

Альтернативное объяснение состоит в том, что нейронная сеть Google Quick, Draw! лучше распознавала природные объекты, поэтому она угадывает класс и сохраняет рисунок, прежде чем игрок сможет добавить дополнительные детали, которые могут дать подсказки о своей стране.

Почему трубы так разоблачают?

Глядя на необработанные эскизы трубы, можно увидеть большое разнообразие форм, включая различия в диаметре и округлости раструба, толщине трубы, наличии мундштука или настроечного слайда, количестве кнопок для пальцев и т. Д. Много разных типов труб, которые все выглядят по-разному, что, вероятно, способствовало разнообразию представленных на рисунках.

Средние показатели по странам показывают одинаковое количество разнообразия, предполагая, что разные типы труб более популярны в разных странах. Несмотря на множество различий между странами, средний мировой показатель прост и показывает то, что общего у подавляющего большинства рисунков стран: длинную трубку с кнопками наверху.

Почему фанаты самые обычные?

Класс объекта, с которым классификатор столкнулся больше всего, был веером со средней точностью всего 27%. Вентиляторы - сложные рукотворные объекты, почему они так бесполезны для предсказания страны? Глядя на необработанные наброски, можно увидеть, как люди рисуют веера по-разному.

Однако средние значения по стране показывают один и тот же набор простых компонентов: лопасти вокруг концентрических кругов и, возможно, подставку. Это говорит о том, что, хотя существует множество способов нарисовать веер, нет большой разницы в популярности каждого метода в разных странах.

Просто для развлечения

Усы: толстые против кудрявых?

Оказалось, что усы могут быть как двумерными, так и вьющимися, но не то и другое вместе. Может быть, не вьющиеся усы нуждаются в этом дополнительном измерении, чтобы отличаться от гор или волн?

Смёргосборд сэндвичей

В Венгрии были самые плоские бутерброды, в США - самые толстые и многослойные бутерброды, а в России - больше всего треугольных бутербродов. Странами с самой интересной формой бутербродов были Южная Корея и Швеция, что можно объяснить популярностью smörgås, т. Е. открытый сэндвич в Швеции, в то время как сэндвичи в Южной Корее обычно содержат маринованный огурец.

Разное

Обсуждение

Четырехсот случайно выбранных эскизов для каждого класса объектов в каждой стране может быть недостаточно, чтобы сделать какие-либо определенные выводы. Однако я думаю, что этот проект демонстрирует новый интересный способ визуализации и анализа больших коллекций рисунков.

Возможная будущая работа может заключаться в более глубоком изучении скрытых векторов. Можно ли идентифицировать все режимы рисования класса объекта путем кластеризации векторов (аналогично Doodle Maps кластеризации пиксельных изображений)? Что представляет собой каждое скрытое пространственное измерение для каждого класса объектов? Сколько измерений представляют отдельные интуитивно понятные функции и есть ли общие черты между типами функций, представленными в разных классах объектов?

Благодарности

Спасибо IBM Visual AI Lab за хостинг и наставничество меня в этом проекте, в частности Хендрику Штробельту, Даниэлю Вайделе, Эвану Фиббсу и Мауро Мартино.

Дополнительные примечания

Дальнейший анализ представления и расхождения пикселей

Я обнаружил, что sketch-rnn не может дать значимого среднего для некоторых классов объектов, и назвал эти классы расходящимися представления. Тем временем я вызвал классы объектов, в которых пиксельные наложения не могли дать четкого изображения расходящиеся пиксели.

Я заметил, что представление класса медведя расходится, что может быть связано с тем, что просто морда медведя рисуется примерно так же часто, как и все тело. Животные, у которых, как правило, все тело должно быть нарисовано, чтобы быть узнаваемыми, похоже, не имеют этой проблемы, например, тигр, которому нужны полосы на спине, белка, которому нужен пушистый хвост, и осьминог, которому нужны щупальца.

Интересно, что классы объектов, которые расходятся по представлению, не всегда выглядят расходящимися в пикселях. Для класса телефонов, отличающегося по представлению, было сочетание смартфонов с сенсорным экраном, сотовых телефонов с клавиатурами, беспроводных или проводных телефонов и даже старомодных вариантов с дисковым набором номера. Однако наложение пикселей похоже на смартфон с сенсорным экраном, что может вводить в заблуждение. Это может быть связано с тем, что смартфон с сенсорным экраном является единственным сходящимся представлением (поскольку это простой прямоугольник, всегда рисуемый лицом к зрителю), а другие представления размываются при усреднении.

Если посмотреть только на телефоны из Индии, результаты разнятся еще больше. Если судить по образцу скетчей, смартфон встречается гораздо реже, но все же есть множество других представлений. В этом случае наложение пикселей выглядит как старомодный пристыкованный телефон, но в среднем за эскиз-rnn - это свободно плавающий телефон.

Наложение телефонов из Индии показывает, что представление док-станций также сходно. Я предполагаю, что он не был виден в глобальном наложении, потому что он был менее конвергентным, чем мобильный телефон, что также было обычным явлением в глобальной коллекции рисунков. В более общем плане, исходя из этих наблюдений, я бы предположил, что когда несколько общих изображений сосуществуют:

  • Оверлеи показывают наиболее точное совпадение пикселей. Это объясняет, почему, когда присутствуют все 3 изображения, виден только наиболее сходящийся сенсорный экран, а изображение пристыкованного телефона появляется только в отсутствие сенсорного экрана (например, рисунки из Индии). Пристыкованное представление может быть менее сходным, чем сенсорный экран, потому что нет единого мнения относительно того, что находится на его передней стороне (поворотный переключатель или клавиатура) и окружающей его форме (круглая, квадратная, трапециевидная). Но обычно его рисуют лицом к зрителю, поэтому он будет более сходящимся по пикселям, чем свободный телефон, который может парить под любым углом (аналогично расходящемуся по пикселям руке). Если нет общего изображения, сходящегося с пикселями (т.е. в классе с расходящимися пикселями), изображение является размытым.
  • Sketch-rnn обычно сохраняет наивысший общий знаменатель (плюс-минус несколько незначительных деталей). На изображениях традиционного пристыкованного телефона и бесплатной телефонной трубки есть трубка, так что среднее значение для индийских телефонов - это трубка. Но если добавить сенсорный экран к глобальному среднему значению, то наивысший общий знаменатель - это просто круги и длинные изогнутые линии. Точно так же, хотя люди рисовали корпуса фортепьяно по-разному, все рисунки включали клавиатуру, поэтому средним эскизом фортепьяно была часть клавиатуры. Обратите внимание, что в случае усреднения головы и всего тела, голова не сохраняется при усреднении, потому что при рисовании всего животного голова часто представляется другим, гораздо более простым способом (посмотрите, например, на рисунки медведя).

Сведения о классификаторе стран

Для каждого класса объектов я использовал 320 изображений для каждой страны для обучения и 80 для тестирования. В качестве классификаторов использовались полиномиальная логистическая линейная регрессия и гауссовский наивный байесовский анализ с использованием реализации scikit-learn и значений гиперпараметров по умолчанию. Для каждого класса сообщалось о максимальной точности испытаний, достигнутой классификаторами. Сообщаемая точность - это оценка f1, которая является мерой точности, учитывающей как истинные, так и ложные срабатывания.

Матрица неточности прогнозов для страны

Я нанес на график, как часто предсказываемые рисунки из страны A будут из страны B (обозначены A- ›B), в (строка A, столбец B). Обратите внимание на то, что в каждом ряду всего несколько ярких ячеек - это показывает, что каждую страну обычно путали только с несколькими другими странами. Также обратите внимание, что график симметричен относительно диагонали - это показывает, что A- ›B и B-› A примерно с одинаковой частотой.