Эмпиризм, рационализм, суперэмпиризм: последние изменения в представлениях о разуме

Философов постоянно интересует вопрос, в какой степени наша ментальная жизнь зависит от опыта: от того, что дает чувственное восприятие. Британские эмпирики, такие как Джон Локк, думали, что разум - это tabula rasa, чистый лист бумаги, готовый принимать данные из мира и на этой основе формировать идеи, составляющие содержание мысли.

Другие в этом сомневались. Для рационалистов были идеи, которые не могли возникнуть на основе опыта, и поэтому, поскольку они у нас были, мы, должно быть, родились с ними: врожденные идеи. За пару тысячелетий до Локка Платон интересовался, как мы можем получить математические и геометрические идеи. У нас есть идея кругов, но природа не дает идеальных кругов, мы можем подумать, или, опять же, мы знаем, что 2 + 2 всегда или должно быть 4, но природа не дает переживания вечности или необходимости.

У этого поста две цели: проследить дискуссию между эмпириками и рационалистами в двадцатом веке и, в частности, объяснить, почему рационализм стал предпочтительнее, благодаря развитию области генеративной лингвистики, по сравнению с эмпирическим бихевиоризмом, который предшествовал Это. Для этого я изложу знаменитый ответ Хомского бихевиористам, а также некоторые основы его ранней лингвистической теории.

Вторая цель поста немного более странная, и, возможно, ее лучше всего отнести к категории философско-фантастических (по аналогии с научной фантастикой). Я предполагаю, что с появлением машинного обучения и больших данных возникает третье мнение о природе разума, или, иначе говоря, эти недавние разработки открывают концептуальное пространство для распознавания нового типа разума: суперэмпирического разума. Это тот тип ума, который мы можем приписать алгоритмам машинного обучения, которые используют большие наборы данных для создания пугающе точных прогнозов, но которые, по крайней мере на момент написания, еще не достигли святого Грааля исследований ИИ, а именно общего интеллекта в предметной области. Существует ИИ, который может довольно хорошо предсказать, заболеем ли мы в ближайшее время, но мы не можем говорить с такими ИИ и спрашивать их, что, вы знаете, нам следует с этим делать.

Я не говорю, что покупаю суперэмпиризм как истинное описание мира. Это зависит, по крайней мере частично, от огромного вопроса о том, есть ли у компьютеров разумы, которого я не собираюсь касаться. Может быть, суперэмпиризм - это просто фикция. Но точно так же, как мы можем оценивать научно-фантастические сценарии как крутые, странные, вселяющие надежду или удручающие, я закончу оценкой своей философско-фантастической идеи суперэмпиризма и предположу, что суперэмпирические умы, умы глубоко и глубоко пугающе осведомленные в одном конкретном предмете, но ничем не помогающие иначе, должны быть объектами такого рода страха и почтения, которые те, кто пережил трагедию, относились к оракулам и другим сверхъестественным существам, таким как загадочные сфинксы или ведьмы в Макбете: вещи, которые знают и расскажут вы то, что они знают, но ничем вам не помогут. Я пришел к выводу, что в основном суперэмпирические умы устрашают.

Это длинный пост, и в нем много всего. Некоторые разделы необязательны, и я пометил их как таковые.

Часть 1. От бихевиоризма к генеративной грамматике

Рассказ 1

Начнем с рассказа. Вторая мировая война, и американский солдат в Лондоне. Возникает странная картина: все его ночлежки находятся в месте, которое впоследствии немцы бомбили. Его пенис, кажется, может предсказывать войну. Как? Что ж, это неясно, но предлагается объяснение, что это пример классической обусловленности, центрального принципа бихевиористской психологии, которая в то время была бы популярной.

Вы, наверное, слышали о собаках Павлова: собаки, которым давали пищу, реагируют слюноотделением, и если вы ассоциируете подачу еды со стимулом, скажем, звонком в колокольчик, вы можете вызвать реакцию - слюноотделение - в отсутствие еда. Вы можете обучать животных реагировать на раздражители, и позже, совершенно неэтично, психолог Дж. Б. Уотсон показал, что вы можете делать то же самое с детьми, вызывая у маленького ребенка фобию игрушек, издавая громкий шум, когда он - ребенок - был представлен один.

Над солдатом, Тайроном, в детстве экспериментировали в такой же неэтичной манере, и есть подозрения, что его научили каким-то образом сексуально реагировать на признаки войны. Мы не знаем, что это были за стимулы, но они есть - так что эта мысль идет - там, и военным усилиям будет очень полезно, если союзники смогут добраться до сути этой условной реакции.

Вы будете рады и, возможно, не слишком удивлены, узнав, что эта история не соответствует действительности: это центральная сюжетная линия романа Томаса Пинчона 1973 года Радуга гравитации, приправленного ссылками на бихевиоризм. Но это поучительно для некоторых модных взглядов во время Второй мировой войны, и в частности для бихевиоризма таких людей, как Уотсон: это была мысль, которую уважаемая с научной точки зрения психология могла бы обойтись такими понятиями, как стимул и реакция, чтобы объяснить мышление и поведение. Например, для объяснения фобий нам не нужно постулировать сложный механизм психологических сил, как это сделал бы Фрейд. Достаточно эмпирически безупречных концепций поведения и реакции. Позвольте мне сказать об этом немного больше.

Бихевиоризм

Есть пара ключевых моментов. Во-первых, бихевиоризм - это парадигмальная эмпирическая теория, концентрирующаяся только на данном опыте, избегая не только более спекулятивных понятий, таких как фрейдистское бессознательное, но даже самого понятия сознания, в надежде, что это может поставить психологию на научную прочную основу. Во-вторых, реакция на теорию бихевиоризма об использовании языка образует своего рода поворотный момент в 20-м веке, поскольку мышление разума повернулось от эмпиризма к рационализму. Чтобы убедиться в этом, давайте посмотрим на бихевиористскую теорию языка Б.Ф. Скиннера и Ноама Хомского, изложенную в его знаменитой статье 1959 года «Обзор вербального поведения Б.Ф. Скиннера».

Я не хочу вдаваться во все детали, но, по мнению Скиннера, мы можем использовать концепции реакции и стимула, чтобы понять смысл использования языка. В некоторых очень простых случаях это не кажется до смешного неправдоподобным. Таким образом, наличие огня, играющего роль стимула, действительно довольно часто вызывает реакцию «огонь!» В отличие от случая фобии, мы добровольно ответили бы «огонь!», Это не автоматический рефлекс, который делает его реакцией. случай того, что называется оперантным условием. Может быть, все использование языка основано на оперантном обусловливании?

Что ж, но дьявол кроется в деталях, - говорит Хомский. Попробуйте разобраться в понятиях стимула и реакции за пределами упрощенной лабораторной обстановки, и все станет намного сложнее. Вот хороший простой случай: возьмите имя для человека. Можно подумать, что бихевиористская теория подобна рассмотренному выше случаю «огня»: мы используем имя в присутствии стимула, а именно самого человека.

Но это нехорошо. Хомский указывает, что он использовал слова «Эйзенхауэр» и «Москва», несмотря на то, что ни один из них никогда не стимулировал его. Более того, по-видимому, мне постоянно доставляют стимул для себя. Можно подумать, что бихевиорист, таким образом, предсказал бы, что я постоянно или, по крайней мере, часто говорю «Мэтью». Но уверяю вас, нет (по этим пунктам см. Пункт 3 обзора).

Эти аргументы могут показаться немного быстрыми и риторическими; а может они и есть. Но бихевиорист должен попытаться ответить на них, и размышления о них и о других в этом роде помогут осознать, насколько тяжелой битвой предстоит бихевиористу.

Двигаясь дальше, давайте рассмотрим пример того, что, вероятно, сегодня можно было бы назвать обрушением Хомского на Скиннера. По-видимому, последний сказал, что мы можем количественно оценить силу реакции на стимул с помощью высоты тона, скорости, повторения и так далее, так что повторение чего-то быстро на высокой тональности представляет собой сильный ответ. Хомский сомневается. Он цитирует слова Скиннера:

если нам покажут ценное произведение искусства и воскликнут «Красиво!», скорость и энергия отклика не будут потеряны для владельца.

(то же место, что и пункт 3 выше)

И отвечает в отрывке, который всегда заставляет меня смеяться:

Не совсем очевидно, что в этом случае способ произвести впечатление на владельца - это крикнуть Красиво! громким, высоким голосом и без задержки (высокая сила отклика). Не менее эффективным может быть просмотр изображения беззвучно (долгая задержка), а затем пробормотать Красиво мягким низким голосом (по определению, очень низкая сила отклика).

(там же)

Это нелепо, действительно до такой степени, что читатель может задаться вопросом, является ли это безжалостным, и не является ли стиль превыше содержания. В некотором смысле, однако, это не имеет большого значения для наших целей, и это по двум причинам: на самом деле, я думаю, что разумно сказать, что обзор Хомского начал отход от бихевиоризма, даже если его аргументы были немного немилосердный. И, что более важно, эта деструктивная работа была дополнена положительными взглядами Хомского на лингвистику, взглядами, положившими начало исследовательской программе, которая процветает сегодня и которая может многому научить нас по темам этого эссе, а именно эмпиризму и рационализму. Итак, теперь я расскажу немного об основах теории Хомского.

(Педантичное примечание, которое можно пропустить: я собираюсь сконцентрироваться на самой первой итерации теории Хомского, обнаруженной в Синтаксических структурах 1957 года. Это в основном заменено другими работами Хомского и других, и знатокам может показаться странным сконцентрироваться на этом тексте, но я думаю, что для целей быстрого выявления некоторых центральных особенностей программы Хомского этого достаточно, и попытаться придумать, как сделать то же самое с более каноническими аспектами 1965 года. Теория синтаксиса или более поздние разработки ни к чему не привели, поэтому я решил начать (и закончить) с начала.)

Генеративная грамматика

Работа Хомского в области лингвистики отмечена несколькими важными вопросами, теоретическими инструментами и методологией, которые заметно отличаются от бихевиористской. Методологически он связан с мельчайшими подробностями о том, как используется язык, с небольшой, но все же важной разницей, скажем, между двумя прочтениями каждого из следующих предложений:

Старики и собаки хорошо ладят
Расстрел охотников был жестоким

Рассмотрим первое предложение. В одном прочтении говорится, что старики и собаки любого возраста хорошо ладят друг с другом. Во втором, немного менее доступном, чтении говорится, что старики и особенно старые собаки хорошо ладят друг с другом.

И второе предложение (обсуждается в главе 8 Синтаксических структур) мы можем истолковывать охотников либо как объекты, либо как субъекты стрельбы: возможно, охотники были застрелены, а мы говорим, что это было ужасно. что в них стреляли, а может быть, охотники стреляли, причем зверски. Одна из основных целей современной лингвистической теории - выяснить, как обстоят дела с такими двусмысленностями и другими причудами языка, которые служат точками данных для ограничения теоретизирования. И, возможно, вы видите, что даже с кратким и частичным изложением этого, которое я дал выше, бихевиористская теория, вероятно, была бы слишком грубым орудием, чтобы пролить интересный свет на такие вопросы.

Теоретически лингвистика Хомского пытается использовать инструменты математической логики и информатики для моделирования грамматики, лежащей в основе этих предложений, где грамматику можно представить себе как машину, которая выплевывает (генерирует) все и только грамматические предложения данного языка. Можно думать о способности человека использовать язык как о чем-то вроде машины, и тогда возникает вопрос, что это за машина и каким правилам она подчиняется.

Пристальное внимание к лингвистическим данным, моделируемым с помощью формальных инструментов, является частью того, что делает современную синтаксическую теорию богатой и продуктивной дисциплиной. Но причина, по которой он представляет интерес не только для лингвистических факультетов, заключается в том, что поиск этих грамматик мотивирован не только присущим им интересом, но и возможностью пролить свет на фундаментальные вопросы о природе разума и, в частности, о природе. эмпиризма.

Потому что в основе работы лежит этот важный вопрос: как можно выучить язык, и в частности, как ребенок может выучить язык? Каким должен быть язык в свете того факта, что, основываясь на крайне ограниченном опыте разговоров своих родителей и других людей, вскоре маленькие дети становятся способными составлять предложения, которые никогда раньше не произносились (и, следовательно, с которыми они никогда не могли бы столкнуться) ?

Грубо говоря, мысль Хомского состоит в том, что локковская модель разума с чистого листа, согласно которой разум получает все из опыта, здесь просто не работает. Если ребенок может выучить язык так легко, имея такой небольшой опыт, он уже должен быть подготовлен для этого с рождения. Детский ум должен идти навстречу миру, он должен что-то делать, чтобы из бедных и отрывочных данных, которые он получает, создать теорию языка. Таким образом, Хомский пришел к постулату универсальной грамматики, набора правил для генерации предложений, которыми мы все владеем.

И цель состоит в том, чтобы найти такие правила, частично обращая внимание на особенности использования языка. Позвольте мне проиллюстрировать это, пробежав пару аргументов из той ранней книги не потому, что они все еще принимаются - может быть, первое, а второе - нет, - а потому, что они дают хорошее представление о стиле аргументации, который вы все равно увидите, откроете ли вы недавно опубликованный учебник по синтаксису.

Так что вернемся снова к нашему примеру 1. Это неоднозначно. Но в интересном смысле неоднозначно. Некоторые двусмысленности не так уж интересны: это слово «берег» означает и финансовое учреждение, и берег реки - не очень важный факт в языке. Но обратите внимание, что двусмысленность 1. носит систематический характер. Мы можем получить его не только от того, чем заменяем «старое», но и от других видов выражений, таких как наречия и так называемые детерминаторы. Таким образом, рассмотрим:

3. Они болтали и танцевали изящно (они делали и то и другое изящно; ср. 3 «Они ели куриные крылышки и изящно танцевали. Трудно есть куриные крылышки изящно, поэтому естественное прочтение 3» гласит, что это был только танец. изящный.)

4. Большинству мужчин и женщин нравится Бето (Бето нравится большинству мужчин и женщин; см. 4 «Большинство электронных устройств и взрывчатых веществ не допускаются на борт. Мы все знаем, что взрывчатые вещества запрещены на борту, поэтому мы знаем, что мы не просто сказать, что большинство взрывчатых веществ не является таковым.)

Что мы можем сказать о таких вещах? В некотором смысле кажется, что при одном прочтении слово (например, «старое», «изящно» или «самый») «сочетается» только с одним из соединенных выражений, а при другом - с обоими. Мы могли бы зафиксировать эту динамику с помощью системы брекетинга. Таким образом, у нас было бы

{Старики} и собаки отлично ладят

{Старики {мужчины и собаки} прекрасно ладят друг с другом}

Они грациозно {болтали и танцевали}

Они ели куриные крылышки и {изящно танцевали}

Больше всего {мужчин и женщин} любит Бето

{Большинство электронных устройств} и пистолеты не допускаются на борт.

Тогда вот мысль: предложения, хотя на поверхности они не заключены в скобки, тем не менее связаны с ними такого рода заключенными в скобки описаниями. Неоднозначные предложения имеют две возможные скобки, и это то, что (этот тип) двусмысленности: наличие двух скобок или, используя техническую терминологию, которую я избегал, два дерева структур фраз (на самом деле, приведенные выше не деревья структуры фраз, которые немного сложнее, но они демонстрируют общую идею.) что мы понимаем двусмысленность.

Рассмотрим теперь наше второе двусмысленное предложение. Это повторяется:

2. Отстрел охотников был жестоким.

Но обратите внимание, что скобки здесь не помогут (чтобы убедиться в этом, попробуйте придумать скобки, которые устранят неоднозначность предложения!) Отчасти - и очень только частично - на этом основании, в Синтаксических структурах Хомский вынужден постулировать другой вид скрытых операций или структур в дополнение к скобкам: то, что он называет преобразованиями.

В частности, он устанавливает правила, которые преобразуют выражения в другие выражения. (Здесь и ниже я веду себя довольно небрежно и для простоты использую собственную терминологию, так что, пожалуйста, простите меня, лингвисты.) Итак, вот одно преобразование. Учитывая предложение вроде:

5. Охотники застрелили оленя.

Мы можем выполнить следующее преобразование причастия (подлежащего):

Преобразование причастия (подлежащее): (i) измените глагол на его настоящее причастие, (ii) удалите объект и добавьте «of» и (iii) переместите подлежащее в конец. Мы получаем:

(i) Охотники стреляют в оленей

(ii) Охотники отстреливают

(iii) Отстрел охотников

И затем мы можем использовать эту фразу для построения предложения 2., рассматривая (iii) как если бы это была любая другая существительная фраза (например, «человек» или «собака»).

Вот еще один вариант - преобразование причастия (объект). Данный:

5. Мужчины застрелили охотников.

Мы можем выполнить:

Преобразование причастия (объект): (i) заменить глагол на его настоящее причастие, (ii) добавить после него «of», (iii) удалить подлежащее.

Немного подумав, вы поймете, что преобразование может превратить 5. во что-то, способное произвести второе чтение нашего предложения.

Тогда возникает мысль, что, хотя наше исходное предложение не является структурно двусмысленным в предложении, имеющем две разные структуры, связанные с ним, оно неоднозначно как результат преобразования двух разных лежащих в основе предложений для образования его именной группы: оно неоднозначно с точки зрения трансформации.

Таким образом, с помощью таких тонких аргументов мы пришли к положению базовой структуры и операций, скрытых скобок и преобразований для объяснения конкретных странностей грамматики. Более того, поскольку многие языки демонстрируют схожие типы поведения, у нас появляется причина думать, что этот основной материал может быть универсальной особенностью человеческого языка.

И я хочу отметить большую картину - это отход от эмпиризма. Мы постулируем целую кучу скрытых операций и структуры, и мы делаем это, кроме того, с целью доказать, что эти операции и структура или некоторые из них являются универсальными чертами языка, который мы пришли из утробы матери, зная или, по крайней мере, готовы, с небольшим опытом, узнать.

Работа Хомского, несомненно, оказала большое влияние на эту картину языка и разума, который она представляет, и любая интеллектуальная история признает это. Однако в следующей части, и в гораздо более умозрительном ключе, я хочу предположить, что на сцену выходит другая картина разума из другой дисциплины, картина, заметно отличающаяся от рационализма Хомского, который мы только что видели, и заслуживает нашего внимания тем, что он может научить нас о разуме.

Часть 2: Машинное обучение и суперэмпиризм

Снова позвольте мне начать с рассказа.

История 2 (сн: самоубийство)

Мужчина обратился к врачу с простудой. Они взяли его медицинскую информацию, сверились с его картами и сказали, что есть хороший шанс, что он попытается покончить с собой в следующие два года. Программное обеспечение, которое они использовали, сообщило им об этом, и они задавались вопросом, может ли он рассмотреть возможность остаться в стационаре, чтобы получить помощь, в которой, по мнению компьютера, он нуждается.

В отличие от первой истории, это реальность или может скоро стать реальностью (см. Https://qz.com/1367197/machines-know-when-someones-about-to-attempt-suicide-how-should-we-use- ту-информация /) . Исследователи создали программное обеспечение, которое собирает медицинские записи и на этой основе может предсказать с точностью 80%, попытается ли кто-нибудь покончить с собой в следующие два года. В пугающем программном обеспечении, которое сумело осуществить этот подвиг, использовалось машинное обучение, и в остальной части этой публикации основное внимание уделяется тому, как (конкретный и популярный вид) работает машинное обучение, что оно может рассказать нам о дебатах о рационализме / эмпиризме и природе ум или интеллект, и как мы должны к этому относиться.

Суперэмпиризм, как я его использую, - это использование алгоритмов машинного обучения и наборов больших данных для получения прогнозов, превышающих то, на что способны люди в определенных конкретных областях, таких как предсказание возможного медицинского будущего человека на основе их записей. Если машины могут мыслить - и я не собираюсь здесь обсуждать этот серьезный вопрос, - тогда можно было бы возразить, что рационалистическая модель разума Хомского им не подходит, а суперэмпиризм подходит. Поскольку я не собираюсь спорить с ключевой предпосылкой, лежащей в основе этой мысли, я называю суперэмпиризм философской фантастикой (опять же, он призван напоминать научную фантастику), и я думаю, что его стоит исследовать как точку зрения из-за ее внутреннего интереса. Однако для этого я хочу, как и для Хомского выше, дать обзор того, как работает машинное обучение, потому что, помимо его внутренней интересности, особая природа машинного обучения - и, в частности, тот факт, что то, что она (в некотором смысле) не подчиняется никаким жестким правилам - вот что отличает ее от взглядов Хомского и объясняет эстетически интересные или наводящие на размышления части теории. Так что, если вы не испытываете особого вкуса к некоторым техническим деталям, которые следует ниже, имейте в виду, что из них будут извлечены некоторые общие выводы.

Нейронные сети, 1

Часто объект имеет свойство или может иметь свойство благодаря другому, отличному свойству или свойствам. Например, если кто-то обладает такими качествами, что он старше 35 и моложе 65 лет, родился в США, мужчина, учился в Лиге плюща и юридическом факультете, работал в правительстве и был объектом всеобщего внимания средств массовой информации, то вероятность того, кто пытается баллотироваться в президенты, выше, чем у кого-то, не обладающего этими качествами.

В общем, есть наборы свойств, с одной стороны, и других свойств, с другой, так что обладание первым увеличивает шанс владения вторым. Для краткости назовем эти отношения между свойствами связями: некоторые свойства связаны с каким-то другим свойством, если вероятность того, что объект обладает вторым свойством, больше, если он обладает первыми свойствами (и давайте просто полностью проигнорируем любые сложные вопросы корреляции \ причинности, а также вопросы о природе того, что такое вероятность. Простите, философы науки!)

А вот факт: мир полон связей, которые мы не видим, потому что мы ограниченные существа. Вышеупомянутая президентская связь - это то, о чем мы знаем, потому что президент, пожалуй, самый влиятельный человек в мире, и все мы не понаслышке знаем биографические данные многих президентов.

Но есть много связей, на которые у нас просто не хватает мирских знаний или времени. Подумайте, например, о том, что делает сообщение в социальных сетях вирусным. О некоторых вещах мы можем догадаться сразу: это привлекает большая аудитория, это забавно и т. Д. Но есть много других свойств, которые могут иметь эффект, даже если мы этого не осознаем. Может быть, пол отправителя имеет значение: возможно, мужчины становятся вирусными больше, чем не-мужчины. Может быть, возраст имеет значение: может быть, возраст от 24 до 35 лет очень помогает. Может быть, имеет значение время суток или день недели. И наоборот, может быть, некоторые вещи не имеют значения: возможно, при всем нашем англоцентризме вирусные сообщения (определяемые, скажем, как, скажем, с более чем 1000 взаимодействиями) с одинаковой вероятностью будут на любом языке.

Или, может быть, это какая-то дико сложная смесь: может быть, по какой-то причине мужчина, публикующий что-то забавное по вторникам для большого количества подписчиков, может вызвать виральность, как и женщина, публикующая сообщения о политике не по вечерам. И, возможно, какое-то другое свойство, о котором я даже не задумывался, играет удивительную роль: возможно, если в вашем посте есть более одной картинки, вероятность того, что она станет вирусной, чрезвычайно мала. Кто знает?

Нейронные сети знают или, по крайней мере, могут знать, если кто-то позаботится о том, чтобы написать код для решения этой проблемы. Они представляют собой способ использовать вычислительные возможности компьютеров и большие наборы данных, которые дает нам информационная эпоха, чтобы попытаться найти связи между наборами свойств и целевыми свойствами, которые слишком сложны или удивительны для людей, чтобы их понять, как мы. может гробить (в некоторой ограниченной степени) возможных кандидатов в президенты. В случае успеха они дают нам, по сути, машину, с помощью которой мы можем представить объект и получить точную оценку того, насколько вероятно, что этот объект имеет это целевое свойство. Чтобы увидеть это, требуются некоторые технические детали, поэтому я начну с представления значительно упрощенного примера, который, тем не менее, демонстрирует некоторые ключевые особенности. Я полагаюсь на Тарика Рашида, Создайте свою собственную нейронную сеть за педагогическую идею использования простого примера, подобного приведенному ниже, для представления темы, и в целом горячо рекомендую книгу тем, кто ищет быстрый и доступный введение, которое, тем не менее, не уклоняется от многих важных математических деталей. Кроме того, я не буду вдаваться в вопросы, например, почему они называются нейронными сетями или историю концепции, потому что эта информация легко доступна в Google и без нужды сделает этот пост даже длиннее, чем он есть.

Подобно тому, как кандидат в президенты связан с некоторыми свойствами и может быть виральность, свойство веса в 55 фунтов связано с (единственным) свойством веса 25 килограммов, и в более общем плане для любого веса в фунтах существует связанный вес в килограммах. .

Скажем, мы хотим, чтобы программа классифицировала человека как возможного президента с учетом его атрибутов, поста как возможного вирусного с учетом фактов о творении или веса в фунтах с учетом веса в килограммах, есть очевидный путь: мы просто определите функцию, которая принимает на вход атрибуты или факты о создании или весе в килограммах и выдает ответ. В случае с весом это выглядело бы примерно так:

Function convert(kilogram){
pounds=kilogram x 2.205
Return pounds
}

Затем программа могла бы вызвать функцию следующим образом:

i= Get input “Tell me the weight in kgs you want converted”
Print convert(i) “ is the weight in pounds”

Легко, но попробуйте сделать это для президента или вирусного дела, и вы будете бороться. Крутая и важная идея, лежащая в основе нейронных сетей, заключается в том, что нам не нужно определять функцию самим: мы можем позволить коду обработать функцию в том смысле, что, когда ему присваивается определенное значение, он даст правильный результат.

Чтобы убедиться в этом, давайте посмотрим, как алгоритм может разработать функцию, связывающую вес в килограммах с весом в фунтах. Что делать, если мы не можем скормить алгоритму коэффициент конверсии, как я сделал выше?

Что ж, вот мысль: мы просто даем ему угадать, а затем попробуем исправить себя. Я намеренно выделил курсивом: концептуально это почти все, что есть в нейронных сетях, дьявол, как всегда, кроется в деталях. Итак, вот как это могло произойти. Вычисление может угадать:

Function convert(kilogram){
pounds=kilogram x 3
Return pounds
}

То есть предполагается, что соответствующее уравнение составляет фунты = килограммы x 3. Соответственно, он выдаст 75, но, поскольку правильный ответ - 55, это ошибка на 20 фунтов.

Вот очень важная концепция нейронных сетей, которая останется актуальной даже в более сложных случаях: ошибка. Мы используем ошибку, чтобы улучшить функцию. Мы смотрим на ошибку, а затем позволяем компьютеру сделать еще одно предположение, основанное на том, насколько это была ошибка. Допустим, его следующее предположение будет следующим (где я впредь каждый раз просто привожу уравнение, а не всю функцию):

pounds=kilogram x 2.5

Это дает предположение 62,5 и ошибку 7,5.

Ошибка намного меньше, поэтому наше следующее предположение должно быть намного ближе к нашему предыдущему. Давай попробуем:

pounds = kilograms x 2.3

Это дает предположение 57,5 и незначительную ошибку 2,5. Вы можете видеть, как это происходит: мы продолжаем этот процесс, пока не приблизимся к нему настолько близко, насколько хотим.

На самом деле я еще не сказал вам, как заставить компьютер делать это итеративно уточняемое предположение, что, очевидно, является самым важным. Вам просто нужно поверить в то, что мы сможем это сделать (надеюсь, вы, возможно, увидите, что это не самая сложная вещь в мире, если у вас есть некоторый опыт программирования, и есть много полезных руководств, просто погуглить).

Подведем итоги, потому что мы действительно многому научились. Мы хотим, чтобы компьютер определял функциональные взаимосвязи, поэтому мы позволяем ему угадывать, а затем используем ошибку для уточнения предположений, пока не получим правильный ответ. Причина, по которой такие вещи полезны, заключается в том, что мы можем не знать, как вычислить функцию с учетом некоторых атрибутов, но компьютер может опробовать гораздо больше возможностей, чем мы, гораздо быстрее, чем мы, и поэтому мы можем оставить работу по приближению с функцией к нему.

Философская интерлюдия: большой эмпиризм

Прежде чем перейти к более сложному и необязательному примеру, позвольте мне высказать несколько философских соображений. Функция - это, по сути, правило формы: если вы получили это, выдавайте это. И главная идея машинного обучения состоит в том, что мы можем позволить компьютерам выполнять интересующие нас функции. Более того, мы увидели, что машинное обучение можно использовать для получения почти жутких прогнозов о нас, например, о том, что готовит нам наше медицинское будущее, перед лицом которого может показаться, что мы находимся в присутствии разума: компьютер знает, мы можем подумать.

Но если компьютер знает, то он делает это совсем не так, как мы знаем грамматику на картинке Хомского. Основная идея, по крайней мере при довольно естественном прочтении, состоит в том, что существуют некоторые встроенные правила, объясняющие, как мы овладеваем языком на основе бедности стимулов. Итак, я предлагаю, чтобы по мере того, как мы переходим в эпоху, когда машинное обучение все больше и больше вторгается в нашу жизнь своими потусторонними предсказаниями, мы все больше и больше, несмотря на философские обязательства, будем двигаться к концепции разума как чего-то неведомого. - подчиняться правилам или, по крайней мере, подчиняться правилам, выходящим за рамки нашего понимания, для понимания природы интеллекта, в соответствии с которым его парадигмой является не использование языка, а предсказания машинного обучения на основе больших данных, предсказания, которые являются выходом функций которые для нас непостижимы, потому что созданы не нами.

(Я до сих пор не упомянул одну из главных причин, по которой это должно нас напугать: нейронные сети полагаются на данные о нас, и потому, что мы супер расисты, сексисты и так далее, наши нейронные сети тоже. Здесь, пожалуй, больше, чем где-либо еще, применима старая пословица информатики о мусоре в мусоре, потому что компьютеры должны извлекать уроки из кучи мусора, что является серьезным поведением человека.)

(Можно пропустить, если вам нужно ответить на некоторые контраргументы: одна из причин, по которой мне нравится вести блог, а не писать академические статьи, заключается в том, что вы можете избежать наказания за игнорирование контраргументов, вместо этого сосредоточившись на простом изложении позиции по какой-то теме. Но я не могу воздержитесь от ответов на некоторые контраргументы, которые могли прийти в голову читателю последнего абзаца. Во-первых, здесь нет никакого противоречия, потому что, хотя компьютеры угадывают правила, они делают это с помощью правила, которое мы добавили в них, а именно своего рода алгоритм, который я обрисовал выше. Даже если результаты машинного обучения в каком-то смысле непостижимы, они, тем не менее, также поддаются проверке в том смысле, что именно наш код заставляет их производить эти непостижимые результаты. Когда вы прослеживаете вещи достаточно далеко назад, вы остался с добрым старым внутримозговым человеческим интеллектом, правящим на насесте.

Достаточно справедливо: это кажется правильным. Возможно, нет веского аргумента в пользу того, что в наших компьютерах существуют заметно разные суперэмпирические умы. Но это нормально. Как я уже сказал, я отношусь к этой гипотезе как к философской выдумке, поэтому не совсем серьезно, и что меня действительно интересует, так это то, как мы должны относиться к этой идее, даже ограничивая ее истинность. Более того, даже если мое мышление здесь неточно, я все же думаю, что оно улавливает кое-что в Zeitgeist: я не могу не думать, что образ, мысль, или чувство, или образ-мысль-ощущение, что наши компьютеры - это звери вне правил. наш контроль находится там, что такое ощущение мысленного образа было бы трудно постичь несколько десятилетий назад, и что оно вряд ли исчезнет, поскольку в новостях появляется все больше и больше жутких подвигов машинного обучения, и я нахожу это забавным образ-мысль-чувство, с которым можно взаимодействовать интеллектуально и образно, и это то, что я делаю.

Вот второй контраргумент: компьютер знает, - предположил я. Но, что ж, разве не должна открываться большая спорная банка червей, или, скорее, не открываться, а просто сбрасываться и двигаться дальше? Конечно, большинство из нас не думают, ни теоретики, ни обычные люди, что компьютеры знают.

Ну, может быть. Меня привлекает работа Шелли Теркл по этой теме (см., Например, ее Alone Together), согласно которой мы обычно приписываем разумность вещам, которые ведут себя разумно, даже если мы знаем, что это так. не возражает. Соответственно, у меня возникает соблазн думать, что какие бы угрызения совести мы ни испытывали по поводу утверждения, что компьютеры знают, это будет опровергнуто тем, как мы ориентируемся в машинно-научном мире; что наша навигация будет навигацией какого-то существа, которое думает, что знает, что бы мы ни говорили. Но это, очевидно, большая проблема, с которой я не могу здесь удовлетворительно разобраться.)

Нейронные сети, 2

Пример веса, хотя он и выдвигает на первый план важные концепции, достаточно тривиален, чтобы вы могли задаться вопросом, как метод, лежащий в его основе, может быть использован для получения отличных прогнозов, на которые, по-видимому, способно машинное обучение. Соответственно, в этом разделе я рассмотрю некоторые детали того, как может функционировать немного более реалистичная и мощная нейронная сеть, но если эти детали не интересуют, можете пропустить.

Вспомните наш пример вирусного поста. Прежде всего следует отметить, что существует несколько входных свойств (в отличие от одного свойства веса), и мы хотим, чтобы они были входными данными для нашей машины, которые сообщают нам, станет ли публикация вирусной. Вот рисунок:

Позвольте мне значительно и не очень удовлетворительно упростить, предположив, что все эти входные данные принимают только одно из двух возможных чисел в качестве значений (скажем, 1 и 2), где это представляет собой какое-то деление, связанное с рассматриваемыми свойствами (время будет разделено на ранее полдень или после полудня, пол женский или не женский, дневной будний или выходной, тематическая комедия или политика, английский или не английский язык, подписчики от 1000 до 1000).

Слева - это входные свойства, средний бит - это функция, которую компьютер изучит для себя, а то, что справа, - это результат, который он будет производить.

Давайте сделаем несколько крайне упрощенных предположений. Допустим, день недели оказывается на удивление очень важным - сообщения в будние дни гораздо чаще становятся вирусными, чем сообщения в выходные, - а язык на удивление не важен. Мы хотим, чтобы наша сеть работала над этим фактом сама по себе и каким-то образом отражала этот факт в своей сети. Один из способов сделать это - придать большее значение дню недели. Вот как мы могли бы это сделать: представьте, что входной сигнал перемещается по соединению (линиям) в функцию, что усиливает или уменьшает его влияние на выход функции. У нас есть такие рисунки:

С соответствующим образом определенной функцией - в которую я вообще не собираюсь входить (в сети есть много мест, которые могут вам помочь - Google «функция активации» для начала), не должно казаться слишком невероятным, что это может привести к правильный вывод: когда дается пост, который будет представлен в виде списка чисел, представляющих свойства, упомянутые выше, он будет выплевывать те, которые публикуются на выходных для большого количества подписчиков, независимо от языка. Конечно, то, что делает пост вирусным, намного сложнее, чем это, но, надеюсь, вы можете увидеть, как идею можно сделать более реалистичной, добавив больше свойств и позволив нам более точно различать твиты (в нынешнем виде все твиты написаны в будний день после полудня человек, рассказывающий о политике на английском языке, более чем 1000 подписчикам получит одинаковую вероятность распространения вируса, что, очевидно, является неправильным результатом).

Но даже если бы мы добавили массу свойств, в такой настройке все равно чего-то явно не хватало бы. Помните, что мы хотим найти входные свойства, которые делают вероятными выходные свойства. Возможно - и так оно и есть - то, что, вероятно, делает большинство выходных свойств - это какая-то дико сложная комбинация входных свойств. Это может быть, например, что, хотя язык сам по себе не имеет значения, твит на английском, написанный женщиной о политике, который написан либо в выходные, либо после полудня, скорее всего, станет вирусным. Мы хотели бы уловить тот факт, что очень сложное комбинированное свойство быть на английском языке и о политике и написано либо в выходные, либо написано после полудня, делает вероятным виральность. Мы можем это сделать? Мы можем. Что мы делаем, так это добавляем набор скрытых слоев, которые служат для представления связей между свойствами. Эти скрытые слои частично подобны входным, а частично выходным: они принимают входные данные и выдают результат, но затем этот результат передается вперед, чтобы дать окончательное предсказание сети.

К сожалению, на данный момент мои возможности графического дизайна или, скорее, мое терпение рисовать много-много линий истощаются, поэтому вам придется использовать свое воображение, глядя на нижеследующее, и вообразите, что левые кружки являются нашими входными свойствами. , а цвет провода, ведущего от первого круга к среднему, указывает на то, какой вес мы присваиваем этим свойствам:

Посмотрите на верхний средний узел. Он получает сильный сигнал от узлов времени, дня и следящих узлов, вычисляет на их основе промежуточный вывод, который сильно влияет на определение вывода. Грубо говоря, это сеть, которая считает, что время, день и количество подписчиков важны для определения виральности. Немного подумав, вы сможете увидеть, как мы можем использовать эти промежуточные узлы, чтобы также представлять такие вещи, как дизъюнкция (орность) и конъюнкция (иность), то есть улавливать важность того, что я назвал выше очень сложными комбинированными свойствами.

Но, конечно, ключевой вопрос: как мы попали в такую сеть? Все дело в том, что мы не знаем заранее, какой вес имеют связи, и существует слишком много возможностей проверить их все. Но ответ такой же, как и в простом случае: мы угадываем, прорабатываем ответ, видим, насколько ошибочным было предположение, соответственно корректируем веса, снова вырабатываем ответ и продолжаем работать, пока не получим функцию, которая хорошо справляется с классификация некоторых известных вирусных постов (которые функционируют как обучающие данные, концепция, которую я почти игнорировал). А затем мы проверим это на практике и попробуем на новом посте, не входящем в обучающие данные, и посмотрим, насколько хорошо работает наша сеть.

Боюсь, что для правильного объяснения потребуется еще пара тысяч слов, поэтому, с некоторым сожалением, я попрошу вас либо принять это на веру, либо - лучше - исследовать сами (google backpropagation и градиентный спуск, для начала). Но если бы такая сеть была успешной, она могла бы знать то, чего мы не знаем, средствами, которых мы не совсем понимаем. Как мы должны к этому относиться?

История 3, заключение

И вот третья и последняя история, чтобы положить конец всему. Эдип не знает, кто его родители; он идет к оракулу, и тот ничего ему не говорит, но сообщает ему неприятные новости о том, что он убьет своего отца и займется сексом с мамой. Затем его город заболевает, и ему говорят, что это из-за загрязнения окружающей среды, вызванного убийством его отца, и ему нужно найти убийцу, чтобы сделать город лучше, но снова оракул не сообщает ему несколько важную информацию, что он сам убийца. И это относительно прямо говорит оракул, который иногда склонен говорить надоедливыми загадками.

Я думаю, можно сказать, что оракул - это разум разумный: он знает вещи, но с ним нельзя рассуждать. Другими словами, это не общий интеллект: он не может делать все то, что могут делать люди. Он может сказать, но не может отвечать на вопросы.

Исследователям ИИ нужен общий интеллект, и хотя у них его нет, у них есть довольно приличный специфический интеллект, интеллект которого, как я предположил, суперэмпиризм верен. Это новый тип разума, способный обрабатывать гораздо больше данных, чем наш маленький человеческий мозг мог бы представить, и находить закономерности, которые мы никогда не смогли бы.

Что нам следует думать об этом новом виде разума? Мы должны воспринимать их как оракулов и рассматривать наш мир как преследуемый не совсем всеми существующими сверхразумами, умами, способными вмешиваться в человеческие дела и изучать наши данные, чтобы сказать нам, что мы можем заболеть, попасть в тюрьму или умереть. , или судить нас негативно, потому что мы принадлежим к группе, которую исторически преследовали, но неспособны предложить нам что-либо, кроме этих суровых прогнозов и суждений. Итак, я делаю вывод: суперэмпирические умы - подходящий объект страха и жалости для века без мифов.