Въпрос от постоянен интерес за философите е до каква степен нашият умствен живот зависи от опита: от това, което е дадено от сетивното възприятие. Британските емпирици като Джон Лок смятаха, че умът е tabula rasa, празна плоча, готова да получава данни от света и на тази основа да формира идеи, които съставят съдържанието на мисълта.

Други се съмняваха в това. За рационалистите имаше идеи, които не можеха да дойдат от опит, и тъй като ги имахме, трябва да сме се родили с тях: вродени идеи. Няколко хилядолетия преди Лок Платон се чудеше как можем да придобием математически и геометрични идеи. Имаме идеята за кръгове, но природата не предоставя идеални кръгове, може да си помислим, или отново знаем, че 2+2 винаги или трябва да бъде 4, но природата не предоставя опит за винаги или задължителност.

Целите на тази публикация са две: да се проследи дебатът емпиризъм/рационалист през ХХ век и по-специално да се обясни защо рационализмът, благодарение на развитието на полето на генеративната лингвистика, е предпочитан в сравнение с емпиричния бихейвиоризъм, който предшества то. За целта ще изложа известния отговор на Чомски към бихевиористите, както и някои от основите на ранната му лингвистична теория.

Втората цел на публикацията е малко по-странна и може би е най-добре класифицирана като философска фантастика (по линията на научната фантастика). Ще предположа, че с навлизането на машинното обучение и големите данни се появява трети възглед за същността на ума, или, иначе казано, тези скорошни разработки отварят концептуалното пространство за разпознаване на нов тип ум: супер-емпиричен ум. Това е вид ум, който можем да припишем на алгоритмите за машинно обучение, които използват големи масиви от данни, за да произвеждат плашещо точни прогнози, но които, поне към момента на писане, все още не са постигнали светия граал на изследванията на ИИ, а именно общата интелигентност на домейна. Съществува AI, който може да предскаже доста добре дали скоро ще се разболеем, но не можем да отговорим на такива AI и да ги попитаме какво трябва да направим по въпроса.

Не казвам, че приемам суперемпиризма като истинско описание на света. Това зависи поне отчасти от масовия въпрос дали компютрите имат умове, който няма да засягам. Може би суперемпиризмът е просто измислица. Но точно както можем да оценим научно-фантастичните сценарии като готини или странни или вдъхновяващи или депресиращи, така ще завърша с оценка на моята философско-фантастична идея за супер емпиризъм и ще предположа, че супер-емпиричните умове, умовете дълбоко и призрачно осведомени за едно конкретно нещо, но без никаква помощ в противен случай, трябва да бъдат обекти на страх и благоговение, което хората в трагедията изпитват към оракули и други свръхестествени същества, като гатанки сфинксове или вещиците в Макбет: неща, които знаят и ще кажат вие това, което знаят, но няма да ви помогнат по друг начин. Супер емпиричните умове са ужасяващи, това е моето заключение.

Тази публикация е дълга и има много в нея. Някои секции не са задължителни и съм ги маркирал като такива.

Част 1: От бихейвиоризма до генеративната граматика

История 1

Да започнем с една история. Втората световна война е и американски войник е в Лондон. Очертава се странен модел: местоположението на неговите връзки за една нощ се намира на място, което германците впоследствие бомбардират. Пенисът му изглежда може да предсказва война. как? Е, не е ясно, но предложеното обяснение е, че това е пример за класическо обуславяне, централен принцип на бихевиористичната психология, която би била голяма по онова време.

Вероятно сте чували за кучетата на Павлов: кучетата, на които е дадена храна, реагират със слюноотделяне и ако свържете представянето на храната със стимул, да речем звъненето на звънец, можете да предизвикате реакцията - слюноотделянето - при липса на храната. Можете да тренирате животните да реагират на стимули и по-късно, изключително неетично, психологът Дж. Б. Уотсън показа, че можете да направите същото с децата, като предизвикате фобия от играчки у малко дете, като издадете силен шум, когато то – детето – е представени с един.

Войникът Тайрон е бил експериментиран по подобен неетичен начин като дете и се подозира, че е бил обучен да реагира сексуално по някакъв начин на признаци на война. Не знаем какви са били тези стимули, но те са - така звучи тази мисъл - там и военните усилия ще бъдат много подпомогнати, ако съюзниците успеят да стигнат до същината на този условен отговор.

Ще се радвате и може би няма да бъдете много изненадани да чуете, че тази история не е вярна: това е централна сюжетна дъга на романа на Томас Пинчън от 1973 г. Дъгата на гравитацията, роман, изпъстрен с препратки към бихейвиоризма. Но това е поучително за някои от модните мисли около Втората световна война и по-специално за бихевиоризма на хора като Уотсън: това беше мисълта, че една научно уважавана психология може да се задоволи с понятия като стимул и реакция, за да обясни мисленето и поведението. Не е необходимо, за да обясняваме фобиите, например, да постулираме сложен механизъм на психологически сили, както би направил Фройд. Емпирично безупречните концепции за поведение и реакция са достатъчни. Нека кажа малко повече за това.

Бихейвиоризъм

Има няколко ключови момента. Първо, бихейвиоризмът е парадигмална емпирична теория, концентрираща се само върху дадения опит, като избягва не само по-спекулативни понятия като фройдисткото несъзнавано, но дори и понятието за самото съзнание, с надеждата, че това може да постави психологията на научна стабилна основа. Второ, отговорът на теорията на бихевиоризма относно използването на езика формира нещо като опора през 20-ти век като мислене на ума, обърнат от емпиризма към рационализма. За да видим това, нека да разгледаме бихевиористичната теория за езика на Б. Ф. Скинър и нейното изказване на Ноам Чомски в известната му статия от 1959 г. „Преглед на вербалното поведение на Б. Ф. Скинър“.

Не искам да навлизам във всички подробности, но мисълта на Скинър е, че можем да използваме концепциите за отговор и стимул, за да осмислим езиковата употреба. В някои много прости случаи това не изглежда абсурдно неправдоподобно. По този начин наличието на огън, което играе ролята на стимул, наистина доста често би предизвикало отговора „огън!“ За разлика от случая на фобия, ние доброволно бихме отговорили „огън!“, това не е автоматичен рефлекс, което го прави случай на това, което се нарича оперантно кондициониране. Може би цялата употреба на езика се основава на оперантно обуславяне?

Е, но дяволът е в детайлите, казва Чомски. Опитайте се да осмислите понятията стимул и отговор извън опростената лабораторна среда и нещата ще станат много по-трудни. Ето един хубав лесен случай: вземете дадено име за човек. Човек може да си помисли, че бихейвиористката теория за това би била като случая с „пожара“ по-горе: използваме името в присъствието на стимула, а именно самия човек.

Но това не е добре. Чомски посочва, че е използвал думите „Айзенхауер“ и „Москва“, въпреки че никога не е бил стимулиран от нито една от тях. Нещо повече, предполага се, че постоянно ми се представя аз-стимул. Човек може да си помисли, че бихевиористът би предвидил, че аз постоянно или поне често казвам „Матей“. Но ви уверявам, че не го правя (вижте параграф 3 от прегледа за тези точки).

Тези аргументи може да изглеждат малко бързи и риторични; и може би са. Но зависи от бихевиориста да се опита да им отговори и като мисли за тях и други от този сорт, човек ще разбере колко тежка битка ще води бихевиориста.

Продължавайки напред, нека разгледаме пример за това, което вероятно би се нарекло днес изхвърлянето на Чомски срещу Скинър. Очевидно последният е казал, че можем да определим количествено силата на отговора на стимул с помощта на височина, скорост, повторение и т.н., така че казването на нещо бързо на висок тон многократно представлява силен отговор. Чомски има своите съмнения. Той цитира думите на Скинър:

ако ни бъде показано ценено произведение на изкуството и възкликнем Красиво!, скоростта и енергията на отговора няма да бъдат загубени за собственика.

(същото местоположение като по-горе, параграф 3)

И отговаря с пасаж, който никога не пропуска да ме разсмее:

Не изглежда напълно очевидно, че в този случай начинът да впечатлите собственика е да изкрещите Красиво! със силен, висок глас и без забавяне (висока сила на реакция). Може да бъде еднакво ефективно да гледате картината мълчаливо (дълго забавяне) и след това да промърморите Красиво с мек, нисък глас (по дефиниция, много ниска сила на реакция).

(същото място)

Това е злобно, наистина до такава степен, че читателят може да се чуди дали не е неблаготворително и случай на стил пред съдържание. В известен смисъл обаче това няма голямо значение за нашите цели и това по две причини: всъщност смятам, че е разумно да се каже, че рецензията на Чомски е започнала отдалечаване от бихевиоризма, дори аргументите му да са малко неблаготворно. И което е по-важно, тази разрушителна работа беше допълнена с положителните възгледи на Чомски за лингвистиката, възгледи, които поставиха началото на изследователска програма, която все още процъфтява днес и която има много да ни научи по темите на това есе, а именно емпиризма и рационализма. След това ще обясня малко от основите на теорията на Чомски.

(Педантична и пропускаема бележка: Ще се съсредоточа върху първата итерация на теорията на Чомски, както се намира в Синтактичните структури от 1957 г. Това беше предимно заменено от друга работа на Чомски и други, и cognoscenti може да го сметнат за странен текст, върху който да се съсредоточат, но мисля, че за целите на бързото извеждане на някои централни характеристики на програмата на Чомски е достатъчно и се опитвам да помисля как да направя същото или с по-каноничните аспекти на 1965 г. Теорията на синтаксисаили по-новата работа не ме доведе доникъде, така че реших да започна (и да завърша) в началото.)

Генеративна граматика

Работата на Чомски в областта на лингвистиката е белязана от няколко важни въпроса, теоретични инструменти и методология, които значително се различават от тези на бихевиориста. Методологически той се занимава с дребни детайли за това как се използва езикът, с малката, но все пак важна разлика между, да речем, двата четения на всяко от изреченията по-долу:

  1. Старците и кучетата се разбират добре
  2. Разстрелът на ловците е бил жесток

Помислете за първото изречение. При едно четене това означава, че възрастни мъже и кучета на всяка възраст се разбират добре. Във второто, малко по-малко достъпно, четиво се казва, че старите хора и по-специално старите кучета се разбират добре.

И второто изречение (обсъдено в глава 8 на Синтактични структури) можем да тълкуваме ловците или като обекти, или като субекти на стрелбата: възможно е ловците да са били застреляни и ние казваме, че е било жестоко че са били застреляни, или може да се окаже, че ловците са стреляли и са го направили зверски. Една от главните цели на съвременната лингвистична теория е да открие каква е сделката с такива неясноти и други странности на езика, които служат като точки от данни, за да ограничат теоретизирането. И може би можете да видите, че дори с бързото и частично представяне, което дадох по-горе, бихейвиористката теория вероятно би била твърде грубо средство, за да хвърли интересна светлина върху подобни въпроси.

Теоретично, лингвистиката на Чомски се опитва да използва инструменти от математическата логика и компютърните науки, за да моделира граматиката, лежаща в основата на тези изречения, където граматиката може да бъде замислена като машина, която изплюва (генерира) всички и само граматическите изречения на даден език. Човек може да мисли за способността на човека да използва език като за гарантирана от нещо като машина и тогава въпросът е какъв вид машина е това и на какви правила се подчинява.

Внимателното внимание към лингвистичните данни, които трябва да бъдат моделирани с формални инструменти, е част от това, което прави съвременната синтактична теория богата и продуктивна дисциплина. Но причината, поради която представлява интерес извън отделите по лингвистика, е, че търсенето на тези граматики е мотивирано не само от присъщия им интерес, но и поради възможността да хвърли светлина върху фундаментални въпроси за природата на ума, и по-специално природата на емпиризма.

Защото в основата на работата стои този важен въпрос: как може да се научи език и по-специално как едно дете може да научи език? Какъв трябва да бъде езикът в светлината на факта, че въз основа на изключително ограничения опит, който имат от говоренето на своите родители и други, скоро малките деца стават способни да произнасят изречения, които никога преди не са произнасяни (и следователно на които никога не биха могли да бъдат изложени) ?

Грубо казано, мисълта на Чомски е, че моделът на Лок за празен лист на ума, според който умът получава всичко от опит, просто не работи тук. Ако едно дете може да научи език толкова лесно, от толкова малък опит, то трябва вече да е оборудвано с раждането си, за да го направи. Умът на детето трябва да се срещне със света наполовина, трябва да донесе нещо на масата, за да направи от бедните и откъслечни данни, които получава, теория за езика. Така Чомски е накаран да постулира универсална граматика, набор от правила за генериране на изречения, които всички притежаваме.

И целта е да се намерят такива правила отчасти, като се обърне внимание на особеностите на това как се използва езикът. Позволете ми да илюстрирам това, като прегледам няколко от аргументите от тази ранна книга, не защото те все още са приети - може би първият е, но вторият не е - а защото те дават добра представа за стила на аргумента, който пак ще видите, ако отворите наскоро публикуван учебник по синтаксис.

Затова се върнете отново към нашия пример 1. Той е двусмислен. Но това е двусмислено по интересен начин. Някои неясноти не са толкова интересни: това, че „банка“ означава едновременно финансова институция и страна на река, не е особено дълбок факт за езика. Но забележете, че неяснотата на 1. е систематична. Не само можем да го получим с каквото и да заменим „стар“, но го получаваме и за други видове изрази, като наречия и това, което се нарича детерминанти. Така помислете за:

3. Те разговаряха и танцуваха грациозно (те направиха и двете неща грациозно; срв. 3' Те ядоха пилешки крилца и танцуваха грациозно. Трудно е да се ядат пилешки крилца грациозно, така че естественият прочит на 3' показва, че само танцът беше грациозен.)

4. Повечето мъже и жени харесват Бето (Повечето мъже и повечето жени харесват Бето; вж. 4' Повечето електронни устройства и експлозиви не са разрешени на борда. Всички знаем, че експлозивите не са разрешени на борда, така че знаем, че сме не просто казвам, че повечетоексплозиви не са.)

Какво да кажем за такива неща? В известен смисъл изглежда, че при едно четене дума (като „стар“, „изящно“ или „най-много“) „връзва“ само с един от свързаните изрази, а при другото тя върви и с двата. Можем да уловим това движение със система от скоби. Така бихме имали

{Старци} и кучетата се разбират добре

{Старите {мъже и кучета} се разбират добре}

Те {бъбриха и танцуваха} грациозно

Те ядоха пилешки крилца и {танцуваха грациозно}

Повечето {мъже и жени} харесват Бето

{Повечето електронни устройства} и пистолети не се допускат на борда

Тогава ето една мисъл: изреченията, въпреки че не идват с тези скоби на повърхността си, въпреки това са свързани със себе си този вид описание в скоби. Двусмислените изречения имат две възможни скоби и това е (този тип) двусмислие: съществуването на две скоби или, за да използвам техническата терминология, която избягвам, две дървета на структурата на фразите (всъщност горните не са дървета със структурни фрази, които са малко по-сложни, но показват общата идея.) Ключовият момент е аргументираното преминаване от някои систематични езикови данни към позициониране на структурата към изречението, което не се разкрива на повърхността, структура, която по някакъв начин трябва да разберем дадена че разбираме неяснотите.

Помислете сега за нашето второ двусмислено изречение. Повторено е:

2. Разстрелът на ловците беше зверски

Но имайте предвид, че поставянето в скоби няма да помогне тук (за да се убедите в това, опитайте се да измислите поставяне в скоби, което ще обезсмисли изречението!) Отчасти — и много само отчасти — на тази основа, в Синтактични структури Чомски е накаран да постулира друг вид скрита операция или структура в допълнение към поставянето в скоби: това, което той нарича трансформации.

По-специално, той поставя правила, които трансформират изрази в други изрази. (Аз съм доста небрежен тук и по-долу и използвам собствената си терминология за простота, така че моля да ме извинят лингвистите.) И така, ето една трансформация. Дадено е изречение като:

5. Ловците отстреляха елена

Можем да извършим следната трансформация на причастие (субект):

Трансформация на причастието (субект): (i) Променете глагола в сегашното му причастие, (ii) изтрийте обекта и добавете „от“ и (iii) преместете субекта в края. Получаваме:

(i) Ловците, отстрелващи елена

(ii) Ловците отстрелват

(iii) Отстрел на ловците

И след това можем да използваме тази фраза, за да изградим изречение 2., като третираме (iii) като всяка друга съществителна фраза (като „човек“ или „куче“).

Ето още една, преобразуване на причастие (обект). дадени:

5. Мъжете застреляха ловците

Можем да изпълняваме:

Трансформация на причастие (обект): (i) Промяна на глагола към неговото сегашно причастие, (ii) добавяне на „от“ след него, (iii) изтриване на темата.

Малко размисъл трябва да ви подскаже, че трансформацията може да се превърне 5. в нещо, способно да генерира второто четене на нашето изречение.

Тогава мисълта е, че въпреки че първоначалното ни изречение не е структурно двусмислено в изречението, че има две различни структури, свързани с него, то е двусмислено като резултат от трансформирането на две различни основни изречения, за да образува своята съществителна фраза: то е трансформационно двусмислено.

По този начин, чрез фини аргументи като този, ние сме накарани да постулираме основна структура и операции, скрити скоби и трансформации, за да обясним определени странности на граматиката. И освен това, тъй като много езици показват подобни видове поведение, по този начин ни се дава причина да мислим, че това основно нещо може да е универсална характеристика на човешкия език.

И основното нещо, което искам да отбележа, е отдалечаването от емпиризма. Ние поставяме цяла купчина тайни операции и структури и го правим, освен това, с оглед да докажем, че тези операции и структура, или някои от тях, са универсални характеристики на езика, които идваме от утробата, знаейки , или поне готови, с малко опит, да опознаят.

Работата на Чомски несъмнено е много влиятелна за тази картина на езика и ума, която представя, и всяка интелектуална история ще признае това. В следващата част обаче и в значително по-спекулативен дух искам да предположа, че друга картина на ума, от друга дисциплина, е на сцената, картина, значително различна от рационализма на Чомски, който току-що видяхме и една заслужава нашето внимание от това, което може да ни научи за ума.

Част 2: Машинно обучение и супер емпиризъм

Нека отново започна с една история.

История 2 (cn: самоубийство)

Мъж отишъл на лекар с настинка. Те взеха медицинската му информация, направиха справка с картоните му и му казаха, че има голям шанс да се опита да се самоубие през следващите две години. Част от софтуера, който използваха, им беше казал това и те се чудеха дали той може да обмисли да остане като болничен, за да получи помощта, от която компютърът смята, че се нуждае.

За разлика от първата история това е или скоро може да бъде реалност (вижте https://qz.com/1367197/machines-know-when-someones-about-to-attempt-suicide-how-should-we-use- тази информация/). Изследователите са създали софтуер, който събира медицински досиета и на тази база може да предвиди с 80% точност дали някой ще се опита да се самоубие през следващите две години. Страховитият софтуер, който управлява този подвиг, използва машинно обучение и фокусът на останалата част от тази публикация е как работи (особен и популярен вид) машинно обучение, какво може да ни каже за дебата за рационализъм/емпиризъм и естеството на ум или интелигентност и как трябва да се чувстваме за това.

Супер емпиризмът, както го използвам, е използването на алгоритми за машинно обучение и големи набори от данни, за да се получат прогнози над това, на което хората са способни в определени специфични области, като например прогнозиране на възможното медицинско бъдеще на човек въз основа на неговите записи. Ако машините могат да мислят - и няма да обсъждам този масивен въпрос тук - тогава може да се твърди, че рационалистичният модел на ума на Чомски не е подходящ за тях, но суперемпиризмът е. Тъй като няма да споря за решаващата предпоставка, която стои в основата на тази мисъл, аз наричам супер емпиризма философска фантастика (отново има за цел да припомни научната фантастика) и смятам, че си струва да бъде проучен като гледна точка поради присъщия му интерес. За да направя това обаче, искам, както направих за Чомски по-горе, да направя общ преглед на това как работи машинното обучение, защото, освен присъщата му интересност, специфичният характер на машинното обучение - и по-специално фактът, че тя (в известен смисъл) не се управлява от никакви твърди и бързи правила - е това, което я кара да бъде различна от възгледа на Чомски и това, което обяснява естетически интересните или предполагащи части от теорията. Така че, ако нямате много вкус към някои от леко техническите подробности, които следват, имайте предвид, че от тях ще се извлекат някои големи последствия.

Невронни мрежи, 1

Често обектът има свойство или може да има свойство, благодарение на това, че има друго, различно свойство или свойства. Например, ако някой има свойствата да е над 35 и под 65, роден в САЩ, мъж и да е посещавал Ivy League и юридическо училище, да е работил в правителството и да е бил обект на широко медийно внимание, тогава вероятността на това лице, което се опитва да се кандидатира за президент, е по-високо, отколкото за някой, който няма тези свойства.

Като цяло има набори от имоти от една страна и други имоти от друга, така че притежаването на първото увеличава шанса за притежаване на второто. За краткост нека наречем тези отношения между свойствата връзки: някои свойства са свързани с някакво друго свойство, ако вероятността обектът да притежава последното свойство е по-голяма, ако притежава първите свойства (и нека просто напълно игнорираме всякакви сложни въпроси за корелация/причинно-следствена връзка, както и въпроси относно природата на това какво е вероятността. Съжаляваме, философи на науката!)

Ето един факт: светът е пълен с връзки, които не можем да видим, защото сме ограничени същества. Връзката с президентството, спомената по-горе, е тази, за която знаем, защото президентът е може би най-влиятелният човек в света и всички знаем от ръка биографичните подробности на много президенти.

Но има много връзки, които просто нямаме достатъчно светски познания или време да изработим. Така че помислете например какво прави една публикация в социалните медии да стане вирусна. Има някои неща, които можем да познаем незабавно: да привлече голяма аудитория, да е забавен и т.н. Но има много други свойства, които могат да имат ефект, без да го осъзнаваме. Може би полът на подателя има значение: може би мъжете стават вирусни повече от не-мъжете. Може би възрастта има значение: може би да си между 24–35 години помага много. Може би времето от деня или денят от седмицата са от значение. Обратно, може би някои неща нямат значение: може би за целия ни англоцентризъм вирусните публикации (дефинирани като да речем такива с над 1000 ангажименти) е еднакво вероятно да бъдат на всеки език.

Или може би това е някаква изключително сложна смесица: може би, по някаква причина, мъж, който публикува нещо смешно във вторник пред много последователи, прави вирусност вероятно, както и жена, която не публикува вечер за политика. И може би някакво друго свойство, за което дори не съм мислил, играе изненадваща роля: може би, ако публикацията ви има повече от една снимка, шансът тя да стане вирусна е изключително ниска. Кой знае?

Невронните мрежи знаят или поне биха могли да знаят, ако някой се интересува достатъчно, за да кодира такава, за да отговори на този проблем. Те са начин да впрегнем способностите на компютрите за обработка на числа и големите набори от данни, които информационната епоха ни дава, за да се опитаме да намерим връзки между набори от свойства и целеви свойства, които са твърде сложни или изненадващи за хората, за да се ровят по начина, по който ние може да хвърли (до известна ограничена степен) възможни кандидати за президент. Когато са успешни, те ни дават по същество машина, с която можем да представим обект и да ни бъде казана точна оценка за това колко вероятно този обект има това целево свойство. За да видите това, са необходими някои технически подробности, така че ще започна с представяне на много опростен пример, който въпреки това показва някои от ключовите характеристики. Разчитам на Тарик Рашид, Направете своя собствена невронна мрежаза педагогическата идея да използвам прост пример като този по-долу, за да въведа темата, и като цяло горещо препоръчвам книгата на някой, който търси бърз и достъпен въведение, което въпреки това не избягва голяма част от важните математически подробности. Освен това няма да навлизам във въпроси като защо се наричат ​​невронни мрежи или историята на концепцията, защото тази информация може лесно да се намери в Google и ненужно би направила тази публикация дори по-дълга, отколкото е.

Точно както кандидатурата за президент е свързана с някои свойства и виралността може да бъде, така и свойството да тежиш 55 паунда е свързано с (единственото) свойство да тежиш 25 килограма и по-общо за всяко тегло в паундове има свързано тегло в килограми .

Да кажем, че искаме част от софтуера, който да класифицира човек като възможен президент, като се имат предвид неговите атрибути, публикация като вероятно вирусна, като се имат предвид факти за сътворението, или тегло в паундове, като се има предвид тегло в килограми, има очевиден начин да отидем: ние просто дефинирайте функция, която приема атрибутите или фактите за създаването или теглото в килограми като вход и изплюва отговора. В случая с теглото ще изглежда така:

Function convert(kilogram){
pounds=kilogram x 2.205
Return pounds
}

Тогава програма може да извика функцията по следния начин:

i= Get input “Tell me the weight in kgs you want converted”
Print convert(i) “ is the weight in pounds”

Лесно – но опитайте да направите това за президента или за вирусния случай и ще ви е трудно. Готината и решаваща идея, която лежи в сърцето на невронните мрежи, е, че не е нужно сами да дефинираме функцията: можем да оставим кода да изработи функцията, в смисъл, че когато й се даде определена стойност, тя ще даде правилния резултат.

За да видим това, нека да видим как един алгоритъм може да изработи функцията, свързваща теглото в килограми с теглото в паундове. Какво трябва да направим, ако не можем да захраним алгоритъма с процента на реализация, както направих по-горе?

Е, ето една мисъл: ние просто го оставяме да познае и след товасе опитваме да се коригираме. Курсив предумишлено: това е почти всичко, което концептуално има за невронните мрежи, дяволът, както винаги, е в детайлите. И така, ето как може да стане. Компютърът може да познае:

Function convert(kilogram){
pounds=kilogram x 3
Return pounds
}

Тоест предполага, че съответното уравнение е паундове=килограми x 3. Съответно ще изведе 75, но тъй като правилният отговор е 55, това е грешка с 20 паунда.

Ето една много важна концепция в невронните мрежи, която ще остане актуална дори и в по-сложните случаи: грешка. Ние използваме грешката, за да помогнем на функцията да се подобри. Разглеждаме грешката и след това оставяме компютъра да направи друго предположение въз основа на това колко е била грешката. Да кажем, че следващото му предположение е следното (където отсега нататък просто давам уравнението, а не цялата функция всеки път):

pounds=kilogram x 2.5

Това дава предположение от 62,5 и грешка от 7,5.

Грешката е много по-малка, така че следващото ни предположение трябва да е много по-близо до предишното. Да опитаме:

pounds = kilograms x 2.3

Това дава предположение 57,5 ​​и малка грешка от 2,5. Можете да видите как става това: ние продължаваме този процес, докато не сме толкова близо, колкото искаме да бъдем.

Всъщност не съм ви казал как да накарате компютър да прави това итеративно усъвършенствано отгатване, което очевидно е най-важното нещо. Просто ще трябва да се доверите, че можем да го направим (да се надяваме, че може би ще разберете, че това няма да е най-трудното нещо на света, ако имате опит в кодирането и има много полезни уроци само Google далеч).

Нека обобщим, защото всъщност научихме много. Искаме компютърът да определя функционалните връзки, така че го оставяме да познае, след което използваме грешката, за да прецизираме предположенията, докато получим верния отговор. Причината, поради която този вид нещо е полезно, е, че може да не знаем как да изработим функцията, дадена на някои атрибути, но компютърът може да изпробва много по-бързо много повече възможности, отколкото ние можем, и така можем да оставим работата да идваме с функцията към него.

Философска интерлюдия: Голям емпиризъм

Преди да премина към малко по-сложен — и незадължителен — пример, позволете ми да направя някои философски точки. Функцията е основно правило на формата: ако вкарате това, раздайте това. И голямата идея на машинното обучение е, че можем да оставим компютрите да работят функции, които ни интересуват. Нещо повече, ние видяхме, че машинното обучение може да се използва за получаване на почти призрачни прогнози за нас, като например какво ни очаква медицинското бъдеще, пред лицето на което може да изглежда, че сме в присъствието на разум: компютърът знае, можем да си помислим.

Но ако компютърът знае, той го прави по много различен начин от начина, по който познаваме граматиката на картината на Чомски. Голямата идея там, поне на доста естествено четене, е, че има някои вградени правила, които обясняват как усвояваме език въз основа на недостиг на стимули. И така, предполагам, че докато се движим към епоха, в която машинното обучение се натрапва, отваряме живота ни все повече и повече със своите извънземни предсказания, така че ще се движим все повече и повече, независимо от философските ангажименти, към концепцията за ума като нещо невъзможно -управляван от правила или поне управляван от правила извън нашето разбиране, до разбиране на естеството на интелигентността, според която неговата парадигма не е използването на език, а прогнози за машинно обучение с активирани големи данни, прогнози, които са резултат от функции които са неразгадаеми за нас, защото не са създадени от нас.

(Досега дори не съм споменал една от най-големите причини, поради които това трябва да ни плаши: защото невронните мрежи разчитат на данни за нас и тъй като ние сме супер расисти, сексисти и т.н., нашите невронни мрежи също. Тук може би повече от където и да е другаде е приложима старата поговорка в компютърните науки за боклука в боклука, защото компютрите трябва да се учат от купчината боклук, което е голяма част от човешкото поведение.)

(Може да се пропусне, ако трябва да отговорите на някои контрааргументи: Една от причините да харесвам блоговете вместо писането на академични статии е, че можете да се измъкнете с игнориране на контрааргументи, като вместо това се съсредоточите върху просто представяне на позиция по дадена тема. Но не мога въздържайте се да отговаряте на някои контрааргументи, които може да са хрумнали на читателя на последния абзац.Първото е, че тук няма напрежение, защото въпреки че компютрите отгатват правила, те го правят чрез правило, което ние поставяме в тях, а именно нещо като алгоритъм, който скицирах по-горе. Дори ако резултатите от машинното обучение са в известен смисъл неразгадаеми, те все пак също са проследими в смисъл, че нашият код ги кара да произвеждат тези неразгадаеми изходи. Когато проследите нещата достатъчно назад, вие сте оставен с добрата стара интрацеребрална човешка интелигентност, управляваща нощувката.

Справедливо: това изглежда правилно. Може би няма солиден аргумент, че в нашите компютри има особено различни супер-емпирични умове. Но това е добре. Както казах, третирам тази хипотеза като философска измислица, така че не съвсем сериозно, и това, което наистина ме интересува, е как трябва да се чувстваме по отношение на идеята, дори да поставим в скоби нейната истина. Нещо повече, дори ако моето мислене тук не е точно, мисля, че подхваща нещо в Zeitgeist: не мога да не мисля, че образът или мисълта, или чувството, или образът-мисъл-усещането, че нашите компютри са безконтролни зверове отвън нашият контрол е някъде там, че подобно усещане за образ-мисъл би било трудно за разбиране преди няколко десетилетия и че е малко вероятно да изчезне, тъй като все повече и повече призрачни подвизи за машинно обучение попадат в новините и го намирам за забавно образ-мисъл-чувство, с което да се занимавам интелектуално и въображаемо, и това е, което правя.

Ето втори контрааргумент: компютърът знае, предложих. Но, добре, не е ли това голяма спорна кутия с червеи да се отваря, или по-скоро да не се отваря и просто да се изхвърли и да се продължи напред? Със сигурност повечето от нас наистина не мислят, нито като теоретици, нито като обикновени хора, че компютрите знаят.

Добре може би. Привлечена съм от работата на Шели Търкъл по тази тема (вижте например нейния Alone Together), според която сме свикнали да приписваме разум на неща, които се държат разумно, дори и да знаем, че са нямам нищо против. Съответно съм изкушен да мисля, че каквито и скрупули да имаме относно твърденето, че компютрите знаят, това ще бъде опровергано от начина, по който навигираме в един машинно научен свят; че нашата навигация ще бъде навигация на вид същество, което си мисли, че знае, без значение какво казваме. Но това очевидно е голям проблем, с който не мога да се справя задоволително тук.)

Невронни мрежи, 2

Примерът с теглото, въпреки че извежда на преден план важните концепции, е достатъчно тривиален, че може да се чудите как методът, който е в основата му, може да се използва, за да даде страхотни прогнози, на които машинното обучение изглежда е способно. Съответно в този раздел ще разгледам някои подробности за това как може да функционира малко по-реалистична и мощна невронна мрежа, но ако не ви интересуват тези подробности, можете да пропуснете.

Спомнете си нашия пример с вирусна публикация. Първото нещо, което трябва да отбележим е, че има няколко входни свойства (за разлика само от това за тегло) и ние искаме те да бъдат входът към нашата машина, който ни казва дали публикацията ще стане вирусна или не. Ето една рисунка:

Позволете ми да опростя масово и не много задоволително, като приемем, че всички тези входове приемат само едно от две възможни числа като стойности (да речем 1 и 2), където това представлява някакъв вид разделение, свързано с въпросните свойства (времето ще бъде разделено на преди обяд или след обяд, пол женски или не-женски, ден делничен ден или уикенд, тема комедия или политика, език английски или не-английски, последователи над 1000 или под 1000).

Нещата отляво са входните свойства, средният бит е функцията, която компютърът ще научи за себе си, а нещото отдясно е изходът, който ще произведе.

Нека направим някои изключително опростени предположения. Да кажем, че този ден от седмицата се оказва изненадващо много важен - публикациите през делничните дни са много по-склонни да станат вирусни, отколкото публикациите през уикенда - и езикът изненадващо не е важен. Това, което искаме, е нашата мрежа да изработи този факт сама и да представи този факт по някакъв начин в своята мрежа. И един от начините да го направи би бил, ако придаде по-голяма важност на деня от седмицата. Ето как бихме могли да направим това: помислете за входа, пътуващ по връзка (линиите) във функцията, която увеличава или намалява нейното въздействие върху изхода на функцията. Имаме такива рисунки:

С подходящо дефинирана функция — в която изобщо няма да навлизам (има много места в мрежата, които да ви помогнат — потърсете в Google „функция за активиране“, за да започнете), не би трябвало да изглежда твърде неправдоподобно, че това може да даде правилният резултат: когато се даде публикация, която ще бъде представена като списък с числа, представляващи свойствата, споменати по-горе, тя ще изплюе тези, които са публикувани през уикенда на много последователи, независимо от езика. Разбира се, това, което прави една публикация вирусна, е много по-сложно от това, но се надяваме, че можете да видите как идеята може да бъде направена по-реалистична, като добавим повече свойства и ни позволи да правим разлика между туитове по-точно (както е, всички туитове са написани в делничен ден след обяд от човек за политика на английски на над 1000 последователи ще бъде определена същата вероятност да стане вирусен, което очевидно е грешен резултат).

Но дори и да добавим много свойства, все пак ще има нещо, което вероятно липсва от този вид настройка. Не забравяйте, че искаме да намерим входните свойства, които правят вероятните изходни свойства. Възможно е - вероятно е така - това, което прави вероятно повечето изходни свойства, да е някаква изключително сложна комбинация от входни свойства. Възможно е например, че макар езикът да няма значение сам по себе си, туит на английски от жена за политика, който е написан или през уикенда, или след обяд, вероятно ще стане вирусен. Бихме искали да уловим факта, че много сложното комбинирано свойство на да си на английски и на политика и или да пишеш през уикенда, или да пишеш след обядправи вирусност вероятна. можем ли да направим това Ние можем. Това, което правим, е да добавим набор от скрити слоеве, които функционират за представяне на връзки между свойства. Тези скрити слоеве са отчасти като вход и отчасти като изходи: те приемат входове и дават резултат, но след това самият резултат се предава напред, за да се получи окончателното прогнозиране на мрежата.

За съжаление в този момент силите ми за графичен дизайн, или по-скоро търпението ми да рисувам много, много линии, се изхабяват, така че ще трябва да използвате въображението си, когато гледате по-долу и си представете, че левите кръгове са нашите входни свойства , а цветът на проводника, водещ от първия до средния кръг, е показателен за това колко тегло придаваме на тези свойства:

Погледнете горния среден възел. Той получава силен сигнал от час, ден и последващи възли, изчислява междинен изход от тях, който изход отива силно към определяне на изхода. Грубо казано, това представлява мрежа, която смята, че свойствата на времето, деня и броя на последователите са важни за определяне на вирусността. С малко размисъл би трябвало да можете да видите как можем да използваме тези междинни възли, за да представим и неща като дизюнкция (orness) и конюнкции (andness), тоест да уловим важността на това, което нарекох по-горе много сложни комбинирани свойства.

Но, разбира се, решаващият въпрос е: как да стигнем до такава мрежа? Въпросът е, че не знаем предварително каква тежест имат връзките и има твърде много възможности да ги тестваме всички. Но отговорът е същият като в лесния случай: ние предполагаме, разработваме отговора, виждаме колко грешно е предположението, коригираме теглата съответно, изработваме отговора отново и продължаваме, докато имаме функция, която се справя добре с класифициране на някои известни вирусни публикации (които функционират като данни за обучение, концепция, която почти съм пренебрегнал). След това го подлагаме на истински тест и го пробваме на нов пост, който не е в данните за обучение, и виждаме колко добре се справя нашата мрежа.

Страхувам се, че правилното обяснение ще отнеме още няколко хиляди думи, така че с известно съжаление ще ви помоля или да го приемете на доверие, или — по-добре — да го проучите сами (google backpropagation и градиентно спускане, за начало). Но ако такава мрежа беше успешна, тя можеше да знае неща, които не знаем, по начин, който не разбираме напълно. Как трябва да се чувстваме за това?

Разказ 3, заключение

Ето една трета и последна история за край на нещата. Едип не знае кои са родителите му; той отива при оракул и той не му казва, но му съобщава неприятната новина, че ще убие баща си и ще прави секс с майка си. След това градът му се разболява и му казват, че това се дължи на замърсяването, причинено от убийството на баща му, и той трябва да открие убиеца, за да направи града по-добър, но отново оракулът не му казва донякъде важната информация, която самият той е убиецът. И това е сравнително право казано от оракула, който в други моменти е склонен да говори в досадни гатанки.

Мисля, че би могло да се каже, че един оракул е арационален разум: той знае нещата, но не може да бъде разсъждаван с него. Друг начин да го кажем е, че това не е общ интелект: той не може да прави всички неща, които хората могат да правят. Може да каже, но не може да отговори на въпроси.

Изследователите на ИИ искат обща интелигентност и макар да я нямат, те имат някои доста прилични специфични интелигентности, интелигентности, за които предположих, че суперемпиризмът е верен. Това е нов вид ум, способен да обработва много повече данни, отколкото нашите слаби човешки мозъци биха могли да обмислят, и да открива модели, които ние никога не бихме могли.

Какво да мислим за този нов вид ум? Трябва да ги приемем за оракули и трябва да гледаме на нашия свят като на преследван от не съвсем всички супер интелигентности, от умове, способни да се намесват в човешките дела и да преглеждат нашите данни, за да ни кажат, че може да се разболеем, или да отидем в затвора, или да умрем , или да ни съдят негативно, защото принадлежим към исторически преследвана група, но неспособна да ни предложи нищо друго освен тези сурови прогнози и преценки. И така заключавам: свръхемпиричните умове са подходящ обект на страх и съжаление за една епоха без митове.