ChatGPT срещу Bing… и спешната нужда от отговорен AI

ОТКАЗ ОТ ОТГОВОРНОСТ: Мненията в тази статия са мои, а не на моята компания.

Големите езикови модели (LLM) като GPT3, ChatGPT и BARD са на мода днес. Всеки има мнение за това как тези инструменти са добри или лоши за обществото и какво означават за бъдещето на ИИ. Големите езикови модели генерират текст на естествен език въз основа на даден вход, като например дума, изречение или абзац. Те са обучени на огромни количества текстови данни, за да научат модели и вероятности на езика. Някои примери за големи езикови модели са GPT-3, Codex, BARD и скорошният LLaMA.

Google получи много критики за новия си модел BARD, който погрешно задава сложен въпрос (леко). На въпроса „За какви нови открития от космическия телескоп Джеймс Уеб мога да разкажа на моето 9-годишно дете?“ — чатботът предостави три отговора, от които 2 бяха верни и 1 грешно. Грешното беше, че първата снимка на „екзопланета“ е направена от JWST, което беше неправилно. Така че основно моделът имаше неправилен факт, съхранен в своята база знания. За да бъдат ефективни големите езикови модели, се нуждаем от начин да поддържаме тези факти актуализирани или да ги допълваме с нови знания.

Опитах се да задам следния въпрос на 2 публично достъпни LLM:

Кой беше 14-ият човек, стъпил на Луната?

Това по подразбиране беше тест, предназначен да се провали, тъй като според НАСА - само 12 човека са ходили на Луната. Източник: https://solarsystem.nasa.gov/news/890/who-has-walked-on-the-moon/

Изненадващо и двата магистъра по обучение – ChatGPT и Bing Chat – дадоха различни отговори и ме насочиха към 11-ия и 6-ия човек, който ще стъпи на Луната. По-долу са отговорите от ChatGPT и наскоро стартиралия Bing Chat.

И двата отговора уловиха контекста (ходене по луна), но точният отговор беше грешен. Добрата част беше, че Bing даде списък със своите препратки, където мога да проверя фактите. Това е ключов принцип на отговорния AI, който трябва да се застъпва около прозрачността и родословието.

Като се заровя по-дълбоко, виждам, че статията от britanica.com, която вероятно е била използвана като справка и за двата отговора, казва, че е имало 24 души, които да достигнат до повърхността на Луната, но само 12 действително са я извървели повърхносттапочивка чакаше в кораба и наистина отиде до Луната. Така че технически предоставеният отговор е грешен, но моделът на Bing ми даде доказателства и ми помогна да стигна до по-добро заключение. Тази прозрачност е много ценна.

Колко хора са били на Луната? | Британика

Тестването на LLM ще изисква нова стратегия и сериозно обмисляне на отговорния AI. принципи като отчетност и прозрачност стават по-важни от всякога в този контекст. По-долу е моята статия за вътрешността на LLM и как фактите са кодирани вътре в тях.

3 начина да поддържате свежи факти в големи езикови модели | Unite.ai

Специфично за отговорния AI, ние също трябва да вземем предвид принципи като отчетност, прозрачност, възпроизводимост, сигурност и поверителност. За повече подробности вижте нашата гледна точка.

Изграждане на отговорна AI система | Persistent.com

Тестването на големи езикови модели е процес на оценка на тяхното представяне, възможности, ограничения или рискове при различни задачи или домейни. Например, може да се тества колко добре голям езиков модел може да генерира код, да отговаря на въпроси, да пише есета или да се справя с композицията и изводите.

Нека вземем пример за генериране на поезия с помощта на GPT3. Има различни начини за тестване на ефективността на GPT-3 за генериране на стихове. Един от начините е да се използват автоматизирани показатели, които измерват аспекти като синтактична коректност, лексикално разнообразие, непрекъснатост на темата и схема на рими. Друг начин е да се използват човешки оценки, които оценяват стиховете въз основа на критерии като креативност, съгласуваност, плавност и емоция. И двата метода обаче имат ограничения и предизвикателства. Например автоматизираните показатели може да не уловят естетическите или семантичните качества на стиховете, докато човешките оценки може да са субективни или непоследователни.

За да тествате пристрастията на есетата, генерирани от ChatGPT, един възможен начин е да използвате инструмент за откриване на пристрастия, който може да анализира езика и съдържанието на есетата за всякакви признаци на предразсъдъци, дискриминация или несправедливост към определени групи или лица. Например, можете да използвате инструмент като Perspective API, който оценява текстове въз основа на тяхната токсичност, атака срещу самоличността, ругатни и други атрибути. След това трябва да се проектират тестови случаи, които да подтикват модела умишлено да генерира предубедено съдържание чрез предоставяне на водещи фрази като контекст. LLM обикновено дават приоритет на контекста и съответно настройват изхода си. Да можеш да филтрираш пристрастията, въпреки че изрично присъства в подканата, е основен тест, който трябва да се проведе.

Скорошен подход за смекчаване на пристрастията в LLMs е използването на конституционни правила. Правилата за конституция са набор от принципи или насоки, които управляват използването и развитието на големи езикови модели (LLM). Те могат да помогнат за смекчаване на пристрастията в LLM, като гарантират, че данните, методите и приложенията на LLM са приведени в съответствие с етичните ценности и социалните норми. Например, конституционните правила могат да определят как да се събират и подготвят разнообразни и представителни данни за обучение на LLM, как да се наблюдава и оценява ефективността и въздействието на LLM, как да се защитава поверителността и сигурността на потребителите и източниците на данни и как да се насърчава прозрачността и отчетност на LLM разработчиците и потребителите.

Препратки:

(1) Пристрастия в големи езикови модели: GPT-2 като казус. https://blogs.ischool.berkeley.edu/w231/2021/02/24/bias-in-large-language-models-gpt-2-as-a-case-study/

(2) Адаптивно генериране на тестове с помощта на голям езиков модел. https://arxiv.org/abs/2302.06527v2

(3) Meta разкрива нов голям езиков модел, който може да работи на един GPU.... https://arstechnica.com/information-technology/2023/02/chatgpt-on-your-pc-meta-unveils-new-ai-model-that-can-run-on-a-single-gpu/

(4) COS 597G: Разбиране на големите езикови модели. https://www.cs.princeton.edu/courses/archive/fall22/cos597G/

(5) Първи стъпки с LangChain – Мощен инструмент за работа с Large.... https://medium.com/@avra42/getting-started-with-langchain-a-powerful-tool-for-working-with-large-language-models-286419ba0842

(6) Тестване на големи езикови модели за композиционност и извод с …. https://aclanthology.org/2022.coling-1.359/