Распознавать речь сложно

Речь - наиболее естественная форма общения для нас, это наша вторая натура. И теперь наши машины начали распознавать нашу речь, и они все лучше и лучше общаются с нами.

Текущие голосовые помощники и устройства, такие как Amazon Alexa и Google Home, становятся все более популярными с каждым месяцем - они меняют то, как мы делаем покупки, как мы ищем, как мы взаимодействуем с нашими устройствами и даже друг с другом.

Первое программное обеспечение для распознавания речи было разработано в 1950-х годах, и с тех пор мы прошли долгий путь.

Мы потому что можем говорить

___

Неизвестно, когда люди начали разговаривать друг с другом. Оценки сильно различаются: от 50 000 лет назад до зарождения человеческого рода более 2 миллионов лет назад. Мы можем не знать, когда доисторические люди начали говорить, но мы знаем, что они говорили, потому что знаем.

В среднем человек говорит около 150 слов в минуту (слов в минуту), в то время как средний человек печатает около 50 слов в минуту - мы можем общаться гораздо больше с помощью голоса, чем с помощью текста.

Но все не так просто - наше общение не сводится к тому, сколько слов в минуту мы говорим. Речь - это не что-то одно. В речи имеет значение контекст, где мы говорим, почему мы говорим, кто наша аудитория, какова наша цель. Короче говоря, речь сложна и сложна.

Речь сложная и запутанная

___

То, как мы говорим, сильно различается:

Аудиокниги рекомендуется составлять около 150–160 слов в минуту.
Рекомендуется, чтобы слайд-презентации были ближе к 100–125 слов в минуту (в удобном темпе).
Аукционисты могут говорить со скоростью около 250 слов в минуту.
Джон Москитта-младший занесен в Книгу рекордов Гиннеса как самый быстрый говорящий в мире, со способностью говорить 586 слов в минуту. Его рекорд был побит в 1990 году Стивом Вудмором, который говорил 637 слов в минуту, а затем Шоном Шенноном, который говорил 655 слов в минуту 30 августа 1995 года. Шон Шеннон прочитал монолог Гамлета «Быть или не быть» (260 слов) за 23,8 секунды.

Человеческое общение немыслимо без речи. Во время разговора мы выполняем синтез речи, распознавание речи и понимание речи.

Как два человека общаются?

___

В речи мы пытаемся передать наши мысли и переживания звуками и языком.

« Какая пропасть между впечатлением и выражением лица! Такова наша ироническая судьба - испытывать шекспировские чувства и (если только не миллиард к одному шанс, что мы оказались Шекспиром) говорить о них, как продавцы автомобилей, подростки или преподаватели колледжей. Мы практикуем алхимию в обратном порядке - прикоснитесь к золоту, и оно превратится в свинец; прикоснуться к чистой лирике опыта, и они превращаются в словесные эквиваленты чуши и чуши ». - Олдос Хаксли, Гений и Богиня

Речевое общение можно разбить на следующие:

Спикер формулирует свои мысли словами.
Динамик воспроизводит звук с помощью голосовых связок и речевой системы.
Звук передается через акустическую волну в воздухе к уху слушателя в виде вибраций.
Звук передается в мозг слушателя через слуховые нервы.
Эти вибрации преобразуются в некий «язык» в его мозгу.
Мозг извлекает значение из звука.

Основная цель системы автоматического распознавания речи (ASR) - создать систему, которая может имитировать человека-слушателя.

Основная цель системы автоматического распознавания речи (ASR) - создать систему, которая может имитировать человека-слушателя, то есть она может «понимать» наш разговорный язык и реагировать - это означает, что система может соответствующим образом реагировать на произносимые слова и преобразовывать речь в другом носителе, таком как текст.

С 1930-х годов исследователи пытались создать машину, которая может воспроизводить, распознавать и понимать человеческую речь так же, как человеческую (или лучше, чем человек). [Я расскажу об истории распознавания речи - людях, историях, успехах и неудачах - в одном из последующих блогов.]

За последние несколько лет исследователи добились значительного прогресса в решении этой проблемы, но общее распознавание речи до сих пор не решено ни для одного языка. И это потому, что распознавать речь сложно.

Почему машинам сложно распознавать речь?

___

Система автоматического распознавания речи (ASR) - это система аппаратного и программного обеспечения, в которой входом является звук голоса (речи), а выходом - идентификация произнесенных слов.

Среднее поле - это вся система, которая может анализировать речь, обычно улавливаемую микрофоном, а затем расшифровывать ее в виде текста, который может использоваться машиной.

Почему так сложно распознавать речь? Мы делаем это практически без усилий. Распознавать речь сложно, потому что слушать труднее и сложнее, чем мы наивно думаем. Давайте посмотрим, что мы делаем и что должна делать машина:

У нас есть физиология и анатомия, чтобы воспринимать акустическую волну. (Машина должна преобразовать аналоговый сигнал (акустическую волну) в цифровое представление).
Когда кто-то говорит с нами, скажем, в ресторане, мы должны отделить его слова (это называется сигнал) от всего фонового шума - обратите внимание, что шум могут различаться - телефонные звонки, акустика комнаты, разговоры других людей, движение транспорта (если окно открыто) и т. д. (машина должна отделять речь от шума).
Иногда люди говорят слишком быстро (или слишком медленно) - они не останавливаются или не замедляются в конце предложения, прежде чем начать новое. Предложения звучат как непрерывный длинный поток слов (сложно «услышать» структуру предложения только по звуку), и неясно, когда заканчивается одно слово и начинается другое. (Машине необходимо будет обрабатывать эти конечные точки в речи).
Все звучат по-разному - возраст, пол, акцент, стиль, личность, контекст, намерения и т. Д. - все влияет на голос и речь. Черт возьми, даже один человек не скажет фразу «Как дела?» каждый раз так же - голоса меняются регулярно. (Машина должна учитывать изменчивость речи (возраст, пол, акценты и т. Д.)).
Более того, предположим, что мы ведем один разговор с 9-летним, 90-летним и несколькими другими людьми, которые говорят на разных диалектах или имеют разные акценты, тогда мы должны понять основная ветка беседы и то, что все говорят (по крайней мере, большую часть времени). Мы должны понять, что слово «кошка» означает одно и то же, независимо от того, кто это говорит. (Машина должна распознавать звуки, даже если они произносятся по-разному - «кошка» и «кааатт» - совершенно разными людьми - 9-летним американским мальчиком и 60-летней испанкой).
Есть много слов, которые звучат одинаково или одинаково (например, «to», «too», «two»), но означают очень разные вещи (это омофоны). Нам нужно знать, какое слово (и значение) имеет в виду говорящий. (Машина должна устранять неоднозначность омофонов).
В речи мы используем множество наполнителей, таких как «ммм», «ошибка», «хм» и т. Д., И мы инстинктивно знаем, как их отфильтровать. Они не сбивают нас с пути и не заставляют нас неправильно интерпретировать слова говорящего. (Машина также должна будет фильтровать эти наполнители).
А потом возникают недопонимания - мы неправильно слышим предложения. Недавно у меня был такой опыт: мой друг говорил мне название улицы, и я угадал около 5 разных вещей - все были неправильными - от названий до продуктов питания! (Машина также должна справляться с такими недоразумениями, и они должны быть значительно лучше нас в этой задаче - потому что мы находим такие ошибки в машинах раздражающими).
Наконец, если все это звучит не так уж и много, мы должны знать синтаксис и семантику языка, который мы используем, а также контекст.

Удивительно, что все это (и, возможно, многое другое) мы делаем в простом разговоре. В этом смысле наш мозг невероятен. Поэтому неудивительно, что машины с трудом справляются со всем этим. Тем не менее, распознавание речи прошло долгий путь, и это может быть только начало.

Как машины могут распознавать речь?

___

Вы проходите только волнами. Твои губы шевелятся, но я не слышу, что ты говоришь. - Pink Floyd, Comfortably Numb

В идеальных условиях машины лучше справляются с системами распознавания речи, чем в реальной жизни. Идеальные условия обычно означают: 1) взрослый белый мужчина 2) в тихой комнате 3) говорить (намеренно и медленно) 4) прямо в хороший микрофон. Но реальный мир запутан.

Давайте разберемся с потоком ASR высокого уровня:

Мы увидели некоторые концептуальные проблемы при построении автоматизированной системы распознавания речи. Итак, что может быть в среднем поле? На создание хорошей системы?

Компоненты ASR

___

Система ASR обычно состоит из следующих компонентов:

Цифровое представление для ввода (и способ его извлечения)
Компонент извлечения признаков: определяет части входных данных, содержащих речь, а затем преобразует эти части в последовательности так называемых акустических параметров.
Данные / корпус для обучения и тестирования: эта база данных представляет собой набор записанной речи, дополненной необходимыми аннотациями и транскрипциями. Этот корпус должен быть достаточно большим и релевантным, чтобы охватить вариативность речи в данном случае использования.
Акустические модели: акустическая модель берет форму волны речи, разбивает ее на небольшие фрагменты и предсказывает наиболее вероятные фонемы в речи.
Модели произношения: модель произношения берет звуки и связывает их вместе, чтобы образовать слова, то есть связывает слова с их фонетическими представлениями.
Языковые модели: языковая модель берет слова и связывает их вместе в предложения, то есть предсказывает наиболее вероятную последовательность слов (или текстовых строк) среди нескольких наборов текстовых строк.
Алгоритмы для эффективного поиска в пространстве гипотез (известные как декодер): он объединяет прогнозы акустической и языковой моделей и выводит наиболее вероятную текстовую строку для данного входного речевого файла.

Цель системы - объединить эти разные модели, чтобы получить оценку вероятности уже наблюдаемой звуковой последовательности (в базе данных речи) с учетом входного предложения. Затем система просматривает пространство всех предложений и выбирает предложение с наибольшей вероятностью входного исходного предложения.

А теперь подумайте о наборе всех английских предложений - этот набор невероятно велик, поэтому нам нужен эффективный алгоритм, то есть алгоритм, который не выполняет поиск по всем возможных предложений, но выполняет поиск только тех предложений, которые имеют достаточно хорошие шансы на совпадение ввода, что делает это проблемой поиска (или проблемой декодирования).

Каковы некоторые характеристики системы ASR? Как мы можем думать о разных типах систем ASR? Это часть 2 - я разберу каждый компонент системы ASR и компромиссы, которые мы должны сделать при создании такой системы.

Часть 2 - Характеристики системы ASR (скоро…)

Веселые цитаты на языке [почему бы и нет?]

___

«Я не сомневаюсь, что язык обязан своим происхождением подражанию и модификации с помощью знаков и жестов различных естественных звуков, голосов других животных и собственных инстинктивных криков человека». - Чарльз Дарвин, 1871. Происхождение человека и отбор в отношении пола

«Человеческая речь похожа на треснувший чайник, в котором мы отбиваем грубые ритмы, чтобы медведи могли танцевать под них, а мы стремимся создавать музыку, которая растопит звезды». - Гюстав Флобер, мадам Бовари

«Если вы говорите с мужчиной на языке, который он понимает, это идет ему в голову. Если вы говорите с ним на его языке, это касается его сердца ». - Нельсон Мандела

«Между тем, бедная вавилонская рыба, эффективно устраняя все препятствия для общения между разными расами и культурами, вызвала больше и более кровопролитных войн, чем что-либо еще в истории создания». - Дуглас Адамс, Путеводитель по галактике автостопом

Другие вещи

Некоторые другие статьи, которые я написал (на случай, если вам интересно):

Революция продления жизни - Часть 1: Одна по-настоящему серьезная проблема нашего времени - смерть. Это потому, что когда время вышло, время действительно истекло. Тебя больше нет. Все ваши уроки, попытки, испытания, ошибки, эмоции, идеи, переживания, желания, стремления, мечты больше не существуют. Как ни велико ваше желание жить, вы не проживете. Читать дальше…

Машины, которые играют (обзор): Эта серия статей посвящена истории искусственного интеллекта и игр (до Deep Blue) и посвящена машинам, которые играли в шахматы, шашки и нарды. Рассмотрены следующие темы: как построить шахматные машины, работы Шеннона по шахматам, работы Тьюринга по шахматам, Турок, Эль-Аджедресиста, MANIAC, шахматная программа Бернштейна, шашки Самуэля, Mac Hack VI, Cray Blitz, BKG, HiTech, Chinook, Deep Thought, TD-Gammon и Deep Blue. Читать дальше…

Распознавать речь сложно - часть 1

Мы потому что можем говорить

Речь сложная и запутанная

Как два человека общаются?

Почему машинам сложно распознавать речь?

Как машины могут распознавать речь?

Компоненты ASR

Веселые цитаты на языке [почему бы и нет?]

Другие вещи

Похожие вопросы