Распознавание речи без речи или с шумной речью за пределами английского

В последнее время распознавание речи во многом основано на многочисленных достижениях, которые способствуют развитию вычислительного языка в области машинного обучения. Такие достижения требуют распознавания речи, которое может обеспечить надежное распознавание и перевод разговорной речи в текст компьютерами, что является движущей силой активных исследований в этой области.

Распознавание непрерывной зашумленной речи с использованием модели коннекционистской временной классификации (CTC)

Впервые исследователи применили распознавание непрерывной речи, используя только функции ЭЭГ для китайского или многоязычного словаря. Они демонстрируют автоматическое распознавание речи (ASR) на основе глубокого обучения с использованием сигналов ЭЭГ для ограниченного словарного запаса английского языка, состоящего от 4 слов до 5 гласных. Они также демонстрируют непрерывное распознавание зашумленной речи с использованием ЭЭГ для увеличения словарного запаса английского языка с использованием модели временной классификации коннекционистов (CTC) и модели внимания.

В своем исследовании они отмечают, что модель внимания давала более высокие показатели ошибок по сравнению с моделью CTC при обучении с меньшими наборами данных характеристик ЭЭГ. Таким образом, они используют только модель СТС в исследовании. Они также расширяют свой словарный запас китайского языка и объединяют китайский английский или многоязычный словарный запас. Они использовали очень шумные речевые данные для работы и продемонстрировали более низкую частоту ошибок символов (CER) для меньшего размера корпуса с использованием функций ЭЭГ.

Возможное использование и эффекты

Эта работа демонстрирует возможность использования функций ЭЭГ для надежного многоязычного распознавания речи, что может помочь в реализации голосовых технологий для людей с пиковыми ограниченными возможностями.

Он может помочь системам автоматического распознавания речи (ASR), таким как прямой голосовой ввод с самолета, простые голосовые команды для преодоления потери производительности в присутствии фонового шума, позволяя им работать с высокой точностью в очень шумных средах, таких как аэропорты, торговые центры и т. Д.

Предлагаемая база данных речевой ЭЭГ может быть расширена для содействия дальнейшим исследованиям в этой области.

Подробнее: https://arxiv.org/abs/1906.08045

Спасибо за прочтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!