В области преобразования текста в речь существует принцип: чем более ограничен словарный запас, тем выше точность. И, наоборот, чем больше словарный запас, тем ниже точность.
Система, подобная VoiceXML (используемая в основном для программного обеспечения телефонных подсказок), имеет очень строгий словарь и обычно хорошо работает в тех областях, для которых она была адаптирована.
Такая система, как Watson TTS, полностью открыта, но компенсирует недостаток точности, возвращая уровень достоверности для нескольких различных интерпретаций звуков. Короче говоря, он перекладывает на вас большую часть работы НЛП.
Amazon очень сознательно выбрала для Alexa золотую середину. Их модель намерений обеспечивает большую гибкость, чем VoiceXML, но не такая либеральная, как система диктовки. Результат дает вам довольно хорошие варианты и довольно хорошее качество.
Из-за их решений у них есть модель голоса, в которой вы должны заранее объявить все, что он может распознать. Если вы сделаете это, вы получите последовательное и качественное признание. Есть способы, как говорили другие, «обмануть» его, заставив поддерживать «общий слот». Однако, поступая так, вы выходите за рамки их дизайна, а последовательность и качество страдают.
person
Joseph Jaquinta
schedule
23.06.2016