Эта статья основана на проекте, который я реализовал вместе с моими друзьями Нахидом М.А., Полом Элиасом и Шивом Шанкаром Натхом.

Сегодня Интернет поддерживает широкий спектр языков. Таким образом, концепция машинного перевода действительно стала важным фактором, объединяющим людей, говорящих на разных языках. В этой статье мы рассмотрим процесс перевода с английского на малаялам с использованием правил перевода.

ЧТО ТАКОЕ МАШИННЫЙ ПЕРЕВОД?

Машинный перевод можно определить как процесс, с помощью которого программное обеспечение преобразует текст или речь на одном языке в другой язык. Другими словами, это исследование проектирования систем, которые переводят текст с одного естественного языка на другой. Машинный перевод помогает людям из разных мест понять незнакомый язык без помощи человека-переводчика.

ПОЧЕМУ МАШИННЫЙ ПЕРЕВОД?

Машинный перевод значительно дешевле, чем человеческий переводчик. Они могут просеивать чрезвычайно большие объемы данных за очень короткий промежуток времени. Компьютерные программы могут последовательно преобразовывать огромные объемы данных в течение небольшого промежутка времени. Если бы это делалось вручную, на это ушли бы недели или даже месяцы.

«Без перевода я был бы ограничен границами своей страны. Переводчик — мой самый важный союзник. Он знакомит меня с миром».
– Итало Кальвино

ПРАВИЛА ПЕРЕДАЧИ В МАШИННОМ ПЕРЕВОДЕ

Правила переноса могут быть определены как набор лингвистических правил, которые определяются как соответствие между структурой исходного языка и структурой целевого языка. Использование правил переноса — один из наиболее распространенных методов машинного перевода.

МТ с использованием правил передачи можно разделить на три этапа:

  • Анализ текста на исходном языке для определения его грамматической структуры
  • Перевод полученной структуры в структуру, пригодную для генерации текста на целевом языке
  • Генерация выходного текста

В этом проекте мы используем правила передачи малаялам. Это набор правил, которым необходимо следовать, чтобы строить предложения на малаялам с хорошей грамматической структурой:

Все «коды», упомянутые в приведенной выше таблице, представляют различные части речи.

В этой программе использовались различные правила переноса для получения точных результатов. NP (фраза существительного) и VP (фраза глагола) считаются родительскими тегами.

Вот некоторые из правил передачи, которые были реализованы:

  • Если родительский тег VP содержит дочерний тег VBZ NP, он переупорядочивается как NP VBZ.
  • Если родительский тег NP содержит дочерние теги NP PP, он переупорядочивается как PP NP.
  • Если родительский тег NP содержит дочерние теги NP VP, он переупорядочивается как NP NP.
  • Если родительский тег VP содержит дочерние теги VBG NP, он переупорядочивается как NP VBG.

ИМПОРТ ПАКЕТОВ

ИСПОЛЬЗУЕТСЯ НАБОР ДАННЫХ

Для этого проекта использовался набор данных Olam English-Malayalam. Это растущий, бесплатный и открытый англо-малаяламский словарь с более чем 200 000 статей. Набор данных состоит из английских слов, их определений на языке малаялам и тегов части/фигуры речи.

Ссылка на набор данных: https://olam.in/open/enml/

АЛГОРИТМ

ОБРАЗЕЦ ВЫВОДА

Рассмотрим введенный текст «Она водит машину».

Первоначально происходит маркировка POS каждого слова, как показано ниже.

После применения правил переноса и перевода слов мы получаем вывод.

В задаче машинного перевода ввод уже состоит из последовательности символов на каком-то языке, и компьютерная программа должна преобразовать ее в последовательность символов на другом языке.

- Страница 98, Глубокое обучение, 2016.

ПРЕИМУЩЕСТВА МТ С ИСПОЛЬЗОВАНИЕМ ПРАВИЛ ПЕРЕДАЧИ

Машинный перевод с использованием правил переноса имеет свои преимущества перед другими традиционными методами перевода. К ним относятся :

  • Этот метод учитывает грамматическую структуру переведенного малаяламского предложения.
  • Этот метод дает более значимые результаты по сравнению с MT на основе правил (RBMT).
  • Используя POS-теги, мы можем определить, какую часть речи представляет каждое слово в предложении.

НЕДОСТАТКИ МТ С ИСПОЛЬЗОВАНИЕМ ПРАВИЛ ПЕРЕДАЧИ

Этот метод машинного перевода также имеет свои недостатки. К ним относятся :

  • Чтобы повысить точность, нам нужно добавить большое количество правил.
  • В некоторых случаях POS-теги присваиваются словам без учета контекста предложения. Это может повлиять на точность вывода.
  • Написание правил переноса требует много времени. Кроме того, необходимы хорошие языковые знания. Нужно хорошо разбираться в языке, чтобы вывести правила переноса.
  • Неумение точно переводить сарказм и идиомы. В таких случаях учитывается буквальное значение ввода. Не буквальное, выразительное значение идиом, таких как «Это кусок пирога» и «Выпусти кота из мешка», не будет рассматриваться.

ЗАКЛЮЧЕНИЕ

В заключение, машинный перевод — это задача автоматического преобразования исходного текста на одном языке в текст на другом языке. В этом случае мы внедряем MT с использованием правил передачи для преобразования английского языка в малаялам. Этот метод можно применять даже для других языков. На протяжении многих лет точность систем МТ постоянно улучшалась. Теперь у нас есть модели перевода ИИ, которые способны давать очень точные результаты с очень высокой скоростью.

Мы можем только гадать, что ждет МТ в будущем. Чем бы это ни обернулось, оно, несомненно, продолжит вызывать значительные волнения в языковой индустрии.

ССЫЛКИ

  • Ремия Раджан, Ремья Сиван, Ремья Равиндран, К. П. Соман - Машинный перевод на основе правил с английского на малаялам, Международная конференция по достижениям в области вычислительных, управляющих и телекоммуникационных технологий, 2009 г.
  • Марта Р. Коста-Хусса, Мирейя Фаррус, Хосе Б. Марино, Хосе А. Р. Фоноллоса, Исследование и сравнение основанной на правилах и статистической каталонско-испанской системы машинного перевода, Вычислительная техника и информатика, Vol. 31, 2012
  • Анита Т. Наир, Сумам Мэри Идикула, 978–1–4673–2149–5/12/31.00 IEEE 2012
  • Бао Фам - Тегирование частей речи: на основе правил, Гаррисбергский университет науки и технологий
  • https://en.wikipedia.org/wiki/Transfer-based_machine_translation