Меню
RU EN
Главная Компания Блог Редкие языки в машинном переводе

Редкие языки в машинном переводе

27.01.21

Всегда ли пользователям Сети удается перевести иностранный сайт на свой родной язык? Как быть, если в списке доступных его нет, а английским они не владеют? Около года назад компания Amazon объявила, что ее сервис онлайн-перевода будет поддерживать 22 новых языка. Эта новость отвечает общей тенденции: автоматический перевод осваивает всё больше «редких» языков.

Системам МТ требуется огромное количество двуязычных корпусов текста – как минимум 10 миллионов пар предложений! Интернет становится основным ресурсом для поиска источников, однако не везде он одинаково доступен. Поэтому материалов на хинди или словенском, которые условно относят к т. н. низкоресурсным языкам, гораздо меньше, чем на высокоресурсных английском или немецком. При этом хинди – один из самых распространенных языков на планете.

Конечно, МТ проще работать с «высоким ресурсом». Но теперь в игру вступили низкоресурсные языки. И вот почему:

1. Быстрое развитие МТ

В основе современного МТ лежат нейронные сети и глубокое обучение. Его алгоритмы способны обрабатывать даже те языки, грамматическая структура которых не имеет параллелей (например, успешно переводить с английского на японский).

2. Новый фокус и экономика

Нейронный МТ уже показал себя в высокоресурсных языках. Соответственно, появилась возможность инвестировать в переводческую базу для «низкого ресурса». Это удачно совпадает с диверсификацией рынка: растет интерес к международному сотрудничеству в узком направлении (например, медицина и медицинский перевод), а также популярность более «редких» языков (так, Яндекс считается главной платформой для русского языка, а Baidu– для китайского).

Технологии помогают нам преодолевать расстояния и языковые барьеры. Пришло время обратить внимание на Восточную Европу, Скандинавию и Азию – с дальнейшим развитием МТ расходы на перевод и локализацию для аудитории в этих регионах будут  существенно снижаться.

Более подробная информация на английском языке доступна здесь.