Редким языкам спешат на помощь … переводческие программы

6 июня 2012 года

Возможно, вам кажется, что в Интернете делать нечего и совсем неинтересно, но хотя бы вся информация, выложенная в сети, вам понятна и читабельна. А вот миллионам людей из разных уголков нашей планеты, несмотря на легкий доступ и передовые переводческие технологии, Интернет недоступен из-за языкового барьера – их язык просто-напросто не поддерживается ни одним браузером.

Сетевые гиганты Microsoft и Google решили исправить такое несправедливое положение дел, сделав упор на развитие технологий перевода с и на языки, которые ранее были забыты — если не сказать «убивались» — Интернетом.  До сих пор многолетние усилия обеих компаний были направлены на перевод с английского, испанского, китайского и других самых популярных языков.

Современные переводческие программы бесплатны, но толку от них мало – это просто океан документации. Вместо того, чтобы изучать языки посредством анализа грамматики, алгоритмы-сборщики статистических данных прочесывают Сеть, сравнивая сотни миллионов оригинальных документов и их переводы, выложенные в Интернете.

Новинки, о которых сообщают представители компаний, ориентируются на менее известные наречия и будут действовать несколько иначе. Google недавно объявил об альфа-версии технологии для пяти индийских языков (бенгальского, гуджарати, каннада, тамильского и телугу); алгоритм будет основан на принципах грамматики. Microsoft, со своей стороны, выпустил приложение, позволяющее языковому сообществу самостоятельно строить переводческие программы для своего языка, загружая все необходимые ресурсы.

Впервые специалисты Google пришли к выводу, что без «обучения» системы грамматики не обойтись в момент отшлифовки переводческой программы японского языка, сообщает Ашиш Венугопал, один из разработчиков нового программного обеспечения. “У нас получались предложения с глаголом посредине, а в японском они должны быть в конце”, говорит он. Проблема заключается в том, что по большей части программа совершенно не разбирается в грамматике.

Осознав ошибку «неграмотности» программы, Google в ходе разработки переводчика индийских языков, на которых оффлайн общаются миллионы, снабдил базы данных массой типовых предложений с помеченными частями речи.

Венугопал признает, что система до сих пор отстает от  переводчика Google для распространенных языков, типа французского и немецкого. Но, по его словам, это уже кое-что. “Для нас очень важно, чтобы редкие языки были представлены в Сети”, говорит он. “Мы не хотим, чтобы людям приходилось выбирать, писать им в блог на родном языке или на английском. Мы хотим, чтобы мир мог прочитать этот блог”.

У Microsoft свои лингвистические амбиции. Кристин Толле, директор отдела разработок компании, говорит о важности спасения исчезающих видов. Ее команда ученых недавно открыла страницу, на которой каждый может создать свою переводческую программу. Предполагается, что в этом Translation Hub будут собираться представители разных  языковых сообществ. Сначала посетитель страницы создает учетную запись, потом загружает на сервер материалы на исходном и целевом языке, а алгоритмы Microsoft пытаются на их основе создать переводческую программу для этого языка. В разработке программы принимали участие представители хмонгов из Фресно, крупной калифорнийской общины этого народа. Для языка хмонгов переводческих программ до сих пор не существовало.

«Создавая переводческие программы, мы помогаем людям сохранить их языки», говорит Толле. «Всего 100 из примерно 7000 существующих в мире языков представлены хоть каким-то программным обеспечением».

«Microsoft на верном пути, говорит Грег Андерсон, директор некоммерческой организации Living Tongues, которая документирует, исследует и пытается поддержать исчезающие языки. «Сегодня всем нужно быть онлайн, общинам, компаниям — если вы не представлены в Сети, вас как бы и нет”. Андерсон отмечает, что редкие языки возвращаются к жизни чаще всего тогда, когда их языковое сообщество приносит язык в Интернет.

Маргарет Нури, профессор в Мичиганском университете, пытается спасти анишинаабемовин, иначе оджибве, один из языков американских индейцев. Ей нравится идея онлайн-сохранения, но, по ее словам, одной Сети мало. “Есть смысл в сегодняшнем мире бывать онлайн, но так же важно, чтобы пелись песни и исполнялись обряды, которые никто никогда не записывал».

Translation Hub будет полезен также для перевода технических терминов и специального жаргона, с которым приходится бороться обычным машинным переводчикам. Некоммерческие организации могли бы, например, переводить тексты о сельском хозяйстве, образовательные компании — обучающие руководства и так далее, говорит Толле. “Фирмы обычно держатся за свою информацию, они не любят делиться документацией с целью тренировки переводческих алгоритмов”. Однако Volvo и Mercedes уже высказали интерес к новому сайту Microsoft.

Назад

Услуги для вас

Узнать больше