Наши услуги

г. Москва, ул. Каланчевская,
д. 11, стр.3, 3-й этаж, офис 35.

+7 (495) 690 90 84
+7 (495) 749 79 40

office@transeurope.ru
transeurope@mail.ru

Перевод: задача лингвистов или математиков?

8 октября 2013 года

Чтобы перевести фразу с одного языка на другой, нужно лишь найти соответствующий алгоритм линейных преобразований. Только и всего, считают специалисты Google.

Информатика может в корне изменить процесс перевода отдельных слов и предложений с одного языка на другой. Ведь все, кто пользовался сервисами BabelFish и Google Translate, наверняка знают, что они довольно полезны, но далеко не безупречны. Прежде всего, нужно сопоставить группу слов на одном языке с аналогичной группой слов на другом языке. Слова и фразы с одинаковыми статистическими характеристиками считаются одинаковыми по значению. Основная сложность состоит в том, что первые такие переводы будут выполняться с помощью словарей, которые должны составить специалисты. А это требует много сил и времени.

Однако Томас Миколов и его коллеги из компании Google в г. Маунтин-Вью уже разработали программу автоматического составления словарей и таблиц с фразами для преобразования текста на другой язык. Новая программа не обрабатывает версии одного и того же документа на разных языках. Вместо этого она находит данные для создания текстовой структуры на каком-либо языке и сравнивает ее с подобной структурой на другом языке. «Лингвистические закономерности играют здесь совсем незначительную роль, поэтому с помощью такой методики можно дополнять словари и таблицы перевода для всех языковых пар, делая их более точными», – говорят разработчики.

Метод довольно прост. Его создатели исходили из того, что любые языки используются для описания аналогичных понятий, соответственно, и используемые для этого слова также должны быть аналогичными. К примеру, в большинстве языков есть слова, обозначающие распространенные виды животных – «кот», «собака», «корова» и пр. Все эти слова используются в одинаковом порядке в предложениях типа «Кот – это животное, которое меньше собаки». С числами – та же ситуация. На изображении выше показаны координаты слов, обозначающие цифры на английском и испанском языках, и мы видим, насколько они похожи. Это – важная зацепка. Следующая задача заключается в том, чтобы с помощью таких связей между словами представить схему языка в целом. Всю группу подобных связей, т.е. «пространство языка», можно представить в виде ряда векторов, каждый из которых указывает направление от слова к слову. Недавно специалисты по языку обнаружили, что с такими векторами можно работать, используя математические методы. Например, в результате выполнения действия «король» = «человек» + «женщина» получается вектор, аналогичный тому, который указывает на слово «королева». Как выяснилось, в области векторного пространства у языков есть много общего. То есть, перевести текст с одного языка на другой – то же самое, что найти формулу преобразования одного векторного пространства в другое.

Таким образом, перевод – это задача уже не лингвистики, а, скорее, математики. То есть специалисты Google должны найти способ максимально точного преобразования одного векторного пространства в другое. Для выполнения этой задачи используется небольшой двуязычный словарь, составленный специалистами. Сравнив две группы слов на двух разных языках, они могут получить необходимую формулу преобразования. Просчитав такую схему, уже не так сложно использовать полученную формулу для преобразования более крупного языкового пространства. По словам Миколова и его коллег, результаты получаются превосходные: «Несмотря на свою простоту, наша методика на удивление эффективна. При переводе с английского на испанский точность составляет 90%». С помощью такой методики можно дополнять и улучшать словари – и даже находить в них ошибки. Именно этим и заняты сейчас специалисты Google: они уже нашли довольно много неточностей в англо-чешском словаре.

Наконец, специалисты считают, что раз уж структура языка не играет здесь важной роли, разработанную ими методику можно использовать и для работы с языками, которые никак не связаны между собой. Методика подходит не только для испанского и английского языков, которые имеют общее индоевропейское происхождение, но и для таких языковых пар, как английский и вьетнамский, между которыми довольно мало сходства. Это очень важное открытие. С его помощью носители разных языков в будущем смогут беспрепятственно общаться. Но, по словам специалистов, это только начало. «Нам еще многое предстоит изучить», – говорят они.