Человек и машина: языковое противостояние

27 сентября 2012 года

Языковые возможности  человека и машины находятся на качественно различных уровнях. Разве может компьютер с легкостью отличить дверной ключ от гаечного? Безобидную шутку от едкой сатиры? Разобраться в культурно-историческом контексте материала? А игра слов вообще стоит далеко за рамками понимания компьютера…

Ученый-программист Луис фон Ан делает ставку на уникальную способность человека правильно расшифровывать языковой код. Совсем недавно был анонсирован его новый проект Duolingo, цель которого – привлечение людей, изучающих иностранные языки, к переводу цифровых материалов.

Пользователи Duolingo получают доступ к языковым урокам, в конце которых даются короткие тексты на перевод, и их сложность растет по мере роста навыка обучающихся. Тексты предоставляют контент-провайдеры, которым необходим перевод – в настоящий момент услуга бесплатная. Поскольку Луис фон Ан только недавно приступил к реализации проекта, независимых оценок его эффективности и, как следствие, степени точности перевода еще не проводилось.

Сайт был запущен пять месяцев назад, и на данный момент рабочих языков всего четыре – английский, испанский, французский и немецкий. Частные лица и компании могут направлять Duolingo тексты на перевод – на данном этапе это бесплатная возможность, но руководство проекта не исключает, что со временем она может стать платной. В качестве материалов для уроков Duolingo использует тексты, не защищенные авторским правом или имеющие лицензию Creative Commons. На сайте проводится голосование за лучшие переводы, что в определенном смысле можно назвать методом контроля их качества.

“Пользователь обучается языку на практике. Совершенствуя свои навыки, он одновременно помогает развитию Интернета во всем мире”, – считает Луис.

Прямо противоположный подход к практике перевода использует компания Google Translate, целиком опирающаяся на машинные средства, что позволяет адекватно передать смысл отдельных фрагментов текста, однако добиться приемлемого качества перевода в целом удается далеко не всегда. “Движок” Google развивается за счет анализа огромного объема переведенных текстов (среди прочего, протоколы совещаний ООН), которые постоянно пополняют его базу данных.

Луис же надеется, что “движком” его системы станут люди, привлекаемые возможностью бесплатно изучать иностранные языки на сайте Duolingo.

Все начинания Луиса основаны на привлечении большого числа людей. Последний его проект, ReCaptcha, позволяет эффективно использовать “капчи” – компьютерные тесты для определения, кем является пользователь данной системы – человеком или машиной. Ан организовал оцифровку огромного количества старых рукописей, книг, газет. А пользователи различных сайтов, проходящие процесс идентификации, помогают расшифровывать тексты, с которыми машина справиться не может. В 2009 году Google выкупил у Луиса этот старт-ап.

Луис фон Ан – доцент Питсбургского университета Карнеги-Меллона, в котором и  расположена штаб-квартира Duolingo. Идея проекта пришла к нему, когда он заметил, что его друзья и родственники из Гватемалы не имеют возможности использовать все преимущества Интернета. Причина того – незнание английского языка. Испаноязычный сектор Интернета развит очень слабо. “Люди, владеющие английским языком, получают доступ к огромному количеству информации. Остальные сильно ограничены в этом”, – заявил Ан.

Алон Лэви, коллега Луиса по университету и владелец системы автоматизированных переводов Safaba, считает, что методы машинного и человеческого перевода различаются принципиально и, соответственно, должны применяться для решения различных задач: “При переводе больших объемов стандартных текстов, например для целей бизнеса, предпочтителен машинный перевод, особенно если принять в расчет конфиденциальный характер многих из таких документов”.

“Проект Луиса, как мне кажется, действительно эффективен там, где компаниям необходимо быстро и недорого перевести текст небольшого объема – и при этом обеспечить читабельность текста на выходе”, – заявил Лэви.

“New York Times заинтересовались нашим проектом как возможным способом перевода своих материалов, однако предложений о сотрудничестве мы пока не получали”, – заявил Марк Фронс, руководитель информационной службы Duolingo.

В настоящее время Луис планирует сотрудничество с Википедией.

Для англоязычной версии свободной энциклопедии написано почти 4 000 000 статей.  Для сравнения, на немецком языке написано около 1 400 000 статей, на французском – 1 300 000, на голландском – 1 000 000, на испанском — 900 000, а на языке суахили, распространенном на обширной территории Восточной и Центральной Африки – менее 24 000!

Глава пресс-центра Wikimedia Foundation, Джей Волш, заявил, что компания горячо приветствует любые инициативы по переводу материалов Википедии, но при этом для обеспечения адекватности переводов их публикация (по лицензии Creative Commons) должна пройти процедуру «коллегиального утверждения». “Перед нами стоит непростая задача – нам необходимо быстрыми темпами расширять базу статей и в то же время обеспечивать отличное качество материала”.

Для эффективной работы Duolingo необходимо участие большого числа обучающихся. Чем глубже знание языка, тем выше качество переводов. Как работает система? Машина разбивает большие тексты на фрагменты разной сложности и распределяет их между пользователями согласно их уровню владения иностранным языком. Затем машина собирает переведенные фрагменты воедино. “Со временем мы введем платную услугу для клиентов, которым нужен особо качественный и быстрый перевод”.

Венчурный капитал старт-апа составил 3,3 миллиона долларов. Среди инвесторов – компания Union Square Ventures, актер Эштон Катчер и автор популярных книг по тайм-менеджменту Тим Феррис.

Назад

Услуги для Вас

Узнать больше