Компьютерная лингвистика и Твиттер помогли обнаружить глобальные диалекты

28.08.14 г. В мире существуют глобальные диалекты. Такой вывод позволяет сделать исследование, которое провели ученые Бруно Гонсалвеш (Bruno Gonçalves) и Давид Санчес (David Sánchez).

Исследователи нашли новый способ составления языковой карты мира – с помощью сообщений из Твиттера. Свою работу они начали с отбора твитов на испанском языке около двух лет назад. Сейчас они собрали базу данных, включающую 50 миллионов геолокализованных твитов.

Изучив варианты употребления разных слов для обозначения одного предмета (например, автомобиль – auto, automóvil, carro и т.д.), они создали карту их распределения. И выяснили, что испанские диалекты можно разделить на две большие группы – глобальные диалекты. К первой группе относятся слова и выражения, используемые в основном в испанских и американских городах. Вторая группа – это слова, используемые в сельских регионах, причем не только в Испании, но и в Латинской Америке.

Диалект – это особая форма языка, ограниченная регионом или социальной группой. Изучение диалектов и составление лингвистических атласов – непростая задача. По крайней мере, таковой она была до сих пор. Исследователям необходимо было проводить анкетирование сотен людей. На основе результатов анкетирования составлялись лингвистические атласы. Но теперь, возможно, составлением языковых карт займутся специалисты по компьютерной лингвистике. На примере исследования диалектов компьютерная лингвистика показала свои немалые возможности.

Назад

Услуги для Вас

Узнать больше