?

Log in

No account? Create an account

ketiiiiiiii


Иммиграционный консультант


Глобальная значимость английского, немецкого, русского и китайского языков в Интернете
ketiiiiiiii
Источник



Несколько лет назад Цезарю Хидальго захотелось исследовать взаимосвязь языковых узлов в Интернете.В результате исследований выяснилось, что:
Основная информация в трех глобальных языковых сетях содержится на английском языке — центральном, а также нескольких менее распространенных: испанском, немецком, французском, русском, португальском и китайском. Значимость языка находится в прямой зависимости от числа популярных людей, говорящих на нём.

Языки имеют непропорциональную степень влияния, поскольку некоторые обеспечивают прямые и косвенные пути перевода между большинством других языков мира. Например, чтобы слова испанца мог понять англичанин, нужен двуязычный носитель английского и испанского. Однако носителю языка мапудунгун могут стать понятны слова вьетнамца только через обходные пути, например по схеме: вьетнамский — английский, английский — испанский, испанский — мапудунгун. В обоих случаях испанский и английский языки вовлечены в процесс связи и выступают в роли глобальных языков.

Цезарь собрал данные Твиттера из более чем одного миллиарда твитов, опубликованных между 6 декабря 2011 и 13 февраля 2012. Язык каждого твита был обнаружен с помощью Chromium Compact Language Detector после очистки от хештегов, ссылок и смайликов.

Набор данных из Википедии был составлен при редактировании истории всех языковых разделов Википедии, написанных в конце 2011 года. После удаления информации от ботов и применения фильтров, получилось 382 миллиона правок на 238 языках от 2,5 миллионов уникальных редакторов. Два языка оказались связанными, если пользователь отредактировал статью на одном языке и с большой долей вероятности сделал это же на другом.

Набор данных индекса переводов (ИП) состоит из 2,2 миллионов переведенных книг, изданных между 1979 и 2011 в 150 странах более чем на тысяче языков. Набор данных содержит список переводов, а не список переведенных книг. Каждый перевод в нем учитывается отдельно, например, 22 независимых перевода «Анны Карениной» Толстого с русского на английский.Также отметим, что источник перевода может отличаться от языка оригинала книги. Например, в ИП содержатся данные о 15 переводах «Тома Сойера», причем 13 из них были сделаны непосредственно с английского, а 2 — с испанского и галисийского. Эта характеристика набора данных позволяет определить промежуточные языки для перевода.

Как видно из результатов, язык с большим количеством связей в одной сети будет иметь много связей и в другой сети. Положительные корреляции выражений и связь в языковых парах говорят о том, что все три GLN подобны с точки зрения силы связей и количества представителей той или иной группы. Интересно, что общие черты, наблюдаемые в трех GLN, определяются, судя по всему, необходимостью наличия определенных литературных навыков для участия в каждой из этих сетей. Сеть книжных переводов является самой требовательной к этому фактору(поскольку в ней находятся авторы и профессиональные переводчики), Твиттер же наименее требователен(так как состоит из коротких сообщений, которые может публиковать любой человек с доступом в Интернет). Википедия является серединой между книжными переводами и Твиттером с точки зрения необходимых литературных навыков, а ее GLN также занимает середину с точки зрения подобия.

promo ketiiiiiiii april 20, 2013 09:54 8
Buy for 100 tokens
Скайп-школа "GLASHA" приглашает на дистанционные уроки развития разговорных навыков с преподавателями из стран англосферы.