IPB
     
 

Здравствуйте, гость ( Вход | Регистрация )

 
 
Ответить в данную темуНачать новую тему
Лингвистическая эволюция сходна с биологической
Ондатр
сообщение 8.1.2009, 16:04
Сообщение #1


Новичок
*

Группа: Пользователи
Сообщений: 25
Регистрация: 21.12.2008
Вставить ник
Цитата
Из: Переславль
Пользователь №: 1525



Репутация:   4  



Прикрепленное изображение

Прикрепленное изображение


Раскрывающийся текст
Применив к анализу индоевропейских языков методики, разработанные для изучения эволюции видов, биологи подтвердили хорошо известную лингвистам закономерность, что слова в языке изменяются тем быстрее, чем реже они используются. Аналогичная закономерность справедлива и для биологической эволюции: наименее важные для организма морфологические признаки и участки генома обычно подвержены самым быстрым эволюционным изменениям.

Впервые на параллели между эволюцией биологических видов и человеческих языков указал Чарльз Дарвин в книге «Происхождение человека». Сегодня это мнение подтверждается строгими статистическими методами.

В журнале Nature сразу две статьи посвящены изучению темпов лингвистической эволюции в зависимости от частоты словоупотребления. Ведущие авторы обеих статей — биологи.

В первой статье, написанной американскими эволюционистами-теоретиками и математиками, показано, что скорость «превращения» английских неправильных глаголов в правильные зависит от частоты использования конкретного глагола. В древнеанглийском языке, бывшем в употреблении около 800 г. н. э. (язык «Беовульфа»), существовало несколько классов глаголов, различающихся по способу образования прошедшего времени. В течение последующих 1200 лет шел процесс «регуляризации»: все эти классы постепенно «пожирались» самым распространенным, в котором прошедшее время и причастие прошедшего времени образуется путем прибавления к глаголу суффикса -(e)d.

В современном английском все прочие классы сохранились лишь в виде рудиментов — так называемых «неправильных» глаголов. Класс правильных глаголов является единственным продуктивным, то есть все новые глаголы, появляющиеся в английском языке, автоматические попадают в него и спрягаются по аналогии с другими правильными глаголами (так, «молодой» глагол to google со значением «пользоваться поисковиком Google» имеет форму прошедшего времени и причастия googled).

Авторы изучили историческую судьбу 177 глаголов, которые имелись в древнеанглийском (и все были неправильными) и сохранились поныне. В среднеанглийском (язык «Кентерберийских рассказов» Чосера, бывший в употреблении около 1200 года) из этих глаголов остались неправильными 145, а в современном — 98. Некоторые из них могут спрягаться и как правильные глаголы, и как неправильные, но «регуляризовавшиеся» 79 — только как правильные.

Авторы разделили глаголы на 6 классов по частоте их встречаемости в современных английских текстах. С этой целью был проанализирован большой корпус текстов CELEX, включающий в общей сложности 17,9 млн английских слов. В первый класс попали два наиболее часто используемых глагола (be «быть», have «иметь»); оба по сей день остаются неправильными. Во втором классе оказалось 11 глаголов, и все они сегодня тоже неправильные. Из 37 глаголов третьего класса все оставались неправильными в среднеанглийском, но 4 стали правильными в современном английском (help «помогать», reach «достигать», walk «ходить», work «работать»). В четвертом классе из 65 глаголов были неправильными в среднеанглийском 57, в современном — 37. Соответствующие цифры для пятого класса — 50, 29, 14; для шестого — 12, 9, 1.

Анализируя эти данные, авторы пришли к заключению, что для глаголов 3-6 классов довольно точно выполняется следующее соотношение: «период полураспада» для данного частотного класса глаголов прямо пропорционален квадратному корню из частоты встречаемости. Например, если один глагол используется в 100 раз чаще другого, то можно ожидать, что он будет оставаться неправильным в 10 раз дольше. Для глаголов 1-2 класса провести подсчет не удается, поскольку ни один из них еще не стал правильным (период полураспада слишком велик).

Экстраполируя свои результаты в будущее, авторы предсказывают, что, если выявленные тенденции сохранятся, к 2500 году еще 15 глаголов из исследованной выборки станут правильными, причем первым скорее всего «регуляризуется» самый редкий из них (to wed «сочетаться браком»). Строго говоря, он уже отчасти регуляризован: словари разрешают спрягать его также и как правильный глагол (наряду с «неправильной» формой прошедшего времени wed в словарях приводится «правильная» wedded).

Авторы проанализировали обозначения понятий из 200-словного списка Сводеша для 87 индоевропейских языков. Список понятий (значений) охватывает разные части речи («всё», «и», «животное», «плохо», «потому что», «лежать», «он», «черный», «резать», «огонь», «два» и т. д.; полный список см. в дополнительных материалах к статье, PDF, 1,2 Мб). Данные по языкам исследователи брали из описанной в работе I. Dyen, J. B. Kruskal, P. Black (1992). An Indo-European classification, a lexicostatistical experiment лексической базы, на нее же, видимо, опирались во всех сложных с точки зрения этимологии (происхождения слов) случаях.

Слова из разных языков, обозначающие одно и то же понятие и являющиеся потомками одного и того же слова, объединялись в «родственные группы». Например, слово, выражающее значение «два» во всех индоевропейских языках относится к одной и той же родственной группе (англ. two, нем. zwei, исп. dos, фр. deux, русск. два и т. д.), тогда как, например, значение «хвост» представлено в исследованных 87 языках 28 группами (греч. ουρά, нем. Schwanz, фр. queue, англ. tail — примеры слов, относящихся к разным группам). Общее число родственных групп для 200 значений в 87 языках оказалось равным 4049.

Для каждого из 200 понятий была определена частота встречаемости. С этой целью авторы проанализировали большой массив данных по устной и письменной речи для четырех языков: английского, испанского, русского и греческого (от 20 до 100 млн слов для каждого языка). Эти языки представляют далекие друг от друга ветви индоевропейской семьи. Выяснилось, что частота употребления различных понятий в четырех языках весьма сходна, иначе говоря, понятия, часто употребляемые в одном из языков, скорее всего и в других языках употребляются часто, и наоборот.

Следующим шагом было построение эволюционного древа 87 индоевропейских языков. Основой для построения древа послужила таблица из 87*4049 нулей и единиц, отражающая наличие или отсутствие каждой из 4049 словесных групп в каждом из 87 языков. При этом были использованы сложные математические методики построения эволюционных деревьев, разработанные биологами-эволюционистами.

Для «калибровки» древа (определения абсолютной длины ветвей в годах) была использована усредненная оценка времени начала дивергенции (расхождения) индоевропейских языков — 8700 лет назад (имеющиеся оценки варьируют от 6 до 10 тысяч лет, изменение даты расхождения повлияет на абсолютные длины ветвей древа, но не на их соотношение). На основе построенного древа были вычислены средние скорости замены слов (родственных групп) для каждого из двухсот понятий. Эту скорость можно выразить как «период полураспада» (half-life), то есть как время, в течение которого данное понятие с вероятностью 50% станет обозначаться другим словом (точнее, словом, относящимся к другой родственной группе). Оказалось, что для 200 исследованных понятий это время варьирует от 750 до 10 000 лет.

Легко заметить, что получившееся древо отличается от общепринятого (см. в начале статьи). Любопытно, что в новом древе украинский и белорусский ближе к польскому, чем к русскому (русский ответвляется от польско-украино-белорусской группы, которая затем разделяется на три языка), в то время как по традиционным представлениям сначала расходятся западнославянская (включающая польский) и восточнославянская (русский, белорусский, украинский) группы. Причин несовпадений может быть много, результаты построения деревьев во многом зависят от того, как исследователи решают возникающие проблемы (см. выше некоторые примеры). Авторы статьи не описывают подробно лингвистическую часть своей методики, поэтому мы затрудняемся точнее проанализировать причины различия деревьев.

Затем авторы построили графики зависимости скорости словоизменения от частоты словоупотребления в английском, русском, испанском и греческом языках (см. рис). Оказалось, что для каждой части речи в отдельности и для всех понятий в целом между этими двумя показателями наблюдается хорошо выраженная обратная зависимость. Чем чаще употребляется слово, тем медленнее оно изменяется.
По мнению авторов, эта зависимость может объясняться двумя причинами:
1) Люди реже ошибаются при произнесении, запоминании и восприятии на слух часто употребляемых слов. Это предположение подтверждается эмпирическими данными.
2) Люди (популяция носителей языка) реже соглашаются принять новшество, если речь идет о часто употребляемом слове.

Вполне возможно, что работают одновременно оба механизма. Легко заметить, что они полностью аналогичны ключевым факторам биологической эволюции, а именно скорости мутирования и эффективности стабилизирующего («очищающего») отбора. Авторы предполагают, что «мутации» в наиболее важных словах чаще отсекаются «отбором», потому что такие мутации ведут к наибольшему риску взаимного непонимания. Возможно, именно поэтому из всех частей речи медленнее всего изменяются как раз те, «мутации» в которых почти всегда ведут к полной потере или искажению смысла фразы (числительные, местоимения и «специальные наречия»).

Обнаруженная закономерность, скорее всего, справедлива и для других языковых семей. Теми же авторами в 2006 году было показано, что понятия, характеризующиеся высокой частотой словоизменения в индоевропейских языках, обладают тем же свойством и в языках банту.


Для объяснения "странной" близости польского,украинского и белорусского языков по сравнению с русским можно привести аналогию из генетики, где бывают обратные мутации генов, т.е. в следствии мутации ген возвращается в исходное состояние. Так и некоторые слова в украинском и белорусском вернулись к ранним формам в следствии общей государственности с поляками.
Перейти в начало страницы
 
+Цитировать сообщение
 
Libra
сообщение 8.1.2009, 16:18
Сообщение #2


Легкомысленная
*****

Группа: Демиурги
Сообщений: 3153
Регистрация: 15.12.2007
Вставить ник
Цитата
Из: Переславль-Залесский
Пользователь №: 842



Репутация:   277  



Цитата
Любопытно, что в новом древе украинский и белорусский ближе к польскому, чем к русскому

Очень верно. Пример из жизни: зная польский язык, я - когда бываю на Украине - спокойно понимаю украинский. Кстати, большое заблуждение для русских, не сталкивающихся с украинским "вживую", что этот язык прост для нас и понятен. Действительно, совпадений с польским гораздо больше, чем с русским. Разница только в произношении. Например, там, где украинец говорит "трэба", поляк скажет "тшеба" и т.п.
Перейти в начало страницы
 
+Цитировать сообщение
 
Ондатр
сообщение 8.1.2009, 17:01
Сообщение #3


Новичок
*

Группа: Пользователи
Сообщений: 25
Регистрация: 21.12.2008
Вставить ник
Цитата
Из: Переславль
Пользователь №: 1525



Репутация:   4  



Интересно, можно ли считать "суржик" - языком-гибридом?
Перейти в начало страницы
 
+Цитировать сообщение
 

Быстрый ответОтветить в данную темуНачать новую тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 

RSS Текстовая версия Сейчас: 29.3.2024, 3:55
 
 
              IPB Skins Team, стиль Retro