Глобальная
лексикостатистическая база данных: цель проекта
ЦЕЛЬ ПРОЕКТА |
В сравнительно-историческом языкознании списки
базисной лексики родственных (или потенциально родственных) языков обычно
используются для лексикостатистики —
достаточно простой процедуры, устанавливающей степень родства языков на
основании процентов «общих» для них слов (т. е. восходящих к одному и тому же
слову-предку в праязыке) в списке
Сводеша; а также для глоттохронологии,
несколько более сложного алгоритма, устанавливающего абсолютные даты
расхождения праязыков на основании постулата, согласно которому базисная
лексика замещается в языке с постоянной или, по меньшей мере, регулярно
изменяющейся скоростью.
Несмотря на то, что как лексикостатистика, так
и (в еще большей степени) глоттохронология часто подвергаются критике
(ответ на ряд таких замечаний можно найти в статьях, посвященных
лексикостатистической тематике и выложенных на нашем сайте), соответствующая
методология до сих пор остается не только жизнеспособным и многообещающим, но
и, что самое важное, единственным по-настоящему универсальным методом создания генеалогической классификации языков
мира. При этом, однако, точность и достоверность результатов такой
классификации напрямую зависит от того, насколько тщательно материал списков
базисной лексики обработан с помощью сравнительно-исторического
метода.
В течение последнего десятилетия наблюдалось
значительное повышение интереса к различного рода лексикостатистическим процедурам,
во многом вызванное прогрессом в аналогичных методах построения
филогенетической классификации в биологии. В престижных научных журналах
опубликована масса работ, авторы которых применяют к спискам базисной (и не
только) лексики сложные статистические и вероятностные алгоритмы. К сожалению,
серьезного влияния на историческое языкознание эти работы, как правило, не
оказывают, поскольку по большей части результатами их являются статистические
аппроксимации, не имеющие отношения к конкретной истории конкретных слов;
нередко оказывается, что они вступают в элементарные противоречия как с
исторической реальностью, так и со здравым смыслом — либо из-за неверных посылов,
либо из-за недостаточного учета всех необходимых факторов, либо, как довольно
часто показывает опыт, из-за неадекватного массива данных.
Главная
задача ГЛБД — создание унифицированной и упорядоченной системы списков базисной
лексики по языкам мира,
которую можно было бы, помимо прочего, использовать для различных процедур
автоматического анализа; однако главным требованием к ней является историчность — будучи создаваема с
целью развития исторического языкознания, база должна уважать его базисные
принципы. Это означает, что лексические данные (везде, где это возможно),
сопровождаются комментариями, содержащими синхронную и диахроническую
информацию по соответствующим словам; индексы когнации, связывающие слова
общего происхождения, должны быть объяснены и аргументированы; и, самое
главное — сами списки должны составляться предельно тщательно (опыт показывает,
что многие сводешевские списки, имеющие широкое хождение среди исследователей,
не имеющих специальной подготовки в области исторического языкознания, составляются
с грубейшими ошибками и могут легко привести к неверным результатам).
Списки базисной лексики, собранные и
откомментированные на сайте ГЛБД, могут служить для самых разных целей. Помимо
главной из них (создания основы для генеалогических классификаций), они могут
также использоваться в типологических исследованиях, в частности, по типологии
фонетических изменений. Наконец, информация, приводимая в комментариях к базам
данных, может иметь большое значение для исследований по исторической
семантике и каталогизации семантических сдвигов — любой прогресс в этой области
будет иметь серьезные последствия для всей лингвистики в целом.
НА ГЛАВНУЮ СТРАНИЦУ К БАЗАМ ДАННЫХ АНГЛИЙСКАЯ ВЕРСИЯ
©
2011-2016 Г. Старостин (идея сайта, обработка данных)
© 2011-2016 Ф. Крылов
(программирование, техническая поддержка)