Глобальная лексикостатистическая база данных: цель проекта

ЦЕЛЬ ПРОЕКТА

В сравнительно-историческом языкознании списки базисной лексики родственных (или потенциально родственных) языков обычно используются для лексикостатистики — достаточно простой процедуры, устанавливающей степень родства языков на основании процентов «общих» для них слов (т. е. восходящих к одному и тому же слову-предку в праязыке) в списке Сводеша; а также для глоттохронологии, несколько более сложного алгоритма, устанавливающего абсолютные даты расхождения праязыков на основании постулата, согласно которому базисная лексика замещается в языке с постоянной или, по меньшей мере, регулярно изменяющейся скоростью.

Несмотря на то, что как лексикостатистика, так и (в еще большей степени) глоттохронология часто подвергаются критике (ответ на ряд таких замечаний можно найти в статьях, посвященных лексикостатистической тематике и выложенных на нашем сайте), соответствующая методология до сих пор остается не только жизнеспособным и многообещающим, но и, что самое важное, единственным по-настоящему универсальным методом создания генеалогической классификации языков мира. При этом, однако, точность и достоверность результатов такой классификации напрямую зависит от того, насколько тщательно материал списков базисной лексики обработан с помощью сравнительно-исторического метода.

В течение последнего десятилетия наблюдалось значительное повышение интереса к различного рода лексикостатистическим процедурам, во многом вызванное прогрессом в аналогичных методах построения филогенетической классификации в биологии. В престижных научных журналах опубликована масса работ, авторы которых применяют к спискам базисной (и не только) лексики сложные статистические и вероятностные алгоритмы. К сожалению, серьезного влияния на историческое языкознание эти работы, как правило, не оказывают, поскольку по большей части результатами их являются статистические аппроксимации, не имеющие отношения к конкретной истории конкретных слов; нередко оказывается, что они вступают в элементарные противоречия как с исторической реальностью, так и со здравым смыслом — либо из-за неверных посылов, либо из-за недостаточного учета всех необходимых факторов, либо, как довольно часто показывает опыт, из-за неадекватного массива данных.

Главная задача ГЛБД — создание унифицированной и упорядоченной системы списков базисной лексики по языкам мира, которую можно было бы, помимо прочего, использовать для различных процедур автоматического анализа; однако главным требованием к ней является историчность — будучи создаваема с целью развития исторического языкознания, база должна уважать его базисные принципы. Это означает, что лексические данные (везде, где это возможно), сопровождаются комментариями, содержащими синхронную и диахроническую информацию по соответствующим словам; индексы когнации, связывающие слова общего происхождения, должны быть объяснены и аргументированы; и, самое главное — сами списки должны составляться предельно тщательно (опыт показывает, что многие сводешевские списки, имеющие широкое хождение среди исследователей, не имеющих специальной подготовки в области исторического языкознания, составляются с грубейшими ошибками и могут легко привести к неверным результатам).

Списки базисной лексики, собранные и откомментированные на сайте ГЛБД, могут служить для самых разных целей. Помимо главной из них (создания основы для генеалогических классификаций), они могут также использоваться в типологических исследованиях, в частности, по типологии фонетических изменений. Наконец, информация, приводимая в комментариях к базам данных, может иметь большое значение для исследований по исторической семантике и каталогизации семантических сдвигов — любой прогресс в этой области будет иметь серьезные последствия для всей лингвистики в целом.

НА ГЛАВНУЮ СТРАНИЦУ К БАЗАМ ДАННЫХ АНГЛИЙСКАЯ ВЕРСИЯ