Глобальная лексикостатистическая база данных: специфика

СПЕЦИФИКА ГЛБД

Сегодня «сводешевские» списки базисной лексики по различным языкам мира или списки, аналогичные сводешевским, в том или ином виде можно обнаружить на самых разных веб-сайтах. Из числа наиболее известных и представительных примеров можно отметить Сводешевские списки в проекте «Wiktionary»; Rosetta Project; Austronesian Basic Vocabulary Database; Comparative Indo-European Database по материалам И. Дайена (эта база данных сегодня также существует в значительно расширенной и технически более усовершенствованной версии под названием The Indo-European Lexical Cognacy Database); The Automated Similarity Judgement Program и др.

При запуске проекта ГЛБД был учтен как позитивный, так и негативный опыт анализа этих и других ресурсов, а также опыт Московской школы компаративистики, накопленный за более чем два десятилетия занятий компьютерной лексикостатистикой. Это позволяет разработать принципиально новый стандарт подачи материала, который, с одной стороны, повышает надежность и «прозрачность» языковых данных, с другой – облегчает разработку новых идей и подходов в области ручного и автоматического анализа этих данных.

Ниже перечислены главные особенности ГЛБД, в своей совокупности отличающие ее от большинства подобных проектов:

1. Все данные вводятся в базы или, по крайней мере, тщательно выверяются перед публикацией профессиональными лингвистами-компаративистами, в достаточной степени знакомыми с материалом.

2. Все данные сопровождаются аннотациями, которые в обязательном порядке содержат указания на источник данных вплоть до номера страницы, так, чтобы любое вхождение в базе можно было легко проверить любому пользователю, имеющему доступ к соответствующим источникам.

3. Все данные транслитерируются из исходных транскрипций/орфографий в единую унифицированную систему транскрипции (УСТ), в основе которой лежит транскрипция МФА с незначительными изменениями (детали см. здесь); для отдельных языков с устоявшейся письменной традицией стандартная орфографическая запись приводится параллельно с унифицированной. Это дает возможность пользователю легко сопоставлять данные незнакомых языков, а также облегчает обработку данных с помощью различных автоматических алгоритмов анализа.

4. Все данные (за исключением данных по плохо изученным языкам) приводятся в морфологически сегментированной форме, для того, чтобы облегчить процедуры ручного и автоматического анализа и снизить вероятность случайных грубых ошибок при этимологизации.

5. Специально для нужд ГЛБД в рамках проекта разработан обновленный и эксплицированный список «сводешевских значений» (подробнее см. статью, выложенную здесь), что облегчает корректный и единообразный отбор наиболее подходящего синонима для языков, представленных достаточным объемом лексического материала.

6. Все данные приводятся по меньшей мере в трех форматах: (а) база данных, доступная для просмотра или поисковых запросов он-лайн (существует также возможность поиска сразу по нескольким базам); (б) PDF-версия для печати, недоступная для редактирования; (в) таблица Microsoft Excel, предоставляющая все данные в распоряжение пользователя (чтобы иметь возможность свободно просматривать и редактировать данные в таблице Excel, необходимо будет загрузить и установить Starling Serif – уникодный шрифт, в котором набрано все содержимое баз).

7. По мере того, как в отдельные компоненты базы вводится все больший объем материала, они будут постепенно интегрироваться в единую, иерархически упорядоченную структуру, которая послужит основанием для построения единой генетической классификации языков. ГЛБД ставит перед собой не только цель сбора, компьютеризации и аннотирования лексических данных, но и (со временем) снабжения их мощным аналитическим аппаратом.

НА ГЛАВНУЮ СТРАНИЦУ К БАЗАМ ДАННЫХ АНГЛИЙСКАЯ ВЕРСИЯ