Глобальная
лексикостатистическая база данных: специфика
СПЕЦИФИКА ГЛБД |
Сегодня «сводешевские» списки базисной лексики
по различным языкам мира или списки, аналогичные сводешевским, в том или ином
виде можно обнаружить на самых разных веб-сайтах. Из числа наиболее известных
и представительных примеров можно отметить Сводешевские списки в проекте «Wiktionary»; Rosetta Project; Austronesian Basic Vocabulary Database; Comparative Indo-European Database по материалам И. Дайена (эта база данных сегодня
также существует в значительно расширенной и технически более усовершенствованной
версии под названием The Indo-European Lexical Cognacy Database); The Automated Similarity Judgement Program и др.
При запуске проекта ГЛБД был учтен как
позитивный, так и негативный опыт анализа этих и других ресурсов, а также опыт
Московской школы компаративистики, накопленный за более чем два десятилетия
занятий компьютерной лексикостатистикой. Это позволяет разработать
принципиально новый стандарт подачи материала, который, с одной стороны,
повышает надежность и «прозрачность» языковых данных, с другой – облегчает
разработку новых идей и подходов в области ручного и автоматического анализа
этих данных.
Ниже перечислены главные особенности ГЛБД, в
своей совокупности отличающие ее от большинства подобных проектов:
1. Все данные вводятся в базы или, по крайней мере,
тщательно выверяются перед публикацией профессиональными
лингвистами-компаративистами, в достаточной степени знакомыми с
материалом.
2. Все данные сопровождаются аннотациями, которые в обязательном порядке содержат указания на источник данных вплоть до номера страницы, так, чтобы любое вхождение в базе можно было
легко проверить любому пользователю, имеющему доступ к соответствующим
источникам.
3. Все данные транслитерируются из исходных
транскрипций/орфографий в единую унифицированную
систему транскрипции (УСТ), в основе которой лежит транскрипция МФА с
незначительными изменениями (детали см. здесь); для отдельных языков с устоявшейся
письменной традицией стандартная орфографическая запись приводится параллельно
с унифицированной. Это дает возможность пользователю легко сопоставлять данные
незнакомых языков, а также облегчает обработку данных с помощью различных
автоматических алгоритмов анализа.
4. Все данные (за исключением данных по плохо
изученным языкам) приводятся в морфологически
сегментированной форме, для того, чтобы облегчить процедуры ручного и
автоматического анализа и снизить вероятность случайных грубых ошибок при этимологизации.
5. Специально для нужд ГЛБД в рамках проекта
разработан обновленный и эксплицированный список «сводешевских значений» (подробнее
см. статью, выложенную здесь), что облегчает корректный и единообразный
отбор наиболее подходящего синонима
для языков, представленных достаточным объемом лексического материала.
6. Все данные приводятся по меньшей мере в трех
форматах: (а) база данных, доступная для просмотра или поисковых запросов
он-лайн (существует также возможность поиска сразу по нескольким базам); (б) PDF-версия для печати, недоступная для
редактирования; (в) таблица Microsoft Excel, предоставляющая все данные в распоряжение
пользователя (чтобы иметь возможность свободно просматривать и редактировать
данные в таблице Excel, необходимо будет загрузить и установить Starling Serif – уникодный шрифт, в котором набрано все
содержимое баз).
7. По мере того, как в отдельные компоненты базы
вводится все больший объем материала, они будут постепенно интегрироваться в
единую, иерархически упорядоченную
структуру, которая послужит основанием для построения единой генетической
классификации языков. ГЛБД ставит перед собой не только цель сбора, компьютеризации
и аннотирования лексических данных, но и (со временем) снабжения их мощным
аналитическим аппаратом.
НА ГЛАВНУЮ СТРАНИЦУ К БАЗАМ ДАННЫХ АНГЛИЙСКАЯ ВЕРСИЯ
©
2011-2016 Г. Старостин (идея сайта, обработка данных)
© 2011-2016 Ф. Крылов
(программирование, техническая поддержка)