Глобальная лексикостатистическая база данных: специфика


НОВОСТИ

ОБЩАЯ ИНФОРМАЦИЯ

ЦЕЛЬ ПРОЕКТА

СПЕЦИФИКА ГЛБД

УЧАСТНИКИ

ПЛАНЫ

СОТРУДНИЧЕСТВО

МАТЕРИАЛЫ

ПУБЛИКАЦИИ

 

Сегодня «сводешевские» списки базисной лексики по различным языкам мира или списки, аналогичные сводешевским, в том или ином виде можно обнаружить на самых разных веб-сайтах. Из числа наи­более известных и представительных примеров можно отметить Сводешевские списки в проекте «Wiktionary»; Rosetta Project; Austronesian Basic Vocabulary Database; Compara­tive Indo-European Database по материалам И. Дайена (эта база данных сегодня также существует в значительно расширенной и технически более усовер­шенствованной версии под названием The Indo-European Lexical Cognacy Database); The Automated Similarity Judgement Program и др.

 

При запуске проекта ГЛБД был учтен как позитивный, так и негативный опыт анализа этих и дру­гих ресурсов, а также опыт Московской школы компаративистики, накопленный за более чем два десятилетия занятий компью­терной лексикостатистикой. Это позволяет разрабо­тать принципиально новый стандарт подачи материала, который, с одной стороны, повышает надежность и «прозрачность» языковых данных, с другой – облегчает разработку новых идей и подходов в области ручного и автоматического анализа этих дан­ных.

 

Ниже перечислены главные особенности ГЛБД, в своей совокупности отличающие ее от большинства подобных про­ектов:

 

1. Все данные вводятся в базы или, по крайней мере, тщательно выверяются перед публи­кацией профессио­нальными лингвистами-ком­па­ративистами, в достаточной степени знакомыми с материалом.

2. Все данные сопровождаются аннотациями, которые в обязательном порядке содер­жат указания на источник данных вплоть до но­ме­ра страницы, так, чтобы любое вхождение в базе можно было легко проверить любому пользователю, имеющему доступ к соответствующим источникам.

3. Все данные транслитерируются из исходных транскрипций/орфографий в единую унифицированную систему транскрипции (УСТ), в осно­ве которой лежит транс­крип­ция МФА с незначительными изменениями (детали см. здесь); для отдельных языков с устоявшейся письменной традицией стандартная орфографическая запись приводится параллельно с унифицированной. Это дает возможность пользователю легко сопоставлять данные незнакомых языков, а также облегчает обработку дан­ных с помощью различных автоматических алгоритмов анализа.

4. Все данные (за исключением данных по плохо изученным языкам) приводятся в морфологически сегментированной форме, для того, чтобы облегчить процедуры ручного и автоматического анализа и снизить вероятность случайных грубых оши­бок при эти­мологизации.

5. Специально для нужд ГЛБД в рамках проекта разработан обновленный и эксплици­рованный список «сводешевских значений» (по­дро­б­нее см. статью, выложенную здесь), что облегчает корректный и единообразный отбор наиболее подходящего си­нонима для языков, представленных достаточным объемом лексического материала.

6. Все данные приводятся по меньшей мере в трех форматах: (а) база данных, доступ­ная для просмотра или поисковых запросов он-лайн (существует также возмож­ность поиска сразу по нескольким базам); (б) PDF-версия для печати, недоступная для редактирования; (в) таблица Microsoft Excel, предоставляющая все данные в распоряжение пользователя (чтобы иметь возможность свободно про­сматривать и редактировать данные в таблице Excel, необходимо будет загрузить и установить Starling Serif – уникодный шрифт, в кото­ром набрано все содержимое баз).

7. По мере того, как в отдельные компоненты базы вводится все больший объем ма­те­риала, они будут постепенно интегрироваться в еди­ную, иерархически упорядочен­ную структуру, которая послужит основанием для построения единой генети­ческой клас­си­фи­кации языков. ГЛБД ставит перед собой не только цель сбора, ком­пьютеризации и аннотирования лексических данных, но и (со временем) снабжения их мощным аналитическим аппаратом.

 

НА ГЛАВНУЮ СТРАНИЦУ                                    К БАЗАМ ДАННЫХ                              АНГЛИЙСКАЯ ВЕРСИЯ

 

     © 2011-2016 Г. Старостин (идея сайта, обработка данных)
    © 2011-2016 Ф. Крылов (программирование, техническая поддержка)