С. А. Крылов, А. В. Тер-Аванесова
Лексико-грамматическая база данных по севернорусскому слободскому говору деревень Арзубиха, Захариха и Злобиха Харовского-р-на Вологодской области

Лингвистическая информация в базе организована по многоступенчатому принципу. Выделяется 7 уровней членения письменного текста; на каждом из них выделяется своя основная (базовая) единица членения.
1. Уровень целого текста. На этом уровне вводятся параметры, характеризующие личность информанта: фамилия, имя, отчество, год и место рождения.
2. Уровень сверхфразового единства. У сверхфразового единства есть некоторая единая общая смысловая тема.
3. Уровень предложения.
4. Уровень предикации. Границы предикаций помечались так: предложение состоит из предикаций, а между предикациями внутри предложения стоит один из клаузальных делимитаторов (";", ":" и "-"). Предикации часто соответствуют простым предложениям и отдельным предикациям (частям) в составе сложных предложений.
5. Уровень синтагмы. Границы синтагм внутри клаузы помечены пунктуационным синтагматическим делимитатором ("запятая"). Содержательно и интонационно синтагмы примерно соответствуют словосочетаниям.
6. Уровень речевого такта. Такты примерно соответствуют фонетическим словам, членам предложения, "синтаксическим молекулам". Важнейшее фонетическое свойство такта: внутри него невозможна (или по меньшей мере нетипична) пауза.
7. Уровень словоформы. Каждый такт состоит из одной или нескольких словоформ. Словоформы, входящие в состав одного такта, обладают признаком потенциальной подвижности в предложении. Для обозначения границ словоформ при разметке был использован специальный набор нескольких метаязыковых делимитаторов - "служебных пробелов". Выделены служебные пробелы шести типов: "{" между проклитикой и её правой опорой; "}" между энклитикой и её левой опорой; "<" между проклитикоидом и его правой опорой; ">{" между энклитикоидом и его левой опорой; "<>" междv членами квази-композита с неустойчивым просодическим центром; "&" междv компонентами "фразеологического штампа" с множеством просодических центров. Внутри словоформы (так же как внутри такта) невозможна пауза. Фактически наиболее близкий аналог словоформ в письменном тексте, записанном по правилам русской орфографии - это графические слова.
Предложенная многоуровневая схема ЯДК позволяет при необходимости вывести на обозрение список отрезков текста, обладающих некоторым общим свойством. STARLING позволяет пользователю базы по выбору вывести (на экран, на принтер или в файл) отрезок не только одного формата, но разных форматов - словоформу, минимальный контекст этой словоформы (например, предложно-падежную форму, сочетание клитики с акцентно автономной словоформой и т. п. - такт), синтагму, предикацию, предложение, сверхфразовое единство.

Комментарии к заголовкам полей

[LOC] = Район
Указание района (для этой базы данных - это Харовский район Вологодской области России)

[DEREVNJA] = Населенный пункт
Указание населенного пункта, в котором производилась запись (для этой базы данных - это одна из трех деревень: Арзу́биха, Заха́риха, Зло́биха (новое название Злобихи - Пе́рекс, данное для благозвучия по названию речки) Харовского р-на Вологодской обл. Эти деревни и ряд других в недавнее время относились к Слободскому сельсовету, однако до конца 30-х гг. - к разным приходам (последнее имеет и сейчас некоторое значение, поскольку хоронить стараются по традиции на "своем" кладбище). Кажется, говор во всех деревнях бывш. Слободского сельсовета одинаковый (отмечны отдельные лексические различия: названия чердака, стожара - шеста, вокруг которого мечут стог).

[INFORMANT] = Фамилия, имя, отчество информанта, год его рождения.
Иногда указывается девичья фамилия и родственные связи с другими информантами. Это связано с тем, что аудиозаписи в населенных пунктах бывшего Слободского сельсовета проводились с конца 70-х гг. ХХ в., и многие информанты, чья речь была записана за эти годы, связаны родственными отношениями. Так, есть записи 2001\--02 гг. речи Егоровой, 1941 г.р., живущей в Злобихе, и частично опубликованные записи речи ее давно покойной матери Ольги Фокиной, сделанные в 70-е гг. в несуществующей ныне деревне Полутихе. Также известно об одной семье, часть которой говорит не на местном говоре, унаследованном от неместной прабабки и, кажется, передающимся только по женской линии. Теперешние младшее и среднее поколение имеет тенденцию утрачивать местный говор; это видно по аудиозаписям речи родителей, детей и внуков.

[OTKUDA] = Место рождения информанта
Большинство информантов родилось в деревнях Слободского с/с. В этой базе помещены записи речи уроженцев деревень Арзу́биха, Заха́риха, Зло́биха, Полу́тиха, Ерши́ха, Ва́толово. Одна информантка - из д. Никулинская ныне Вожегодского р-на (говор тот же).

[KASSETA] = Кассета
Записи хранятся в фонотеке при отделе фонетики Института русского языка РАН, где каждой кассете присвоен индекс. Здесь указан номер кассеты в нашей нумерации, не совпадающей с индексом фонотеки.

[YEAR] = Год записи

[COMMENTS] = Комментарий к кассете
Комментарий касается содержания кассеты: какие информанты записаны, замечания о качестве записи, о ее содержании, ценности материала (обычный краткий комментарий, помещаемый на футляре кассеты)

[GENRE] = Жанр текста
Помета относится целиком к записи речи одного информанта или к более или менее длинному отрывку. Типичные случаи комментариев: "рассказ о жизни", "рассказ о работе в колхозе", "рассказ о детях", "рассказ о войне" и т.п.; "ответы на вопросы этнолингвистической программы", иногда с конкретизацией: праздники, свадьба, похороны, родины, нечистая сила, скот, сев и жатва, растения и животные и т. п.; ответы на вопросы акцентологической (морфологической, фонетической программы).

[TEXT] = Текст

[SENTENCE] = Предложение

[CLAUSE] = Предикация

[SENTADR] = Номер предложения

[CLAUSADR] = Номер предикации

[PHRASE] = Синтагма

[PHRASADR] = Номер синтагмы

[MOL] = Речевой такт

[MOLADR] = Номер речевого такта

[LEX] = Словоформа с пунктуацией

[LEXADR] = Номер словоформы

[WORD] = Словоформа без пунктуации

[WORDSUB] = Репрезентация словоформы в словаре
"Начальная форма" слова в фонологической транскрипции

[SEMNOTE] = Семантическое пояснение
Семантическое пояснение собирателя материала

[ILLUSTR] = Фразовая иллюстрация

[COLLOCAT] = Коллокация
Типовые устойчивые словосочетания с этим словом

[HEADING] = Заголовок
Тема микротекста из тетради, в котором зафиксировано слово. Обычно заголовок совпадает с вопросом анкеты (акцентологической, морфологической программы).

[LINEADR] = Номер строки в тетради

[WORDFORM] = Краткая вербальная ассоциация
Словосочетание или короткая фраза, которую информант приводит как пример употребления словоформы - при ответах на вопросники

[GENADR] = Номер словоформы в тетради

[NOTE1] = Тетрадь
(заголовок + комментраий)

[EXAMPLE] = Развернутая вербальная ассоциация
Развернутое (несколько фраз, текст) объяснение значения диалектного слова, описание предмета; история из жизни, связанная с толкуемым понятием.