The Global Lexicostatistical Database

Глобальная лексикостатистическая база данных: общее описание

I. Введение

II. Структура базы данных

II.1. Построение базы данных 1 уровня

II.2. Построение базы данных 2 и 3 уровня

III. Методологические проблемы

III.1. Выбор синонимов

III.2. Выбор праформы

III.3. Проблема заимствований

I. Введение.

"Глобальная лексикостатистическая база данных" (ГЛБД) – лингвистический проект Московской школой компаративистики, осуществляемый при поддержке программы Института Санта-Фе "Эволюция человеческого языка" (Evolution of Human Language, EHL) и проекта "Вавилонская башня", запущенного в 1998 году С. А. Старостиным.

Непосредственная цель проекта ГЛБД – составление стандартизованных списков слов базисной лексики возможно большего числа языков мира и их диалектов, от хорошо известных до самых малоизученных, а также списков реконструированных праформ многочисленных праязыков, являющихся предками современных языков, и обеспечение широкого публичного доступа к этим спискам.

Поскольку, согласно методологическим принципам сравнительно-исторического языкознания (по крайней мере, того его направления, которое представлено Московской школой), именно базисная лексика является важнейшим показателем генетического родства, база данных будет чрезвычайно полезна для всех интересующихся компаративистикой и вопросами генеалогической классификации языков мира. Списки могут быть полезны также для специалистов по фонетической и семантической типологии, социолингвистике, философии языка и многим другим областям лингвистики и филологии.

II. Структура базы данных.

По форме ГЛБД не представляет собой одну, единую базу данных. Это иерархическая система, включающая списки слов разных уровней, от высшего до низших. Такая структура не только облегчает работу с огромнейшим объемом информации, но и находится в строгом соответствии с концепцией генеалогического древа, согласно которой из языков-предков произрастают многочисленные языки-потомки, на основе которых методами исторической лингвистики можно реконструировать их общий язык-предок.

Первый уровень составляют сравнительно небольшие базы данных, каждая из которых содержит списки слов языков, разделившихся, по предположительным оценкам, не более 3000 лет назад, близкое родство которых не вызывает сомнений (подробнее см. в разделе "Глоттохронология"), а также список слов праязыка, являющегося их общим предком. Типичные примеры таких баз – германская, тюркская, полинезийская, северно-койсанская и т. п. Такие генетические общности мы будем называть языковыми группами.

Второй уровень – базы, содержащие списки только реконструированных слов праязыков, которые достоверно или хотя бы предположительно родственны между собой. Реальность существования таких праязыков обычно не подвергается сомнению в лингвистическом сообществе, а время их выделения из общего языка-предка – не более 6000 лет назад. Базы второго уровня включают также список слов праязыка, являющегося общим предком представленных в данной базе праязыков. К числу типичных примеров относятся индоевропейские, уральские, австронезийские, северно-кавказские и др. Такие генетические общности мы будем называть языковыми семьями.

Третий уровень составляют базы, в которых сопоставляется лексика нескольких праязыков разных семей – в случае, если существует предположение, что между этими семьями имеется очень глубокое генетическое родство. Поскольку такие сверхглубокие генетические связи часто подвергаются серьезному сомнению (особенно специалистами, убежденными в том, что ни сравнительно-исторический метод, ни какие-либо альтернативные подходы не позволяют получить убедительных результатов, когда речь идет о о хронологической глубине, превышающей 6-8 тысяч лет), создание и анализ гипотетических прасписков для столь глубоких таксонов является непременным условием подтверждения их исторической реальности. Типичные примеры – ностратические, сино-кавказские, афроазиатские, нигер-конголезские и т. п. языки; такого рода общности мы будем называть макросемьями.

II.1. Построение базы данных 1 уровня.

В этом разделе описываются и комментируются общая структура и принципы построения типовой базы данных первого уровня – 100-словных списков для сравнительно «молодой» языковой группы, в том числе и список реконструированных слов праязыка этой группы.

В каждой такой базе данных имеются следующие поля (в квадратные скобки заключены поля, присутствие которых необязательно): Word, Ln₁, Ln₁Num, [Ln₁EtNum], Ln₁Notes... Ln_n, Ln_nNum, [Ln_nEtNum], Ln_nNotes, [PLn], [PLnNum], [PLnNotes]. Каждое поле имеет имя (name), соответствующее стандартным требованиям компьютерной программы Starling (не содержащее нестандартных символов), и развернутое название (alias), расшифровывающее это имя, например:

Тип поля	Имя поля	Развернутое название поля	Пример (из северно-койсанской базы данных)

Word	WORD	Word	cold
Ln₁	JUH	Zhuǀ'hoan	ǂàʔú
Ln₁Num	JUHNUM	Zhu\|'hoan number	1
Ln₁EtNum	JUHETNUM	Zhu\|'hoan etymology	261
Ln₁Notes	JUH_NOTES	Zhu\|'hoan notes	Dickens 1994: 300.
Ln₂	AUE	ǁKxauǁen	ǂxiː
Ln₂Num	AUENUM	ǁKxauǁen number	2
Ln₂EtNum	AUEETNUM	ǁKxauǁen etymology	412
Ln₂Notes	AUE_NOTES	ǁKxauǁen notes	Bleek 1929: 29; Bleek 1956: 680. Alternately transcribed as ǂxẽ in [Bleek 1956: 679]. A possible synonym is \|au 'to be cold, bare' [Bleek 1956: 303]; however, in the English-ǁKxauǁen vocabulary of [Bleek 1929] only the first root is adduced.
Ln₃	EKK	Ekoka !Xung	ǃǃàò ~ ǃǃàʔō
Ln₃Num	EKKNUM	Ekoka !Xung number	1
Ln₃EtNum	EKKETNUM	Ekoka !Xung etymology	261
Ln₃Notes	EKK_NOTES	Ekoka !Xung notes	König & Heine 2008: 89. Quoted as ǂàʔō in [Heikkinen 1986: 23]. Polysemy: 'cold / cool / good, well'.
PLn	NKH	Proto North Khoisan	*ǂàʔū
PLnNum	NKHNUM	Protolanguage number	1
PLnNotes	NKH_NOTES	Protolanguage notes	Distribution: Preserved (mostly) in the Northern and Central clusters. Replacements: Southern cluster: *ǂxãĩ, possibly reflecting a rare semantic development {'to tremble' > 'to be cold'}. Reconstruction shape: Correspondences are regular and trivial.

Пояснения к конкретным полям:

A. Word. Унифицированный перечень значений из списка Сводеша, в точности один и тот же во всех базах данных первого уровня. Этот перечень включает все элементы классического 100-словного списка Сводеша, к которым добавлено еще 10 элементов из 200-словного списка Сводеша – для особых целей, связанных с корректировкой результатов подсчетов. После слова в скобках может стоять его неполный синоним, служащий для уточнения / корректировки изначального значения из списка Сводеша. Например, записи 'claw (nail)', 'walk (go)', 'warm (hot)' означают, что значение соответствующих слов должно быть ближе к английским '(finger)nail', 'to go', 'hot', чем к 'claw', 'walk', 'warm'.

Поскольку английское слово зачастую можно перевести на другой язык несколькими разными синонимами, значение каждого элемента списка Свадеша выражено и истолковано довольно точным и недвусмысленным образом, и списки слов – по мере возможности – должны составляться в соответствии с этими единообразными правилами. Об общих принципах отсева синонимов можно прочитать, щелкнув расположенную в верхней части страницы ссылку на статью А. Касьяна, Г. Старостина, А. Дыбо и В. Чернова «Список Свадеша. Уточнение значений».

Для личных местоимений, наличие у которых по крайней мере двух синонимичных основ широко распространено в языках мира, в силу этого обстоятельства целесообразно создание двух разных записей, у которых в поле “Word” будет значиться, соответственно, 'I₁' и 'I₂', 'thou₁' и 'thou₂', 'we₁' и 'we₂'. В тех редких случаях, когда синонимические варианты все же обнаруживаются и у других слов (см. ниже пояснение относительно «транзитной синонимии»), также создаются две записи, но значение, прописанное в поле “Word”, в этом случае не будет маркироваться числовым индексом. (Наличие или отсутствие числового индекса влияет на отображение соответствующей записи на страничке в интернете.)

B. Данные: Ln₁, Ln₂... Ln_n. Эти поля содержат конкретный языковой материал по всем языкам соответствующей группы, по которым таковой удалось найти и снабдить комментариями. Ввод данных осуществляется следующим образом:

а) Имена языков: каждому полю присваивается трехбуквенное имя (невидимое на странице в интернете, но задающее структуру базы), а для удобства пользования, кроме того, развернутое название («alias») данного поля. Такое двойное наименование имеют не только поля, но и базы в целом; каждый список имеет свой уникальный идентификатор из шести букв (имя базы + имя поля), например: NKH_JUH (развернутое название – Северно-койсанский → Жуцъхоан) = список слов языка жуцъхоан (JUH) в базе северно-койсанской языковой группы (NKH).

Такой подход, допускающий именование одним и тем же трехбуквенным сокращением разных языков при условии, что они относятся к разным группам, отличается от принятого в системе Ethnologue принципа присвоения каждому языку своего уникального трехбуквенного кода. Серьезный аргумент в пользу такого подхода, помимо просто большего удобства (в принятой в Ethnologue системе многие трехбуквенные коды неизбежно имеют слабое, если не нулевое сходство с названиями языков и труднозапоминаемы), заключается в том, что часто даются списки слов разных, порой многочисленных, диалектов одного языка, каждый из которых должен иметь свой уникальный идентификатор (для Ethnologue, где не дается конкретный языковой материал, такой проблемы не существует), и поэтому количества возможных трехбуквенных комбинаций из 26 букв латинского алфавита (26³ = 17576) может со временем оказаться недостаточно.

б) Транскрипция: весь языковой материал представлен в абсолютно единообразной унифицированной транскрипционной записи, основанной по большей части на МФА, но имеющей и ряд корректив, внесенных ради удобства в соответствии с пожеланиями основных участников проекта.

Решение унифицировать систему записи принято, прежде всего, ради удобства читателя (большинство пользователей, вероятно, будут знакомы со специфическими правилами записи лишь небольшой части материала) и для упрощения применения автоматических алгоритмов анализа данных. Однако во многих случаях целесообразно давать материал также и в записи, общепринятой для данного языка, особенно в случае с языками с давней орфографической традицией (английский и т.п.); иногда есть смысл приводить также оригинальное написание в графике, не основанной на латинице (например, китайские иероглифы). Во всех подобных случаях вначале дается слово в стандартной системе записи, принятой в GLD, а затем в фигурных скобках приводится традиционное написание, например: британское английское šɔ:t {short}, пекинское китайское śīŋ {星} и т. п.

в) Грамматические аспекты подачи материала: для морфологически развитых языков существительные, прилагательные, глаголы и др. даются всегда в одной и той же форме (например: именительный падеж единственного числа, инфинитив действительного залога, форма 1 лица ед. числа настоящего времени и т.п.), в какой именно – может быть указано в общем описании, прилагающемся к конкретной базе данных. Если это оказалось невозможно по каким-то причинам (например, формы брались не из словарей, а из текстов), в поле “Language Notes” про каждое слово должно быть указано, какая это форма.

Если слово с точки зрения синхронной лингвистики или достаточно простого и непротиворечивого исторического анализа состоит из нескольких морфем, префиксы отделяются от корня знаком равенства (=), а суффиксы – дефисом (например, русское u=mer-ˈet^y ‘умереть’). Если дается только основа (что не приветствуется, но иногда неизбежно), в конце ее всегда ставится дефис.

Замечание относительно сложных слов, состоящих из двух и более корней: правила составления ГЛБД предписывают выделять в таких словах корень, выражающий основное лексическое значение слова (обычно это делается на основании внутреннего и внешнего сравнения). Остальные корневые морфемы следует маркировать так же, как префиксы или суффиксы (в зависимости от позиции в слове). Например: пекинское китайское yǜe-l^yàŋ {月亮} 'луна' (второй корень l^yàŋ 'свет' отделен дефисом как суффикс).

Если в слове есть инфиксы, они заключаются в квадратные скобки: Тхао k[m]an 'есть (кушать)' и т.п.

Формы с отклонениями, в которых обнаруживаются важные чередования гласных или согласных, а также супплетивные формы, обычно выносятся в раздел примечаний, но в отдельных случаях может возникнуть необходимость дать в одной записи несколько морфологических вариантов. В таких случаях они отделяются слэшем (косой чертой) (например, лъани cá / há 'ты'), а различие между этими формами объясниется в примечании (в приведенном примере: “форма мужского / женского рода”.

г) Дополнительные обозначения: взаимозаменимые варианты одного слова, представленные в одном источнике без объяснения причин (например, это может быть результатом смешения нескольких диалектов), даются в базе рядом и отделяются друг от друга тильдой (~); желательно, чтобы на первом месте стояла форма, которая чаще употребляется (если из источника можно извлечь такую информацию).

В круглые скобки разрешается заключать “факультативные” элементы, которые могут присутствовать или отсутствовать в речи информанта по тем или иным фонетическим или морфологическим причинам.

Если слово вызывает сомнения – например, когда есть серьезные подозрения, что данная форма записана с ошибкой, или когда значение слегка отличается от искомого, но есть веские основания предполагать, что данная форма имеет также и искомое значение, и т. п. – после соответствующей формы ставится значок #. Во всех таких случаях всегда дается пояснение в разделе примечаний.

C. Нумерация: [Ln₁Num]. В этом поле ставится когнационный индекс. Первое слово в базе имеет в этом поле номер 1, и все слова данной базы, которые этимологически ему тождественны (т. е. восходят к той же праформе), получают тот же номер 1. Затем первое из оставшихся слов (т. е. не относящихся к этимологии номер 1), получает номер 2, и тот же номер 2 получают все слова, этимологически с ним связанные. Далее эта процедура повторяется, пока все слова не получат свои номера. На страничке в интернете номер этимологии отображается в виде надстрочных индексов (¹, ²... ⁿ) справа от слова. Подробности см. в разделе «Общие правила подсчета количества одинаковой лексики».

Если слово отсутствует, то в базе данных такое отсутствие отмечается отрицательным индексом (допустимо использовать любые цифры, но обычно ставится индекс ^-1); на страничке в интернете соответствующая клеточка отображается как совершенно пустая. Явное заимствование (в соответствии с исправленной С. А. Старостиным лексикостатистической методикой) условно приравнивается к отсутствию слова и помечается тем же отрицательным индексом (но реально клеточка не пустая, поэтому заимствованное слово отображается на страничке в интернете).

D. Этимология: Ln₁EtNum. Если какие-то слова в данном списке имеют ссылку на одну из этимологических баз данных, размещенных на сервере «Вавилонская башня», они получают еще и второй номер, совпадающий с номером той этимологии в этимологической базе, к которой ведет ссылка. На страничке в интернете этот номер не отображается. Пользователь может выбрать один из двух вариантов: (a) игнорировать ссылки на базу данных – для этого надо убрать галочку возле надписи «Отображать записи с гиперссылками», расположенной в верхней части сраницы; (b) задействовать ссылки, и тогда соответствующие слова будут служить гиперссылками, ведущими к этимологическим базам «Вавилонской Башни».

В принципе, наличие двух номеров излишне – в основном наборе СтарЛинговских баз данных есть только одна нумерация, служащая для обеих целей – но, поскольку многие из создаваемых списков слов не имеют никакой привязки к этимологическим базам, в конечном итоге пришлось бы все равно использовать два разных способа нумерации в зависимости от типа списка (слова в списках, не привязанных к этимологической базе, должны были бы нумероваться от 1 до бесконечности, а в списках, привязанных к базе – номерами, совпадающими с их нумерацией в этимологических базах данных). Кроме того, списки слов должны делаться так, чтобы они могли функционировать совершенно автономно, как независимые объекты.

E. Комментарии: Ln₁Notes. Это поле всегда начинается с указания первоисточников, в которых засвидетельствована данная форма, в следующем стандартном формате: Автор – Год : Номер страницы (например: Doke 1925: 153). Остальное содержимое этого поля не подлежит строгой регламентации и может включать любую дополнительную информацию о соответствующей записи, которую составитель списка сочтет нужной. Приветствуется информация следующего рода:

— альтернативные варианты этого же слова, засвидетельствованные в дополнительных источниках (словарях / списках слов того же языка / диалекта, составленных другими авторами) с точной ссылкой на источник (например, в такой форме: "Записано как {альтернативный вариант} в {Источник}"). Примечание: если имеются относительно полные списки слов или словари по двум близко родственным диалектам одного языка, желательно по каждому из них составить отдельный список;

— имеющиеся синонимы и квази-синонимы; помимо констатации факта их существования, желательно вкратце объяснить, почему эти слова не годятся или меньше подходят на роль искомого слова для лексикостатистического списка. Это особенно важно, если основным источником служит большой словарь, в котором обнаруживается по нескольку синонимов для каждого значения из списка Сводеша и при этом указываются смысловые оттенки этих слов или даются примеры их употребления. Примечание: если обнаруживается несколько синонимов, но нет сведений о различиях в их употреблении, процедура рекомендует выбирать главный синоним на основе внешних данных (например, тот же корень образует основное слово с требуемым сводешевским значением в близкородственных языках).

— морфологическая информация (особенно та, что может быть полезна в историческом плане – разные парадигматические формы с морфонологическими чередованиями и т.п.);

— соображения о степени надежности данных, особенно, если слово помечено знаком # (например, у составителя списка есть основания сомневаться, что в источнике правильно записано слово, точно указано его значение).

F. Информация о праформе: [PLn], [PLnNum], [PLnNotes]. Праформа, к которой восходит хотя бы одно слово (как правило, больше) в данной языковой группе.

Первое поле [PLn] содержит только одну реконструированную праформу под звездочкой (или два и более фонетически различающихся варианта одного реконструированного этимона, разделенные тильдой ~, если эти варианты не удается с уверенностью возвести к единому фонетическому инварианту). Если есть и альтернативные этимоны, чрезвычайно подходящие на роль «пракорня» (указанные в разделе «Примечания»), тогда главный этимон следует пометить знаком # («неуверенность»).

Реконструкции могут быть или взяты из уже опубликованного источника (при условии, что он заслуживает доверия с точки зрения методологии сравнительно-исторического языкознания), или сделаны в предварительном, черновом варианте самим составителем списка. В первом случае поле [PLnNotes] должно содержать все необходимые ссылки на источники, вплоть до номеров страниц.

Второе поле [PLnNum] содержит когнационный индекс, который, естественно, совпадает с номером, присвоенным восходящим к данному праязыковому корню формам, засвидетельствованным в языках-потомках.

Третье поле [PLnNotes] дает информацию, необходимую для обоснования реконструкции, а именно:

— Распространение: Сведения о том, насколько хорошо данный корень представлен в языковой группе (например, «сохранился во всех / в большинстве языков/диалектов-потомков» и т.п.). Если обнаруживается два и более кандидата на занятие места в праязыковом списке, в этом разделе должно содержаться обоснование окончательного выбора;

— Замены: Сведения о словах, являющихся инновациями в сравнении с праязыковым этимоном: их предполагаемые формы и значения в праязыке (если их можно реконструировать), для заимствований – источник заимствования (если он известен);

— Форма реконструкции: Замечания о фонетических особенностях реконструкции основного праязыкового корня (степень регулярности соответствий; обоснование предлагаемой приблизительной реконструкции, если она носит предварительный характер и не опирается на тщательное исследование соответствий);

— Семантика и структура: Сведения о семантике основного праязыкового корня в праязыке (например, сведения о полисемии, если таковые имеются), а также о внутренней морфологической структуре, если «корень» в действительности делится на морфемы. Возможны элементы внутренней реконструкции, если она требуется.

Если поле содержит адекватную информацию о полисемии в праязыке или о том, как изменилось значение в языке-потомке по сравнению с праязыковым значением, рекомендуется давать эту информацию в стандартной форме, например: {'голова' > 'волосы на голове'} (семантические изменения), {'голова' & 'волосы на голове'} (полисемия). Такое единообразие облегчит создание в будущем общей базы данных по полисемии и семантическим изменениям в базовой лексике.

II.2. Построение базы данных второго и третьего уровня.

Поскольку между реально засвидетельствованным языком и реконструированным праязыком нет кардинальных различий, между базами данных первого уровня и второго / третьего уровня также нет существенных структурных различий. Здесь можно ограничиться следующими замечаниями (в будущем их число увеличится):

Названия языков: Трехбуквенный код, общий для всех языков данной группы, становится обозначением реконструированного праязыка. Например, NKH теперь будет означать «прасеверно-койсанский» и выступать в качестве имени соответствующего поля в общекойсанской базе данных (полное наименование поля может быть NKH_KHO).

Примечания: Это поле может содержать информацию о том, почему реконструкция именно такая, и о любых связанных с ней фонетических, семантических и дистрибуционных проблемах, однако это не обязательно, потому что большая часть этой информации будет просто повторением того, что уже содержится в базе данных первого уровня. Обязательно должна присутствовать здесь библиографическая ссылка (если она существует).

III. Методологические проблемы.

В этом разделе рассматриваются некоторые фундаментальные (и одновременно технические) вопросы, возникающие при создании GLD и требующие четкого и единообразного решения. Он предназначен как для создателей баз, так и для пользователей, чей интерес к GLD не сводится к пустому любопытству.

На данный момент известны три главных проблемы: [а] как поступать с синонимическими эквивалентами в списках слов; [б] выбор наиболее подходящего кандидата на место в праязыковом списке слов; [в] решение проблемы заимствований, которые могут попасть в список слов. В нижеследующих разделах в общих чертах, без рассмотрения всех мелких деталей, изложены почти алгоритмические способы решения этих проблем.

III.1. Какой из синонимов выбирать.

При составлении GLD мы исходим из основополагающей препосылки, что никакие два слова одного языка (или диалекта) из числа тех, что входят в 100-словный список, не могут быть полностью и во всех случаях взаимозаменимыми синонимами. Довольно неопределенное общее понятие «синонимия» понимается как обобщающее наименование для следующих трех более узких понятий:

— квази-синонимия: два слова (или более) имеют очень близкие значения, которые, однако, слегка различаются по толкованию ('холодный' / 'прохладный'; 'зуб' / 'клык'), стилистической окраске ('рот' / 'пасть'; 'глаз' / 'око') или синтаксическому поведению (немецкое 'wissen' / 'kennen'). К этой группе относятся также супплетивизмы, например: 'я' / 'меня';

— псевдо-синонимия: двум или более словам приписано одинаковое значение в одном или нескольких существующих источниках по небрежности или из-за недостатка времени у автора данного источника, тогда как в действительности значения или особенности употребления этих слов различаются;

— переходная синонимия: два и только два слова, которые действительно имеют одно и то же значение и, как правило, взаимозаменимы, но одно из них – «старое» слово, а другое – «новое», находящееся в процессе неизбежного вытеснения и замены собой «старого» слова ('stone' > 'rock'; наиболее очевидные примеры представлены в языках с долгой письменной историей – китайском, греческом и др.).

Все три типа явлений обычно можно опознать:

— квази-синонимия выявляется путем внимательного изучения словарей и корпусов текстов;

— если подробные словари и текстовые примеры отсутствуют, квази-синонимию можно признать псевдо-синонимией (различия в значении невозможно установить);

— переходная синонимия определяется на основе имеющейся исторической информации или сравнительно-исторических данных.

Основные способы снятия соответствующих проблем:

а) Квази-синонимы выбираются на основе как можно большего количества данных и в соответствии со специфическими значениями и синтаксическими контекстами, которые приводятся в упоминавшейся выше работе (А. Касьян, Г. Старостин, А. Дыбо, В. Чернов «Уточнение семантики для элементов списка Сводеша»). В редких, но возможных случаях, когда статья не дает ясного решения проблемы, проблематичные слова можно рассматривать как переходные синонимы (см. выше), но о таких ситуациях следует ставить в известность авторов, чтобы можно было внести необходимые коррективы и сделать правила более строгими.

Отвергнутые (неподходящие) квази-синонимы можно давать в разделе примечаний (Notes) с пояснениями, по каким причинам они были забракованы, но это не обязательно, если эти причины достаточно просты и бесспорны.

б) Псевдо-синонимы: в главное поле должен быть введен только один из псевдо-синонимов, но в разделе примечаний обязательно следует перечислить все остальные и указать причины, по которым выбор был сделан не в их пользу. Такими причинами могут быть (в порядке убывания важности):

— частота употребления: если в источнике приводятся две или более лексемы и не указывается различие их значений, то обычно основной будет та из них, которая чаще встречается в прилагающихся текстах, в синтаксических примерах (в грамматиках) и т.п.;

— параллели в родственных языках: если слова даются списками без текстовых / синтаксических контактов, помогающих понять их употребление, стандартная процедура предписывает выбирать слово, имеющее лексикостатистические (совпадают форма и значение) или хотя бы этимологические (совпадает форма, различаются значения) параллели в близкородственных языках;

— выбор не играет роли: если не удается выяснить, в чем разница между несколькими псевдо-синонимами, и ни об одном из них нет никакой этимологической информации, тогда выбор какого бы то ни было из них не окажет влияния ни на праязыковые реконструкции, ни на подсчеты, поэтому, по сути, совершенно все равно, какой из них будет выбран основным и какие будут указаны в разделе примечаний как дополнительные.

в) Переходная синонимия: В тех относительно редких случаях, когда она действительно может быть выявлена, переходные синонимы – это единственное, что следует трактовать как истинные синонимы (наряду с некоторыми типами супплетивных основ, см. ниже); в базе данных СтарЛинг создается новая запись, куда, в соответствующее поле, вводится второй из синонимов, и ему присваивается другой номер.

Во всех таких случаях в разделе примечаний следует ясно указать, какой из синонимов считается старым и какой новым, пришедшим ему на смену.

Супплетивизм. В большинстве случаев парадигматического супплетивизма должна выбираться только одна основа (хотя другие основы можно и должно указывать в разделе примечаний); список форм, которым следует отдавать предпочтение (например, субъектные / объектные глагольные основы единственного числа, а не множественного; и т.п.), содержится в упоминавшейся выше работе. Однако следующие несколько случаев настолько широко распространены в языках мира, что, в соответствии со стандартами ГЛБД, их приемлемо трактовать как синонимы:

— прямые / косвенные основы личных местоимений; например, 'I' / 'me';

— эксклюзивные / инклюзивные основы местоимения 1 лица множ. числа 'we';

— перфективные / имперфективные показатели отрицания ('не'), находящиеся в отношении дополнительной дистрибуции в глагольной парадигме (следует отметить, что запретительный отрицательный показатель совершенно не подходит для включения в список, так как он имеет несколько другое значение).

Сложные основы. Основные правила относительно сложных основ сформулированы в работе «Уточнение семантики для элементов списка Сводеша». В разделе примечаний должны быть изложены соображения, исходя из которых в сложной основе была выделена «основная» морфема.

III.2. Выбор праформы.

Заполнение «праязыкового» поля – ответственная процедура, которая даже при наличии солидного этимологического словаря данной языковой группы / семьи не должна сводиться к простому копированию соответствующей реконструкции из словаря. Процедура выбора наиболее подходящей праязыковой основы в общих чертах описана в статье Г. Старостина «Новый подход к использованию предварительной лексикостатистики в целях языковой классификации», которая есть на сайте. Основные принципы в сжатом изложении таковы:

Для языков l₁, l₂, l₃... l_n, образующих группу L (т. е. восходящих к праязыку *L), праформа для сводешевского элемента *I, который отражается в вышеозначенных языках как i₁, i₂, i₃... i_n , выбирается следующим образом:

(1) Если этимологически i₁ = i₂= i₃= i_n , тогда праформа *I – это, очевидно, тот же корень, что и все его рефлексы, и он получает тот же номер;

(2) Если i₁ = i_x , т. е. в двух (или более) языках засвидетельствован один и тот же корень, тогда как во всех прочих языках представлены разные другие, этимологически не тождественные друг другу корни, и при этом языки l₁ и l_x не образуют отдельную ветвь на лексикостатистическом дереве, тогда праформа *I отождествляется с соответствующим эквивалентом в списке Сводеша для праязыка *L.

Случаи (1) и (2) можно определить как неконкурентные, т. е. здесь явный дистрибуционный перевес в пользу только одного «кандидата» на место в списке праформ. Прочие ситуации, когда на одну и ту же позицию в прасписке с равными или сопоставимыми в плане вероятности шансами претендуют два или более слова, определяются как конкурентные и требуют более сложного решения. Это случаи типа:

(3) i₁ ≠ i₂≠ i₃≠ i_n, т. е. все языки, входящие в группу L, имеют разные корни для обозначения одного и того же понятия;

(4) i₁ = i_x, т. е. два (или более) языка имеют один и тот же корень, тогда как все остальные языки имеют разные другие корни, не имеющие этимологических соответствий в пределах данной группы, НО языки l₁ и l_x при этом образуют отдельную ветвь в лексикостатистическом дереве (следовательно, данное слово может представлять собой инновацию в пра-l₁-l_x и не восходить к *L);

(5) i₁ = i_x & i₂ = i_y, причем языки l₁ и l_x образуют одну ветвь, а языки l₂ и l_y – другую ветвь. (Количество языков, образующих каждую из этих ветвей, разумеется, может быть больше двух). Существование таких пар / троек / четверок и т. д. означает, что при отсутствии других, дополнительных аргументов каждая из них может с равными основаниями претендовать на место в реконструированном пра-списке;

(6) i₁ = i_x & i₂ = i_y, причем языки l₁ and l_y образуют одну ветвь, а языки l₂ and l_x – другую. Это самая сложная из всех возможных ситуаций, случай так называемого «семантического перекрещивания»; обычно она имеет два объяснения: (а) синонимия в праязыке или (б) независимая семантическая инновация в двух (или более) ветвях группы. Усовершенствованная лексикостатистическая процедура требует, чтобы при выявлении случая (б) соответствующие корни считались по отдельности, несмотря на их общее происхождение с этимологической точки зрения, поскольку семантические совпадения в таких случаях не указывают на наличие общего предка, а скорее представляют собой два протекавших независимо процесса семантического изменения.

Выбор из числа конкурирующих вариантов *I₁, *I₂... *I_n производится на основе следующих критериев:

[А] Сравнение этимологических параллелей. Если форма *I₁ засвидетельствована в «сводешевском» значении, тогда как форма *I₂ лишь в некоторых языках засвидетельствована в «сводешевском» значении, а в остальных – в другом значении, про которое по данным типологии известно, что оно может меняться на искомое сводешевское значение (например, *I₁ всегда = 'есть', тогда как *I₂ = 'есть ~ жевать'), предпочтение должно отдаваться форме *I₁.

[Б] Внутренний анализ. Если форма *I₁ – простая по своей морфологической структуре, тогда как *I₂ очевидным образом представляет собой основу, образованную от корня с другим значением (например, *I₁ – 'звезда', *I₂ – 'глаз-неба'), предпочтение должно отдаваться форме *I₁ (ПРИМЕЧАНИЕ: только если *I₁ и *I₂ – действительно конкурирующие варианты. Если в девяти языках из десяти значение 'звезда' передается как 'глаз-неба', а десятый язык не образует отдельную ветвь, отделившуюся раньше, тогда никакой конкуренции нет).

[В] Внешние параллели. Если параметры [A] и [Б] не позволили сделать выбор в пользу *I₁ или *I₂, тогда допустимо включить в праязыковой список ту из форм, которая лучше других соответствует праформе наиболее близкородственного праязыка (праязыков).

ВАЖНОЕ ЗАМЕЧАНИЕ: [В] – очень «скользкий» параметр, неуместное использование которого может привести к порочному кругу при установлении родства. Принятие решения на основе внешних параллелей допустимо только если (а) родство совершенно бесспорно установлено иными методами, нежели лексикостатистика; или (б) предположение о наличии более глубокого родства сделано на основе лексикостатики, но без опоры на такие сомнительные случаи.

Если ни один из перечисленных критериев не применим или два разных критерия противоречат друг другу, тем самым взаимно перечеркивая значимость получаемых с их помощью выводов, тогда пространство, предназначенное для праформы, теоретически, должно остаться пустым. Однако, по техническим причинам, его желательно все-таки заполнить – даже если нет ни малейших оснований отдать предпочтение той или иной из двух и более форм – чтобы вхождение не получило отрицательный номер (это может привести к искажению результата подсчетов на более высоком уровне). В таких случаях можно произвольно выбрать любой корень из числа равноправных конкурентов, поле необходимо пометить значком #, а в разделе примечаний следует перечислить все остальные конкурировавшие формы.

III.3. Проблема заимствований.

Элементы списка, признанные заимствованиями, нумеруются отрицательными числами, что исключает их из лексикостатистических подсчетов, учитывающих изменения, вызванные лишь внутренними языковыми процессами, а не внешними воздействиями.

Во многих случаях, особенно в хорошо изученных в историческом плане семьях, состоящих из сравнительно близко родственных языков, вычленение заимствований не составляет труда. Но нередко требуется более сложная процедура, включающая ситуативный анализ, типичным примером которого является выявление "контактного треугольника": если количество сходств между A и B значительно больше, чем между A и C, но значительно меньше, чем между B и C, то это может означать, что завышенные сходства между A и B обусловлены контактами между ними (т.е. A и B или не родственны, или родственны на значительно более глубоком уровне, чем B и C).

Во множестве случаев остается совершенно неясным, является ли "исконным" некое слово, пришедшее на замену более старому, или оно представляет собой заимствование из неизвестного источника. В этих случаях рекомендуется поступать следующим образом:

(1) Если слово имеет прозрачную, не вызывающую сомнений этимологию в рамках анализируемой языковой группы, то оно, безусловно, не является заимствованием и учитывается при подсчетах;

(2) Если слово не имеет этимологии и по форме существенно отличается от "исконных" слов – например, содержит фонемы, не типичные для данного языка – его можно предположительно отнести к числу заимствований;

(3) Во всех прочих случаях слово лучше рассматривать как "внутреннюю замену", а не заимствование. Строго говоря, неразумно исключать все заимствования при подсчетах: ведь некоторые слова могут проникать в язык с другим значением и лишь позже, в ходе исторического развития, приобретать значение из списка Сводеша. Ситуации, когда элементы списка Сводеша заимствуются в "сводешевском" же значении, обычно случаются при "массивной лексической бомбардировке", т.е. предполагают почти одновременное проникновение множества заимствований из одного источника, а такие случаи обычно легко распознать, если доступен материал по окружающим языкам.

Если же мы сталкиваемся с единичным потенциальным заимствованием из неустановленного источника, здесь возможны три сценария: (а) слово проникло в язык из языка-донора сразу же в "сводешевском" значении; (б) слово вообще не заимствовано, а вполне исконно; (в) слово было заимствовано не в "сводешевском" значении, а "сводешевское" приобрело уже впоследствии. Поскольку заимствованием, безусловно требующим отрицательного индекса когнации, соответствующее слово можно считать только в ситуации (а), можно без особых опасений обращаться с ним по умолчанию как с незаимствованным. Тем не менее, в подобных случаях можно добавлять в разделе "Комментарии" примечание: "Возможно, заимствование из неизвестного источника".