Программа автоматической оценки сходства - Automated Similarity Judgment Program
Режиссер | Институт Макса Планка истории человечества (Германия) |
---|---|
Языки | английский |
Доступ | |
Расходы | Свободный |
Покрытие | |
Дисциплины | Количественная сравнительная лингвистика |
Ссылки | |
Интернет сайт | http://asjp.clld.org |
В Программа автоматической оценки сходства (ASJP) - это совместный проект, в котором применяются вычислительные подходы к сравнительное языкознание используя базу данных списков слов. База данных имеет открытый доступ и состоит из списков базовой лексики из 40 пунктов для более чем половины языков мира.[1] Он постоянно расширяется. Помимо изолятов и языков продемонстрированных генеалогических групп, база данных включает: пиджины, креолы, смешанные языки, и сконструированные языки. Слова базы данных расшифровываются в упрощенной стандартной орфографии (ASJPcode).[2] База данных использовалась для оценки дат, когда языковые семьи разошлись на дочерние языки с помощью метода, связанного с, но все еще отличного от глоттохронология,[3] определить Родину (Urheimat ) из протоязык,[4] исследовать звуковая символика,[5] оценить различные филогенетические методы,[6] и несколько других целей.
ASJP не получил широкого признания среди лингвистов-историков в качестве адекватного метода для установления или оценки отношений между языковыми семьями.[7]
Это часть Кросс-лингвистические связанные данные проект, организованный Институт Макса Планка истории человечества.[8]
История
Оригинальные цели
Первоначально ASJP был разработан как средство для объективной оценки сходства слов с одинаковым значением из разных языков, с конечной целью классификации языков с помощью вычислений на основе наблюдаемых лексических сходств. В первой статье ASJP[2] два семантически идентичные слова из сравниваемых языков считались похожими, если они давали по крайней мере два идентичных звуковых сегмента. Сходство между двумя языками рассчитывалось как процент от общего количества сравниваемых слов, которые были признаны похожими. Этот метод был применен к спискам слов из 100 пунктов для 250 языков из языковые семьи включая Австроазиатский, Индоевропейский, майя, и Мускогин.
Консорциум ASJP
Консорциум ASJP, основанный примерно в 2008 году,[когда? ] приехали, чтобы привлечь около 25 профессиональных лингвистов и других заинтересованных лиц, работающих в качестве добровольных переводчиков и / или оказывающих помощь проекту другими способами. Главной движущей силой основания консорциума был Сесил Х. Браун. Сорен Вихманн является ежедневным куратором проекта. Третий центральный член консорциума - Эрик У. Холман, который создал большую часть программного обеспечения, используемого в проекте.
Более короткие списки слов
В то время как используемые списки слов изначально основывались на Список Сводеша, было статистически определено, что подмножество 40 из 100 пунктов давало такие же хорошие, если не немного лучшие результаты классификации, чем весь список.[9] Таким образом, впоследствии собранные списки слов содержат всего 40 пунктов (или меньше, если для некоторых отсутствуют подтверждения).
Левенштейн Расстояние
В статьях, опубликованных с 2008 года, ASJP использовала программу оценки сходства, основанную на Расстояние Левенштейна (LD). Было обнаружено, что этот подход дает лучшие результаты классификации, сравниваемые с мнением экспертов, чем метод, использованный изначально. LD определяется как минимальное количество последовательных изменений, необходимых для преобразования одного слова в другое, где каждое изменение - это вставка, удаление или замена символа. В рамках подхода Левенштейна различия в длине слова можно исправить путем деления LD на количество символов более длинного из двух сравниваемых слов. Это дает нормализованную LD (LDN). Разделение LDN (LDND) между двумя языками рассчитывается путем деления среднего LDN для всех пар слов, имеющих одно и то же значение, на среднее значение LDN для всех пар слов, имеющих разные значения. Эта вторая нормализация предназначена для исправления случайного сходства.[10]
Список слов
ASJP использует следующий список из 40 слов.[11] Это похоже на Список Сводеша – Яхонтова, но имеет некоторые отличия.
- Части тела
- глаз
- ухо
- нос
- язык
- зуб
- рука
- колено
- кровь
- кость
- грудь (женская)
- печень
- кожа
- Животные и растения
- вошь
- собака
- рыба (существительное)
- рог (часть животного)
- дерево
- лист
- Люди
- человек
- name (имя существительное)
- Природа
- солнце
- звезда
- воды
- Огонь
- камень
- дорожка
- гора
- ночь (темное время)
- Глаголы и прилагательные
- пить (глагол)
- умереть
- видеть
- слышать
- приехать
- новый
- полный
- Числительные и местоимения
- один
- два
- я
- ты
- мы
ASJPcode
Версия ASJP от 2016 года использует следующие символы для кодирования фонемы: п б е ф v м ж 8 т д с з с н р л S Z C j T 5 y k g x N q X h 7 L 4 G! i e E 3 a u o
Они представляют собой 7 гласных и 34 согласных, и все они присутствуют на стандартной QWERTY-клавиатуре.
ASJPcode | Описание | IPA |
---|---|---|
я | высокий гласный переднего ряда, округленный и неокругленный | я, ɪ, у, ʏ |
е | средне-передний гласный, округленный и неокругленный | е, ø |
E | низкий гласный переднего ряда, округленный и неокругленный | а, æ, ɛ, ɶ, œ |
3 | высокий и средний центральный гласный, округленный и неокругленный | ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ |
а | низкий центральный гласный, без округления | ɐ |
ты | высокий гласный заднего ряда, округленный и неокругленный | ɯ, ты |
о | средние и низкие гласные заднего ряда, округленные и неокругленные | ɤ, ʌ, ɑ, о, ɔ, ɒ |
п | глухая двухгубная остановка и щелевой | p, ɸ |
б | звонкий двугубный стоп и щелевой | б, β |
м | билабиальный носовой | м |
ж | глухой губно-зубной щелевой | ж |
v | звонкий губно-зубной щелевой | v |
8 | глухой и звонкий зубной фрикативный звук | θ, ð |
4 | зубной носовой | n |
т | безмолвный альвеолярный стоп | т |
d | звонкий альвеолярный стоп | d |
s | глухой альвеолярный щелевой | s |
z | звонкий альвеолярный щелевой | z |
c | глухой и звонкий альвеолярный аффрикат | ts, dz |
п | глухой и звонкий альвеолярный носовой | п |
S | глухой постальвеолярный щелевой | ʃ |
Z | звонкий постальвеолярный щелевой | ʒ |
C | глухой небно-альвеолярный аффрикат | tʃ |
j | звонкий небно-альвеолярный аффрикат | dʒ |
Т | глухой и звонкий небный стоп | c, ɟ |
5 | небный носовой | ɲ |
k | безмолвный велярный стоп | k |
грамм | звонкий велярный стоп | ɡ |
Икс | глухой и звонкий велярный фрикативный | х, ɣ |
N | велярный носовой | ŋ |
q | беззвучная увулярная остановка | q |
грамм | звонкий увулярный стоп | ɢ |
Икс | глухой и звонкий увулярный фрикативный, глухой и звонкий глоточный фрикативный | χ, ʁ, ħ, ʕ |
7 | глухая гортанная остановка | ʔ |
час | глухой и звонкий голосовой щелевой звук | ч, ɦ |
л | звонкий альвеолярный латеральный приблизительный | л |
L | все остальные отводы | ʟ, ɭ, ʎ |
ш | звонкий двугубно-велярный аппроксимант | ш |
у | небный аппроксимант | j |
р | звонкая апико-альвеолярная трель и все разновидности «р-звуков» | г, ʀ, и Т. Д. |
! | все разновидности «щелчков» | ǃ, ǀ, ǁ, ǂ |
Смотрите также
Рекомендации
- ^ Вичманн, Сорен, Андре Мюллер, Аннкатрин Ветт, Вивека Велупиллай, Джулия Бишоффбергер, Сесил Х. Браун, Эрик У. Холман, Себастьян Зауппе, Зарина Молочиева, Памела Браун, Харальд Хаммарстрем, Олег Беляев, Йохан-Маттис, Лист Егоров, Матиас Урбан, Роберт Мэйлхаммер, Агустина Карризо, Мэтью С. Драйер, Евгения Коровина, Дэвид Бек, Хелен Гейер, Пейшенс Эппс, Энтони Грант и Пилар Валенсуэла. 2013. База данных ASJP (версия 16). http://asjp.clld.org/
- ^ а б c Браун, Сесил Х., Эрик У. Холман, Сорен Вихманн и Вивека Велупиллай. 2008 г. Автоматическая классификация языков мира: описание метода и предварительные результаты. STUF - Типология языков и универсалии 61.4: 285-308.
- ^ Холман, Эрик В., Сесил Х. Браун, Сорен Вихманн, Андре Мюллер, Вивека Велупиллай, Харальд Хаммарстрём, Себастьян Зауппе, Хаген Юнг, Дик Баккер, Памела Браун, Олег Беляев, Матиас Урбан, Роберт Мэйлхаммер, Список Иоганна-Маттиса и Дмитрий Егоров. 2011 г. Автоматическое датирование языковых семей мира на основе лексического сходства. Современная антропология 52.6: 841-875.
- ^ Вихманн, Сорен, Андре Мюллер и Вивека Велупиллаи. 2010 г. Родины языковых семей мира: количественный подход. Диахроника 27.2: 247-276.
- ^ Вичманн, Сорен, Холман, Эрик В. и Сесил Х. Браун. 2010 г. Звуковая символика в базовой лексике. Энтропия 12.4: 844-858.
- ^ Помпеи, Симоне, Витторио Лорето и Франческа Триа. 2011 г. О точности языковых деревьев. PLoS ONE 6: e20109.
- ^ Ср. комментарии Аделаара, Бласта и Кэмпбелла в Holman, Eric W., et al. (2011) «Автоматизированное датирование языковых семей мира на основе лексического сходства». Современная антропология, т. 52, нет. 6. С. 841–875.
- ^ «Кросс-лингвистические связанные данные». Получено 2020-02-22.
- ^ Холман, Эрик В., Сорен Вихманн, Сесил Х. Браун, Вивека Велупиллай, Андре Мюллер и Дик Баккер. 2008 г. Исследования в области автоматической классификации языков. Folia Linguistica 42.2: 331-354.
- ^ Вичманн, Сорен, Эрик У. Холман, Дик Баккер и Сесил Х. Браун. 2010. Оценка лингвистических мер расстояния. Physica A 389: 3632-3639 (DOI: 10.1016 / j.physa.2010.05.011).
- ^ http://asjp.clld.org/static/Guidelines.pdf
Источники
- Сорен Вихманн, Джефф Гуд (редакторы). 2014 г. Количественная оценка языковой динамики: на переднем крае ареальной и филогенетической лингвистики, стр.203. Лейден: Брилл.
- Браун, Сесил Х. и др. 2008 г. Автоматическая классификация языков мира: описание метода и предварительные результаты. Типология языков и универсалии 61 (4). Ноябрь 2008 г. Дои:10.1524 / stuf.2008.0026
- Вичманн, Сорен, Эрик У. Холман и Сесил Х. Браун (ред.). 2018. База данных ASJP (версия 18).
внешняя ссылка
- База данных ASJP официальная домашняя страница