Список детских речевых корпусов - List of childrens speech corpora

А детский речевой корпус это речевой корпус документирование первого языка овладение языком. Такие базы данных используются при разработке компьютерные системы изучения языка и характеристика детская речь в разном возрасте.[1] Речь детей зависит не только от языка, но и от региона в пределах языка. Он также может отличаться для определенных групп, таких как дети-аутисты, особенно если учитывать эмоции. Таким образом, для разных групп населения необходимы разные базы данных. Корпуса доступны для американского и британского английского, а также для многих других европейских языков.[1][2][3]

Обзор детских речевых корпусов

В приведенной ниже таблице возрастной диапазон можно описать с точки зрения школьных оценок. «К» обозначает «детский сад», а «G» обозначает «класс». Например, возрастной диапазон «K - G10» относится к говорящим от детского сада до 10 класса.

Эта таблица основана на документе конференции Interspeech, 2016 г.[4] Эта онлайн-статья представляет собой интерактивную таблицу для читателей и место, где хранится информация о детских речевых корпусах, которая может постоянно обновляться сообществом исследователей речи.

КорпусАвторЯзыки# Компьютерные колонки# Утт.ПродолжительностьВозрастной диапазонДатаЗамечания
Обучение боулдерингу - MyST Corpus (v0.4.0) [5]Cole et al.[6]английский1371228,874~ 393чG3 - G52019диалоговое взаимодействие студента и виртуального репетитора на научные темы; обычно продолжительность сеанса 20-40 минут (настенные часы); было переписано примерно 49% высказываний, и еще больше записано. добровольцы поощряются. доступен бесплатно для исследования; квартира 10 тысяч долларов для коммерческого использования.
CMU Kids Corpus [7]Эскеназианглийский24М, 52Ф51806 - 111997
Детский речевой корпус CSLU [8]Шобакианглийский11001017K - G102007
Детский речевой корпус PF-STAR [9][10]РасселАнглийский,158~ 14,5 ч4 - 142006транскрипции на уровне слов
ВЫЗОВ-ТА [11]RaynerНемецкий50002014
TBALL [12]Каземгадеанглийский256500040чК - G42005частично неродная речь
CASS_CHILD [13]ГаоМандарин231 - 42012фонетические транскрипции
CU Детский корпус для чтения и подсказки речи [14]Hagenанглийский663~100К - G52001состоит из отдельных слов, предложений и коротких спонтанных рассказов; транскрипции на уровне слов
CU Story Corpus [14]Hagenанглийский106500040чG3 - G52003состоит из сюжетных подсказок и спонтанного устного изложения материала; транскрипции на уровне слов
Providence Corpus [15]Демутанглийский6363ч1 - 32006спонтанные речевые взаимодействия матери и ребенка; широкая фонетическая транскрипция
Lyon Corpus [16]ДемутФранцузский4185ч1 - 32007спонтанное речевое взаимодействие матери и ребенка; широкая фонетическая транскрипция
Demuth Sesotho Corpus [17]ДемутСесото4~1325098ч2 - 41992спонтанное речевое взаимодействие семья / сверстники; морфологически маркированный
CHIEDE [18]Гарротеиспанский5915444~ 8ч2008спонтанная беседа, личные интервью, взаимодействие взрослого и ребенка; орфографические транскрипции; автоматическая фонологическая транскрипция
TIDIGITS [19]Леонарданглийский326 (101 ребенок)6 - 151993сочетание взрослых и детей
FAU Aibo Emotion CorpusSteidlНемецкий5110 - 13аннотированные людьми с 11 категориями эмоций
Шведский NICE Corpus [20]Колокол55808 - 152005состоит из взаимодействий ребенок-машина и взрослый-ребенок; орфографические транскрипции
SingaKids-Мандарин [4]ЧенМандарин25579,843125 ч7 - 122016текстовые и телефонные транскрипции; аннотированные людьми рейтинги квалификации
CFSC[21]ПаскуальФилиппинский57~ 8ч6-112012состоит из детской читаемой речи; содержит как хорошее произношение, так и ошибки чтения; частично транскрибируется на уровне слов и фонем

Смотрите также

Рекомендации

  1. ^ а б Хабернал, Иван; Вацлав, Матушек (2013). Текст, речь и диалог: 16-я Международная конференция, TSD 2013, Пльзень, Чешская Республика, 1-5 сентября 2013 г., Труды. Springer. п. 545. ISBN  9783642405853. Получено 11 декабря 2015.
  2. ^ Нойштейн, Эми (2014). Речь и автоматы в здравоохранении. Вальтер де Грюйтер. С. 225–226. ISBN  9781614515159. Получено 11 декабря 2015.
  3. ^ Ронжин Андрей; Потапова, Родмонга; Факотакис, Никос (2015). Речь и компьютер: 17-я Международная конференция, SPECOM 2015, Афины, Греция, 20-24 сентября 2015 г., Материалы. Springer. С. 144–145. ISBN  9783319231327. Получено 11 декабря 2015.
  4. ^ а б Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пэйсуан Ли, Бин Ма и Хайчжоу Ли. SingaKids-Mandarin: Речевой корпус сингапурских детей, говорящих на китайском языке, в Proc. компании Interspeech, 2016.
  5. ^ "MyST Corpus | Boulder Learning inc". Получено 2019-07-17.
  6. ^ "Мой научный руководитель и MyST Corpus". ResearchGate. Получено 2019-07-17.
  7. ^ Максин Эскенази, Джек Мостоу и Дэвид Графф. CMU Kids Corpus LDC97S63. Интернет-загрузка. Филадельфия: Консорциум лингвистических данных, 1997.
  8. ^ Халдун Шобаки, Джон-Пол Хосом и Рональд Коул. CSLU: Детская речь Версия 1.1 LDC2007S18. Интернет-загрузка. Филадельфия: Консорциум лингвистических данных, 2007.
  9. ^ Мартин Рассел. Корпус британской детской речи PF-STAR. Speech Ark Limited. 2006 г.
  10. ^ Антон Батлинер, Матс Бломберг, Шона Д'Арси, Даниэль Элениус, Диего Джулиани, Маттео Героса, Кристиан Хакер, Мартин Рассел, Стефан Стейдл, Майкл Вонг. Детский речевой корпус PF STAR. В Proc. Интерспич, 2005.
  11. ^ Мэнни Райнер, Никос Цуракис, Клаудиа Баур, Пьеретта Буйон, Йоханна Герлах. CALL-SLT: система разговорного вызова, основанная на грамматике и распознавании речи. В лингвистических проблемах языковой технологии, т. 10, выпуск 2. 2014.
  12. ^ Абэ Каземзаде, Хонг Ю, Маркус Исели, Барбара Джонс, Сяодун Цуй, Маргарет Херитэдж, Патти Прайс, Элейн Андерсон, Шрикант Нараянан и Абир Алван. Сбор данных TBALL: создание речевого корпуса маленьких детей, в Proc. Интерспич, 2005.
  13. ^ Цзюнь Гао, Айджун Ли и Цзыю Сюн. Мультимедийный детский речевой корпус китайского языка: CASS_CHILD в Международной конференции по речевым базам данных и оценкам (Oriental COCOSDA), 2012.
  14. ^ а б Андреас Хаген, Брайан Пеллом и Рональд Коул. Распознавание детской речи с применением в интерактивных книгах и наставниках в семинаре IEEE по автоматическому распознаванию и пониманию речи, 2003 г.
  15. ^ Демут, К., Калбертсон, Дж. И Альтер, Дж. 2006. Минимальность слов, эпентез и кодовое лицензирование при освоении английского языка. Язык и речь, 49, 137-174.
  16. ^ Демут, К. и А. Трембли. 2007. Просодически обусловленная изменчивость детерминант французских детерминаторов. Журнал детской речи, 34, 1-29.
  17. ^ Демут, К. 1992. Приобретение Sesotho. В Д. Слобине (ред.), Кросс-лингвистическое исследование овладения языком, том 3, 557-638. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
  18. ^ Марта Гарроте. CHIEDE: Корпус испанского языка, созданный самопроизвольными детьми. Кандидат наук. диссертация, Автономный университет Мадрида, Испания. 2008 г.
  19. ^ Р. Гэри Леонард и Джордж Доддингтон. TIDIGITS LDC93S10. Интернет-загрузка. Филадельфия: Консорциум лингвистических данных, 1993.
  20. ^ Линда Белл, Йохан Бойс, Йоаким Густафсон, Маттиас Хелднер, Андерс Линдстрем и Матс Вирен. Шведский корпус NICE - разговорные диалоги между детьми и воплощенными персонажами в сценарии компьютерной игры, в Proc. Eurospeech, 2005.
  21. ^ Pascual, R.M .; Гевара, Р. К. Л. (ноябрь 2012 г.). «Разработка детского корпуса филиппинской речи для применения в автоматическом обнаружении ошибок и затруднений при чтении». Конференция TENCON 2012 IEEE Region 10: 1–6. Дои:10.1109 / TENCON.2012.6412235. ISBN  978-1-4673-4824-9.