Проект Моби - Moby Project
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
В Проект Моби представляет собой набор общедоступных лексических ресурсов. Он был создан Грэди Уорд. Ресурсы были выделены в общественное достояние и теперь отображаются на Проект Гутенберг. По состоянию на 2007 г.[Обновить], он содержит самую большую бесплатную фонетическую базу данных, содержащую 177 267 слов с соответствующими вариантами произношения.[нужна цитата ]
Переносчик
В Moby Hyphenator II содержит переносы из 187 175 слов и словосочетаний (включая 9 752 словарных статей без переносов, например через и Эворир). Кодировка символов выглядит так: МакРоман, а расстановка переносов обозначается маркером (десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например, «bar • ber-sur • geon».
Документация о сделанных вариантах расстановки переносов практически отсутствует; следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at • mos • phere; у • усы • муравей; емкость; un • col • или • a • ble.
Язык
Язык Моби II содержит словари на пяти языках: Французский, Немецкий, Итальянский, Японский, и испанский:
| Язык | Слова | Размер (в байты ) |
|---|---|---|
| Французский | 138,257 | 1,524,757 |
| Немецкий | 159,809 | 2,055,986 |
| Итальянский | 60,453 | 561,981 |
| Японский | 115,523 | 934,783 |
| испанский | 86,059 | 850,523 |
| Общий | 560,101 | 5,928,030 |
Однако некоторые списки загрязнены, например, список на японском языке содержит английские слова, такие как аномальный и не слова, такие как abcdefgh и м,. /. Есть также необычные особенности в сортировке этих списков, так как французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список слов с традиционно заглавными буквами, а затем алфавитный список слов с традиционным нижним регистром. Список итальянских слов, однако, не содержит слов с заглавной буквы.
В списке иностранных языков не используются символы с диакритическими знаками, поэтому «e ^ tre» - это то, как пользователь будет искать французское слово. être ("быть").
Часть речи
Часть речи Моби содержит 233 356 слов, полностью описанных части речи, перечисленные в порядке приоритета. Формат файла слово части речи, при этом выделяются следующие части речи:
Произношений
В Moby Pronunciator II содержит 177 267 записей с соответствующим произношением. Большинство записей описывают одно слово, но примерно 79000[1] содержать через дефис или несколько словосочетаний, имен или лексемы. Дистрибутив Project Gutenberg также содержит копию судить v0.3. Файл содержит строки формата слово [/ часть речи] произношение. Каждая строка заканчивается ASCII Возврат каретки символ (CR, ' r', 0x0D, 13 в десятичной системе).
В слово поле может включать апострофы (например, не), дефисы (например, трудоспособный) и несколько слов, разделенных подчеркиванием (например, monkey_wrench). Неанглийские слова обычно отображаются, как указано в документации, без акцентов и других диакритических знаков. Однако в 36 записях (например, São_Miguel), остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием Mac OS Роман кодирование.
Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для написанных слов Закрыть, глагол имеет произношение /ˈkлoʊz/, тогда как прилагательное /ˈkлoʊs/. Частям речи присвоены следующие коды:
| Часть речи | Код |
|---|---|
| Имя существительное | п |
| Глагол | v |
| Прилагательное | эй |
| Наречие | средний |
| Междометие | Interj |
Далее следует произношение. Присутствуют несколько специальных символов:
| Символ | Смысл |
|---|---|
| _ | Используется для разделения слов |
| ' | Первичный стресс на следующий слог |
| , | Вторичный стресс на следующий слог |
Остальные символы используются для обозначения IPA символы. Произношение в целом соответствует General American диалект английского языка, который показывает слияние отца и беспокойства, поспешное слияние и много ткани сплит, но не выставляется банальное слияние или же винное слияние. Каждая фонема представлена последовательностью из одного или нескольких символов. Некоторые последовательности разделены косой чертой «/», как показано в следующей таблице, но обратите внимание, что последовательность для /ɔɪ/ ограничен два косые черты с обоих концов:
| Символ | IPA |
|---|---|
| /&/ | æ |
| /-/ | ə |
| /@/ | ʌ, ə |
| /[@]/р | ɜr, ər |
| / A / | ɑ, ɑː |
| / aI / | аɪ |
| / AU / | аʊ |
| б | б |
| d | d |
| / D / | ð |
| / dZ / | dʒ |
| / E / | ɛ |
| / eI / | eɪ |
| ж | ж |
| грамм | ɡ |
| час | час |
| hw | hw |
| /я/ | я |
| /Я/ | ɪ |
| / j / | j |
| / ju / | juː |
| k | k |
| л | л |
| м | м |
| п | п |
| / N / | ŋ |
| / O / | ɔ, ɔː |
| // Ой // | ɔɪ |
| /ОУ/ | oʊ |
| п | п |
| р | р |
| s | s |
| / S / | ʃ |
| т | т |
| / T / | θ |
| / tS / | tʃ |
| / u / | u |
| / U / | ʊ |
| v | v |
| ш | ш |
| z | z |
| / Z / | ʒ |
К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но обратите внимание, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.
| Символ | IPA |
|---|---|
| А | а |
| е | е, ɛ |
| я | я, ɪ |
| N | Назализация предшествующей гласной |
| о | о |
| О | [намерение неясно] |
| р | ʁ |
| S | s |
| ты | ты |
| V | v, β, ʋ |
| W | ш |
| /Икс/ | Икс |
| / г / | ø |
| Y | y |
| / z / | ts |
| Z | z |
Шекспир
Моби Шекспир содержит полные несокращенные произведения Шекспир. Этот конкретный ресурс недоступен в Project Gutenberg.
Тезаурус
В Моби Тезаурус II содержит 30 260 корневых слов, из них 2,520 264 синонимы и родственные термины - в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значения, разделенные запятыми, причем первый термин является корневым словом, а все последующие слова - родственными терминами.
Грэди Уорд поместил этот тезаурус в всеобщее достояние в 1996 году. Он также доступен как Debian упаковка.
Слова
Моби Вордс II это самый большой список слов в мире.[2][требуется дополнительная ссылка (и) ] Дистрибутив состоит из следующих 16 файлов:
| Имя файла | Слова | Описание |
|---|---|---|
| ACRONYMS.TXT | 6,213 | Общий акронимы и сокращения |
| COMMON.TXT | 74,550 | Общие слова, присутствующие в двух или более опубликованных словарях |
| COMPOUND.TXT | 256,772 | Фразы, имена собственные, и акронимы не включен в файл общих слов |
| CROSSWD.TXT | 113,809 | Слова, включенные в первое издание Официальный словарь Scrabble Players |
| CRSWD-D.TXT | 4,160 | Дополнения к официальному словарю Scrabble Players во втором издании |
| FICTION.TXT | 467 | Список наиболее часто встречающихся подстроки в книге Клуб радости и удачи |
| FREQ.TXT | 1,000 | Наиболее часто встречающиеся слова в английский язык, перечисленные в порядке убывания |
| FREQ-INT.TXT | 1,000 | Наиболее часто встречающиеся слова на Usenet в 1992 г. указаны с соответствующим процентом в порядке убывания |
| KJVFREQ.TXT | 1,185 | Наиболее часто встречающиеся подстроки в Версия Библии короля Якова, перечислены в порядке убывания |
| NAMES.TXT | 21,986 | Наиболее общий имена используется в США и Великобритания |
| ИМЕНА-F.TXT | 4,946 | Общий английский женский имена |
| ИМЕНА-M.TXT | 3,897 | Общий английский мужчина имена |
| OFTENMIS.TXT | 366 | Самые распространенные английские слова с ошибками |
| PLACES.TXT | 10,196 | Названия мест в США |
| SINGLE.TXT | 354,984 | Отдельные слова, исключая имена собственные, сокращения, составные слова и фразы, но включая архаичный слова и значимые варианты написания |
| USACONST.TXT | 7,618 | Конституция Соединенных Штатов включая все поправки, действующие до 1993 г. |
| Общий | 863,149 | Не все уникальные слова. |
| Всего Uniq | 639,995 | Всего отдельных существительных, имен собственных, сокращений и составных слов и фраз (все файлы, содержащие уникальные слова). |
Рекомендации
- ^ Получается при выполнении команды UNIX grep '. * [-_]. *. *' mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодирования.
- ^ Электронные словари
внешняя ссылка
- Домашняя страница проекта Moby, Университет Шеффилда; копировать сделано Wayback Machine страницы, как это было на 30 сентября 2017 г. («Последнее изменение: 24 октября 2000 г.»)
- Загрузки Project Gutenberg
- Поиск рифм на Perl; соответствующий код