Алгоритм поиска строки - String-searching algorithm

В Информатика, алгоритмы поиска по строкаминогда называют алгоритмы сопоставления строк, являются важным классом строковые алгоритмы которые пытаются найти место, где один или несколько струны (также называемые шаблонами) находятся в более крупной строке или тексте.

Базовый пример поиска строки - это когда шаблон и искомый текст массивы элементов алфавит (конечный набор ) Σ. Σ может быть алфавитом человеческого языка, например, буквы А через Z и другие приложения могут использовать двоичный алфавит (Σ = {0,1}) или Алфавит ДНК (Σ = {A, C, G, T}) в биоинформатика.

На практике на метод возможного алгоритма поиска строки может влиять кодировка строки. В частности, если кодирование с переменной шириной используется, то поиск Nй символ, возможно, требующий времени, пропорционального N. Это может значительно замедлить работу некоторых поисковых алгоритмов. Одно из многих возможных решений - вместо этого искать последовательность кодовых единиц, но это может привести к ложным совпадениям, если только кодирование специально не предназначено для предотвращения этого.[нужна цитата ]

Обзор

Самый простой случай поиска строки включает одну (часто очень длинную) строку, иногда называемую стог сена, и одна (часто очень короткая) строка, иногда называемая иголка. Цель состоит в том, чтобы найти одно или несколько вхождений иголки в стоге сена. Например, можно искать к в:

   Некоторые книги нужно пробовать, другие проглатывать, а некоторые - разжевывать и переваривать.

Можно запросить первое вхождение «to», которое является четвертым словом; или все вхождения, из которых 3; или последнее, пятое с конца слово.

Однако очень часто добавляются различные ограничения. Например, кто-то может захотеть сопоставить «иглу» только в том случае, если она состоит из одного (или нескольких) полных слов - возможно, определяемых как нет наличие других букв, непосредственно примыкающих с обеих сторон. В этом случае поиск «hew» или «low» должен завершиться неудачно для приведенного выше примера предложения, даже если эти буквальные строки встречаются.

Другой распространенный пример включает «нормализацию». Во многих случаях поиск такой фразы, как «быть», должен быть успешным даже в тех местах, где есть что-то еще, промежуточное между «to» и «be»:

  • Более одного места
  • Другие «пробельные» символы, такие как табуляция, неразрывные пробелы, перенос строки и т. Д.
  • Реже дефис или мягкий дефис
  • В структурированных текстах теги или даже произвольно большие, но «заключенные в скобки» вещи, такие как сноски, номера списков или другие маркеры, встроенные изображения и так далее.

Многие системы символов включают символы, которые являются синонимами (по крайней мере, для некоторых целей):

  • Алфавиты на основе латиницы различают строчные и прописные буквы, но для многих целей ожидается, что поиск по строкам будет игнорировать это различие.
  • Многие языки включают лигатуры, где один составной символ эквивалентен двум или более другим символам.
  • Многие системы письма включают диакритические знаки например, акценты или гласные, которые могут различаться по своему использованию или иметь различное значение при сопоставлении.
  • Последовательности ДНК могут включать некодирование сегменты, которые могут игнорироваться для некоторых целей, или полиморфизмы, которые не приводят к изменению кодируемых белков, что может не считаться истинным различием для некоторых других целей.
  • В некоторых языках есть правила, согласно которым в начале, середине или конце слова должен использоваться другой символ или форма символа.

Наконец, для строк, представляющих естественный язык, задействуются аспекты самого языка. Например, кто-то может захотеть найти все вхождения слова, несмотря на то, что оно имеет альтернативные варианты написания, префиксы или суффиксы и т. Д.

Другой более сложный тип поиска - это регулярное выражение поиск, когда пользователь создает шаблон из символов или других символов, и любое совпадение с шаблоном должно выполнять поиск. Например, чтобы поймать и американское английское слово «цвет», и британский эквивалент «цвет», вместо поиска двух разных буквальных строк можно использовать регулярное выражение, такое как:

   цвет

где "?" обычно делает предыдущий символ («u») необязательным.

В этой статье в основном обсуждаются алгоритмы для более простых видов поиска по строкам.

Похожая проблема, возникающая в области биоинформатики и геномики, - это максимальное точное соответствие (MEM).[1] Учитывая две строки, MEM являются обычными подстроками, которые нельзя расширить влево или вправо, не вызывая несоответствия.[2]

Примеры алгоритмов поиска

Наивный поиск по строке

Простой и неэффективный способ увидеть, где одна строка встречается внутри другой, - это проверять каждое место, где она может быть, одно за другим, чтобы увидеть, есть ли оно там. Итак, сначала мы видим, есть ли копия иголки в первом символе стога сена; если нет, мы смотрим, есть ли копия иглы, начинающаяся со второго символа стога сена; если нет, мы смотрим, начиная с третьего символа и так далее. В нормальном случае нам нужно только посмотреть на один или два символа для каждой неправильной позиции, чтобы увидеть, что это неправильная позиция, поэтому в среднем случае это занимает О (п + м) ступеней, где п длина стога сена и м - длина иглы; но в худшем случае поиск строки типа «aaaab» в строке типа «aaaaaaaaab» требует О (нм)

Поиск на основе конечных автоматов

DFA поиск mommy.svg

В этом подходе мы избегаем обратного отслеживания, создавая детерминированный конечный автомат (DFA), который распознает сохраненную строку поиска. Их строительство дорого - обычно они создаются с использованием конструкция электростанции - но очень быстро в использовании. Например, DFA Показанный справа узнает слово «МАМА». Этот подход часто обобщается на практике для поиска произвольных обычные выражения.

Заглушки

Кнут – Моррис – Пратт вычисляет DFA который распознает входы со строкой для поиска как суффикс, Бойер-Мур начинает поиск с конца иглы, поэтому обычно на каждом шаге он может прыгать вперед на целую длину иглы. Баеза – Йейтс отслеживает, были ли предыдущие j символы были префиксом строки поиска и поэтому могут быть адаптированы для поиск нечеткой строки. В битовый алгоритм представляет собой приложение подхода Баэзы – Йетса.

Индексные методы

Более быстрые поисковые алгоритмы предварительно обрабатывают текст. После создания индекс подстроки, например суффиксное дерево или же массив суффиксов, можно быстро найти вхождения шаблона. Например, суффиксное дерево может быть построено в время и все вхождения шаблона можно найти в time в предположении, что алфавит имеет постоянный размер и все внутренние узлы в суффиксном дереве знают, какие листья находятся под ними. Последнее можно сделать, запустив Алгоритм DFS от корня суффиксного дерева.

Другие варианты

Некоторые методы поиска, например поиск по триграмме, предназначены для определения оценки «близости» между строкой поиска и текстом, а не «совпадение / несоответствие». Иногда их называют "нечеткие" поиски.


Классификация поисковых алгоритмов

Классификация по ряду паттернов

Различные алгоритмы можно классифицировать по количеству шаблонов, которые каждый использует.

Алгоритмы с одним шаблоном

В следующей компиляции м длина выкройки, п длина текста, доступного для поиска, k = | Σ | размер алфавита, а ж - константа, введенная SIMD операции.

АлгоритмВремя предварительной обработкиВремя совпадения[1]Космос
Наивный алгоритм поиска строкиниктоΘ (млн)никто
Оптимизированный наивный алгоритм поиска строк (libc ++ и libstdc ++ string :: find)[3][4]никтоΘ (мн / ж)никто
Алгоритм Рабина – КарпаΘ (м)среднее Θ (n + m),
худшее Θ ((n − m) m)
О (1)
Алгоритм Кнута – Морриса – ПраттаΘ (м)Θ (п)Θ (м)
Алгоритм поиска строки Бойера – МураΘ (м + к)наилучшее Ω (n / m),
худший O (мин)
Θ (к)
Битап алгоритм (сдвиг-или, сдвиг и, Баеза – Йетс – Гоннет; нечеткие; согласен)Θ (м + к)O (мин)
Двусторонний алгоритм сопоставления строк (glibc memmem / strstr)[5]Θ (м)О (п + м)О (1)
BNDM (обратное недетерминированное сопоставление DAWG) (нечеткое + регулярное выражение; nrgrep)[6]O (м)На)
BOM (обратное сопоставление Oracle)[7]O (м)O (мин)
FM-индексНа)O (м)На)
1.^ Асимптотические времена выражаются через Обозначения O, Ω и Θ.

В Алгоритм поиска строки Бойера – Мура был стандартным ориентиром для практической литературы по поиску строк.[8]

Алгоритмы, использующие конечный набор шаблонов

Алгоритмы, использующие бесконечное количество шаблонов

Естественно, что в этом случае образцы не могут быть перечислены до бесконечности. Они обычно представлены регулярная грамматика или же регулярное выражение.

Классификация с использованием программ предварительной обработки

Возможны другие подходы к классификации. Один из наиболее распространенных критериев - предварительная обработка.

Классы алгоритмов поиска по строкам[9]
Текст не предварительно обработанТекст предварительно обработан
Шаблоны не обработаны предварительноЭлементарные алгоритмыИндексные методы
Шаблоны предварительно обработаныСконструированные поисковые системыМетоды подписи:[10]

Классификация по стратегиям сопоставления

Другой классифицирует алгоритмы по их стратегии сопоставления:[11]

  • Сначала сопоставьте префикс (Knuth-Morris-Pratt, Shift-And, Aho-Corasick)
  • Сначала сопоставьте суффикс (Бойер-Мур и варианты, Комментарий-Вальтер)
  • Сначала сопоставьте лучший фактор (BNDM, BOM, Set-BOM)
  • Другая стратегия (Наив, Рабин-Карп)

Смотрите также

Рекомендации

  1. ^ Курц, Стефан; Филлиппи, Адам; Делчер, Артур Л; Смут, Майкл; Шамуэй, Мартин; Антонеску, Корина; Зальцберг, Стивен Л. (2004). «Универсальное и открытое программное обеспечение для сравнения больших геномов». Геномная биология. 5 (2): R12. Дои:10.1186 / gb-2004-5-2-r12. ISSN  1465-6906. ЧВК  395750. PMID  14759262.
  2. ^ Хан, Зия; Блум, Джошуа С .; Кругляк Леонид; Сингх, Мона (1 июля 2009 г.). «Практический алгоритм для поиска максимально точных совпадений в больших наборах данных с использованием разреженных массивов суффиксов». Биоинформатика. 25 (13): 1609–1616. Дои:10.1093 / биоинформатика / btp275. ЧВК  2732316. PMID  19389736.
  3. ^ Кумар, Адитья. "libc ++: улучшение алгоритма string :: find". Цитировать журнал требует | журнал = (помощь)
  4. ^ Кумар, Адитья. "libstdc ++: Улучшение алгоритма string :: find". Цитировать журнал требует | журнал = (помощь)
  5. ^ Крошмор, Максим; Перрен, Доминик (1 июля 1991 г.). «Двустороннее сопоставление строк» (PDF). Журнал ACM. 38 (3): 650–674. Дои:10.1145/116825.116845. S2CID  15055316.
  6. ^ Наварро, Гонсало; Раффино, Матье (1998). «Бит-параллельный подход к суффиксным автоматам: быстрое сопоставление расширенных строк» (PDF). Комбинаторное сопоставление с образцом. Конспект лекций по информатике. Springer Berlin Heidelberg. 1448: 14–33. Дои:10.1007 / bfb0030778. ISBN  978-3-540-64739-3.
  7. ^ Fan, H .; Yao, N .; Ма, Х. (декабрь 2009 г.). "Быстрые варианты алгоритма обратного оракула-марша" (PDF). 2009 Четвертая международная конференция по Интернет-вычислениям для науки и техники: 56–59. Дои:10.1109 / ICICSE.2009.53. ISBN  978-1-4244-6754-9. S2CID  6073627.
  8. ^ Юм; Воскресенье (1991). «Быстрый поиск строки». Программное обеспечение: практика и опыт. 21 (11): 1221–1248. Дои:10.1002 / spe.4380211105. S2CID  5902579.
  9. ^ Меличар, Боривой, Ян Голуб и Дж. Полкар. Алгоритмы текстового поиска. Том I: Прямое сопоставление строк. Vol. 1. 2 тт., 2005. http://stringology.org/athens/TextSearchingAlgorithms/.
  10. ^ Риад Мокадем; Витольд Литвин http://www.cse.scu.edu/~tschwarz/Papers/vldb07_final.pdf (2007), Быстрый поиск строки на основе nGram по данным, закодированным с использованием алгебраических подписей, 33-я Международная конференция по очень большим базам данных (VLDB)
  11. ^ Гонсало Наварро; Матьё Раффино (2008), Гибкие строки сопоставления с образцом: практические алгоритмы онлайн-поиска текстов и биологических последовательностей, ISBN  978-0-521-03993-2

внешняя ссылка