Поиск правовой информации - Legal information retrieval

Поиск правовой информации это наука о поиск информации применяется к юридическому тексту, включая законодательство, прецедентное право, и научные труды.[1] Поиск точной юридической информации важен для обеспечения доступа к закону для неспециалистов и юристов. Его важность возросла из-за огромного и быстро растущего количества юридических документов, доступных в электронном виде.[2] Поиск правовой информации - часть растущей области правовая информатика.

Обзор

В юридических условиях часто важно получить всю информацию, относящуюся к конкретному запросу. Однако обычно используется логический поиск методы (точное совпадение указанных условий) в полнотекстовых юридических документах имеют средний скорость отзыва всего 20 процентов,[3] Это означает, что фактически извлекается только 1 из 5 соответствующих документов. В этом случае исследователи полагали, что они получили более 75% соответствующих документов.[3] Это может привести к невозможности получить важные или прецедентный случаи. В некоторых юрисдикциях это может быть особенно проблематичным, поскольку юристы этично обязан быть разумно проинформированным о соответствующих юридических документах.[4]

Поиск правовой информации пытается повысить эффективность юридического поиска за счет увеличения количества соответствующих документов (обеспечивая высокий скорость отзыва ) и уменьшение количества нерелевантных документов (высокий скорость точности ). Это сложная задача, так как правовое поле подвержено жаргон,[5] полисемы[6] (слова, которые имеют разное значение при использовании в юридическом контексте) и постоянное изменение.

Методы, используемые для достижения этих целей, обычно делятся на три категории: логический поиск, ручная классификация юридического текста и обработка естественного языка юридического текста.

Проблемы

Применение стандарта поиск информации методы юридического текста могут быть более трудными, чем применение в других предметах. Одна из ключевых проблем заключается в том, что закон редко имеет неотъемлемую таксономия.[7] Вместо этого в законе обычно содержатся бессрочные условия, которые со временем могут меняться.[7] Это может быть особенно актуально в общее право страны, где каждый решенный случай может незаметно изменить значение определенного слова или фразы.[8]

Системы правовой информации также должны быть запрограммированы для работы со словами и фразами, относящимися к закону. Хотя это менее проблематично в контексте слов, которые существуют исключительно в законе, в юридических текстах также часто используются полисемы, слова могут иметь разные значения при использовании в юридической или обычной речи, потенциально оба в одном документе. Юридические значения могут зависеть от области права, в которой он применяется. Например, в контексте законодательства Европейского Союза термин «работник» имеет четыре разных значения:[9]

  1. Любой работник, как это определено в статье 3 (а) Директива 89/391 / EEC который обычно использует экранное оборудование как значительную часть своей нормальной работы.
  2. Любое лицо, нанятое работодателем, включая стажеров и учеников, за исключением домашней прислуги;
  3. Любое лицо, выполняющее работу на борту судна, включая стажеров и учеников, за исключением лоцманов порта и берегового персонала, выполняющего работу на борту судна у пристани;
  4. Любое лицо, которое в соответствующем государстве-члене находится под защитой в качестве наемного работника в соответствии с национальным законодательством о занятости и в соответствии с национальной практикой;

Он также имеет общее значение:

  1. Человек, который работает по определенной профессии.[9]

Хотя термины могут быть похожими, правильный поиск информации должен различать предполагаемое использование и нерелевантное использование, чтобы возвращать правильные результаты.

Даже если система преодолевает языковые проблемы, присущие закону, она все равно должна определять релевантность каждого результата. В контексте судебных решений это требует определения прецедентной силы дела.[10] Решения по делам от старшего или высшие суды могут быть более актуальными, чем из суды низшей инстанции, даже если решение суда низшей инстанции содержит более подробное обсуждение соответствующих фактов.[10] Однако может быть и обратное, если в суде старшей инстанции обсуждается лишь незначительное обсуждение темы (например, если это вторичное рассмотрение по делу).[10] Система поиска информации также должна знать полномочия юрисдикции. Обращение от юридически обязывающего органа, скорее всего, более ценно, чем от необязательного.

Кроме того, намерения пользователя могут определять, какие дела они считают ценными. Например, когда профессиональный юрист пытается аргументировать конкретное толкование закона, он может найти решение суда малой инстанции, которое поддерживает его позицию, более ценным, чем должность старшего суда, которая этого не делает.[10] Он также может ценить схожие позиции из разных областей права, разных юрисдикций или несовпадающие мнения.[10]

Преодоление этих проблем может быть затруднено из-за большого количества доступных случаев. Количество судебных дел, доступных через электронные средства, постоянно увеличивается (в 2003 году апелляционные суды США выносили около 500 новых дел в день.[2]), что означает, что точная система поиска юридической информации должна включать методы как сортировки прошлых данных, так и управления новыми данными.[2][11]

Методы

Логический поиск

Логический поиск, где пользователь может указать такие термины, как использование определенных слов или постановлений определенного суда, являются наиболее распространенным типом поиска, доступным через системы поиска правовой информации. Они широко применяются, но решают некоторые из проблем, описанных выше.

Степень отзыва и точности этих поисков зависит от реализации и анализируемых поисковых запросов. Одно исследование показало, что базовый логический поиск скорость отзыва быть примерно 20%, а его точность - примерно 79%.[3] В другом исследовании использовался общий поиск (то есть не предназначенный для использования в юридических целях), и было обнаружено, что уровень отзыва среди юристов составляет 56%, а точность - 72%. Оба числа увеличились, когда поиск проводился профессионалами, не являющимися юристами, до 68% отзыва и 77% точности. Вероятно, это объясняется использованием профессиональных юристов сложных юридических терминов.[12]

Ручная классификация

Чтобы преодолеть ограничения базового логического поиска, информационные системы попытались классифицировать прецедентные законы и законы в более удобные для компьютера структуры. Обычно это приводит к созданию онтология классифицировать тексты на основе того, как о них может думать профессиональный юрист.[13] Они пытаются связать тексты на основе их типа, их ценности и / или тематических областей. Большинство основных поставщиков легального поиска теперь используют своего рода классификационный поиск, например Westlaw "Естественный язык"[14] или же LexisNexis Заголовок[15] поиски. Кроме того, обе эти службы позволяют просматривать свои классификации с помощью West Key Numbers Westlaw.[14] или Заголовки Лексиса.[15] Хотя эти два алгоритма поиска являются частными и секретными, известно, что они используют ручную классификацию текста (хотя это может быть и с помощью компьютера).[13]

Эти системы могут помочь преодолеть большинство проблем, присущих системам поиска правовой информации, поскольку ручная классификация имеет наибольшие шансы на выявление важных дел и понимание проблем, возникающих в тексте.[16] В одном исследовании онтологический поиск привел к показателю точности 82% и коэффициенту отзыва 97% среди профессиональных юристов.[17] Однако включенные правовые тексты тщательно контролировались лишь в нескольких областях права в конкретной юрисдикции.[18]

Основным недостатком этого подхода является необходимость привлечения высококвалифицированных юристов и большого количества времени для классификации текстов.[16][19] Поскольку количество доступного текста продолжает расти, некоторые заявили, что считают ручную классификацию неустойчивой.[20]

Обработка естественного языка

Чтобы уменьшить зависимость от профессиональных юристов и уменьшить количество необходимого времени, были предприняты усилия по созданию системы для автоматической классификации юридических текстов и запросов.[2][21][22] Адекватный перевод обоих позволит получать точную информацию без высокой стоимости человеческой классификации. Эти автоматические системы обычно используют Обработка естественного языка (НЛП), адаптированные к юридической сфере, а также требующие создания юридической онтология. Хотя постулировалось несколько систем,[2][21][22] мало кто сообщил о результатах. Одна система, «SMILE», которая пыталась автоматически извлекать классификации из текстов дел, привела к f-мера (что является расчетом как скорости отзыва, так и точности) менее 0,3 (по сравнению с идеальным f-значением 1,0).[23] Вероятно, это намного ниже приемлемого значения для обычного использования.[23][24]

Несмотря на ограниченные результаты, многие теоретики предсказывают, что развитие таких систем в конечном итоге заменит ручные системы классификации.[25][26]

Рейтинг на основе цитирования

В середине 90-х в рамках проекта поиска по прецедентному праву Room 5 для резюме использовался анализ цитирования, а результаты поиска ранжировались по типу цитирования и количеству. Это немного раньше Рейтинг страницы алгоритм в Стэнфорде, который также был рейтингом на основе цитирования. Ранжирование результатов основывалось как на юрисдикции, так и на количестве ссылок.[27]

Примечания

  1. ^ Максвелл, К.Т., и Шафер, Б. 2009, стр. 1
  2. ^ а б c d е Джексон и др., Стр. 60
  3. ^ а б c Блэр, округ Колумбия, и Марон, M.E., 1985, стр.293.
  4. ^ Американская ассоциация адвокатов, Типовые правила профессионального поведения, Правило 1.1, http://www.abanet.org/cpr/mrpc/rule_1_1.html
  5. ^ Peters, W. et al. 2007, стр. 118
  6. ^ Peters, W. et al. 2007, стр. 130
  7. ^ а б Peters, W. et al. 2007, стр. 120
  8. ^ Saravanan, M. et al. 2009, стр. 101
  9. ^ а б Peters, W. et al. 2007, стр. 131
  10. ^ а б c d е Максвелл, К.Т., и Шафер, Б. 2008, стр. 8
  11. ^ Максвелл, К.Т., и Шафер, Б. 2007, стр.1.
  12. ^ Сараванан М. и др. 2009, стр. 116
  13. ^ а б Максвелл, К.Т., и Шафер, Б. 2008, стр. 2
  14. ^ а б Westlaw Research, http://www.westlaw.com
  15. ^ а б Lexis Research, http://www.lexisnexis.com
  16. ^ а б Максвелл, К.Т., и Шафер, Б. 2008, стр. 3
  17. ^ Saravanan, M. et al. 2009, стр. 116
  18. ^ Saravanan, M. et al. 2009, стр. 103
  19. ^ Швайгхофер Э. и Либвальд Д. 2008, стр. 108
  20. ^ Максвелл, К.Т., и Шафер, Б. 2008, стр. 4
  21. ^ а б Эшли, К. и Bruninghaus, S. 2009, p. 125
  22. ^ а б Гелбарт, Д. и Смит, Дж. К. 1993, стр. 142
  23. ^ а б Эшли, К. и Bruninghaus, S. 2009, p. 159
  24. ^ Максвелл, К.Т., и Шафер, Б. 2009, стр. 3
  25. ^ Максвелл, К.Т., и Шафер, Б. 2009, стр. 9
  26. ^ Эшли, К. и Bruninghaus, S. 2009, стр. 126
  27. ^ Луи, Р. П., Норман, Дж., Альтепетер, Дж., Пинкард, Д., Крейвен, Д., Линсдей, Дж., И Фольц, М. (1997, июнь). Progress on Room 5: Тестовая площадка для публичной интерактивной полуформальной юридической аргументации. В материалах 6-й Международной конференции по искусственному интеллекту и праву (стр. 207-214). ACM.

Рекомендации

  • Максвелл, К.Т .; Шафер, Б. (2008). «Понятие и контекст в поиске правовой информации». Границы в области искусственного интеллекта и приложений. 189: 63–72. Получено 2009-11-07.
  • Jackson, P .; и другие. (1998). «Извлечение информации из прецедентного права и извлечение предыдущих дел путем частичного анализа и генерации запросов». Материалы седьмой международной конференции по управлению информацией и знаниями - CIKM '98. Конференция по управлению информацией и знаниями. Cikm '98. ACM. стр.60–67. Дои:10.1145/288627.288642. ISBN  978-1581130614. S2CID  1268465. Получено 2009-11-07.
  • Блэр, округ Колумбия; Марон, M.E. (1985). «Оценка эффективности поиска для полнотекстового поиска документов». Коммуникации ACM. 28 (3): 289–299. Дои:10.1145/3166.3197. HDL:2027.42/35415. S2CID  5144091.
  • Peters, W .; и другие. (2007). «Структурирование юридических знаний в LOIS». Искусственный интеллект и право. 15 (2): 117–135. CiteSeerX  10.1.1.104.7469. Дои:10.1007 / s10506-007-9034-4. S2CID  2355864.
  • Сараванан, М .; и другие. (2007). «Улучшение поиска правовой информации с использованием онтологической основы». Искусственный интеллект и право. 17 (2): 101–124. Дои:10.1007 / s10506-009-9075-у. S2CID  8853001.
  • Schweighofer, E .; Либвальд, Д. (2007). «Продвинутые лексические онтологии и гибридные системы, основанные на знаниях: первые шаги к динамическому юридическому электронному комментарию». Искусственный интеллект и право. 15 (2): 103–115. Дои:10.1007 / s10506-007-9029-1. S2CID  80124.
  • Gelbart, D .; Смит, Дж. К. (1993). FLEXICON: оценка модели статистического ранжирования, адаптированной для интеллектуального управления юридическими текстами. Международная конференция по искусственному интеллекту и праву. ACM. С. 142–151. Дои:10.1145/158976.158994. ISBN  978-0897916066. S2CID  18952317.
  • Эшли, К.Д .; Брюнингхаус, С. (2009). «Автоматическая классификация текстов случаев и прогнозирование результатов». Искусственный интеллект и право. 17 (2): 125–165. Дои:10.1007 / s10506-009-9077-9. S2CID  31791294.