RDFLib - RDFLib

RDFLib
Logo-rdflib.png
Разработчики)Дэниел Крех (создатель), Гуннар Гримнес, Джоерн Хис (прошлые сопровождающие), Николас Дж. Кар (сопровождающий)
изначальный выпуск4 июня 2002 г.; 18 лет назад (2002-06-04)
Стабильный выпуск
5.0.0 / 18 апреля 2020 г.; 7 месяцев назад (2020-04-18)[1]
Репозиторий Отредактируйте это в Викиданных
Написано вPython
Операционная системаКроссплатформенность
ТипБиблиотека
ЛицензияBSD
Интернет сайтrdflib.dev Отредактируйте это в Викиданных

RDFLib это Python библиотека для работы с RDF[2], простой, но мощный язык для представления информации. Эта библиотека содержит парсеры / сериализаторы для почти всех известных сериализаций RDF, таких как RDF / XML, Turtle, N-Triples и JSON-LD, многие из которых теперь поддерживаются в их обновленной форме (например, Turtle 1.1). Библиотека также содержит как хранящиеся в памяти, так и постоянные График серверные части для хранения информации RDF и многочисленные удобные функции для объявления пространств имен графов, размещения SPARQL[3] запросы и так далее. Он находится в постоянном развитии с самой последней стабильной версией, rdflib 5.0.0 был выпущен 18 апреля 2020 года. Первоначально он был создан Даниэлем Кречем с первым выпуском в ноябре 2002 года.

Ряд других проектов Python используют rdflib для манипуляций с RDF, в том числе:


История и статус

Обзор

RDFLib и идиомы Python

RDFLib использует различные Python идиомы означают, что программистам, обладающим только начальными навыками Python, довольно просто управлять RDF. С другой стороны, идиомы Python достаточно просты, так что кто-то, знакомый с RDF, но не с Python, вероятно, может легко понять, как использовать rdflib.

Базовым классом RDFLib является График который представляет собой словарь Python, используемый для хранения коллекций троек RDF в памяти. Он переопределяет некоторые встроенные методы объекта Python, чтобы продемонстрировать простое поведение графа, такое как простое слияние графа посредством добавления (т.е. g3 = g1 + g2).

Графы RDFLib имитируют типы контейнеров и их лучше всего рассматривать как набор троек из трех элементов:

   set ([(субъект, предикат, объект), (субъект1, предикат1, объект1), ... (субъектN, предикатN, объектN)])

Графы RDFLib не являются отсортированными контейнерами; у них есть обычные операции набора Python, например Добавить() методы, которые ищут тройки и возвращают их в произвольном порядке.

Термины графа RDF

Следующие классы RDFLib (перечисленные ниже) модели Условия RDF в графе и наследовать от общего Идентификатор класс, расширяющий Python unicode. Их экземпляры являются узлами в графе RDF.

Утилиты пространства имен

RDFLib предоставляет механизмы для управления пространствами имен. В частности, есть Пространство имен class, который принимает (в качестве единственного аргумента) базовый URI пространства имен. Полностью определенные URI в пространстве имен могут быть созданы с помощью доступа к атрибутам / словарю в экземплярах пространства имен:

>>> из rdflib импорт Пространство имен>>> SDO = Пространство имен("https://schema.org/")>>> SDO.Человекhttps://schema.org/Person>>> SDO['url']https://schema.org/url

Графики как итераторы

Графики RDFLib также имеют приоритет над __iter__ для поддержки итерация над содержащимися тройками:

за предмет, предикат, объект_ в someGraph:    утверждать (предмет, предикат, объект_) в someGraph, "Протоколы итератора / контейнера нарушены !!"

Установить операции с графами RDFLib

__я добавить__ и __isub__ переопределены для поддержки добавления и вычитания графиков друг из друга (на месте):

  • G1 + = G1
  • G2 - = G2

Базовое тройное соответствие

Графы RDFLib поддерживают базовое сопоставление тройных шаблонов с тройки((предмет,предикат,объект)) функция. Эта функция является генератором троек, которые соответствуют шаблону, заданному аргументами. Аргументами здесь являются термины RDF, которые ограничивают возвращаемые тройки. Условия, которые Никто обрабатываются как подстановочный знак.

за предмет, предикат, объект_ в someGraph.тройки((Никто, URIRef("https://schema.org/name"), Никто)):    Распечатать("{} имеет имя {}".формат(s, о))  # выводит все тройки с предикатом https://schema.org/name

Удобные API RDF (коллекции / контейнеры RDF)

Управление тройками

Добавление троек

Тройки можно складывать двумя способами:

  • Их можно добавить с помощью разбирать(источник, publicID=Никто, формат= "xml") функция. Первый аргумент может быть источник многих видов, но наиболее распространенным является сериализация (в различных форматах: RDF / XML, Обозначение 3, N-Triples графа RDF в виде строки). В формат параметр может быть одним из turtle, n3, xml, n-triples или JSON-LD (последнее, когда используется плагин JSON-LD). publicID - это имя графа, в который будет анализироваться сериализация RDF.
  • Тройки также можно добавить с помощью Добавить функция: Добавить((предмет, предикат, объект)).

Удаление троек

Точно так же троек можно удалить, позвонив в удалять: удалять((предмет, предикат, объект))

Поддержка RDF Literal

RDFLib 'Literal по сути ведет себя как символы Unicode с Схема XML тип данных или атрибут языка. Класс предоставляет механизм как для преобразования литералов Python (и их встроенных функций, таких как время / дата / дата / время) в эквивалентные литералы RDF, так и (наоборот) преобразования литералов в их эквивалент Python. Существует некоторая поддержка учета типов данных при сравнении экземпляров Literal, реализованная как переопределение для __экв__. Это сопоставление с литералами Python и обратно достигается с помощью следующих словарей:

PythonToXSD = {    базовая строка : (Никто, Никто),    плавать      : (Никто, XSD_NS+ты'плавать'),    int        : (Никто, XSD_NS+ты'int'),    длинный       : (Никто, XSD_NS+ты'длинный'),     bool       : (Никто, XSD_NS+ты'логическое'),    Дата       : (лямбда я:я.изоформат(), XSD_NS+ты'Дата'),    время       : (лямбда я:я.изоформат(), XSD_NS+ты'время'),    дата и время   : (лямбда я:я.изоформат(), XSD_NS+ты'dateTime'),}

Сопоставляет экземпляры Python с литералами типа данных WXS

XSDToPython = {     XSD_NS+ты'время'               : (Никто, _strToTime),    XSD_NS+ты'Дата'               : (Никто, _strToDate),    XSD_NS+ты'dateTime'           : (Никто, _strToDateTime),     XSD_NS+ты'нить'             : (Никто, Никто),    XSD_NS+ты'normalizedString'   : (Никто, Никто),    XSD_NS+ты'токен'              : (Никто, Никто),    XSD_NS+ты'язык'           : (Никто, Никто),    XSD_NS+ты'логическое'            : (Никто, лямбда я:я.ниже() в ['1','истинный']),    XSD_NS+ты'десятичный'            : (плавать, Никто),    XSD_NS+ты'целое число'            : (длинный, Никто),    XSD_NS+ты'nonPositiveInteger' : (int, Никто),    XSD_NS+ты'длинный'               : (длинный, Никто),    XSD_NS+ты'nonNegativeInteger' : (int, Никто),    XSD_NS+ты'negativeInteger'    : (int, Никто),    XSD_NS+ты'int'                : (int, Никто),    XSD_NS+ты'unsignedLong'       : (длинный, Никто),    XSD_NS+ты'положительное число'    : (int, Никто),    XSD_NS+ты'короткая'              : (int, Никто),    XSD_NS+ты'unsignedInt'        : (длинный, Никто),    XSD_NS+ты'байт'               : (int, Никто),    XSD_NS+ты'unsignedShort'      : (int, Никто),    XSD_NS+ты'unsignedByte'       : (int, Никто),    XSD_NS+ты'плавать'              : (плавать, Никто),    XSD_NS+ты'двойной'             : (плавать, Никто),    XSD_NS+ты'base64Binary'       : (base64.расшифровка, Никто),    XSD_NS+ты'anyURI'             : (Никто,Никто),}

Сопоставляет литералы с типами данных WXS с Python. Это отображение используется toPython(), определенный для всех экземпляров Literal.

Запросы SPARQL

RDFLIb поддерживает большинство текущих SPARQL 1.1 спецификации и включает в себя набор общедоступных тестов RDF DAWG. Поддержка SPARQL осуществляется двумя способами:

  • rdflib.graph.query () - используется для постановки SPARQL ВЫБРАТЬ или же ПРОСИТЬ запросы к графу (или Магазин из Графикs)
  • rdflib.graph.update () - используется для изменения содержимого графа или возврата RDF с помощью ВСТАВЛЯТЬ, УДАЛИТЬ и СТРОИТЬ Операторы SPARQL


Сериализация (NTriples, N3 и RDF / XML)

API хранилища RDF

Универсальный интерфейс хранилища RDF

В этом документе делается попытка обобщить некоторые фундаментальные компоненты хранилища RDF. Мотивация состоит в том, чтобы наметить стандартный набор интерфейсов для обеспечения необходимой поддержки, необходимой для сохранения графа RDF универсальным способом, не связанным с какой-либо конкретной реализацией. По большей части соблюдается базовая модель RDF, а также терминология, соответствующая спецификациям модели RDF. Однако этот предлагаемый интерфейс также расширяет хранилище RDF дополнительными требованиями, необходимыми для облегчения аспектов Notation 3, которые выходят за рамки модели RDF, чтобы обеспечить основу для обработки и сохранения логики предикатов первого порядка.

Терминология
Контекст
Именованный неупорядоченный набор операторов. Также можно было бы назвать подграфом. В именованные графы литература и онтология имеют отношение к этой концепции. Контекст можно рассматривать только как взаимосвязь между тройкой RDF и подграфом (именно так термин контекст используется на странице Notation 3 Design Issues), в котором он находится, или как сам подграф.
Стоит отметить, что концепция логической группировки троек в адресуемом «множестве» или «подграфе» едва ли выходит за рамки модели RDF. Модель RDF определяет граф как произвольную совокупность троек и семантику этих троек, но не дает указаний о том, как последовательно обращаться к таким произвольным коллекциям. Хотя набор троек можно рассматривать как сам ресурс, связь между тройкой и коллекцией, частью которой она является, не рассматривается.
Конъюнктивный граф
Это относится к Графику «верхнего уровня». Это совокупность всех контекстов внутри нее, а также подходящая абсолютная граница для допущений / моделей замкнутого мира. Это различие - низко висящий плод RDF на пути к семантической сети, и большая часть его ценности заключается в (корпоративных / корпоративных) проблемах реального мира:
Есть как минимум две ситуации, когда используется предположение о замкнутом мире. В первом случае предполагается, что база знаний содержит все соответствующие факты. Это обычное дело в корпоративных базах данных. То есть содержащаяся в нем информация считается полной.
С точки зрения магазина, предположения о закрытом мире также обеспечивают преимущество лучшего времени ответа на запрос из-за явных границ закрытого мира. Границы замкнутого мира можно сделать прозрачными с помощью федеративных запросов, которые предполагают, что каждый ConjunctiveGraph является частью большей неограниченной вселенной. Таким образом, предположение о закрытом мире не мешает вам предположение об открытом мире.
В целях постоянства конъюнктивные графы должны отличаться идентификаторами (которые не обязательно могут быть идентификаторами RDF или могут быть нормализованными идентификаторами RDF - возможно, SHA1 / MD5 - для целей именования баз данных), на которые можно ссылаться, чтобы указать конъюнктивные запросы (сделанные запросы по всему конъюнктивному графу) или появляются как узлы в утвержденных операторах. В последнем случае такие утверждения можно интерпретировать как относящиеся ко всей «известной» вселенной. Например:
<urn:uuid:conjunctive-graph-foo>rdf:тип:ConjunctiveGraph<urn:uuid:conjunctive-graph-foo>rdf:типбревно:Правда<urn:uuid:conjunctive-graph-foo>:настойчиво:MySQL
Цитируемое заявление
Утверждение, которое не утверждается, но каким-то образом упоминается. Чаще всего это происходит, когда мы хотим сделать утверждение о другом утверждении (или наборе утверждений), не обязательно говоря, что эти цитируемые утверждения (истинны). Например:

Химези сказал, что "утверждения высшего порядка сложны"

Что можно записать как (в N3):
:химези:сказал{:upperOrderStatementsrdf:тип:сложно}
Формула
Контекст, утверждения которого цитируются или являются гипотетическими.
Цитирование в контексте можно рассматривать как очень похожее на овеществление. Основное отличие состоит в том, что процитированные утверждения не утверждаются и не рассматриваются как утверждения истины о вселенной, и на них можно ссылаться как на группу: гипотетический график RDF
Универсальные кванторы / переменные. (соответствующие ссылки):
  • OWL Определение SWRL. (просматривать)
  • Переменная SWRL / RuleML
Условия
Термины - это типы объектов, которые могут появляться в тройке цитируемых / утвержденных. Сюда входят те, которые являются ядром RDF:
  • Пустые узлы
  • Ссылки URI
  • Литералы (которые состоят из буквального значения, типа данных и языкового тега)
Те, которые расширяют модель RDF до N3:
  • Формулы
  • Универсальные количественные оценки (переменные)
И те, которые в первую очередь предназначены для сопоставления с «Узлами» в нижележащем Графике:
  • Выражения REGEX
  • Диапазоны дат
  • Числовые диапазоны
Узлы
Узлы - это подмножество Условий, в которых фактически сохраняется основное хранилище. Набор таких Условий зависит от того, знает ли магазин формулы. Магазины, не поддерживающие формулы, сохранят только те термины, которые являются ядром модели RDF, а те, которые поддерживают формулы, смогут также сохранить расширения N3. Однако полезные термины, которые служат только цели сопоставления узлов по шаблонам терминов, вероятно, будут только терминами, а не узлами.
«Набор узлов графа RDF - это набор субъектов и объектов троек в графе.
С учетом контекста
Хранилище RDF, способное хранить операторы в контексте, считается контекстно-зависимым. По сути, такое хранилище способно разделить модель RDF, которую оно представляет, на отдельные, именованные и адресуемые подграфы.
С учетом формул
Хранилище RDF, способное различать утверждения, которые утверждаются, и утверждения, которые цитируются, считается поддерживающим формулы.
Такое хранилище отвечает за поддержание этого разделения и обеспечение того, чтобы запросы ко всей модели (агрегация всех контекстов, заданных без ограничения «запроса» конкретным контекстом имени) не включали цитируемые операторы. Также он отвечает за различение универсальных кванторов (переменных).
Эти 2 дополнительных понятия (формулы и переменные) следует рассматривать как базовые расширения и отличать их от других терминов тройки (по крайней мере, для обеспечения устойчивости). Стоит отметить, что «область действия» универсальных квантификаторов (переменных) и экзистенциальных квантификаторов (BNodes) - это формула (или контекст, если быть точным), в которой находятся их утверждения. Помимо этого, хранилище с поддержкой формул ведет себя так же, как хранилище с учетом контекста.
Конъюнктивный запрос
Любой запрос, не ограничивающий поиск в магазине только в именованном контексте. Такой запрос ожидает, что контекстно-зависимое хранилище произведет поиск по всей утвержденной вселенной (конъюнктивный граф). Ожидается, что хранилище с поддержкой формул не будет включать в себя цитируемые операторы при сопоставлении такого запроса.
N3 Туда и обратно
Это относится к требованиям к механизму персистентности хранилища RDF с поддержкой формул, необходимого для его правильного заполнения парсером N3 и визуализации как синтаксиса сериализатором N3.
Транзакционный магазин
Хранилище RDF, способное обеспечивать целостность транзакций для операций RDF, выполняемых с ним.
Синтаксис интерпретации

Следующий документ Notation 3:

{?Икса:N3Программист}=>{?Икс:имеет[а:Мигрень]}

Может привести к утверждению следующих утверждений в магазине:

_:абревно:подразумевает_:б

Этот оператор будет утвержден в разделе, связанном с цитируемыми операторами (в формуле с именем _: a)

?Иксrdf:тип:N3Программист

Наконец, эти операторы будут утверждены в том же разделе (в формуле с именем _: b)

?Икс:имеет_:c_:crdf:тип:Мигрень

Формулы и переменные как термины

Формулы и переменные отличаются от ссылок URI, литералов и BNodes следующим синтаксисом:

{..}-Формула?Икс-Переменная

Они также должны отличаться стойкостью, чтобы их можно было срабатывать. Другие вопросы, касающиеся сохранения терминов N3.

Управление базами данных

Хранилище RDF должно предоставлять стандартные интерфейсы для управления соединениями с базой данных. Такие интерфейсы являются стандартными для большинства систем управления базами данных (Oracle, MySQL, Berkeley DB, Postgres и т. Д.). Для обеспечения этой возможности определены следующие методы:

  • def open (self, configuration, create = True) - Открывает магазин, указанный в строке конфигурации. Если create имеет значение True, будет создано хранилище, если оно еще не существует. Если create имеет значение False и хранилище еще не существует, возникает исключение. Также возникает исключение, если магазин существует, но для его открытия недостаточно разрешений.
  • def close (self, commit_pending_transaction = False) - Это закрывает соединение с базой данных. Параметр commit_pending_transaction указывает, следует ли фиксировать все ожидающие транзакции перед закрытием (если хранилище транзакционное).
  • def destroy (сам, конфигурация) - Это уничтожает экземпляр хранилища, идентифицированный строкой конфигурации.

Строка конфигурации понимается реализацией магазина и представляет все необходимые параметры, необходимые для поиска отдельного экземпляра магазина. Это может быть аналогично строке ODBC или фактически быть строкой ODBC, если протокол подключения к базовой базе данных - ODBC. Функция open должна давать сбой с умом, чтобы четко обозначить, что хранилище (идентифицируемое заданной строкой конфигурации) уже существует или что хранилища нет (в месте, указанном строкой конфигурации), в зависимости от значения create.

Тройные интерфейсы

Хранилище RDF может предоставлять стандартный набор интерфейсов для манипулирования, управления и / или извлечения содержащихся в нем троек (заявленных или заключенных в кавычки):

  • def add (self, (субъект, предикат, объект), context = None, quoted = False) - Добавляет данное утверждение в конкретный контекст или в модель. Аргумент в кавычках интерпретируется хранилищами, поддерживающими формулы, чтобы указать, что это утверждение является цитируемым / гипотетическим. Если не указать контекст и не указать аргумент в кавычках, то это будет ошибкой. Также должно быть ошибкой, если аргумент в кавычках будет иметь значение True, если хранилище не поддерживает формулы.
  • def remove (self, (субъект, предикат, объект), контекст)
  • def троек (self, (субъект, предикат, объект), context = None) - Возвращает итератор по всем тройкам (в конъюнктивном графе или только в заданном контексте), соответствующих заданному шаблону. Шаблон указывается путем предоставления явных условий оператора (которые используются для сопоставления узлов в базовом хранилище) или None - что указывает на подстановочный знак. ПРИМЕЧАНИЕ. Ожидается, что этот интерфейс вернет итератор кортежей длиной 3, соответствующих 3 условиям соответствующих операторов, которые могут быть одним из следующих: URIRef, пустой узел, литерал, формула, переменная или (возможно) контекст.

Эту функцию можно рассматривать как основной механизм для создания троек с узлами, которые соответствуют соответствующим условиям и предоставленному шаблону. Конъюнктивный запрос может быть указан либо путем предоставления значения NULL / None / Empty строкового значения для контекста или связанного идентификатора с конъюнктивным графом.

  • def __len __ (сам, контекст = Нет) - Количество выписок в магазине. Это должно учитывать только не заключенные в кавычки (утвержденные) утверждения, если контекст не указан, в противном случае он должен возвращать количество операторов в данной формуле или контексте.
Формула / контекстные интерфейсы

Эти интерфейсы работают с контекстами и формулами (для магазинов, которые поддерживают формулы) взаимозаменяемо.

  • def контексты (self, triple = None) - Генератор по всем контекстам на графике. Если указан тройка, генератор для всех контекстов, в которых находится тройка.
  • def remove_context (сам, идентификатор) -

Именованные графы / конъюнктивные графы

RDFLib определяет следующие виды графиков:

  • 'График' (_хранить_,_идентификатор_)
  • 'QuotedGraph' (_хранить_,_идентификатор_)
  • 'ConjunctiveGraph' (_хранить_,_дефолт_идентификатор_= Никто)

Конъюнктивный граф - это наиболее подходящая коллекция графов, которые считаются границей для предположения о закрытом мире. Эта граница эквивалентна границе экземпляра магазина (который сам уникально идентифицируется и отличается от других экземпляров Store, которые обозначают другие конъюнктивные графы). Он эквивалентен всем именованным графам в нем и связан с графом _default_, которому автоматически назначается BNode для идентификатора - если он не указан.


Формулы

Графы RDFLib поддерживают дополнительное расширение семантики RDF для формул. Для академически настроенных «формальное» расширение Грэма Клина (см. Внешние ссылки), вероятно, будет хорошим чтением.

Формулы формально представлены классом QuotedGraph и не пересекаются с обычными графами RDF тем, что их утверждения цитируются.

Упорство

RDFLib предоставляет абстрактное хранилище API для сохранения RDF и Обозначение 3. Класс Graph работает с экземплярами этого API (в качестве первого аргумента его конструктора) для тройного управления хранилищем RDF, включая: сборку мусора, управление транзакциями, обновление, сопоставление с образцом, удаление, длину и управление базой данных (_открыто_ / _Закрыть_ / _разрушать_). Дополнительные механизмы сохранения могут поддерживаться путем реализации этого API для другого магазина. Поддерживаемые в настоящее время базы данных:

Экземпляры магазина могут быть созданы с помощью плагин функция:

из rdflib импорт плагиниз rdflib.store импорт Магазинплагин.получать('.. один из поддерживаемых магазинов ..', Магазин)(идентификатор=.. я бы из соединительный график ..)

Идиомы высшего порядка

Есть несколько высокоуровневых API, которые расширяют графы RDFLib на другие идиомы Pythonic. Для более явной привязки Python есть Спарта, СуРФ & FunOWL.

Поддерживать

Документация для RDFlib находится на сайте документация и одновременно написаны участниками и автоматически созданы из кода.

Для общих запросов «как мне…» пользователям рекомендуется https://stackoverflow.com и пометьте вопрос с помощью [rdflib].

Разработчики, желающие обсудить механику RDFlib, могут использовать список рассылки rdflib-dev и любой может поднимать проблемы или отправлять улучшения кода с помощью запросов на извлечение Репозиторий кода RDFlib.

Рекомендации

  1. ^ "rdflib / CHANGELOG.md на главном сервере · RDFLib / rdflib · GitHub".
  2. ^ Cyganiak, Ричард; Вуд, Дэвид; Ланталер, Маркус (25 февраля 2014 г.), Концепции RDF 1.1 и абстрактный синтаксис, W3C, получено 2020-04-18
  3. ^ Харрис, Стив; Сиборн, Энди (2013-03-21), Язык запросов SPARQL 1.1, W3C, получено 2020-04-18
  4. ^ Мотик, Борис; Куэнка Грау, Бернардо; Хоррокс, Ян; Ву, Чжэ; Фокуэ, Ахилл; Лутц, Карстен (2012-12-11), OWL 2 языковые профили веб-онтологий (второе издание), W3C, получено 2020-04-18

внешняя ссылка