Моделирование данных - Data modeling

Процесс моделирования данных. На рисунке показано, как модели данных разрабатываются и используются сегодня. А концептуальная модель данных разработан на основе данных требования для приложения, которое разрабатывается, возможно, в контексте модель деятельности. Модель данных обычно состоит из типов сущностей, атрибутов, отношений, правил целостности и определений этих объектов. Затем это используется в качестве отправной точки для проектирования интерфейса или базы данных.[1]

Моделирование данных в программная инженерия это процесс создания модель данных для информационная система применяя определенные формальные приемы.

Обзор

Моделирование данных - это процесс используется для определения и анализа данных требования необходимо для поддержки деловые процессы в рамках соответствующих информационных систем в организациях. Таким образом, в процессе моделирования данных участвуют профессиональные разработчики моделей данных, работающие в тесном сотрудничестве с заинтересованными сторонами бизнеса, а также с потенциальными пользователями информационной системы.

При переходе от требований к реальной базе данных, которая будет использоваться для информационной системы, создаются три различных типа моделей данных.[2] Требования к данным изначально записываются как концептуальная модель данных который, по сути, представляет собой набор технологических независимых спецификаций данных и используется для обсуждения начальных требований с заинтересованными сторонами. В концептуальная модель затем переводится в логическая модель данных, который документирует структуры данных, которые могут быть реализованы в базах данных. Для реализации одной концептуальной модели данных может потребоваться несколько логических моделей данных. Последний шаг в моделировании данных - преобразование логической модели данных в физическая модель данных который организует данные в таблицы и учитывает сведения о доступе, производительности и хранении. Моделирование данных определяет не только элементы данных, но также их структуры и отношения между ними.[3]

Методы и методологии моделирования данных используются для моделирования данных стандартным, последовательным и предсказуемым образом, чтобы управлять ими как ресурсом. Использование стандартов моделирования данных настоятельно рекомендуется для всех проектов, требующих стандартных средств определения и анализа данных в организации, например, с использованием моделирования данных:

  • чтобы помочь бизнес-аналитикам, программистам, тестировщикам, составителям руководств, селекторам ИТ-пакетов, инженерам, менеджерам, связанным организациям и клиентам понять и использовать согласованную полуформальную модель, которая охватывает концепции организации и то, как они соотносятся друг с другом
  • управлять данными как ресурсом
  • для интеграции информационных систем
  • для проектирования баз данных / хранилищ данных (они же репозитории данных)

Моделирование данных может выполняться во время различных типов проектов и в нескольких фазах проектов. Модели данных прогрессивны; не существует такой вещи, как окончательная модель данных для бизнеса или приложения. Вместо этого модель данных следует рассматривать как живой документ, который будет меняться в ответ на изменение бизнеса. В идеале модели данных должны храниться в репозитории, чтобы их можно было извлекать, расширять и редактировать с течением времени. Whitten и другие. (2004) определили два типа моделирования данных:[4]

  • Стратегическое моделирование данных: это часть создания стратегии информационных систем, которая определяет общее видение и архитектуру информационных систем. Инженерия информационных технологий - это методология, использующая этот подход.
  • Моделирование данных при системном анализе: В системный анализ логические модели данных создаются как часть разработки новых баз данных.

Моделирование данных также используется как метод детализации бизнеса. требования для конкретных базы данных. Иногда его называют моделирование базы данных потому что модель данных в конечном итоге реализуется в базе данных.[4]

Темы

Модели данных

Как модели данных приносят пользу.[1]

Модели данных обеспечивают основу для данные для использования в информационные системы путем предоставления конкретного определения и формата. Если модель данных используется последовательно во всех системах, можно достичь совместимости данных. Если одни и те же структуры данных используются для хранения данных и доступа к ним, разные приложения могут беспрепятственно обмениваться данными. Результаты этого показаны на диаграмме. Однако создание, эксплуатация и обслуживание систем и интерфейсов часто обходятся дорого. Они также могут ограничивать бизнес, а не поддерживать его. Это может произойти, когда качество моделей данных, реализованных в системах и интерфейсах, низкое.[1]

Некоторые общие проблемы, обнаруживаемые в моделях данных:

  • Бизнес-правила, относящиеся к тому, как что-то делается в определенном месте, часто фиксируются в структуре модели данных. Это означает, что небольшие изменения в способах ведения бизнеса приводят к большим изменениям в компьютерных системах и интерфейсах. Таким образом, бизнес-правила должны быть реализованы гибко, чтобы не приводить к сложным зависимостям, скорее, модель данных должна быть достаточно гибкой, чтобы изменения в бизнесе можно было внедрять в рамках модели данных относительно быстро и эффективно.
  • Типы сущностей часто не идентифицируются или идентифицируются неправильно. Это может привести к репликации данных, структуры данных и функциональности, а также к сопутствующим расходам на это дублирование при разработке и обслуживании. Следовательно, определения данных должны быть как можно более ясными и понятными, чтобы свести к минимуму неверное толкование и дублирование.
  • Модели данных для разных систем произвольно разные. В результате между системами, которые совместно используют данные, требуются сложные интерфейсы. Эти интерфейсы могут составлять от 25 до 70% стоимости существующих систем. При разработке модели данных необходимо учитывать обязательные интерфейсы, поскольку сама по себе модель данных не может использоваться без интерфейсов в разных системах.
  • Данные не могут быть переданы клиентам и поставщикам в электронном виде, поскольку структура и значение данных не стандартизированы. Чтобы получить оптимальную ценность от внедренной модели данных, очень важно определить стандарты, которые обеспечат соответствие моделей данных бизнес-потребностям и согласованность.[1]

Концептуальные, логические и физические схемы

Трехуровневая архитектура ANSI / SPARC. Это показывает, что модель данных может быть внешней моделью (или представлением), концептуальной моделью или физической моделью. Это не единственный способ взглянуть на модели данных, но это полезный способ, особенно при сравнении моделей.[1]

В 1975 г. ANSI описал три вида модели данных пример:[5]

  • Концептуальная схема: описывает семантику домена (объем модели). Например, это может быть модель области интересов организации или отрасли. Он состоит из классов сущностей, представляющих виды важных вещей в предметной области, и утверждений взаимосвязей об ассоциациях между парами классов сущностей. Концептуальная схема определяет виды фактов или предположений, которые могут быть выражены с помощью модели. В этом смысле он определяет разрешенные выражения на искусственном «языке» с областью действия, которая ограничена областью действия модели. Проще говоря, концептуальная схема - это первый шаг в организации требований к данным.
  • Логическая схема: описывает структуру некоторой области информации. Он состоит из описаний (например) таблиц, столбцов, объектно-ориентированных классов и тегов XML. Логическая схема и концептуальная схема иногда реализуются как одно и то же.[2]
  • Физическая схема: описывает физические средства, используемые для хранения данных. Это касается разделов, процессоров, табличные пространства, и тому подобное.

Согласно ANSI, этот подход позволяет трем перспективам быть относительно независимыми друг от друга. Технология хранения может измениться, не затрагивая ни логическую, ни концептуальную схему. Структура таблицы / столбца может изменяться без (обязательно) влияя на концептуальную схему. В каждом случае, конечно, структуры должны оставаться согласованными для всех схем одной и той же модели данных.

Процесс моделирования данных

Моделирование данных в контексте Бизнес-процесс Интеграция.[6]

В контексте интеграция бизнес-процессов (см. рисунок), моделирование данных дополняет моделирование бизнес-процессов, и в конечном итоге приводит к созданию базы данных.[6]

Процесс проектирования базы данных включает создание ранее описанных трех типов схем - концептуальной, логической и физической. Проект базы данных, задокументированный в этих схемах, преобразован через Язык определения данных, который затем можно использовать для создания базы данных. Полностью атрибутированная модель данных содержит подробные атрибуты (описания) для каждой сущности в ней. Термин «дизайн базы данных» может описывать множество различных частей дизайна общей система базы данных. В принципе, и наиболее правильно, это можно рассматривать как логическую схему базовых структур данных, используемых для хранения данных. в реляционная модель эти столы и взгляды. В база данных объектов сущности и отношения отображаются непосредственно на классы объектов и именованные отношения. Однако термин «проектирование базы данных» можно также использовать для применения к общему процессу проектирования, а не только к базовым структурам данных, но также к формам и запросам, используемым как часть общего приложения базы данных в рамках Система управления базами данных или СУБД.

В процессе работы система интерфейсы составляют от 25% до 70% затрат на разработку и поддержку существующих систем. Основная причина такой стоимости заключается в том, что эти системы не используют общую модель данных. Если модели данных разрабатываются для каждой системы, то не только один и тот же анализ повторяется в перекрывающихся областях, но и должен выполняться дальнейший анализ для создания интерфейсов между ними. Большинство систем внутри организации содержат одни и те же базовые данные, переработанные для определенной цели. Следовательно, эффективно спроектированная базовая модель данных может минимизировать переделки с минимальными модификациями для различных систем в организации.[1]

Методики моделирования

Модели данных представляют интересующие информационные области. Хотя существует множество способов создания моделей данных, согласно Лен Сильверстон (1997)[7] Выделяются только две методологии моделирования: сверху вниз и снизу вверх:

  • Модели снизу вверх или модели интеграции представлений часто являются результатом реинжиниринг усилие. Обычно они начинаются с существующих форм структур данных, полей на экранах приложений или отчетов. Эти модели обычно являются физическими, ориентированными на конкретное приложение и являются неполными. перспектива предприятия. Они могут не способствовать обмену данными, особенно если они созданы без привязки к другим частям организации.[7]
  • Сверху вниз логические модели данных, с другой стороны, создаются абстрактно, получая информацию от людей, знающих предметную область. Система может не реализовывать все сущности в логической модели, но модель служит точкой отсчета или шаблоном.[7]

Иногда модели создаются сочетанием двух методов: с учетом потребностей в данных и структуры приложения и путем последовательной ссылки на модель предметной области. К сожалению, во многих средах различие между логической моделью данных и физической моделью данных нечетко. Кроме того, некоторые ДЕЛО инструменты не делают различий между логическим и физические модели данных.[7]

Диаграммы сущность – взаимосвязь

Пример IDEF1X диаграммы сущность – отношения, используемые для моделирования самого IDEF1X. Имя вида - мм. Также указаны иерархия домена и ограничения. В формальной теории метамодели ограничения выражаются предложениями.[8]

Есть несколько обозначений для моделирования данных. Фактическую модель часто называют «модель сущности – отношения», поскольку она отображает данные в терминах сущностей и отношений, описанных в данные.[4] Модель «сущность-связь» (ERM) - это абстрактное концептуальное представление структурированных данных. Моделирование сущностей и отношений - это реляционная схема. моделирование базы данных метод, используемый в программная инженерия производить своего рода концептуальная модель данных (или же семантическая модель данных ) системы, часто реляционная база данных, и его требования в сверху вниз мода.

Эти модели используются на первом этапе информационная система дизайн во время анализ требований описать информационные потребности или тип Информация который должен храниться в база данных. В моделирование данных технику можно использовать для описания любого онтология (т.е. обзор и классификации используемых терминов и их взаимосвязей) для определенных вселенная дискурса т.е. область интереса.

Было разработано несколько методов проектирования моделей данных. Хотя эти методологии служат руководством для разработчиков моделей данных в их работе, два разных человека, использующих одну и ту же методологию, часто получают очень разные результаты. Наиболее примечательными являются:

Общее моделирование данных

Пример общей модели данных.[9]

Общие модели данных являются обобщением общепринятых модели данных. Они определяют стандартизированные общие типы отношений вместе с видами вещей, которые могут быть связаны с помощью такого типа отношения. Определение общей модели данных аналогично определению естественного языка. Например, общая модель данных может определять типы отношений, такие как «отношение классификации», являющееся бинарное отношение между отдельной вещью и видом вещи (классом) и отношением «часть-целое», являющимся бинарным отношением между двумя вещами, одна с ролью части, другая с ролью целого, независимо от вида вещей которые связаны.

При наличии расширяемого списка классов это позволяет классифицировать любую индивидуальную вещь и определять отношения «часть-целое» для любого отдельного объекта. Путем стандартизации расширяемого списка типов отношений универсальная модель данных позволяет выражать неограниченное количество видов фактов и приближается к возможностям естественных языков. С другой стороны, обычные модели данных имеют фиксированную и ограниченную область видимости, поскольку создание (использование) такой модели позволяет выражать только те виды фактов, которые предопределены в модели.

Семантическое моделирование данных

Логическая структура данных СУБД, будь то иерархическая, сетевая или реляционная, не может полностью удовлетворить требования к концептуальному определению данных, поскольку она ограничена по объему и смещена в сторону стратегии реализации, используемой СУБД. То есть, если семантическая модель данных не реализована в базе данных специально, выбор, который может немного повлиять на производительность, но в целом значительно повышает производительность.

Семантические модели данных.[8]

Следовательно, необходимость определения данных с концептуальной точки зрения привела к развитию семантическое моделирование данных техники. То есть методы определения значения данных в контексте их взаимосвязей с другими данными. Как показано на рисунке, реальный мир с точки зрения ресурсов, идей, событий и т. Д. Символически определяется в физических хранилищах данных. Семантическая модель данных - это абстракция который определяет, как хранящиеся символы относятся к реальному миру. Таким образом, модель должна достоверно отражать реальный мир.[8]

Семантическая модель данных может использоваться для многих целей, например:[8]

  • планирование ресурсов данных
  • создание общих баз данных
  • оценка программного обеспечения поставщика
  • интеграция существующих баз данных

Общая цель семантических моделей данных - уловить больший смысл данных за счет интеграции реляционных концепций с более мощными абстракция концепции, известные из Искусственный интеллект поле. Идея состоит в том, чтобы предоставить примитивы моделирования высокого уровня как неотъемлемую часть модели данных, чтобы облегчить представление ситуаций реального мира.[10]

Смотрите также

Рекомендации

  1. ^ а б c d е ж Мэтью Уэст и Джулиан Фаулер (1999). Разработка высококачественных моделей данных. Технический представитель по связям с общественностью STEP в Европе, перерабатывающий промышленность (EPISTLE).
  2. ^ а б Симисон, Грэм. К. и Уитт, Грэм. С. (2005). Основы моделирования данных. 3-е издание. Издательство Morgan Kaufmann. ISBN  0-12-644551-6
  3. ^ Глоссарий по интеграции данных В архиве 20 марта 2009 г. Wayback Machine, Министерство транспорта США, август 2001 г.
  4. ^ а б c Уиттен, Джеффри Л.; Лонни Д. Бентли, Кевин С. Диттман. (2004). Системный анализ и методы проектирования. 6-е издание. ISBN  0-256-19906-X.
  5. ^ Американский национальный институт стандартов. 1975 г. Исследовательская группа ANSI / X3 / SPARC по системам управления базами данных; Промежуточный доклад. FDT (Бюллетень ACM SIGMOD) 7: 2.
  6. ^ а б Пол Р. Смит и Ричард Сарфати (1993). Создание стратегического плана управления конфигурацией с помощью инструментов компьютерной инженерии программного обеспечения (CASE). Документ для группы пользователей CAD / CAE национального министерства энергетики / подрядчиков и предприятий, 1993 г.
  7. ^ а б c d Лен Сильверстон, В. Х. Инмон, Кент Грациано (2007). Справочник по модели данных. Wiley, 1997. ISBN  0-471-15364-8. Рассмотрено Ван Скотт на tdan.com. По состоянию на 1 ноября 2008 г.
  8. ^ а б c d Публикация FIPS 184 В архиве 3 декабря 2013 г. Wayback Machine выпущен IDEF1X Лабораторией компьютерных систем Национального института стандартов и технологий (NIST). 21 декабря 1993 г.
  9. ^ Амнон Шабо (2006). Стандарты данных клинической геномики для фармакогенетики и фармакогеномики В архиве 22 июля 2009 г. Wayback Machine.
  10. ^ «Семантическое моделирование данных» В: Метаклассы и их применение. Конспекты серии книг по информатике. Издательство Springer Berlin / Heidelberg. Том Том 943/1995.

дальнейшее чтение

  • J.H. тер Бекке (1991). Семантическое моделирование данных в реляционных средах
  • Джон Винсент Карлис, Джозеф Д. Магуайр (2001). Освоение моделирования данных: подход, ориентированный на пользователя.
  • Алан Чмура, Дж. Марк Хойманн (2005). Логическое моделирование данных: что это такое и как это сделать.
  • Мартин Э. Моделл (1992). Анализ данных, моделирование и классификация данных.
  • М. Папазоглу, Стефано Спаккапьетра, Захир Тари (2000). Достижения в объектно-ориентированном моделировании данных.
  • Дж. Лоуренс Сандерс (1995). Моделирование данных
  • Грэм С. Симсион, Грэм С. Витт (2005). Основы моделирования данных '
  • Мэтью Уэст (2011) Разработка высококачественных моделей данных

внешняя ссылка