Наука о данных - Data science

Наука о данных является междисциплинарный область, которая использует научные методы, процессы, алгоритмы и системы для извлечения знание и идеи многих структурных и неструктурированные данные.[1][2] Наука о данных связана с сбор данных, машинное обучение и большое количество данных.

Наука о данных - это "концепция, которую нужно объединить статистика, анализ данных и связанные с ними методы «для того, чтобы« понять и проанализировать реальные явления »с помощью данных.[3] В нем используются методы и теории, почерпнутые из многих областей в контексте математика, статистика, Информатика, базовые знания и информационная наука. Премия Тьюринга победитель Джим Грей представил науку о данных как «четвертую парадигму» науки (эмпирический, теоретический, вычислительный а теперь на основе данных) и утверждал, что «все в науке меняется из-за воздействия информационные технологиипоток данных.[4][5]

Фонды

Наука о данных - это междисциплинарная область, ориентированная на извлечение знаний из наборов данных, которые обычно имеют большой размер (см. большое количество данных ).[6] Эта область включает анализ, подготовку данных для анализа и представление результатов для принятия решений на высоком уровне в организации. Таким образом, он включает в себя навыки информатики, математики, статистики, визуализация информации, графический дизайн, сложные системы, коммуникация и бизнес.[7][8] Статистик Натан Яу, опираясь на Бен Фрай, также связывает науку о данных с взаимодействие человека с компьютером: пользователи должны иметь возможность интуитивно управлять данными и исследовать их.[9][10] В 2015 г. Американская статистическая ассоциация идентифицированный управление базами данных, статистика и машинное обучение, и распределенные и параллельные системы как три новых основополагающих профессиональных сообщества.[11]

Связь со статистикой

Многие статистики, в том числе Нейт Сильвер, утверждали, что наука о данных - это не новая область, а, скорее, другое название статистики.[12] Другие утверждают, что наука о данных отличается от статистики, потому что она фокусируется на проблемах и методах, уникальных для цифровых данных.[13] Васант Дхар пишет, что статистика делает упор на количественные данные и описание. В отличие от этого, наука о данных имеет дело с количественными и качественными данными (например, изображениями) и делает упор на прогнозирование и действия.[14] Андрей Гельман из Колумбийский университет и специалист по данным Винсент Гранвиль охарактеризовал статистику как несущественную часть науки о данных.[15][16]Стэнфордский профессор Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие выпускные программы ошибочно рекламируют свое обучение аналитике и статистике как сущность программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики.[17] Таким образом, науку о данных можно охарактеризовать как прикладную отрасль статистики.

Этимология

Раннее использование

В 1962 г. Джон Тьюки описал область, которую он назвал «анализ данных», которая напоминает современную науку о данных.[17] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, К.Ф. Джефф Ву использовал термин Data Science впервые в качестве альтернативного названия для статистики. [18] Позже участники статистического симпозиума 1992 г. Университет Монпелье II признал появление новой дисциплины, ориентированной на данные различного происхождения и форм, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями.[19][20]

Термин «наука о данных» появился в 1974 году, когда Питер Наур предложил его как альтернативное название информатике.[21] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была конкретно рассмотрена как тема.[21] Однако определение все еще изменялось. После лекции 1985 г. в Китайской академии наук в Пекине в 1997 г. К.Ф. Джефф Ву снова предложил переименовать статистику в науку о данных. Он рассудил, что новое название поможет статистике избавиться от неточных стереотипов, например, быть синонимом бухгалтерского учета или ограничиваться описанием данных.[22] В 1998 году Чикио Хаяси выступил за науку о данных как новую междисциплинарную концепцию с тремя аспектами: дизайн данных, сбор и анализ.[20]

В 1990-е годы популярные термины для поиска закономерностей в наборах данных (которые становились все более крупными) включали «обнаружение знаний» и «интеллектуальный анализ данных».[23][21]

Современное использование

Современная концепция науки о данных как независимой дисциплины иногда приписывается Уильям С. Кливленд.[24] В статье 2001 года он выступал за распространение статистики за пределы теории в технические области; поскольку это существенно изменило бы поле, это потребовало нового названия.[23] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 г. Комитет по данным для науки и технологий запущен Журнал Data Science. В 2003 году Колумбийский университет открыл Журнал науки о данных.[23] В 2014 г. Американская статистическая ассоциация Секция статистического обучения и интеллектуального анализа данных изменила свое название на Секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных.[25]

Профессиональное звание «дата-сайентист» присвоено DJ Патил и Джефф Хаммербахер в 2008.[26] Хотя его использовали Национальный научный совет в своем отчете за 2005 год «Долгоживущие коллекции цифровых данных: возможности исследований и образования в 21 веке» в целом говорилось о любой ключевой роли в управлении сбором цифровых данных.[27]

До сих пор нет единого мнения об определении науки о данных, и некоторые считают это модным словом.[28]

Воздействие науки о данных

Большие данные очень быстро становятся жизненно важным инструментом для предприятий и компаний любого размера.[29] Доступность и интерпретация больших данных изменили бизнес-модели старых отраслей и позволили создать новые.[29] Общая стоимость предприятий, управляемых данными, в 2020 году составит 1,2 триллиона долларов, что больше 333 миллиардов долларов в 2015 году.[30] Специалисты по обработке данных несут ответственность за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции.[30] Поскольку большие данные продолжают оказывать серьезное влияние на мир, наука о данных оказывает такое же влияние благодаря тесной взаимосвязи между ними.[30]

Технологии и техники

Существует множество различных технологий и методов, которые используются в науке о данных, в зависимости от приложения. Совсем недавно были разработаны полнофункциональные сквозные платформы, которые активно используются для анализа данных и машинного обучения.

Методы

Языки

  • Python - это язык программирования с простым синтаксисом, который обычно используется в науке о данных.[31] Существует ряд библиотек Python, которые используются в науке о данных, включая numpy, pandas, Matplotlib и scipy.
  • р это язык программирования, который был разработан для статистиков и интеллектуального анализа данных.[32] и оптимизирован для вычисление.
  • Юля это высокоуровневый, высокопроизводительный, динамический язык программирования, хорошо подходящий для численного анализа и вычислительной науки.

Каркасы

  • TensorFlow - это платформа для создания моделей машинного обучения, разработанная Google.
  • Pytorch - еще одна платформа для машинного обучения, разработанная Facebook.
  • Блокнот Jupyter - это интерактивный веб-интерфейс для Python, который позволяет быстрее экспериментировать.
  • Apache Hadoop это программная среда, которая используется для обработки данных в больших распределенных системах.

Инструменты визуализации

  • Сюжетно предоставляет богатый набор интерактивных научных библиотек для построения графиков.
  • Tableau делает различное программное обеспечение, которое используется для визуализации данных.[33]
  • PowerBI это служба бизнес-аналитики от Microsoft.
  • Qlik производит программное обеспечение, такое как QlikView и Qlik Sense, используемое для визуализации данных и бизнес-аналитики.
  • AnyChart предоставляет библиотеки JavaScript и другие инструменты для визуализации данных в диаграммах и информационных панелях.
  • Google диаграммы - это веб-сервис на основе JavaScript, созданный и поддерживаемый Google для создания графических диаграмм.
  • Sisense предоставляет интерфейс для создания визуализаций данных, включая информационные панели и отчеты.
  • Webix представляет собой набор инструментов пользовательского интерфейса, который включает специальные инструменты для визуализации информации.

Платформы

  • RapidMiner - это программная платформа для анализа данных, разработанная одноименной компанией.
  • Dataiku это программное обеспечение для совместной работы с данными, предназначенное для работы с большими данными.
  • Анаконда предоставляет всеобъемлющий бесплатный дистрибутив языков программирования Python и R с открытым исходным кодом.
  • MATLAB это вычислительная среда, активно используемая в промышленности и в академических кругах.
  • Датабрики - это облачная платформа для крупномасштабной инженерии данных и совместной обработки данных.
  • IBM Watson Studio - это облачная платформа, которая предлагает полный набор инструментов для совместной работы с данными для внедрения ИИ в бизнес-приложения.

Рекомендации

  1. ^ Дхар, В. (2013). «Наука о данных и прогнозирование». Коммуникации ACM. 56 (12): 64–73. Дои:10.1145/2500499. S2CID  6107147. В архиве из оригинала от 9 ноября 2014 г.. Получено 2 сентября 2015.
  2. ^ Джефф Лик (12 декабря 2013 г.). «Ключевое слово в« Data Science »- это не данные, это наука». Просто статистика. В архиве из оригинала 2 января 2014 г.. Получено 1 января 2014.
  3. ^ Хаяси, Чикио (1 января 1998 г.). «Что такое наука о данных? Основные концепции и эвристический пример». В Хаяси, Чикио; Ядзима, Кейджи; Бок, Ханс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и связанные методы. Исследования в области классификации, анализа данных и организации знаний. Springer Japan. С. 40–51. Дои:10.1007/978-4-431-65950-1_3. ISBN  9784431702085.
  4. ^ Тони Эй; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: научные открытия с большим объемом данных. Microsoft Research. ISBN  978-0-9825442-0-4. В архиве из оригинала 20 марта 2017 г.. Получено 16 декабря 2016.
  5. ^ Bell, G .; Эй, Т .; Салай, А. (2009). «КОМПЬЮТЕРНАЯ НАУКА: За пределами потока данных». Наука. 323 (5919): 1297–1298. Дои:10.1126 / наука.1170411. ISSN  0036-8075. PMID  19265007. S2CID  9743327.
  6. ^ "О Data Science | Data Science Association". www.datascienceassn.org. Получено 3 апреля 2020.
  7. ^ «1. Введение: что такое наука о данных? - Doing Data Science [Книга]». www.oreilly.com. Получено 3 апреля 2020.
  8. ^ "три сексуальных навыка компьютерных фанатов". m.e.driscoll: утопия данных. Получено 3 апреля 2020.
  9. ^ Яу, Натан (4 июня 2009 г.). "Повышение информатики". FlowingData. Получено 3 апреля 2020.
  10. ^ «Базовый пример». benfry.com. Получено 3 апреля 2020.
  11. ^ «Заявление ASA о роли статистики в науке о данных». АМСТАТНОВОСТИ. Американская статистическая ассоциация. 1 октября 2015 г. В архиве с оригинала на 20 июня 2019 г.. Получено 29 мая 2019.
  12. ^ «Нейт Сильвер: что мне нужно от статистиков - статистические просмотры». www.statisticsviews.com. Получено 3 апреля 2020.
  13. ^ «В чем разница между наукой о данных и статистикой?». Ценономика. Получено 3 апреля 2020.
  14. ^ Дхарвансант (1 декабря 2013 г.). «Наука о данных и прогнозирование». Коммуникации ACM. 56 (12): 64–73. Дои:10.1145/2500499. S2CID  6107147.
  15. ^ «Статистика - наименее важная часть науки о данных« Статистическое моделирование, причинно-следственный вывод и социальные науки ». statmodeling.stat.columbia.edu. Получено 3 апреля 2020.
  16. ^ Отправленный Винсентом Гранвиллом 8 декабря 2014 г. в 17:00; Блог, просмотр. «Наука о данных без статистики возможна, даже желательна». www.datasciencecentral.com. Получено 3 апреля 2020.
  17. ^ а б Донохо, Дэвид (18 сентября 2015 г.). «50 лет науки о данных» (PDF). Получено 2 апреля 2020.
  18. ^ Ву, К.Ф. Джефф (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF). Применение статистики и управления. 1: 1–7. Получено 29 ноябрь 2020.CS1 maint: дата и год (связь)
  19. ^ Наука о данных и ее приложения = La @science des données et ses applications. Escoufier, Yves., Hayashi, Chikio (1918 -...)., Fichet, Bernard. Токио: Academic Press / Harcourt Brace. 1995 г. ISBN  0-12-241770-4. OCLC  489990740.CS1 maint: другие (связь)
  20. ^ а б Муртаг, Фионн; Девлин, Кейт (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революции данных для устойчивого развития». Большие данные и когнитивные вычисления. 2 (2): 14. Дои:10.3390 / bdcc2020014.
  21. ^ а б c CaoLongbing (29 июня 2017 г.). "Наука о данных". Опросы ACM Computing. 50 (3): 1–42. Дои:10.1145/3076253.
  22. ^ Ву, К.Ф. Джефф. «Статистика = наука о данных?» (PDF). Получено 2 апреля 2020.
  23. ^ а б c Пресса, Гил. «Очень краткая история науки о данных». Forbes. Получено 3 апреля 2020.
  24. ^ Гупта, Шанти (11 декабря 2015 г.). "Уильям С. Кливленд". Получено 2 апреля 2020.
  25. ^ Тэлли, Джилл (1 июня 2016 г.). «ASA расширяет сферу охвата, способствует развитию сотрудничества в области науки о данных». Новости Амстата. Американская статистическая ассоциация.
  26. ^ Davenport, Thomas H .; Патил, Д. Дж. (1 октября 2012 г.). «Специалист по данным: самая сексуальная работа 21 века». Harvard Business Review (Октябрь 2012 г.). ISSN  0017-8012. Получено 3 апреля 2020.
  27. ^ «US NSF - NSB-05-40, Сборник долговечных цифровых данных для исследований и образования в 21 веке». www.nsf.gov. Получено 3 апреля 2020.
  28. ^ Пресса, Гил. "Наука о данных: каков период полураспада модного слова?". Forbes. Получено 3 апреля 2020.
  29. ^ а б Фам, Питер. «Влияние больших данных, о которых вы, возможно, не слышали». Forbes. Получено 3 апреля 2020.
  30. ^ а б c Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?». Середина. Получено 3 апреля 2020.
  31. ^ Шелл, М. Скотт (24 сентября 2019 г.). «Введение в Python для научных вычислений» (PDF). Получено 2 апреля 2020.
  32. ^ "R FAQ". cran.r-project.org. Получено 3 апреля 2020.
  33. ^ Родос, Маргарет (15 июля 2014 г.). «Совершенно простой инструмент, позволяющий создавать интерактивные карты». Проводной. Получено 3 апреля 2020.