Наука о данных - Data science
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
Наука о данных является междисциплинарный область, которая использует научные методы, процессы, алгоритмы и системы для извлечения знание и идеи многих структурных и неструктурированные данные.[1][2] Наука о данных связана с сбор данных, машинное обучение и большое количество данных.
Наука о данных - это "концепция, которую нужно объединить статистика, анализ данных и связанные с ними методы «для того, чтобы« понять и проанализировать реальные явления »с помощью данных.[3] В нем используются методы и теории, почерпнутые из многих областей в контексте математика, статистика, Информатика, базовые знания и информационная наука. Премия Тьюринга победитель Джим Грей представил науку о данных как «четвертую парадигму» науки (эмпирический, теоретический, вычислительный а теперь на основе данных) и утверждал, что «все в науке меняется из-за воздействия информационные технологии "и поток данных.[4][5]
Фонды
Наука о данных - это междисциплинарная область, ориентированная на извлечение знаний из наборов данных, которые обычно имеют большой размер (см. большое количество данных ).[6] Эта область включает анализ, подготовку данных для анализа и представление результатов для принятия решений на высоком уровне в организации. Таким образом, он включает в себя навыки информатики, математики, статистики, визуализация информации, графический дизайн, сложные системы, коммуникация и бизнес.[7][8] Статистик Натан Яу, опираясь на Бен Фрай, также связывает науку о данных с взаимодействие человека с компьютером: пользователи должны иметь возможность интуитивно управлять данными и исследовать их.[9][10] В 2015 г. Американская статистическая ассоциация идентифицированный управление базами данных, статистика и машинное обучение, и распределенные и параллельные системы как три новых основополагающих профессиональных сообщества.[11]
Связь со статистикой
Многие статистики, в том числе Нейт Сильвер, утверждали, что наука о данных - это не новая область, а, скорее, другое название статистики.[12] Другие утверждают, что наука о данных отличается от статистики, потому что она фокусируется на проблемах и методах, уникальных для цифровых данных.[13] Васант Дхар пишет, что статистика делает упор на количественные данные и описание. В отличие от этого, наука о данных имеет дело с количественными и качественными данными (например, изображениями) и делает упор на прогнозирование и действия.[14] Андрей Гельман из Колумбийский университет и специалист по данным Винсент Гранвиль охарактеризовал статистику как несущественную часть науки о данных.[15][16]Стэнфордский профессор Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие выпускные программы ошибочно рекламируют свое обучение аналитике и статистике как сущность программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики.[17] Таким образом, науку о данных можно охарактеризовать как прикладную отрасль статистики.
Этимология
Раннее использование
В 1962 г. Джон Тьюки описал область, которую он назвал «анализ данных», которая напоминает современную науку о данных.[17] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, К.Ф. Джефф Ву использовал термин Data Science впервые в качестве альтернативного названия для статистики. [18] Позже участники статистического симпозиума 1992 г. Университет Монпелье II признал появление новой дисциплины, ориентированной на данные различного происхождения и форм, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями.[19][20]
Термин «наука о данных» появился в 1974 году, когда Питер Наур предложил его как альтернативное название информатике.[21] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была конкретно рассмотрена как тема.[21] Однако определение все еще изменялось. После лекции 1985 г. в Китайской академии наук в Пекине в 1997 г. К.Ф. Джефф Ву снова предложил переименовать статистику в науку о данных. Он рассудил, что новое название поможет статистике избавиться от неточных стереотипов, например, быть синонимом бухгалтерского учета или ограничиваться описанием данных.[22] В 1998 году Чикио Хаяси выступил за науку о данных как новую междисциплинарную концепцию с тремя аспектами: дизайн данных, сбор и анализ.[20]
В 1990-е годы популярные термины для поиска закономерностей в наборах данных (которые становились все более крупными) включали «обнаружение знаний» и «интеллектуальный анализ данных».[23][21]
Современное использование
Современная концепция науки о данных как независимой дисциплины иногда приписывается Уильям С. Кливленд.[24] В статье 2001 года он выступал за распространение статистики за пределы теории в технические области; поскольку это существенно изменило бы поле, это потребовало нового названия.[23] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 г. Комитет по данным для науки и технологий запущен Журнал Data Science. В 2003 году Колумбийский университет открыл Журнал науки о данных.[23] В 2014 г. Американская статистическая ассоциация Секция статистического обучения и интеллектуального анализа данных изменила свое название на Секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных.[25]
Профессиональное звание «дата-сайентист» присвоено DJ Патил и Джефф Хаммербахер в 2008.[26] Хотя его использовали Национальный научный совет в своем отчете за 2005 год «Долгоживущие коллекции цифровых данных: возможности исследований и образования в 21 веке» в целом говорилось о любой ключевой роли в управлении сбором цифровых данных.[27]
До сих пор нет единого мнения об определении науки о данных, и некоторые считают это модным словом.[28]
Воздействие науки о данных
Большие данные очень быстро становятся жизненно важным инструментом для предприятий и компаний любого размера.[29] Доступность и интерпретация больших данных изменили бизнес-модели старых отраслей и позволили создать новые.[29] Общая стоимость предприятий, управляемых данными, в 2020 году составит 1,2 триллиона долларов, что больше 333 миллиардов долларов в 2015 году.[30] Специалисты по обработке данных несут ответственность за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции.[30] Поскольку большие данные продолжают оказывать серьезное влияние на мир, наука о данных оказывает такое же влияние благодаря тесной взаимосвязи между ними.[30]
Технологии и техники
В этом списке нет точные критерии включения как описано в Руководство по стилю для автономных списков.Июнь 2020 г.) ( |
Существует множество различных технологий и методов, которые используются в науке о данных, в зависимости от приложения. Совсем недавно были разработаны полнофункциональные сквозные платформы, которые активно используются для анализа данных и машинного обучения.
Методы
- Линейная регрессия
- Логистическая регрессия
- Древо решений используется в качестве моделей прогнозирования для классификации и подбора данных. Древовидную структуру решений можно использовать для создания правил, позволяющих классифицировать или прогнозировать переменную цели / класса / метки на основе атрибутов наблюдения.
- Машина опорных векторов (SVM)
- Кластеризация это метод, используемый для группировки данных.
- Снижение размерности используется для уменьшения сложности вычисления данных, чтобы его можно было выполнять быстрее.
- Машинное обучение это метод, используемый для выполнения задач путем вывода шаблонов из данных.
Языки
- Python - это язык программирования с простым синтаксисом, который обычно используется в науке о данных.[31] Существует ряд библиотек Python, которые используются в науке о данных, включая numpy, pandas, Matplotlib и scipy.
- р это язык программирования, который был разработан для статистиков и интеллектуального анализа данных.[32] и оптимизирован для вычисление.
- Юля это высокоуровневый, высокопроизводительный, динамический язык программирования, хорошо подходящий для численного анализа и вычислительной науки.
Каркасы
- TensorFlow - это платформа для создания моделей машинного обучения, разработанная Google.
- Pytorch - еще одна платформа для машинного обучения, разработанная Facebook.
- Блокнот Jupyter - это интерактивный веб-интерфейс для Python, который позволяет быстрее экспериментировать.
- Apache Hadoop это программная среда, которая используется для обработки данных в больших распределенных системах.
Инструменты визуализации
- Сюжетно предоставляет богатый набор интерактивных научных библиотек для построения графиков.
- Tableau делает различное программное обеспечение, которое используется для визуализации данных.[33]
- PowerBI это служба бизнес-аналитики от Microsoft.
- Qlik производит программное обеспечение, такое как QlikView и Qlik Sense, используемое для визуализации данных и бизнес-аналитики.
- AnyChart предоставляет библиотеки JavaScript и другие инструменты для визуализации данных в диаграммах и информационных панелях.
- Google диаграммы - это веб-сервис на основе JavaScript, созданный и поддерживаемый Google для создания графических диаграмм.
- Sisense предоставляет интерфейс для создания визуализаций данных, включая информационные панели и отчеты.
- Webix представляет собой набор инструментов пользовательского интерфейса, который включает специальные инструменты для визуализации информации.
Платформы
- RapidMiner - это программная платформа для анализа данных, разработанная одноименной компанией.
- Dataiku это программное обеспечение для совместной работы с данными, предназначенное для работы с большими данными.
- Анаконда предоставляет всеобъемлющий бесплатный дистрибутив языков программирования Python и R с открытым исходным кодом.
- MATLAB это вычислительная среда, активно используемая в промышленности и в академических кругах.
- Датабрики - это облачная платформа для крупномасштабной инженерии данных и совместной обработки данных.
- IBM Watson Studio - это облачная платформа, которая предлагает полный набор инструментов для совместной работы с данными для внедрения ИИ в бизнес-приложения.
Рекомендации
- ^ Дхар, В. (2013). «Наука о данных и прогнозирование». Коммуникации ACM. 56 (12): 64–73. Дои:10.1145/2500499. S2CID 6107147. В архиве из оригинала от 9 ноября 2014 г.. Получено 2 сентября 2015.
- ^ Джефф Лик (12 декабря 2013 г.). «Ключевое слово в« Data Science »- это не данные, это наука». Просто статистика. В архиве из оригинала 2 января 2014 г.. Получено 1 января 2014.
- ^ Хаяси, Чикио (1 января 1998 г.). «Что такое наука о данных? Основные концепции и эвристический пример». В Хаяси, Чикио; Ядзима, Кейджи; Бок, Ханс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и связанные методы. Исследования в области классификации, анализа данных и организации знаний. Springer Japan. С. 40–51. Дои:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
- ^ Тони Эй; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: научные открытия с большим объемом данных. Microsoft Research. ISBN 978-0-9825442-0-4. В архиве из оригинала 20 марта 2017 г.. Получено 16 декабря 2016.
- ^ Bell, G .; Эй, Т .; Салай, А. (2009). «КОМПЬЮТЕРНАЯ НАУКА: За пределами потока данных». Наука. 323 (5919): 1297–1298. Дои:10.1126 / наука.1170411. ISSN 0036-8075. PMID 19265007. S2CID 9743327.
- ^ "О Data Science | Data Science Association". www.datascienceassn.org. Получено 3 апреля 2020.
- ^ «1. Введение: что такое наука о данных? - Doing Data Science [Книга]». www.oreilly.com. Получено 3 апреля 2020.
- ^ "три сексуальных навыка компьютерных фанатов". m.e.driscoll: утопия данных. Получено 3 апреля 2020.
- ^ Яу, Натан (4 июня 2009 г.). "Повышение информатики". FlowingData. Получено 3 апреля 2020.
- ^ «Базовый пример». benfry.com. Получено 3 апреля 2020.
- ^ «Заявление ASA о роли статистики в науке о данных». АМСТАТНОВОСТИ. Американская статистическая ассоциация. 1 октября 2015 г. В архиве с оригинала на 20 июня 2019 г.. Получено 29 мая 2019.
- ^ «Нейт Сильвер: что мне нужно от статистиков - статистические просмотры». www.statisticsviews.com. Получено 3 апреля 2020.
- ^ «В чем разница между наукой о данных и статистикой?». Ценономика. Получено 3 апреля 2020.
- ^ Дхарвансант (1 декабря 2013 г.). «Наука о данных и прогнозирование». Коммуникации ACM. 56 (12): 64–73. Дои:10.1145/2500499. S2CID 6107147.
- ^ «Статистика - наименее важная часть науки о данных« Статистическое моделирование, причинно-следственный вывод и социальные науки ». statmodeling.stat.columbia.edu. Получено 3 апреля 2020.
- ^ Отправленный Винсентом Гранвиллом 8 декабря 2014 г. в 17:00; Блог, просмотр. «Наука о данных без статистики возможна, даже желательна». www.datasciencecentral.com. Получено 3 апреля 2020.
- ^ а б Донохо, Дэвид (18 сентября 2015 г.). «50 лет науки о данных» (PDF). Получено 2 апреля 2020.
- ^ Ву, К.Ф. Джефф (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF). Применение статистики и управления. 1: 1–7. Получено 29 ноябрь 2020.CS1 maint: дата и год (связь)
- ^ Наука о данных и ее приложения = La @science des données et ses applications. Escoufier, Yves., Hayashi, Chikio (1918 -...)., Fichet, Bernard. Токио: Academic Press / Harcourt Brace. 1995 г. ISBN 0-12-241770-4. OCLC 489990740.CS1 maint: другие (связь)
- ^ а б Муртаг, Фионн; Девлин, Кейт (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революции данных для устойчивого развития». Большие данные и когнитивные вычисления. 2 (2): 14. Дои:10.3390 / bdcc2020014.
- ^ а б c CaoLongbing (29 июня 2017 г.). "Наука о данных". Опросы ACM Computing. 50 (3): 1–42. Дои:10.1145/3076253.
- ^ Ву, К.Ф. Джефф. «Статистика = наука о данных?» (PDF). Получено 2 апреля 2020.
- ^ а б c Пресса, Гил. «Очень краткая история науки о данных». Forbes. Получено 3 апреля 2020.
- ^ Гупта, Шанти (11 декабря 2015 г.). "Уильям С. Кливленд". Получено 2 апреля 2020.
- ^ Тэлли, Джилл (1 июня 2016 г.). «ASA расширяет сферу охвата, способствует развитию сотрудничества в области науки о данных». Новости Амстата. Американская статистическая ассоциация.
- ^ Davenport, Thomas H .; Патил, Д. Дж. (1 октября 2012 г.). «Специалист по данным: самая сексуальная работа 21 века». Harvard Business Review (Октябрь 2012 г.). ISSN 0017-8012. Получено 3 апреля 2020.
- ^ «US NSF - NSB-05-40, Сборник долговечных цифровых данных для исследований и образования в 21 веке». www.nsf.gov. Получено 3 апреля 2020.
- ^ Пресса, Гил. "Наука о данных: каков период полураспада модного слова?". Forbes. Получено 3 апреля 2020.
- ^ а б Фам, Питер. «Влияние больших данных, о которых вы, возможно, не слышали». Forbes. Получено 3 апреля 2020.
- ^ а б c Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?». Середина. Получено 3 апреля 2020.
- ^ Шелл, М. Скотт (24 сентября 2019 г.). «Введение в Python для научных вычислений» (PDF). Получено 2 апреля 2020.
- ^ "R FAQ". cran.r-project.org. Получено 3 апреля 2020.
- ^ Родос, Маргарет (15 июля 2014 г.). «Совершенно простой инструмент, позволяющий создавать интерактивные карты». Проводной. Получено 3 апреля 2020.