Шумные данные - Noisy data

Шумные данные данные, которые повреждены, искажены или имеют низкий Соотношение сигнал шум. Неправильные процедуры (или неправильно задокументированные процедуры) для вычитания шума в данных могут привести к ложному ощущению точности или ложным выводам.

Данные = истинный сигнал + шум

Шумные данные - это данные с большим количеством дополнительной бессмысленной информации, называемой шумом.[1] Это включает в себя повреждение данных и этот термин часто используется как синоним поврежденных данных.[1] Он также включает любые данные, которые пользовательская система не может правильно понять и интерпретировать. Например, многие системы не могут использовать unструктурированный текст. Шумные данные могут отрицательно повлиять на результаты любого анализа данных и искажать выводы, если с ними не обращаться должным образом. Статистический анализ иногда используется для исключения шума из зашумленных данных.[1]

Источники шума

В этом примере выброса и фильтрации точка t2 является выбросом. Плавный переход к выбросу и от него связан с фильтрацией, и это тоже не действительные данные, а больше шума. Представление отфильтрованных результатов (сглаженных переходов) как фактических измерений может привести к ложным выводам.
Этот тип фильтра (a скользящая средняя ) сдвигает данные вправо. В скользящая средняя цена в данный момент времени обычно сильно отличается от фактической цены в то время.

Отличия реальных измеренных данных от истинных значений вызваны множеством факторов, влияющих на измерения.[2]

Случайный шум часто является большой составляющей шума в данных.[3] Случайный шум в сигнале измеряется как Соотношение сигнал шум. Случайный шум содержит почти равное количество широкого диапазона частот, его также называют белый шум (как цвета света объединяются, чтобы сделать белый). Случайный шум - неизбежная проблема. Это влияет на процессы сбора и подготовки данных, где часто возникают ошибки. У шума есть два основных источника: ошибки, вносимые инструментами измерения, и случайные ошибки, вносимые обработкой или экспертами при сборе данных.[4]

Неправильный Фильтрация может добавить шум, если отфильтрованный сигнал обрабатывается так, как если бы это был непосредственно измеренный сигнал. В качестве примера, Свертка -тип цифровые фильтры такой скользящая средняя могут иметь побочные эффекты, такие как запаздывание или усечение пиков. Дифференцирующие цифровые фильтры усилить случайный шум в исходных данных.

Выброс данные - это данные, которые не входят в набор данных. Это может быть вызвано человеческой ошибкой, такой как перестановка цифр, неправильная маркировка, ошибки программирования и т. д. Если фактические выбросы не удаляются из набора данных, они искажают результаты в небольшой или большой степени в зависимости от обстоятельств. Если действительные данные идентифицированы как выбросы и ошибочно удалены, это также искажает результаты.

Мошенничество: Люди могут намеренно исказить данные, чтобы повлиять на результаты и привести к желаемому выводу. Данные, которые выглядят хорошо с небольшими выбросами, хорошо отражаются на собирающем их отдельном человеке, поэтому может быть стимул удалить больше данных как выбросы или сделать данные более гладкими, чем есть на самом деле.

Рекомендации

  1. ^ а б c «Что такое шумные данные? - Определение с сайта WhatIs.com».
  2. ^ «Шумные данные в интеллектуальном анализе данных - мягкие вычисления и интеллектуальные информационные системы». sci2s.ugr.es.
  3. ^ R.Y. Ван, В. Стори, К. Ферт, Структура для анализа исследований качества данных, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10.1109 / 69.404034)
  4. ^ X. Zhu, X. Wu, Классовый шум против атрибутивного шума: количественное исследование, Обзор искусственного интеллекта 22 (2004) 177-210 doi: 10.1007 / s10462-004-0751-8