Закон Бенфорда - Benfords law

Последовательность убывающих синих полос на светло-сером фоне сетки
Распределение первых цифр по закону Бенфорда. Каждая полоса представляет собой цифру, а высота полосы - это процент чисел, начинающихся с этой цифры.
Частота первой значащей цифры физических констант, построенных против закона Бенфорда

Закон Бенфорда, также называемый Закон Ньюкомба-Бенфорда, то закон аномальных чисел, или закон первой цифры, это наблюдение о Распределение частоты из ведущие цифры во многих реальных наборах числовых данные. Закон гласит, что во многих встречающихся в природе наборах чисел первая цифра, скорее всего, будет маленькой.[1] В наборах, которые подчиняются закону, число 1 появляется как ведущая значащая цифра примерно в 30% случаев, а 9 появляется как ведущая значащая цифра менее чем в 5% случаев. Если бы цифры были распределены равномерно, каждая из них встречалась бы примерно в 11,1% случаев.[2] Закон Бенфорда также предсказывает распределение вторых цифр, третьих цифр, комбинаций цифр и т. Д.

На графике справа показан закон Бенфорда для база 10, один из бесконечно многих случаев обобщенного закона относительно чисел, выраженных в произвольных (целочисленных) основаниях, который исключает возможность того, что явление могло быть артефактом системы счисления с основанием 10. Дальнейшие обобщения были опубликованы в 1995 г.[3] включая аналогичные утверждения как для nth ведущая цифра, а также совместное распределение ведущей п цифры, последнее из которых приводит к следствию, в котором значимые цифры показаны как статистически зависимый количество.

Было показано, что этот результат применим к широкому спектру наборов данных, включая счета за электроэнергию, адреса улиц, цены на акции, цены на дома, численность населения, уровень смертности, протяженность рек и физический и математические константы.[4] Как и другие общие принципы, касающиеся естественных данных - например, тот факт, что многие наборы данных хорошо аппроксимируются нормальное распределение - есть наглядные примеры и объяснения, которые охватывают многие случаи, в которых применяется закон Бенфорда, хотя есть много других случаев, когда применяется закон Бенфорда, которые не поддаются простому объяснению.[5] Обычно он наиболее точен, когда значения распределяются по нескольким порядки величины, особенно если процесс генерации чисел описывается сила закона (что является обычным явлением в природе).

Закон назван в честь физика Фрэнк Бенфорд, который заявил об этом в 1938 году в статье под названием «Закон аномальных чисел»,[6] хотя ранее это было заявлено Саймон Ньюкомб в 1881 г.[7][8]

Закон аналогичен по концепции, хотя и не идентичен по распределению, с Закон Ципфа.

Определение

Прямоугольник со смещенной осью, выделенной жирным шрифтом, в нижнем левом углу и светло-серыми линиями, представляющими логарифмы
А логарифмическая шкала бар. Выбор случайного Икс позиция равномерно в этой числовой строке примерно в 30% случаев первая цифра числа будет 1.

Говорят, что набор чисел удовлетворяет закону Бенфорда, если первая цифраd (d ∈ {1, ..., 9}) происходит с вероятность

[9]

Таким образом, первые цифры в таком наборе имеют следующее распределение:

dОтносительный размер
130.1%30.1
 
217.6%17.6
 
312.5%12.5
 
49.7%9.7
 
57.9%7.9
 
66.7%6.7
 
75.8%5.8
 
85.1%5.1
 
94.6%4.6
 

Количество пропорциональна пространству между d и d + 1 на логарифмическая шкала. Следовательно, это распределение ожидается, если логарифмы чисел (но не сами числа) равномерно и случайно распределены.

Например, число Икс, ограниченный диапазоном от 1 до 10, начинается с цифры 1, если 1 ≤ Икс < 2, и начинается с цифры 9, если 9 ≤ Икс < 10. Следовательно, Икс начинается с цифры 1, если журнал 1 ≤ журнал Икс <журнал 2, или начинается с 9, если журнал 9 ≤ журналИкс <журнал 10. Интервал [журнал 1, журнал 2] намного шире интервала [журнал 9, журнал 10] (0,30 и 0,05 соответственно); поэтому если журнал Икс равномерно и случайным образом распределен, он с большей вероятностью попадет в более широкий интервал, чем в более узкий интервал, т.е. с большей вероятностью начнется с 1, чем с 9; вероятности пропорциональны ширине интервала, что дает приведенное выше уравнение (а также обобщение для других оснований, кроме десятичных).

Иногда закон Бенфорда формулируют в более сильной форме, утверждая, что дробная часть логарифма данных обычно близок к равномерно распределенному между 0 и 1; из этого можно вывести основное утверждение о распределении первых цифр.

Закон Бенфорда в других основаниях

Графики п (d ) для начальной цифры d в различных базах.[10] Пунктирная линия показывает п (d ) были равномерным распределением. В изображение SVG, наведите указатель мыши на график, чтобы отобразить значение для каждой точки.

Расширение закона Бенфорда предсказывает распределение первых цифр в других базы Помимо десятичный; на самом деле любая база б ≥ 2. Общая форма:

[11]

За б = 2,1двоичный и унарный ) системы счисления закон Бенфорда верен, но тривиален: все двоичные и унарные числа (кроме 0 или пустого набора) начинаются с цифры 1. (С другой стороны, обобщение закона Бенфорда до вторых и последующих цифр нетривиально даже для двоичных чисел.[12])

Пример

Распределение первых цифр (в%, красные полосы) в население 237 стран мира по состоянию на июль 2010 г. Черные точки указывают распределение, предсказываемое законом Бенфорда.

Изучая список высот 58 самых высоких построек в мире по категориям показывает, что 1 - самая распространенная ведущая цифра, независимо от единицы измерения (см. «масштабную инвариантность» ниже):

Первая цифраметрыногиВ законе Бенфорда
Считать%Считать%
12441.4%1627.6%30.1%
2915.5%813.8%17.6%
3712.1%58.6%12.5%
4610.3%712.1%9.7%
511.7%1017.2%7.9%
658.6%46.9%6.7%
711.7%23.4%5.8%
846.9%58.6%5.1%
911.7%11.7%4.6%

Другой пример - первая цифра 2п:

1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1 ... (последовательность A008952 в OEIS )

История

Открытие закона Бенфорда восходит к 1881 году, когда канадско-американский астроном Саймон Ньюкомб заметил, что в логарифм таблицы предыдущие страницы (которые начинались с 1) были изношены намного больше, чем другие страницы.[7] Опубликованный результат Ньюкомба является первым известным примером этого наблюдения и также включает распределение по второй цифре. Ньюкомб предложил закон, согласно которому вероятность единственного числа N первая цифра числа была равна log (N + 1) - журнал (N).

Явление было снова замечено в 1938 г. физиком. Фрэнк Бенфорд,[6] который протестировал его на данных из 20 разных доменов и получил за это кредит. Его набор данных включал площадь поверхности 335 рек, численность населения США 3259, 104 физические константы, 1800 молекулярная масса, 5000 записей из математического справочника, 308 номеров, содержащихся в выпуске Ридерз Дайджест, почтовые адреса первых 342 человек, перечисленных в Американские люди науки и 418 смертей. Общее количество наблюдений, использованных в статье, составило 20 229. Это открытие позже было названо в честь Бенфорда (что делает его примером Закон Стиглера ).

В 1995 г. Тед Хилл доказал результат о смешанных распределениях, упомянутых ниже.[13][14]

Пояснения

Обзор

Закон Бенфорда имеет тенденцию наиболее точно применяться к данным, охватывающим несколько порядков величины. Как показывает практика, чем больше порядков величины равномерно покрывают данные, тем точнее применяется закон Бенфорда. Например, можно ожидать, что закон Бенфорда будет применяться к списку чисел, представляющих население британских поселений. Но если «поселение» определяется как деревня с населением от 300 до 999 человек, то закон Бенфорда не будет применяться.[15][16]

Рассмотрим представленные ниже распределения вероятностей, относящиеся к шкала журнала.В каждом случае общая площадь, выделенная красным, представляет собой относительную вероятность того, что первая цифра равна 1, а общая площадь, указанная синим цветом, - это относительная вероятность того, что первая цифра равна 8. Для первого распределения размер красных областей. и синий примерно пропорциональны ширине каждой красной и синей полос. Следовательно, числа, взятые из этого распределения, будут приблизительно соответствовать закону Бенфорда. С другой стороны, для второго распределения соотношение областей красного и синего сильно отличается от отношения ширины каждой красной и синей полос. Скорее, относительные области красного и синего больше определяются высотой полос, чем шириной. Соответственно, первые цифры в этом распределении вообще не удовлетворяют закону Бенфорда.[16]

Широкое распределение вероятностей журнала переменной, показанное в логарифмической шкале. Закон Бенфорда можно увидеть в большей области, покрытой красным (первая цифра), по сравнению с синим (первая цифра 8) штриховкой.
Узкое распределение вероятностей журнала переменной, показанное в логарифмической шкале. Закон Бенфорда не соблюдается, поскольку узкое распределение не соответствует критериям закона Бенфорда.

Таким образом, реальные дистрибутивы, охватывающие несколько порядки величины довольно равномерно (например, население деревень / поселков / городов, цены на фондовом рынке), вероятно, будут удовлетворять закону Бенфорда с очень высокой точностью. С другой стороны, распределение, которое в основном или полностью находится в пределах одного порядка величины (например, рост взрослого человека или показатель IQ) вряд ли точно или вообще не удовлетворяет закону Бенфорда.[15][16] Однако разница между применимыми и неприменимыми схемами не является резкой границей: по мере сужения распределения отклонения от закона Бенфорда постепенно увеличиваются.

(Это обсуждение не является полным объяснением закона Бенфорда, потому что оно не объясняет, почему наборы данных так часто встречаются, что при нанесении на график как распределение вероятностей логарифма переменной относительно однородны на несколько порядков величины.[17])

Объяснение энтропии Кригера – Кафри

В 1970 г. Вольфганг Кригер доказал то, что сейчас называется теоремой о генераторе Кригера.[18][19] В 2009 году Одед Кафри[20] получил закон Бенфорда, используя модель шара и ящика Кафри.[21] Теорема Кригера о генераторе может рассматриваться как оправдание предположения в шаровой модели Кафри о том, что в данной базе с фиксированным количеством цифр 0, 1, ... п, ..., , цифра п эквивалентен ящику Кафри, содержащему п невзаимодействующие шары. Ряд других ученых и статистиков предложили объяснения закона Бенфорда, связанные с энтропией.[22][23][24][9][25]

Мультипликативные колебания

Многие реальные примеры закона Бенфорда возникают из-за мультипликативных флуктуаций.[26] Например, если цена акции начинается с 100 долларов, а затем каждый день она умножается на случайно выбранный коэффициент от 0,99 до 1,01, то в течение длительного периода распределение вероятностей ее цены удовлетворяет закону Бенфорда с все большей и большей точностью.

Причина в том, что логарифм цены акций переживает случайная прогулка, поэтому со временем его распределение вероятностей будет становиться все более широким и гладким (см. над ).[26] (С технической точки зрения Центральная предельная теорема говорит, что умножение все большего и большего числа случайных величин создаст логнормальное распределение с все большей и большей дисперсией, поэтому в конечном итоге оно покрывает многие порядки величины почти равномерно.) Чтобы быть уверенным в приблизительном соответствии с законом Бенфорда, распределение должно быть приблизительно инвариантным при увеличении в любом масштабе до 10; а логинормально распределенный набор данных с большим разбросом будет обладать этим приблизительным свойством.

В отличие от мультипликативных колебаний, добавка колебания не приводят к закону Бенфорда: они приводят к нормальные распределения вероятностей (опять же Центральная предельная теорема ), которые не удовлетворяют закону Бенфорда. Например, «количество ударов сердца, которое я испытываю в данный день» можно записать как сумма множества случайных величин (например, сумма ударов сердца в минуту за все минуты дня), поэтому это количество равно вряд ли следовать закону Бенфорда. Напротив, эта гипотетическая цена акции, описанная выше, может быть записана как товар множества случайных величин (т. е. фактор изменения цены за каждый день), поэтому скорее всего достаточно хорошо следовать закону Бенфорда.

Множественные распределения вероятностей

Антон Форманн предоставили альтернативное объяснение, обратив внимание на взаимосвязь между распределение значащих цифр и распределения наблюдаемая переменная. В ходе моделирования он показал, что длинные правосторонние распределения случайная переменная совместимы с законом Ньюкома-Бенфорда, и что для распределений отношения двух случайных величин соответствие обычно улучшается.[27] Для чисел, взятых из определенных распределений (баллы IQ, рост человека), закон Бенфорда не выполняется, потому что эти переменные подчиняются нормальному распределению, которое, как известно, не удовлетворяет закону Бенфорда,[8] так как нормальные распределения не могут охватывать несколько порядков и мантиссы их логарифмов не будут (даже приблизительно) распределены равномерно. Однако, если «смешать» числа из этих распределений, например, взяв числа из газетных статей, закон Бенфорда появится снова. Это также можно доказать математически: если кто-то несколько раз «случайным образом» выберет распределение вероятностей (из некоррелированного набора), а затем случайным образом выбирает число в соответствии с этим распределением, результирующий список чисел будет подчиняться закону Бенфорда.[13][28] Аналогичное вероятностное объяснение появления закона Бенфорда в числах повседневной жизни было выдвинуто, показывая, что он возникает естественным образом, когда кто-то рассматривает смеси однородных распределений.[29]

Инвариантность

Если существует список длин, то распределение первых цифр чисел в списке может быть в целом одинаковым, независимо от того, выражены ли все длины в метрах, ярдах, футах или дюймах и т. Д. То же самое относится к денежным единицам. .

Это не всегда дело. Например, рост взрослых людей почти всегда начинается с 1 или 2 при измерении в метрах и почти всегда начинается с 4, 5, 6 или 7 при измерении в футах.

Но рассмотрим список длин, который равномерно распределен на многие порядки. Например, список из 1000 длин, упомянутых в научных статьях, будет включать измерения молекул, бактерий, растений и галактик. Если записать все эти длины в метрах или все в футах, разумно ожидать, что распределение первых цифр должно быть одинаковым в двух списках.

В этих ситуациях, когда распределение первых цифр набора данных масштабный инвариант (или независимо от единиц, в которых выражены данные), распределение первых цифр всегда задается законом Бенфорда.[30][31]

Например, первая (отличная от нуля) цифра в этом списке длин должна иметь одинаковое распределение независимо от того, используются ли единицы измерения футы или ярды. Но в ярде три фута, поэтому вероятность того, что первая цифра длины в ярдах равна 1, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 3, 4 или 5; аналогично вероятность того, что первая цифра длины в ярдах равна 2, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 6, 7 или 8. Применение этого ко всем возможным шкалам измерений дает логарифмическое распределение Закон Бенфорда.

Закон Бенфорда для первых цифр: основание инвариант для систем счисления. Имеются условия и доказательства сумм-инвариантности, обратной инвариантности, сложения и вычитания.[32][33]

Приложения

Обнаружение мошенничества в бухгалтерском учете

В 1972 г. Хэл Вариан предположил, что закон может быть использован для выявления возможных мошенничество в списках социально-экономических данных, представленных в поддержку решений государственного планирования. Основываясь на правдоподобном предположении, что люди, выдумывающие цифры, обычно распределяют свои цифры довольно равномерно, простое сравнение частотного распределения первых цифр из данных с ожидаемым распределением в соответствии с законом Бенфорда должно выявить любые аномальные результаты.[34]

Легальное положение

В Соединенных Штатах доказательства, основанные на законе Бенфорда, были допущены к рассмотрению уголовных дел на федеральном, государственном и местном уровнях.[35]

Данные о выборах

Уолтер Мебейн, политолог и статистик из Мичиганского университета, был первым, кто применил второй критерий Бенфорда (2BL-тест) в судебная экспертиза выборов.[36] Такой анализ считается простым, хотя и небезопасным методом выявления нарушений в результатах выборов и помощи в выявлении подтасовка результатов выборов.[37] Исследование 2011 г., проведенное политологами Джозефом Декертом, Михаилом Мягковым и Питер С. Ордешук утверждал, что закон Бенфорда проблематичен и вводит в заблуждение как статистический индикатор фальсификации выборов.[38] Их метод подвергся критике со стороны Мебэйна в ответ, хотя он согласился с тем, что есть много предостережений в отношении применения закона Бенфорда к данным о выборах.[39]

Закон Бенфорда использовался как доказательство мошенничества в 2009 иранские выборы.[40] Анализ, проведенный Мебане, показал, что вторые цифры в голосовании учитываются за президента. Махмуд Ахмадинежад, победитель выборов, как правило, значительно отличался от ожиданий закона Бенфорда, и что урны с очень небольшим количеством недействительные бюллетени оказали большее влияние на результаты, предполагая широкое распространение вброс бюллетеней.[41] Другое исследование использовало бутстрап моделирования, чтобы найти, что кандидат Мехди Карруби получил почти вдвое больше голосов, начиная с цифры 7, чем можно было бы ожидать в соответствии с законом Бенфорда,[42] а анализ из Колумбийский университет пришли к выводу, что вероятность того, что на честных выборах будет слишком мало несмежных цифр, и подозрительные отклонения в частотах последних цифр, обнаруженные на президентских выборах 2009 года в Иране, составляет менее 0,5%.[43] Закон Бенфорда также применялся для судебно-медицинской экспертизы и обнаружения мошенничества с данными из 2003 выборы губернатора Калифорнии,[44] то 2000 и 2004 президентские выборы в США,[45] и 2009 федеральные выборы в Германии;[46] Было обнаружено, что тест закона Бенфорда «заслуживает серьезного отношения как статистический тест на мошенничество», хотя «он не чувствителен к искажениям, которые, как мы знаем, существенно повлияли на многие голоса».[45][требуется дальнейшее объяснение ]

На фоне обвинений в фальсификации выборов в Выборы в России 2016, статью в соавторстве с Кириллом Калининым и Мебане в Вашингтон Пост заметил, что среднее от второй цифры числа избирателей на каждом из 96 869 избирательных участков страны до четырех значащих цифр было равно ожидаемому среднему (4,187) по закону Бенфорда. Основываясь на других показателях фальсификации результатов выборов, Калинин и Мебэйн предполагают, что эти «идеальные» статистические данные показывают, что виновные сознательно подтасовывали голоса, чтобы соответствовать ожиданиям закона Бенфорда.[47]

Макроэкономические данные

Аналогичным образом, макроэкономические данные, которые греческое правительство предоставило Европейскому Союзу перед входом в еврозона Было показано, что он, вероятно, мошенничал с использованием закона Бенфорда, хотя и спустя годы после присоединения страны.[48][49]

Анализ цифр цены

Закон Бенфорда как ориентир для исследования цифр цен был успешно введен в контекст исследования ценообразования. Важность этого эталона для выявления нарушений в ценах была впервые продемонстрирована в общеевропейском исследовании.[50] которые исследовали цифры потребительских цен до и после введения евро на предмет корректировки цен. Введение евро в 2002 году с его различными обменными курсами исказило существующие модели номинальных цен, в то же время сохранив реальные цены. Пока первые цифры номинальные цены распределенное в соответствии с законом Бенфорда, исследование показало явное отклонение от этого эталона для второй и третьей цифр номинальных рыночных цен с четкой тенденцией к психологическое ценообразование после номинального шока введения евро.

Данные генома

Количество открытые рамки для чтения и их отношение к размеру генома различается между эукариоты и прокариоты причем первый показывает лог-линейную зависимость, а второй - линейную зависимость. Для проверки этого наблюдения был использован закон Бенфорда, который отлично согласуется с данными в обоих случаях.[51]

Обнаружение научного мошенничества

Проверка коэффициентов регрессии в опубликованных статьях показала согласие с законом Бенфорда.[52] В качестве группы сравнения субъектов попросили сфабриковать статистические оценки. Фальсифицированные результаты соответствовали закону Бенфорда о первых цифрах, но не соответствовали закону Бенфорда о вторых цифрах.

Данные о COVID-19

Исследователи показали применимость закона Бенфорда для оценки возможного мошенничества при разглашении таких данных о COVID-19, как общее и ежедневное подтвержденное число случаев и смертей.[53] Исследование предложило возможные изменения в данных для России и Ирана, но не для США, Бразилии, Индии, Перу, ЮАР, Колумбии, Мексики, Испании, Аргентины, Чили, Великобритании, Франции, Саудовской Аравии, Китая, Филиппины, Бельгия, Пакистан и Италия.

Статистические тесты

Хотя критерий хи-квадрат использовался для проверки соответствия закону Бенфорда, он имеет низкую статистическую мощность при использовании с небольшими выборками.

В Тест Колмогорова – Смирнова и Тест Койпера являются более эффективными при небольшом размере выборки, особенно при использовании поправочного коэффициента Стивенса.[54] Эти тесты могут быть излишне консервативными при применении к дискретным распределениям. Значения для теста Бенфорда были получены Морроу.[55] Критические значения тестовой статистики показаны ниже:

α
Тест
0.100.050.01
Койпер1.1911.3211.579
Колмогоров – Смирнов1.0121.1481.420

Эти критические значения обеспечивают минимальные значения тестовой статистики, необходимые для отклонения гипотезы о соответствии закону Бенфорда при данном уровни значимости.

Были опубликованы два альтернативных теста, специфичных для этого закона: во-первых, max (м) статистика[56] дан кем-то

во-вторых, расстояние (d) статистика[57] дан кем-то

где FSD - первая значащая цифра и N размер выборки. Морроу определил критические значения для обеих этих статистических данных, которые показаны ниже:[55]

Статистика
0.100.050.01
Leemis's м0.8510.9671.212
Чо – Гейнс d1.2121.3301.569

Морроу также показал, что для любой случайной величины Икс (с непрерывным PDF-файлом), деленное на его стандартное отклонение (σ), ценность А можно найти так, чтобы вероятность распределения первой значащей цифры случайной величины (Икс/σ)А будет отличаться от закона Бенфорда менее чем на ε > 0.[55] Значение А зависит от стоимости ε и распределение случайной величины.

Предложен метод учета обнаружения мошенничества, основанный на загрузке и регрессии.[58]

Если цель состоит в том, чтобы заключить соглашение с законом Бенфорда, а не несогласие, то критерии согласия упомянутые выше неуместны. В этом случае конкретный тесты на эквивалентность следует применять. Эмпирическое распределение называется эквивалентным закону Бенфорда, если расстояние (например, расстояние полной вариации или обычное евклидово расстояние) между функциями вероятности и массы достаточно мало. Этот метод тестирования с применением закона Бенфорда описан в Ostrovski (2017).[59]

Диапазон применимости

Известно, что распределения подчиняются закону Бенфорда

Некоторые известные бесконечные целочисленные последовательности доказуемо точно удовлетворяют закону Бенфорда (в асимптотический предел по мере того, как включается все больше и больше членов последовательности). Среди них Числа Фибоначчи,[60][61] то факториалы,[62] степени двойки,[63][64] и полномочия почти любой другой номер.[63]

Точно так же некоторые непрерывные процессы точно удовлетворяют закону Бенфорда (в асимптотическом пределе, когда процесс продолжается во времени). Один из них экспоненциальный рост или же разлагаться процесс: если величина экспоненциально увеличивается или уменьшается во времени, то процент времени, в течение которого она имеет каждую первую цифру, асимптотически удовлетворяет закону Бенфорда (то есть увеличивается точность по мере продолжения процесса во времени).

Известно, что распределения не подчиняются закону Бенфорда

В квадратные корни и взаимные последовательных натуральных чисел не подчиняются этому закону.[65] Телефонные справочники нарушают закон Бенфорда, потому что (местные) номера имеют в основном фиксированную длину и не начинаются с длинная дистанция префикс (в Североамериканский план нумерации, цифра 1).[66] Закон Бенфорда нарушается населением всех мест с населением не менее 2500 человек из пяти штатов США согласно переписям 1960 и 1970 годов, где только 19% начинались с цифры 1, а 20% начинались с цифры 2, потому что усечение на 2500 вводит статистическую ошибку.[65] Конечные цифры в отчетах о патологии нарушают закон Бенфорда из-за округления.[67]

Распределения, не охватывающие несколько порядков величины, не подчиняются закону Бенфорда. Примеры включают рост, вес и показатели IQ.[8][68]

Критерии ожидаемого и не ожидаемого распределения подчиняются закону Бенфорда

Был предложен ряд критериев, особенно применимых к данным бухгалтерского учета, где можно ожидать применения закона Бенфорда.[69]

Распределения, которые, как можно ожидать, подчиняются закону Бенфорда
  • Когда среднее значение больше медианы, а перекос положительный
  • Числа, полученные в результате математической комбинации чисел: например, количество × цена
  • Данные уровня транзакции: например, выплаты, продажи
Распределения, которые не должны подчиняться закону Бенфорда
  • Где номера присваиваются последовательно: например, номера чеков, номера счетов-фактур
  • Где на числа влияет человеческая мысль: например, цены, установленные психологическими порогами (1,99 доллара США)
  • Счета с большим количеством номеров конкретных компаний: например, учетные записи, настроенные для записи возврата 100 долларов США
  • Аккаунты со встроенным минимумом или максимумом
  • Распределения, которые не охватывают порядковый номер.

Теорема Бенфорда о соблюдении закона

Математически закон Бенфорда применим, если тестируемое распределение соответствует «теореме соответствия закону Бенфорда».[15] Вывод гласит, что закон Бенфорда соблюдается, если преобразование Фурье логарифма функции плотности вероятности равно нулю для всех целых значений. В частности, это выполняется, если преобразование Фурье равно нулю (или пренебрежимо мало) для n≥1. Это выполняется, если распределение является широким (поскольку широкое распределение подразумевает малое преобразование Фурье). Смит резюмирует это (стр. 716):

«Закон Бенфорда сопровождается распределениями, которые шире по сравнению с единичным расстоянием по логарифмической шкале. Точно так же закон не подчиняется распределениям, которые являются узкими по сравнению с единичным расстоянием… «Если распределение широкое по сравнению с единичным расстоянием на оси бревна, это означает, что разброс в исследуемом наборе чисел намного больше десяти. . »

Короче говоря, закон Бенфорда требует, чтобы числа в измеряемом распределении имели разброс по крайней мере на порядок.

Тесты с распространенными дистрибутивами

Закон Бенфорда был эмпирически проверен на числах (до 10-го разряда), порожденных рядом важных распределений, включая равномерное распределение, то экспоненциальное распределение, то нормальное распределение, и другие.[8]

Равномерное распределение, как и следовало ожидать, не подчиняется закону Бенфорда. Напротив, соотношение двух равномерных распределений хорошо описывается законом Бенфорда.

Ни нормальное распределение, ни распределение отношений двух нормальных распределений ( Распределение Коши ) подчиняются закону Бенфорда. Хотя полунормальное распределение не подчиняется закону Бенфорда, соотношение двух полунормальных распределений подчиняется. Ни усеченное вправо нормальное распределение, ни распределение отношения двух усеченных вправо нормальных распределений хорошо не описываются законом Бенфорда. Это неудивительно, так как это распределение ориентировано на большее число.

Закон Бенфорда также хорошо описывает экспоненциальное распределение и соотношение двух экспоненциальных распределений. Подгонка распределения хи-квадрат зависит от степени свободы (df) с хорошим согласием с df = 1 и уменьшающимся с увеличением df. В F-распределение хорошо подходит для низких степеней свободы. С увеличением dfs соответствие уменьшается, но намного медленнее, чем распределение хи-квадрат. Подгонка логнормального распределения зависит от иметь в виду и отклонение распределения. Дисперсия оказывает гораздо большее влияние на соответствие, чем среднее значение. Чем больше значения обоих параметров, тем лучше согласуется с законом. Отношение двух логнормальных распределений является логнормальным, поэтому это распределение не исследовалось.

Другие рассмотренные дистрибутивы включают Распределение Muth, Распределение Гомперца, Распределение Вейбулла, гамма-распределение, логистическая дистрибуция и экспоненциальное распределение мощности все это демонстрирует разумное согласие с законом.[56][70] В Гамбель раздача - плотность увеличивается с увеличением значения случайной величины - не показывает согласия с этим законом.[70]

Обобщение до цифр после первой

Логарифмический график вероятности того, что число начинается с цифры (а) п, для распределения, удовлетворяющего закону Бенфорда. Точки показывают точную формулу: P (n) = log10(1 + 1 / п). График стремится к пунктирной асимптоте, проходящей через (1, журнал10 е) с наклоном -1 в логарифмической шкале. Пример, выделенный желтым цветом, показывает, что вероятность того, что число начинается с 314, составляет около 0,00138. Пунктирными линиями показаны вероятности равномерного распределения для сравнения. В изображение SVG, наведите указатель мыши на точку, чтобы отобразить ее значения.

Можно расширить закон до цифр, превышающих первую.[71] В частности, для любого заданного количества цифр вероятность встретить число, начинающееся со строки цифр п этой длины - без начальных нулей - определяется по формуле:

Например, вероятность того, что число начинается с цифр 3, 1, 4, равна бревно10(1 + 1/314) ≈ 0.00138, как на рисунке справа. К числам, удовлетворяющим этому требованию, относятся 3,14159 ..., 314285,7 ... и 0,00314465 ....

Этот результат можно использовать для определения вероятности того, что конкретная цифра встречается в данной позиции в числе. Например, вероятность того, что в качестве второй цифры встречается цифра "2", равна[71]

И вероятность того, что d (d = 0, 1, ..., 9) встречается как п-й (п > 1) цифра

Распределение п-я цифра, как п увеличивается, быстро приближается к равномерному распределению с 10% для каждой из десяти цифр, как показано ниже.[71] Четырех цифр часто бывает достаточно, чтобы предположить равномерное распределение 10%, поскольку «0» появляется в 10,0176% четвертых цифрах, а «9» появляется в 9,9824% случаев.

Цифра0123456789
1-йНет данных30.1%17.6%12.5%9.7%7.9%6.7%5.8%5.1%4.6%
2-й12.0%11.4%10.9%10.4%10.0%9.7%9.3%9.0%8.8%8.5%
3-й10.2%10.1%10.1%10.1%10.0%10.0%9.9%9.9%9.9%9.8%

Моменты

Средний и Моменты случайных величин для цифр от 1 до 9 в соответствии с этим законом:[72]

Для двузначного распределения по закону Бенфорда также известны эти значения:[73]

Доступна таблица точных вероятностей совместного появления первых двух цифр в соответствии с законом Бенфорда,[73] как и соотношение численности населения между первой и второй цифрами:[73] ρ = 0.0561.

В популярной культуре

  • Закон Бенфорда используется в качестве аналогии в эпизоде ​​"Бегущий человек" (2006) телевизионной криминальной драмы. NUMB3RS, где закон Бенфорда был использован для раскрытия серии крупных краж.[74]
  • Фильм 2016 года Бухгалтер, Закон Бенфорда используется для разоблачения кражи средств робототехнической компании.
  • в Netflix серии Озарк, Закон Бенфорда используется для анализа финансовой отчетности члена картеля и выявления его мошенничества.
  • Четвертая серия Netflix серии Связаны о законе Бенфорда.

Смотрите также

Рекомендации

  1. ^ Арно Бергер и Теодор П Хилл, Закон Бенфорда наносит ответный удар: для математической жемчужины нет простого объяснения, 2011 г.
  2. ^ Вайсштейн, Эрик В. "Закон Бенфорда". MathWorld, веб-ресурс Wolfram. Получено 7 июн 2015.
  3. ^ Хилл, Теодор. «Статистический вывод закона значащих цифр». Проект Евклид.
  4. ^ Пол Х. Квам, Брани Видакович, Непараметрическая статистика в приложениях к науке и технике, п. 158
  5. ^ Бергер, Арно; Хилл, Теодор П. (30 июня 2020 г.). «Математика закона Бенфорда: учебник». Стат. Методы Appl. arXiv:1909.07527. Дои:10.1007 / s10260-020-00532-8. S2CID  202583554.
  6. ^ а б Фрэнк Бенфорд (Март 1938 г.). «Закон аномальных чисел». Proc. Являюсь. Филос. Soc. 78 (4): 551–572. JSTOR  984802. (требуется подписка)
  7. ^ а б Саймон Ньюкомб (1881). «Обратите внимание на частоту использования разных цифр в натуральных числах». Американский журнал математики. 4 (1/4): 39–40. Bibcode:1881AmJM .... 4 ... 39N. Дои:10.2307/2369148. JSTOR  2369148. S2CID  124556624. (требуется подписка)
  8. ^ а б c d Форманн, А. К. (2010). Моррис, Ричард Джеймс (ред.). "Закон Ньюкома-Бенфорда в его отношении к некоторым общим распределениям". PLOS ONE. 5 (5): e10541. Bibcode:2010PLoSO ... 510541F. Дои:10.1371 / journal.pone.0010541. ЧВК  2866333. PMID  20479878.
  9. ^ а б Миллер, Стивен Дж., изд. (9 июня 2015 г.). Закон Бенфорда: теория и приложения. Издательство Принстонского университета. п. 309. ISBN  978-1-4008-6659-5.
  10. ^ Они должны быть строго полосами, но для ясности показаны линиями.
  11. ^ Пимбли, Дж. М. (2014). «Закон Бенфорда как логарифмическое преобразование» (PDF). Максвелл Консалтинг, ООО. Получено 15 ноября 2020.
  12. ^ ХОСРАВАНИ, А (2012). Трансформационная инвариантность переменных Бенфорда и их численное моделирование. Последние исследования в области автоматического управления и электроники. С. 57–61. ISBN  978-1-61804-080-0.
  13. ^ а б Теодор П. Хилл (1995). «Статистический вывод закона значащих цифр». Статистическая наука. 10 (4): 354–363. Дои:10.1214 / сс / 1177009869. МИСТЕР  1421567.
  14. ^ Хилл, Теодор П. (1995). "Базовая инвариантность следует из закона Бенфорда". Труды Американского математического общества. 123 (3): 887–895. Дои:10.1090 / S0002-9939-1995-1233974-8. ISSN  0002-9939.
  15. ^ а б c Стивен В. Смит. "Руководство для ученых и инженеров по цифровой обработке сигналов, глава 34, Объяснение закона Бенфорда". Получено 15 декабря 2012. (особенно Раздел 10 ).
  16. ^ а б c Фьюстер, Р. М. (2009). «Простое объяснение закона Бенфорда» (PDF). Американский статистик. 63 (1): 26–32. CiteSeerX  10.1.1.572.6719. Дои:10.1198 / вкус.2009.0005. S2CID  39595550.
  17. ^ Арно Бергер и Теодор П. Хилл, Закон Бенфорда наносит ответный удар: для математической жемчужины нет простого объяснения, 2011 г.. Авторы описывают этот аргумент, но говорят, что он «все еще оставляет открытым вопрос, почему разумно предположить, что логарифм разброса, в отличие от самого разброса - или, скажем, логарифм разброса - должен быть большим» и что "предполагая большой разброс в логарифмическом масштабе, эквивалент предположить приблизительное соответствие [закону Бенфорда] »(курсив добавлен), что, по их словам, не имеет« простого объяснения ».
  18. ^ Кригер, Вольфганг (1970). «Об энтропии и генераторах преобразований, сохраняющих меру». Труды Американского математического общества. 149 (2): 453. Дои:10.1090 / S0002-9947-1970-0259068-3. ISSN  0002-9947.
  19. ^ Downarowicz, Tomasz (12 мая 2011 г.). Энтропия в динамических системах. Издательство Кембриджского университета. п. 106. ISBN  978-1-139-50087-6.
  20. ^ «Одед Кафри». amazon.com.
  21. ^ Кафри, Одед (2009). «Принцип энтропии в прямом выводе закона Бенфорда». arXiv:0901.3047 [cs.DM ].
  22. ^ Смородинский, Меир (1971). «Глава IX. Энтропия и генераторы. Теорема Кригера». В: Эргодическая теория, энтропия. Конспект лекций по математике, том 214. Берлин, Гейдельберг: Springer. Дои:10.1007 / BFb0066096.
  23. ^ Чофало, Микеле (2009). «Энтропия, закон первой цифры Бенфорда и распределение всего». CiteSeerX. Dipartamento di Ingenieria Nucleare, Universita degli Studi di Palermo, Италия. CiteSeerX  10.1.1.492.9157.
  24. ^ Джолион, Жан-Мишель (2001). «Образы и закон Бенфорда». Журнал математической визуализации и зрения. 14 (1): 73–81. Дои:10.1023 / А: 1008363415314. ISSN  0924-9907. S2CID  34151059.
  25. ^ Лимоны, Дон С. (2019). «Термодинамика закона первой цифры Бенфорда». Американский журнал физики. 87 (10): 787–790. arXiv:1604.05715. Bibcode:2019AmJPh..87..787L. Дои:10.1119/1.5116005. ISSN  0002-9505. S2CID  119207367.
  26. ^ а б Л. Пьетронеро; Э. Тосатти; В. Тосатти; А. Веспиньяни (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Physica A. 293 (1–2): 297–304. arXiv:cond-mat / 9808305. Bibcode:2001PhyA..293..297P. Дои:10.1016 / S0378-4371 (00) 00633-6.
  27. ^ Форманн, А. К. (2010). «Закон Ньюкома-Бенфорда в его отношении к некоторым общим распределениям». PLOS ONE. 5 (5): e10541. Bibcode:2010PLoSO ... 510541F. Дои:10.1371 / journal.pone.0010541. ЧВК  2866333. PMID  20479878.
  28. ^ Теодор П. Хилл (Июль – август 1998 г.). «Феномен первой цифры» (PDF). Американский ученый. 86 (4): 358. Bibcode:1998AmSci..86..358H. Дои:10.1511/1998.4.358.
  29. ^ Жанвресс, Элиза; Тьерри (2004). «От единообразных распределений к закону Бенфорда» (PDF). Журнал прикладной теории вероятностей. 41 (4): 1203–1210. Дои:10.1239 / jap / 1101840566. МИСТЕР  2122815. Архивировано из оригинал (PDF) 4 марта 2016 г.. Получено 13 августа 2015.
  30. ^ Пинкхэм, Роджер С. (1961). «О распределении первых значащих цифр». Анна. Математика. Статист. 32 (4): 1223–1230. Дои:10.1214 / aoms / 1177704862.
  31. ^ MathWorld - Закон Бенфорда
  32. ^ Джамейн, Адриан (сентябрь 2001 г.). "Закон Бенфорда" (PDF). Имперский колледж Лондона. Получено 15 ноября 2020.
  33. ^ Бергер, Арно (июнь 2011 г.). «Основная теория закона Бенфорда». Вероятностные исследования. 8 (2011) 1–126: 126.
  34. ^ Вариан, Хэл (1972). «Закон Бенфорда (Письма в редакцию)». Американский статистик. 26 (3): 65. Дои:10.1080/00031305.1972.10478934.
  35. ^ "От Бенфорда до Эрдеша". Радио Лаборатория. Эпизод 2009-10-09. 30 сентября 2009 г.
  36. ^ Уолтер Р. Мебейн-младший "Избирательная экспертиза: подсчет голосов и закон Бенфорда "(18 июля 2006 г.).
  37. ^ "Избирательная экспертиза ", Экономист (22 февраля 2007 г.).
  38. ^ Декерт, Джозеф; Мягков Михаил; Ордешук, Питер С. (2011). «Закон Бенфорда и выявление фальсификаций на выборах». Политический анализ. 19 (3): 245–268. Дои:10.1093 / pan / mpr014. ISSN  1047-1987.
  39. ^ Мебане, Уолтер Р. (2011). Комментарий к закону Бенфорда и выявлению фальсификаций на выборах"". Политический анализ. 19 (3): 269–272. Дои:10.1093 / pan / mpr024.
  40. ^ Стивен Баттерсби Статистика намекает на фальсификацию выборов в Иране Новый ученый 24 июня 2009 г.
  41. ^ Уолтер Р. Мебейн-младший "Записка о президентских выборах в Иране, июнь 2009 г. "(Мичиганский университет, 29 июня 2009 г.), стр. 22–23.
  42. ^ Boudewijn Roukema, "Аномалии закона Бенфорда на президентских выборах 2009 года в Иране "(Университет Николая Коперника, 16 июня 2009 г.).
  43. ^ Бернд Бебер и Александра Скакко "Дьявол в цифрах: доказательства фальсификации выборов в Иране ", Вашингтон Пост (20 июня 2009 г.).
  44. ^ Марк Дж. Нигрини, Закон Бенфорда: приложения для судебной экспертизы, аудита и обнаружения мошенничества (Хобокен, Нью-Джерси: Wiley, 2012), стр. 132–35.
  45. ^ а б Уолтер Р. Мебейн-младший, "Избирательная экспертиза: испытание закона Бенфорда на второй цифре и недавние президентские выборы в США" в Мошенничество на выборах: выявление и пресечение манипуляций на выборах, под редакцией Р. Майкл Альварес и др. (Вашингтон, округ Колумбия: Brookings Institution Press, 2008), стр. 162–81. PDF
  46. ^ Шикано, Сусуму; Мак, Верена (2011). «Когда второй знак Бенфорда свидетельствует о мошенничестве на выборах? Факты или вводящие в заблуждение результаты теста». Jahrbücher für Nationalökonomie und Statistik. 231 (5–6): 719–732.
  47. ^ Кирилл Калинин и Уолтер Р. Мебейн-младший "Когда россияне фальсифицируют результаты своих выборов, они могут показать нам статистический палец ", Вашингтон Пост (11 января 2017 г.).
  48. ^ Уильям Гудман, Обещания и подводные камни закона Бенфорда, Значимость, Королевское статистическое общество (июнь 2016 г.), стр. 38.
  49. ^ Голдакр, Бен (16 сентября 2011 г.). «Особый трюк, помогающий определить сомнительную статистику». Хранитель. Получено 1 февраля 2019.
  50. ^ Сехиты, Тарек эль; Хельцль, Эрик; Кирхлер, Эрих (1 декабря 2005 г.). «Динамика цен после номинального шока: закон Бенфорда и психологическое ценообразование после введения евро». Международный журнал исследований в области маркетинга. 22 (4): 471–480. Дои:10.1016 / j.ijresmar.2005.09.002.
  51. ^ Friar, JL; Гольдман, Т; Перес-Меркадер, J (2012). «Размеры генома и распределение Бенфорда». PLOS ONE. 7 (5): e36624. arXiv:1205.6512. Bibcode:2012PLoSO ... 736624F. Дои:10.1371 / journal.pone.0036624. ЧВК  3356352. PMID  22629319.
  52. ^ Дикманн, А (2007). «Не первая цифра! Использование закона Бенфорда для обнаружения мошеннических научных данных». J Appl Stat. 34 (3): 321–329. Дои:10.1080/02664760601004940. HDL:20.500.11850/310246. S2CID  117402608.
  53. ^ Вэй, Анран; Веллвок, Андре Эччель (2020). «Насколько надежны данные о COVID-19? Статистический анализ по закону Бенфорда». Предварительная печать Research Gate. Дои:10.13140 / RG.2.2.31321.75365 / 1. Получено 4 ноября 2020.
  54. ^ Стивенс М.А. (1970). «Использование статистики Колмогорова – Смирнова, Крамера – фон Мизеса и связанных с ними статистических данных без обширных таблиц». Журнал Королевского статистического общества, серия B. 32 (1): 115–122.
  55. ^ а б c Морроу, Дж. (2010) «Закон Бенфорда, семейства распределений и тестовая база», UW-Мэдисон
  56. ^ а б Leemis, L.M .; Schmeiser, B.W .; Эванс, Д. Л. (2000). «Распределения выживания, удовлетворяющие закону Бенфорда». Американский статистик. 54 (4): 236–241. Дои:10.1080/00031305.2000.10474554. S2CID  122607770.
  57. ^ Cho, W. K. T .; Гейнс, Б. Дж. (2007). «Нарушение закона (Бенфорда): обнаружение статистического мошенничества при финансировании избирательных кампаний». Американский статистик. 61 (3): 218–223. Дои:10.1198 / 000313007X223496. S2CID  7938920.
  58. ^ Suh, I. S .; Хедрик, Т. С .; Минабуро, С. (2011). «Эффективный и действенный аналитический метод: процедура начальной регрессии и закон Бенфорда». J Судебно-медицинская экспертиза и следственный учет. 3 (3).
  59. ^ Островский, Владимир (май 2017). «Проверка эквивалентности полиномиальных распределений». Письма о статистике и вероятности. 124: 77–82. Дои:10.1016 / j.spl.2017.01.004. S2CID  126293429.
  60. ^ Вашингтон, Л. С. (1981). «Закон Бенфорда для чисел Фибоначчи и Люка». Ежеквартальный отчет Фибоначчи. 19 (2): 175–177.
  61. ^ Дункан, Р. Л. (1967). «Применение равномерного распределения к числам Фибоначчи». Ежеквартальный отчет Фибоначчи. 5: 137–140.
  62. ^ Саркар, П. Б. (1973). «Наблюдение за значащими цифрами биномиальных коэффициентов и факториалов». Санкхья Б. 35: 363–364.
  63. ^ а б В общем, последовательность k1, k2, k3и т. д., точно удовлетворяет закону Бенфорда при условии, что log10 k является иррациональный номер. Это прямое следствие теорема о равнораспределении.
  64. ^ То, что первые 100 степеней двойки приблизительно удовлетворяют закону Бенфорда, упоминается Ральфом Рэйми. Рэйми, Ральф А. (1976). «Проблема первой цифры». Американский математический ежемесячный журнал. 83 (7): 521–538. Дои:10.2307/2319349. JSTOR  2319349.
  65. ^ а б Рэйми, Ральф А. (август – сентябрь 1976 г.). «Проблема с первой цифрой». Американский математический ежемесячный журнал. 83 (7): 521–538. Дои:10.2307/2319349. JSTOR  2319349.
  66. ^ В Североамериканский план нумерации использует 1 в качестве префикса междугороднего номера, и большая часть остального мира резервирует его для начала специальных 3-значных чисел, таких как 112 (телефон экстренной связи).
  67. ^ Пиво, Тревор В. (2009). «Предпочтение конечной цифры: остерегайтесь закона Бенфорда». J. Clin. Патол. 62 (2): 192. Дои:10.1136 / jcp.2008.061721. PMID  19181640. S2CID  206987736.
  68. ^ Синглтон, Томми В. (1 мая 2011 г.). "Понимание и применение закона Бенфорда ", Журнал ISACA, Ассоциация аудита и контроля информационных систем. Проверено 9 ноября, 2020.
  69. ^ Дурчи, К; Хиллисон, Вт; Пачини, С. (2004). «Эффективное использование закона Бенфорда для помощи в обнаружении мошенничества с данными бухгалтерского учета». J Судебно-бухгалтерский учет. 5: 17–34.
  70. ^ а б Dümbgen, L; Леуэнбергер, С. (2008). «Явные оценки ошибки приближения в законе Бенфорда». Электронные коммуникации в вероятности. 13: 99–112. arXiv:0705.4488. Дои:10.1214 / ECP.v13-1358. S2CID  2596996.
  71. ^ а б c Хилл, Теодор П. (1995). "Феномен значащих цифр". Американский математический ежемесячник. 102 (4): 322–327. Дои:10.1080/00029890.1995.11990578. JSTOR  2974952.
  72. ^ Скотт, П.Д .; Фасли, М. (2001) «Закон Бенфорда: эмпирическое исследование и новое объяснение» В архиве 13 декабря 2014 г. Wayback Machine. Технический отчет CSM 349, кафедра компьютерных наук, Univ. Эссекс
  73. ^ а б c Suh, I. S .; Хедрик, Т. К. (2010). «Сравнительный анализ бутстрапа и традиционных статистических процедур, применяемых к цифровому анализу на основе закона Бенфорда» (PDF). Журнал судебно-медицинской экспертизы и следственного учета. 2 (2): 144–175.
  74. ^ mathworld.wolfram: "Закон Бенфорда"

дальнейшее чтение

внешняя ссылка