November 14th, 2020

LeshaPolina

Голосовали ли мертвецы на выборах в США?

Тут показали список людей, которые проголосовали в одном из округов Мичигана и нашлись среди умерших людей (согласно Social Security Death Index). Многие из этих людей умерли несколько лет назад, но нашлись в списке получивших бюллетень для голосования по почте. Таких людей больше 11 тысяч и это только в одном из округов Мичигана. Как такое может быть? Неужели в Америке существуют массовые фальсификации?

Спойлер: нет. Этот список расследовали журналисты. Они нашли многих людей из этого списка. Они оказались вполне живы. Как же возник этот список? Оказалось, что узнать, голосовал ли человек в Мичигане, можно на сайте. Для этого нужно задать его фамилию, имя, месяц и год рождения, и почтовый индекс. При этом точную дату рождения знать не нужно. Кроме того, есть доступные базы данных умерших людей. Однако выяснилось, что дата рождения в базе данных умерших отличается от даты рождения в базе данных проголосовавших. Более того многие из этих умерших никогда не жили в Мичигане. Таким образом список из 11 тысяч "проголосовавших мертвецов" - это просто список совпадений: если вы проголосовали в Мичигане, а где-то в Америке найдется человек с вашим именем, фамилией, годом и месяцем рождения, который уже умер, то вы попадете в этот список.

Но я хотел написать не про это. kireev заметил, что это можно проверить только смотря на список "проголосовавших мертвецов", не проводя никакого журналистского расследования! Он заметил, что в этом списке только часто встречаемые фамилии. Самые распространенные фамилии в этом списке: SMITH, JOHNSON, WILLIAMS. Это как раз три самые распространенные фамилии в США. Вроде все логично: самые распространенные фамилии и должны встречаться в списке чаще всего. Но давайте посмотрим на частоту встречания:

Фамилия Частота
в США
Частота в списке
SMITH 1.006% 10.76%
JOHNSON 0.810% 6.44%
WILLIAMS 0.699% 4.40%

Получается, что в списке частые фамилии встречаются существенно чаще, чем в среднем по США. Почему? Ну это как раз и следует ожидать от списка, который получился совпадением. Если есть два независимых списка людей (в нашем случае проголосовавших и умерших), и мы возьмем их пересечение (то есть людей из одного списка, которые совпадают по фамилии и другим атрибутам с людьми из другого списка), то вероятность некоторой фамилии, попасть в этот список пересечения будет пропорциональна не частоте фамилии, а квадрату частоты фамилии! Можно рассчитать ожидаемое распределение частот в таком списке совпадений и сравнить с тем, что есть. Я это и сделал. Вот что получилось для 10 самых распространенных фамилий:



Как видно реальное распределение частых фамилий в списке (коричневая линия) очень похоже на теоретическое распределение, которое получается при предположении, что этот список получен просто совпадением (зеленая линия), и совсем не похоже на реальное распределение фамилий (желтая линия), который получился бы, если бы действительно кто-то за умерших получал бюллетени.