Парадокс Симпсона

Корреляция измеряет связь между двумя переменными. Важная оговорка: при прочих равных [Грас-20, 91]. Попробуем в этой заметке разобраться. С котиками.

Возьмём данные о проектах на краудфандинговой площадке «Кикстартер» на январь 2018 [Kaggle].

Категория
Количество проектов
Количество успешных проектов
Доля успешных проектов
Программное обеспечение
3041
371
12 %
Веб-разработка
3900
258
7 %

Хорошо видно, что вероятность успеха выше, если участник предлагает проект, связанный с разработкой программного обеспечения, а не сайтов. Но это лишь на первый взгляд. Разделим проекты ещё на две группы, скажем, одни запросили больше 17 тысяч долларов (около миллиона рублей), а другие — меньше.

Категория
Дополнительный фактор
Количество успешных проектов
Доля успешных проектов
Программное обеспечение
> порог. знач.
74
2 %
Программное обеспечение
≤ порог. знач.
297
10 %
Веб-разработка
> порог. знач.
56
1 %
Веб-разработка
≤ порог. знач.
202
5 %

Заметно, что большего успеха добиваются проекты с чуть более скромными запросами. Мы нашли совсем иную связь между переменными. По-другому это называется парадоксом объединения и связано со спутывающими переменными.

«Спутывающая переменная (confounding variable) — внешняя переменная статистической модели, которая коррелирует как с зависимой, так и с независимой переменной. Её игнорирование приводит к смещению оценки модели» [Грас-20, 90].

В сериале «Теория большого взрыва» (S10E4) физик-теоретик Шелдон хочет принять участие в эксперименте вместе с Эми, микробиологом:

Эми: Что физик-теоретик вообще понимает в экспериментах? Да ты бы не узнал спутывающую переменную, даже если бы две из них одновременно ударили тебя прямо по носу. И ты даже не понял шутку, потому что никогда не сталкивался со спутывающими переменными.

Шелдон: Как ты смеешь!

Дискриминация девушек

Калифорнийский университет однажды получил судебный иск. Беспокойным гражданам показалось, что девушек дискриминируют, поскольку их доля среди поступивших была меньше. Спутывающей переменной в том случае послужил факультет: большая часть девушек поступали на факультеты, где доля зачисленных абитуриентов была ниже. Сверх того, немалое число факультетов приняли даже больше девушек, чем молодых людей. Иск был отклонён [Бослаф-15, 177].

Лекарства

Одно и то же лекарство при тестировании в разных группах может хорошо показать себя. Но если эти группы объединить, то эффективность становится меньше [Бослаф-15, 177].

А вывод простой и вполне ожидаемый в области data science: знай свои данные.

Рисовала Арина Филимонова (самая лучшая 601 группа)

Данные

[Kaggle] Kaggle. Kickstarter Projects: https://www.kaggle.com/kemical/kickstarter-projects?select=ks-projects-201801.csv

Список литературы

[Грас-20] Грас Дж. Data Science. Наука о данных с нуля: Пер. с англ. — СПб.: БХВ-Петербург, 2020. — 336 с.: ил. ISBN 978-5-9775-3758-2

[Бослаф-15] Бослаф С. Статистика для всех. / Пер. с англ. П. А. Волкова, И. М. Флямер, М. В. Либерман, А. А. Галицына. — М.: ДМК Пресс, 2015. — 586 с.: ил.

11 декабря 2020