Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами / Комментарии / Хабр

С другой стороны, статистические инструменты и статистический вывод могут потерять адекватность, к которой мы привыкли, работая с данными, распределенными нормально.

Все правильно, но слишком заумно ;-) Попробую сказать то же самое чуть попроще (пояснить на примерах). А заодно добавлю парочку не совсем очевидных, но вытекающих прямо отсюда "последствий".

Итак, допустим, мы хотим проверить какое-то предположение (гипотезу), и у нас есть для этого нужные данные. Обычно мы для этого используем какие-то формулы, и потом сравниваем полученное значение с критическим (тест на значимость). Так вот, для данных с нормальным распределением это критическое значение будет одно, а с другим - оно может быть совершенно иное.

Например, мы хотим узнать, связаны ли X с Y, и вычисляем для этого корреляцию между ними (=Rxy). Так вот, для нормального распределения теория может сказать, что они связаны, если Rxy > 0.1. А для какого-то экзотического - связаны, только если если Rxy > 0.4 (при том же уровне значимости). Теперь допустим, что у нас по нашим данным получилось Rxy = 0.3. И какой же ответ будет правильным в нашем случае? Чтобы это узнать, надо проанализировать распределения X и Y. Если они оба нормальные - то наличие связи бесспорно. А если нет, то все намного сложнее...

Проблема в том, что даже в достаточно профессиональных руководствах, доступных в сети, на указанный факт часто

не обращают внимания.

То есть, где-то на первой странице там мелким шрифтом написано: "Рассмотрим нормально распределенные случайные величины....". Но мы-то обычно ищем в Сети не фундаментальные знания, а ответ на конкретный вопрос. Нам нужно здесь и сейчас проверить значимость корреляции. Именно ради этого мы внимательно читаем вышеописанное руководство, но не все целиком, а лишь фрагмент со страницы 100500.42 и по страницу 100500.45. Где речь конкретно про корреляцию, и где черным по русскому сказано: критическое значение = 0.1! И приведены неоспоримые формулы.

Упомянутая выше мной ссылка тоже, кстати,

этим грешит.

Вместо четкой и внятной фразы про нормальность там есть всего лишь слабый намек на необходимость прочесть "первую страницу":

"...Выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной t... " (выделение жирным шрифтом - мое).

По мне, так это попросту издевательство над читателем! Так как в жизни у нас в 90% случаев будут НЕ нормальные распределения! И, следовательно, все сказанное в таких руководствах без этой оговорки - это не просто недомовлка, а почти что мошенничество. Во всяком случае, злоупотребление доверием (т.е. намеренное введение читателя в заблуждение) налицо. В результате чего мы, получив Rxy = 0.3, часто делаем совершенно необоснованный вывод, что две переменные связаны. А хуже всего то, что при Rxy = 0.3 они действительно иногда могут быть вроде как связаны (а могут и нет). Из-за этого ошибка далеко не всегда очевидна, а не обоснованный статистически вывод может выглядеть очень правдоподобно.

Я боюсь представить, какая буря может подняться, если копнуть эту тему поглубже. И речь тут даже не о дата аналитиках, которые рано или поздно доходят до всего нужного своими мозгами (ну а джунам простительно заблуждаться). Речь - про прорву научных статей с подобными ошибками в обработке данных.

И если быть честным, то это лишь верхушка айсберга. Так как все выше сказанное - это про случайные величины. А на практике у нас в половине кейсов необходимо обрабатывать не случайные величины, а фактически временные ряды. Для справки: временной ряд - это когда изучаемая величина зависит от времени

любым способом

В частности, абсолютно все без исключения данные из продаж-экономики-медицины-геофизики и т.д. и т.п., если это только не мгновенный срез на определенную дату, это именно временные ряды. Такие данные не являются случайными величинами ни в каком приближении просто в силу гарантированного отсутствия эргодичности.

И вот тут уже начинается полная катастрофа со значимостью абсолютно любых оценок. Которая кратно хуже "катастрофы распределений" хотя бы потому, что про нее (т.е. про "катастрофу случайных процессов") вообще почти никто и нигде не пишет. Из-за чего совершенно тривиальный (для понимающих суть проблемы) вопрос о связи пиратства с глобальным потеплением становится темой для множества квазипрофессиональных дискуссий, иногда даже осмысленных, но где видно искреннее непонимание сути проблемы ложных корреляций полупрофессионалами.

Ситуация уже настолько далеко вышла за грань здравого смысла, что я честно попытался внести нужные правки в википедию. Где их, разумеется, отклонили, так как в википедии, согласно Правилам, нельзя просто так взять и написать "2х2=4": там надо обязательно сослаться на "авторитетный источник" (и это в общем разумно). Но где же я могу найти авторитетный источник, в котором бы обсуждался совершенно тривиальный и очевидный для математиков факт, что случайный процесс и случайная величина - это разные вещи?! Это то же самое, как искать в современных научных журналах статью, где бы на полном серьезе доказывалось бы, что Земля - круглая, а не плоская.

В общем, я собрал свои разъяснения в виде упомянутой выше научно-популярной хабростатьи, к которой и отсылаю ищущих истину.

Ну а что касается Википедии... тем хуже, имхо, для Вики :-((

Комментарии 8

Arastas 26 мар в 11:42

Вы хотите сказать, что для не нормального распределения с хвостом среднее значение не является несмещённой оценкой матожидания?

SergBag 26 мар в 12:05

Если я правильно понял, вопрос относится к рис. 8. Для распределения Коши матожидание не существует. Но по набору выборок среднее значение чему-то будет равно.

VPryadchenko 26 мар в 12:21

У распределения Коши не определено матожидание

SergBag 26 мар в 12:31

Спасибо! Поправил комментарий.

Arastas 26 мар в 13:01

Смотрите, вы пишете в требованиях

данные в выборке подчиняются нормальному распределению

Но я не вижу, где бы это использовалось. Как справедливо уточнили, нам достаточно, чтобы эти моменты вообще существовали, и тогда все выводы будут работать и для нормального распределения, и для равномерного, и так далее. Зачем требовать нормальность?

SergBag 26 мар в 14:39

С одной стороны, вы правы. Если распределение не будет нормальным, формулы расчета стандартного отклонения и стандартной ошибки не изменятся. С другой стороны, статистические инструменты и статистический вывод могут потерять адекватность, к которой мы привыкли, работая с данными, распределенными нормально.

SergBag 28 мар в 11:29

Алексей, спасибо за великолепный комментарий!

Но где же я могу найти авторитетный источник, в котором бы обсуждался совершенно тривиальный и очевидный для математиков факт, что случайный процесс и случайная величина - это разные вещи?!

Рекомендую книги и научные статьи Нассима Талеба. В частности, Статистические последствия жирных хвостов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий