sacredtree 5 мар в 10:00

Шум в суждениях и предвзятость в решениях людей и нейросетей

12 мин

1.4K

Блог компании ГазпромбанкНаучно-популярное

А — точность; В — шум; С — предвзятость; D — шум + предвзятость

Когда разработчиков ПО просили в два разных рабочих дня оценить время выполнения задачи по одному и тому же ТЗ, часы, которые они прогнозировали, отличались в среднем на 71 %.

Два одинаково опытных врача могут поставить одному и тому же больному два разных диагноза, два компетентных кадровика — пригласить на одну и ту же должность двух совершенно разных кандидатов, два эксперта — дать заметно отличающиеся прогнозы о показателях продаж в следующем квартале. И даже один и тот же человек в разные дни недели может решать одну и ту же задачу совершенно по-разному.

Причина — шум в суждениях, то есть разброс в решениях, которые по всем правилам должны были быть одинаковыми.

Об этом очень наглядно рассказал Даниель Канеман — нобелевский лауреат-2002.

Канеман — один из главных современных экономистов, хотя сам активно это отрицает. Он разрушил кучу теоретических представлений о том, как люди принимают решения, и был одним из «отцов» поведенческой экономики.

И даже больше. Оказалось, что принципы, которые Канеман описал в своих книгах и научных работах, справедливы не только для человеческого мышления, но и для искусственного интеллекта. И они уже вовсю используются при обучении нейросетей.

Сегодня поговорим о рациональности, ошибках в суждениях и способах уменьшения шума в решениях.

Вот он собственной персоной — один из «отцов» поведенческой экономики Канеман

В самом начале давайте договоримся о терминологии. Мы опираемся на следующие определения:

Факты однозначны. Расстояние от Земли до Солнца — 150 миллионов километров. Точка. Оспорить это нереально: никаких других вариантов ответа на вопрос не существует.
Мнения могут различаться и зависят от личных пристрастий каждого человека. Кто-то считает лучшим футболистом Месси, а кто-то — Роналду. Эти двое могут хоть подраться, но это ни на что не повлияет.
Суждение — это решение, основанное на сумме данных. И от того, каким оно будет, может зависеть очень многое — от перспектив развития компании до жизни и здоровья. Суждения выносят судьи, преподаватели, политики, врачи, экономисты и прочие товарищи, на чьё мнение мы частенько ориентируемся. Аналитики пишут: «Экономике Бразилии грозит дефолт», врачи ставят диагнозы, а судьи выносят приговоры.

Суждения могут быть проверены со временем, но могут быть и сугубо оценочными (и это самое опасное место). То есть через несколько месяцев мы неизбежно узнаем, кто станет чемпионом Европы по футболу в этом году. А вот оценить справедливость отметки за экзамен по матанализу, которую студент Василий получил на зимней сессии, не получится (но он уже готовится к пересдаче).

Когда нам нужно составить суждение и принять на его основании какое-то решение, то мешать будут предвзятость и шум

Предвзятость — это опора на предубеждения и стереотипы. Это обычные явления в повседневной жизни, они формируются на основе опыта, культурных норм, социальных шаблонов. Взять, к примеру, мнение многих мужчин по поводу женщин за рулём. Или когда HR делает выбор в пользу кандидата, который закончил более престижный (с его точки зрения) вуз, забывая о том, что с профессиональными компетенциями это не всегда коррелирует. Кстати, это называется «эффект ореола».
Шум — это разница в суждениях, которые по всем правилам просто обязаны быть одинаковыми. Например, когда два одинаково опытных врача одну и ту же опухоль у пациента собираются лечить двумя кардинально разными методами: один сразу предлагает операцию, а другой — консервативное лечение.

То есть шум — это невидимая проблема, которая всячески способствует нестабильности решений у разных людей в одной и той же ситуации. И даже у одного и того же человека, но в разное время.

Шум гораздо коварнее предвзятости, и его намного сложнее заметить хотя бы потому, что человеческий мозг заточен на то, чтобы искать закономерности, а не разницу в суждениях.

Если в какой-то больнице все врачи работают плохо, то это выясняется очень быстро. А вот если кого-то вылечили хорошо, а кому-то не помогли совсем, то такая ситуация может продолжаться годами. В принципе, конечно, ошибки компенсируются отличной работой, но тем, кто пострадал от «игры в рулетку» с медициной, от этого не легче.

Для иллюстрации разницы между предвзятостью и шумом хорошо подходят мишени на стрельбище (они показаны вверху на картинке к посту).

Результат с мишенью «А» — точные решения, потому что все «выстрелы» суждений попали в десяточку или близко к ней.

В «выстрелах» по цели «В» нет никакой предвзятости — только шум, и каждый «высказал своё мнение». Статистических ошибок нет, а результат получился весьма неоднозначным.

Мишень «C» лишена шума. Попаданию в десятку мешает статистическая погрешность, то есть предвзятость. «Выстрелы» летят в одном направлении, искажения суждений лежат в одной области, так что их значения можно оценить и поправить.

Хуже всего, когда при стрельбе по мишени «D» возникают и шум, и предвзятость. В этом случае всё очень плохо с точностью, и сделать что-нибудь с этим очень непросто.

Как психолог Канеман получил Нобелевскую премию по экономике?

Канеман всю жизнь исследует, откуда берутся наши убеждения, особенно по таким горячим вопросам, как религиозные конфликты, политические симпатии или расовые предубеждения.

Субъективно нам кажется, что мы верим во что-то потому, что аргументы весьма убедительны. На самом же деле — всё наоборот: сначала мы начинаем верить, а только потом придумываем и подтягиваем аргументы. Частично это происходит потому, что в эти вещи верят те, кому верим мы. Это называется «эмоциональной связностью». Лучше всего люди «цепляются» за страх и гнев, а дальше их внимание уже можно направить туда, куда нужно.

Первая серьёзная работа Канемана в середине 1950-х была связана с обновлением алгоритма собеседований. Он разработал принципиально новую систему, которая позволяет лучше оценивать этих людей и гораздо точнее определять их склонности. С незначительными изменениями его система используется до сих пор, хотя с её создания прошло уже семьдесят лет.

Знаменитую «теорию перспективы», за которую ему и дали Нобелевку, Канеман разработал вместе с Амосом Тверски. Её название, к слову, ничего не значит. Просто учёным хотелось, чтобы оно было каким-нибудь необычным.

В ней говорится о том, как люди принимают решения в условиях неопределённости, и о том, насколько сильно они могут отличаться от того, что предсказывает стандартная экономическая теория (причём систематически и на постоянной основе). Канеман и Тверски включили психологические выводы в экономику и тем самым перевернули всё представление об этой науке.

Оказалось, что экономисты вовсе не такие рациональные и приземлённые, как все привыкли думать. Узнать, что они принимают нелогичные решения на эмоциях куда чаще, чем кажется, было больно.

Чтобы понять, как люди принимают решения, разберёмся, как работает мышление

Самым элегантным открытием Канеман называет наблюдение за глазами. По ним очень хорошо видно, какие умственные усилия сейчас делает человек, причём гораздо лучше, чем по частоте сердечных сокращений, кровяному давлению или проводимости кожи. Когда человек напрягается, чтобы ответить на сложный вопрос, его зрачки расширяются, а потом сужаются обратно. А когда он просто разговаривает, не напрягаясь, со зрачком ничего не происходит. Стало быть, наблюдая за тем, как изменяется зрачок, можно понять, что человеку даётся тяжело, а что — легко.

Опираясь на это знание, Канеман пришёл к выводу, что существует два типа мышления:

Быстрое, интуитивное, автоматическое, не требующее умственных усилий, оно же — «Система 1».
Медленное, рациональное, логическое, оно же — «Система 2».

«Система 1» даёт ответы на простые вопросы. Чаще всего — бессознательные, неточные и почти всегда не имеющие объяснений. Но зато она умеет строить модели мира, которые помогают ориентироваться и восполняют пробелы в знаниях путём причинно-следственных умозаключений.

«Система 2» «включается», как только проблема становится слишком сложной для «Системы 1». Она «включает» доступ к дополнительным ресурсам (полному вниманию и сложным рассуждениям, требующим усилий) и «отключает» всякую побочную деятельность типа лишних разговоров.

Хорошая новость — в том, что со временем некоторые задачи, которые изначально решались только с помощью «Системы 2», переходят под юрисдикцию «Системы 1», например, чтение.

Плохая новость — в том, что переходят туда далеко не все. Например, решение сложных арифметических задач так никогда и не станет интуитивным.

И в принципе на этом можно было бы закончить, если бы не одно «но». Мозг очень не любит напрягаться, и потому быстрое мышление то и дело опережает медленное. А это чревато множеством заблуждений.

Так возникает предвзятость — мать ментальных ошибок

Чтобы не напрягаться, мы отбрасываем факты, которые не укладываются в рамки нашего мировоззрения, а остальные интерпретируем так, чтобы было легче в них поверить. Именно это и называется предвзятостью. Один из примеров — это ситуация, когда человек упрямо отказывается верить в научные исследования или факты из-за своих личных установок. Например, некоторые могут отрицать изменение климата из-за своей скептической позиции или не хотят принимать во внимание науку из-за страха изменений в своем мировоззрении.

Наша предвзятость остаётся с нами надолго, а то и навсегда.

А вот шум может менять суждения по нескольку раз в день

Он возникает в моменте под воздействием самых разных причин — от самочувствия поутру до погоды за окном.

Чтобы отличить его от предвзятости, просто представьте обычные весы. Если они каждый раз ошибаются ровно на полкилограмма, то это предвзятость. Если же вес, который они показывают, прыгает туда-сюда в зависимости от того, как вы поставите ноги, то это — шум.

Существуют профессии, в которых практически не бывает шума. Например, бухгалтеры зачастую выполняют довольно сложные задачи, но действуют по строгим правилам и протоколам, которые сильно ограничивают субъективные суждения.

Есть задачи, где теоретически шум возможен, но действия отработаны до автоматизма при жёстком обучении в предсказуемой среде с немедленной обратной связью, например, вождение машины. Опытные водители очень чётко оценивают ситуацию на дороге и помнят наизусть все правила, иначе садиться за руль было бы смертельно опасно.

Но, к сожалению, в большинстве профессий, которые основаны на принципе анализа данных и вынесения суждений, люди учатся делать это, слушая объяснения руководителей и коллег, а это куда менее надёжный источник знаний, чем обучение на своих ошибках вопреки известной поговорке. Мы ждём, что все врачи, страховщики, брокеры и т. д. будут относиться к одинаковым случаям одинаково, а получаем шум, вызванный солнышком за окнами, трамвайными хамами и желанием прямо сейчас бросить работу и пойти обедать. Причём хорошее настроение сильнее вредит взвешенным решениям, чем плохое, потому что делает людей более доверчивыми, уверенными в первом впечатлении и мешает разглядеть обман.

О том, что надёжность суждений — это вообще-то проблема, любое руководство задумывается очень редко.

Признать, что суждения могут быть шумными, мешают очень хорошие качества: опыт, уверенность в собственных силах и вера в то, что коллеги думают так же.

Кстати, примеры

Однажды Канеман и его коллеги проводили аудит шума для двух организаций, в которых время от времени принимались решения на сотни тысяч долларов.

Технология была такой:

Сначала менеджеров попросили составить несколько реалистичных кейсов для оценки.
А потом попросили сотрудников проанализировать эти кейсы и определить для каждого случая сумму в долларах, как они и делали в обычной жизни.

Затем попарно брали суждения сотрудников, считали для них среднее значение и разницу между ними, а потом рассчитали общий средний индекс шума для каждой организации.

Руководители ждали цифру в 5–10 %, а получили 48 % в первой организации и 60 % — во второй.

А вот ещё немного цифр от других исследователей:

После анализа около семисот реальных решений о зачислении студентов в колледжи выяснилось, что в пасмурные дни сотрудников приёмных комиссий больше интересуют академические успехи абитуриентов, а в солнечные — их личностные качества.
Некоторые рентгенологи при исследовании маммограммы ни разу не пропустили рак молочной железы, зато другие пропускали его в половине случаев. Ложноположительные же результаты получились в 1–64 % случаев.
Анализ шести миллионов приговоров, вынесенных во Франции за двенадцать лет, показал, что судьи немного снисходительнее в своих решениях, если они оглашают приговор в день рождения подсудимого.
Мнения двух сотрудников отдела кадров, даже если они вместе оценивают кандидатов на должность и собеседуют их одновременно, могут отличаться довольно существенно.

Сыграем в лотерею?

Шум бывает:

Шаблонным. Он зависит от конкретной реакции конкретного человека, на которую могут повлиять его опыт, образование и склад ума. Один судья будет более снисходителен к мелким воришкам, другой — к виновникам ДТП. Один профессор «валит» студентов на экзамене сильнее, другой — слабее. Шаблонный шум звучит внутри каждого из нас и потому частенько остаётся без внимания.
Случайным. Он возникает, когда один и тот же эксперт в разных обстоятельствах выдаёт разные решения. Оказалось, что судьи более снисходительны к обвиняемым после победы их любимой футбольной команды, а врачи назначают больше опиоидов во второй половине дня, когда они устали и не имеют сил принимать более взвешенные решения.
Уровневым. Он появляется из-за постоянных или почти постоянных различий между реакциями разных сотрудников.

То есть каждый раз, когда мы полагаемся на решение какого-то специалиста, начинается двойная лотерея. На первом уровне она касается выбора сотрудника, который будет работать с нашим делом. На втором — его настроения в конкретный день.

Хорошая новость: в отличие от предвзятости шум можно оценить, не зная, какой ответ будет правильным. Нужно просто сравнить работу двух сотрудников, и если они полностью взаимозаменяемы, то, значит, уровень шума некритичен.

Плохая новость: ошибки, связанные с шумом, непредсказуемы и внезапны.

И снова — хорошая: если снизить уровень шума, то предвзятость тоже можно будет уменьшить довольно быстро, потому что её сразу станет видно намного лучше.

И как этот вездесущий шум обнаружить?

Люди — существа разумные и логичные. Наш мозг заточен под обнаружение и упорядочивание закономерностей, поэтому случайности, а значит, и шум обнаружить довольно тяжело. Мы постоянно ищем логичные объяснения происходящему и частенько довольствуемся поверхностными суждениями («Система № 1», помните?).

К тому же:

Люди не хотят верить, что между теми, кто принимает решения, может быть так много нежелательных различий.
Очень заманчиво обвинить во всех бедах предвзятость.
Плохие решения надо считать редкими исключениями или отклонениями, эдакими «плохими парнями», а не решениями под воздействием шума, который стоит учитывать.
Самое простое — предположить, что люди рассуждают точно так же, как и вы. Ну потому что всё логично? Логично! Почему бы и другим не обратиться к самому логичному объяснению.

То есть обнаружение шума требует целенаправленных усилий, притом немалых. Он становится видимым, только когда мы начинаем разглядывать под микроскопом похожие суждения и анализировать их статистически. Чтобы провести шумовой аудит, нужно собрать анонимные и независимые решения сотрудников по тщательно подобранным вымышленным случаям и сравнить их между собой.

Регулировать шум посредством обучения, правил и норм получается не всегда

Для описания различных методов, которые помогают уменьшить шум в суждениях, Канеман, Сибони и Санстейн используют термин «гигиена принятия решений». По аналогии с мытьём рук перед операцией: шум в компании увидеть бывает так же непросто, как бактерии и вирусы на коже.

Методы могут быть самыми разными — от тщательной регулировки физической и психологической среды и придуманного Санстейном и Таллером «подталкивания», то есть намеренного изменения поведения людей в нужном направлении без ограничения возможности выбора, до замены части людских задач искусственным интеллектом.

Один из хороших способов борьбы с шумом — «круглые столы», планёрки, врачебные консилиумы. Но при условии, что перед совещанием все запишут своё мнение, чтобы потом можно было свериться с листочком, потому что иначе в большинстве случаев все соглашаются с первым оратором либо с тем, кто говорил увереннее всех.

Хорошо помогают различные чек-листы и тщательно сформулированная инструкция.

Несколько самых перспективных методов учёные объединили в так называемый «протокол промежуточных оценок», или MAP, и очень советуют всем применять его для принятия групповых решений. Жить проще не станет, но зато решения станут немного эффективнее.

Казалось бы, стоит убрать весь шум, и жизнь наладится. Но нет!

Во-первых, достигнуть нулевого шума для некоторых суждений очень дорого, а для других невозможно в принципе.

Во-вторых, достижение нулевого шума может снизить гибкость в принятии решений.

В-третьих, нужно давать людям возможность получать удовлетворение от принятия решений.

В-четвёртых, потенциально важная информация, которой обладают отдельные люди, может быть потеряна при снижении шума.

То есть всегда должно оставаться место для интуиции, внимания к деталям и дискретных суждений. Но желательно, чтобы они «включались» уже после понижения шума.

Самое радикальное решение проблемы шума — замена человеческого суждения искусственным интеллектом, но с этим тоже всё не так просто

За последние 60 лет люди не раз соревновались с алгоритмами на точность в самых разных задачах — от прогнозирования продолжительности жизни онкологических больных до предположения об успешности аспирантов. Алгоритмы оказались точнее людей-профессионалов примерно в половине исследований. Во второй половине они были примерно сопоставимы с людьми.

Но ИИ можно применять далеко не везде. Например, если входные данные уникальны или их трудно закодировать в согласованном формате, то использовать нейросеть не получится.

Алгоритмы не смогут помочь, если для принятия решения нужно провести множество измерений с участием человека или переговоры с другой стороной.

Ещё одна сложность состоит в том, что если оценочные суждения, загруженные в ИИ, будут предвзятыми, то и результат получится далёким от реальности, а снижение шума навредит процессу.

Да и вообще замена сотрудников на программное обеспечение — это довольно болезненный процесс, и кто-то неизбежно будет ему сопротивляться.

И даже там, где использование ИИ оправданно и необходимо, окончательный контроль всё равно должен оставаться за людьми.

И всё же

Учёные Стэнфордского университета доказали, что чем сложнее математическая модель, тем сильнее она напоминает человеческое мышление как при методичных рассуждениях, так и в том, что касается интуиции. То есть у нейросетей тоже есть быстрое и медленное мышление. Так работает многоагентная архитектура ИИ, где поступающие проблемы решаются либо быстрыми агентами, которые реагируют, используя только прошлый опыт, либо медленными, которые активизируются, когда возникает необходимость рассуждать и искать оптимальные решения, выходящие за рамки того, что ожидается от быстрого агента.

Если сегодня дважды задать ChatGPT один и тот же вопрос, то он может дать на него два разных ответа. Однако уже сейчас шума в ответе будет гораздо меньше, чем если окончательные решения будут принимать люди. И чем дальше совершенствуются системы, тем его будет меньше.

Так что принципы Канемана уже вовсю внедряются в алгоритмы искусственного интеллекта, чтобы повысить качество решений на выходе системы.

Теги:

Хабы: