Сюрпризы и потрясения: насколько удивительным был чемпионат мира 2022 года?

  • Насколько удивительным был чемпионат мира 2022 года?
  • Вероятность по методу Монте-Карло
  • Аутсайдеры на чемпионате мира 2022 года
  • Сюрпризы и потрясения: часть первая

Действительно ли победа Саудовской Аравии над Аргентиной была настолько неожиданна? Могли ли прогнозные модели указать на то, что Марокко выйдет в четвертьфинал? Прочтите статью Джозефа Бухдаля, в которой он анализирует данные и ставит перед собой вопрос: «Действительно ли сюрпризы на чемпионате мира 2022 года были настолько неожиданными?»

Согласно данным компании по обработке спортивных метаданных Gracenote, чемпионат мира 2022 года в Катаре стал соревнованием для аутсайдеров, ведь 15 матчей завершились сюрпризами (по мнению компании), и такое количество оказалось наибольшим процентным значением за 64 года.

Катар преподнес наибольшее количество сюрпризов за 64 года чемпионатов мира.

Насколько удивительно это число и как мы можем на деле определить, что стоит расценивать как сюрприз?

Думаю, все мы считаем победу Японии над Испанией и Германией, а также победу Саудовской Аравии над Аргентиной сюрпризами, однако эти умозаключения опираются на то, насколько тверды наши убеждения в том, что Испания, Германия и Аргентина должны были победить в тех матчах.

На интуитивном уровне мы можем предполагать, что ответ очевиден, однако так как истинные вероятности различных исходов невозможно знать наверняка, нам всегда стоит учитывать возможное наличие ошибок.

Если результаты футбольного матча выглядят неожиданными, можно ли утверждать, что аутсайдеру (получившему свой статус благодаря точной прогнозной модели) просто повезло? Или, быть может, аутсайдер на самом деле не был аутсайдером, и в прогнозной модели нашелся изъян?

Эта загадка весьма интересна с философской точки зрения, но отыскать на нее ответ будет весьма тяжело. Нам придется работать с двумя типами неопределенности.

Неопределенность или ошибку в прогнозной модели называют «эпистемической неопределенностью», и обычно ее влияние можно уменьшить благодаря более точному моделированию.

Если же проблемы лежат в менее очевидной плоскости, то мы имеем дело с так называемой «случайной неопределенностью», которую в быту называют «шансами», «удачей» или просто «случайностью».

Уменьшить этот вид неопределенности невозможно. Отделить эпистемическую неопределенность от случайной может быть трудно. В этой паре статей для Pinnacle я попытаюсь немного упростить задачу для читателей. В первой статье я попытаюсь исследовать фактор неожиданности для чемпионата мира в целом.

Во второй статье под названием «Использование чемпионата мира в качестве проверки эффективности» я попытаюсь поразмышлять о том, что наши находки могут рассказать о точности (или эффективности) коэффициентов букмекера, а также о действенности прогнозной модели, которую они используют.

Вероятности для комбинированной ставки на 64 матча

Если мы оценим вероятности каждого из трех возможных результатов для каждого 90-минутного матча чемпионата мира, нам удастся составить вероятность для комбинированной ставки на 64 матча с учетом всех возможных комбинаций исходов. Однако какие вероятности исходов нам следует использовать?

Наиболее амбициозные игроки наверняка имеют собственные методы подсчета, однако с целью экономии времени, а также зная о том, что эти коэффициенты считаются одними из наилучших, я буду использовать для матчей предполагаемые коэффициенты линии закрытия от Pinnacle.

Я уже неоднократно и подробно объяснял, почему коэффициенты линии закрытия Pinnacle являются одними из наиболее выгодных для оценки исходов с истинной вероятностью.

Несомненно, Pinnacle добавляет к этим коэффициентам маржу, так что сперва мне придется ее вычесть. Для этого у меня есть свой собственный калькулятор.

Мы можем использовать эти вероятности для комбинированных ставок, чтобы попытаться ответить на вопрос: насколько неожиданными являются совокупные результаты чемпионата мира 2022 года?

Нарративное заблуждение

Стоит также потратить некоторое время на осознание вероятности того, что вероятность полного отсутствия сюрпризов в 64 матчах чемпионата мира исчезающе мала.

Вероятность того, что все фавориты оказались бы победителями, составляет лишь 11 %.

Используя коэффициенты линии закрытия Pinnacle, я рассчитал, что для результатов матчей после 90 минут нам подходят 6,5 × 10–17 исходов, или же немногим более одного к миллиону триллионов.

Если бы подобное действительно случилось, это стало бы одним из наиболее потрясающих событий в истории человечества.

Тем не менее я все еще задумываюсь над тем, многие ли люди (кроме любителей статистики) придали бы этому хотя бы какое-то значение. Быть может, они просто отметили бы, что очередной чемпионат мира выдался крайне скучным.

У любой другой комбинированной ставки для 64 матчей (а таких может быть много – три в 64-й степени или же 3 433 683 820 292 512 484 657 849 089 281) вероятность успеха гораздо ниже.

В каждой из них будут учитываться различные сюрпризы (сюрпризом мы будем считать такой исход, при котором ожидаемого результата не случилось), и чем меньше вероятность успеха у комбинированной ставки, тем больше в ней предусмотрено сюрпризов.

Впрочем, мы не будем иметь дела с сюрпризами лишь в одном случае: все ожидаемые исходы должны произойти. Однако сюрпризы могут случаться различными способами. Пусть по отдельности вероятность комбинированной ставки для 64 матчей с сюрпризом может быть небольшой, однако хотя бы какой-то из сюрпризов случится с гораздо большей вероятностью, чем полное отсутствие сюрпризов.

Рассмотрим простой биномиальный пример из 10 матчей с двумя возможными исходами, в которых каждый фаворит может победить с вероятностью 80 %, а аутсайдер – с вероятностью 20 %.

Все фавориты вместе победят с вероятностью 11 %, однако у нас есть 20%-я вероятность того, что победят три аутсайдера, а с 9%-й вероятностью могут победить уже четыре аутсайдера.

Почему эта вероятность настолько высока? Отдельные вероятности каждого такого события составляют 0,17 % и 0,04 % (для каждого конкретного набора из трех или четырех аутсайдеров), однако мы имеем дело с огромным количеством комбинаций аутсайдеров: 120 вариантов для победы трех из них и 210 вариантов для победы четырех.

Я пытаюсь донести до читателей, что сюрпризы стоит ожидать. Очень часто наши мозги стремятся создавать на основе данных простые истории (которые иногда будут содержать изъяны), чтобы придать смысл миру, в котором сюрпризы считаются более неожиданными, чем они есть на самом деле.

Когда Япония не обыгрывает Испанию и Германию, мы не пишем истории, однако статистика говорит нам о том, что неожиданные исходы – это статистическая данность. Это и есть пример нарративного заблуждения.

Распределение вероятностей по методу Монте-Карло

Комбинированную ставку для 64 матчей с вероятностью 6,5 × 10–17 можно рассматривать лишь одни образом. Наименее вероятная комбинированная ставка, предполагающая победу всех аутсайдеров, обладает вероятностью 1,5 × 10–51, и случиться соответствующий исход может лишь одним способом. Однако каким количеством способов мы сможем сформировать вероятности комбинированных ставок величиной 10–25 или 10–30?

Алгоритмическая обработка таких расчетом окажется для нас слишком сложной. Для упрощения вычислений неплохо бы построить модель на базе метода Монте-Карло.

Сгенерировав случайным образом исходы матчей в соответствии с предполагаемыми вероятностями Pinnacle, мы можем составить вероятность для случайно сгенерированной комбинированной ставки на 64 матча.

Повторим эту процедуру большое количество раз, подсчитаем, как часто встречается каждая из предопределенных вероятностей, и мы сможем составить частотное распределение вероятностей. Я говорю о том, что у нас есть возможность определить величину и частоту встречаемости вероятностей возможных исходов для 64 матчей чемпионата мира.

Впрочем, работу над крошечными вероятностями достаточно сложно вести на интуитивном уровне. Еще мы можем применить несложное преобразование, чтобы на когнитивном уровне справиться с этими вероятностями было проще: давайте рассчитаем логарифмы.

Логарифм (с основанием 10) для 0,001, например, равен –3; для 0,000001 он равен –6, а для 0,000000000001 мы получим результат –12. В своих целях я и вовсе буду использовать натуральный логарифм (ln с основанием e), а еще я отброшу минус перед результатом.

В рамках моей модели на основе метода Монте-Карло я выполнил 100 000 симуляций для 100 000 значений натурального логарифма каждой вероятности случайно сгенерированной комбинированной ставки для 64 матчей (с отбрасыванием минуса).

Все результаты я разобью на подгруппы, а затем составлю частотную диаграмму распределения (или же встречаемости).


Шкала оси X для этой диаграммы ограничена значениями 37,3 (для победы всех 64 фаворитов) и 117,1 (для победы всех аутсайдеров), однако мы уже знаем, что встречаемость соответствующих исходов крайне мала.

Для оценки диапазона вероятностей нам будет необходимо отобразить только наиболее вероятные исходы. На диаграмме мы можем увидеть, что с наибольшей частотой значение комбинированной ставки для 64 матчей значение по оси X будет располагаться между 45 и 75.

Эти значения соответствую вероятностям комбинированных ставок, примерно равным 3 × 10–20 и 3 × 10–33 соответственно.

Вероятность для комбинированной ставки уменьшается по мере смещения вправо по оси X. Средний (или наиболее часто встречаемый) исход для комбинированной ставки на оси X располагается примерно напротив 60, что соответствует вероятности комбинированной ставки величиной 7,5 × 10–27.

На этой диаграмме также можно увидеть вертикальную черную линию, которая расположена на значении оси, соответствующем реальному исходу комбинированной ставки на чемпионат мира, которая оказалась бы выигрышной. Это значение на оси X равно 63,5 (а вероятность успеха для комбинированной ставки равна 2,7 × 10–28).

Такое значение примерно в 28 раз меньше, чем большинство наиболее вероятных исходов для комбинированной ставки.

Звучит впечатляюще, однако диаграмма говорит о том, что ничего необычного не происходит. Вы может заметить, что это значение располагается недалеко от центра (усредненного показателя) частотного распределения. Лишь около 20 % возможных вероятностей комбинированных ставок на чемпионат мира соответствовали меньшие значения, чем то, которое расположилось напротив вероятности победной ставки.

С точки зрения статистики, мы не можем назвать такой исход сюрпризом. Для «сюрприза» нам пришлось бы сместить вертикальную линию на равное 70 значение оси X (по крайней мере), и тогда вероятность такого исхода попадала бы менее чем в 1 % возможных комбинированных ставок. Этот исход соответствовал бы вероятности комбинированной ставки величиной 4 × 10–31, т. е. она почти в 700 раз меньше вероятности реально сложившегося исхода.

В рамках такого исхода должно было бы случиться что-то вроде победы Катара над Нидерландами, Польши над Францией и Южной Кореи над Бразилией.

Стал ли этот чемпионат мира удивительным?

Изучив данные, которые я представил в этой статье, мы можем ответить на мой начальный вопрос.

Нет, этот чемпионат мира не стал удивительным. Да, в отдельно взятых играх случались сюрпризы, однако, как мы уже знаем, такое регулярно случается в турнирах, предполагающих множество матчей. На самом деле было бы куда удивительнее, если бы сюрпризов не произошло.

Впрочем, что именно следует считать удивительным с философской точки зрения? Пожалуй, ответ на этот вопрос зависит от того, какие ожидания мы изначально возлагали на исходы матчей.

Предположим в качестве крайности, что моя прогнозная модель сделала Уэльс очевидным фаворитом в матче с Англией, Гану очевидным фаворитом в матче с Португалией, Австралию очевидным фаворитом в матче с Францией, Коста-Рику очевидным фаворитом в матче с Германией и так далее в каждой из 64 игр.

Должно быть, я бы очень удивился результатам. Случилось ли так из-за того, что аутсайдерам (по мнению модели) повезло, или же моя прогнозная модель просто ошиблась?

В данном случае ответ очевиден, однако обычно грань между первым и вторым вариантами оказывается куда более размытой.

Оценки вероятностей исходов для матчей со стороны Pinnacle также не полностью предугадали события. Это тоже можно отнести к невезению или к ошибке модели.

И определить правильный ответ в данном случае будет куда сложнее. Впрочем, так как статистически существенных отличий между ожиданиями Pinnacle и реальными событиями не наблюдалось, у нас есть веские основания полагать, что прогнозная модель Pinnacle не так уж и плоха.

Другими словами, чемпионат мира (с точки зрения Pinnacle) нельзя назвать слишком удивительным на основании статистики. Результат прошедшего чемпионата мира был менее вероятен, чем наиболее вероятный исход (вероятно, тогда мы бы увидели на два-три сюрприза меньше), однако разница оказалась невелика.

Если бы со статистической точки зрения разница оказалась более существенной, нам было бы проще оспорить мнение Pinnacle.

Сформулируем правило: чем больше разница между ожиданием и реальностью, тем выше статистическая вероятность того, что наша модель ожиданий оказалась неправильной. Превосходит ли прогнозная модель для матчей чемпионата мира авторства Pinnacle модели других букмекеров? Об этом мы поговорим во второй статье.

Зарегистрируйтесь в Pinnacle, чтобы воспользоваться отличными коэффициентами ставок на футбол для множества рынков.


Опубликовано

в

от

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *