Байесовский подход
Особенности байесовского подхода#
Основное отличие методологии состоит в том, что помимо фактических данных, полученных по ходу эксперимента, данный подход также учитывает наше представление о данных, которым мы обладали перед запуском эксперимента (априорное распределение). На основании этой комбинации мы получаем апостериорное распределение, которое описывает распределение изменение об изменении метрики в эксперименте с учетом полученных данных и наших ожиданий. На основании полученного распределения, пользователь может сделать выводы о целесообразности раскатки функционала на пользователей.
Реализация на платформе#
В Байесовском подходе, мы начинаем с формализации наших ожиданий (априорного распределения). На платформе, мы формулируем ожидания от изменения метрики в сегменте в рамках эксперимента.
Мы используем нормальное распределение в качестве априорного для аплифта и просим для каждой ключевой метрики/сегмента определить математическое ожидание и стандартное отклонение аплифта в эксперименте. По умолчанию, пользователю предлагаются значения, определенные администратором платформы. Эти значения одинаковы для всех метрик и разрезов. При желании, экспериментатор может переопределить эти величины в рамках конкретного эксперимента.
На рисунке выше, для метрики buyers
предлагается использовать параметры по умолчанию.
Info
Значения из примера можно интерпретировать следующим образом - в 95% случаев, мы ожидаем изменение метрики на +- 196% (100 * 1,96 - квантиль стандартного нормального распределения). Для метрики, которая редко растет в эксперименте даже на пару процентов, это можно интерпретировать как неинформативное априорное распределение.
Метрики принятия решения#
В качестве показателей успешности эксперимента, мы отображаем следующие метрики:
- Lift. Математическое ожидание прироста метрики (апостериорного распределения). При нажатии на значение lift, мы также отобразим динамику изменения апостериорного распределения в эксперименте.
- CTW(chance to win). Вероятность того, что тестовая вариация лучше контрольной (иначе говоря, вероятность того что аплифт метрики больше нуля). При нажатии на значение, мы отобразим динамику этой величины по ходу эксперимента.
- Risk (Expected Loss). Оценка средней потери в метрике в случае, если наш на самом деле аплифт отрицательный (математическое ожидание аплифта при условии что аплифт отрицательное). При нажатии на значение, мы отобразим как изменялся риск по ходу эксперимента.
Преимущества и недостатки подхода#
Существует множество споров о том, какая из методологий подходит больше при проведении А/В тестов. Основными преимуществами Байесовского подхода принято выделять следующие:
- Интерпретация. Строгое (математически корректное) определение доверительного интервала - достаточно сложно для понимания. Для байесовской статистики одним из основных результатов тестирования может быть величина "вероятность того, что тестовая группа лучше контрольной", которая несколько проще в понимании для людей, далеких от математической статистики.
- Нет явных ограничений на длительность. В частотном подходе подразумевается, что анализ будет проводиться по окончанию запланированной длительности. В противном случае, можно столкнуться с так называемой проблемой подглядывания. В Байесовской статистике таких ограничений формально нет. Это связано с тем, что подглядывание в частотном подходе - это завышение ошибки первого рода, в то время как в байесовской статистике такого понятия (ошибка первого рода) в принципе нет. Иначе говоря, байесовский подход не исключает подглядывания, но и не задуман решать эту проблему
- Гибкое принятие решения. В то время как частотный вывод дает вердикт прокрасилась метрика или нет, Байес дает больше гибкости за счет возможности получать выводы на основе распределения, например, оценивать средние потери. Это концепция также помогает иметь дело с маленькими выборками.
Из недостатков можно отметить следующие:
- Начальные данные. Выбор априорного распределения может сильно повлиять на результаты, а обосновать конкретные значения затруднительно. Разумеется, можно выбрать неинформативное априорное, но в таком случае мы не получим ничего лучше, чем дает оценка частотным подходом.
- Распространенность. Байесовские подходы не так популярны среди экспериментаторов, поэтому переход на эту парадигму может быть сложным.
- Принятие решения. Независимо от парадигмы, нужно определиться с правилом, в соответствии с которым будет принято условие об остановке и раскатки эксперимента (несмотря на гибкость методологии).
Рекомендации по использованию#
- При выборе байесовского подхода, мы рекомендуем выбирать умеренный праер, то есть не слишком большое или маленькое стандартное отклонение. При большом отклонении (по сути, неинформативном априорным распределением) результат не будет сильно отличаться от частотного подхода, а при маленьком, наша уверенность может преобладать над теми данными, которые мы фактически получили
- Исторические данные могут часто используются при оценке параметров априорного распределения. По аналогии с оценками среднего и дисперсии метрики в истории, мы также можем оценить, например, распределение аплифтов на подвыборках, на основании которого можно оценить априорное отклонение
- Хотя парадигма никак не ограничивает выбор параметров распределения, мы рекомендуем использовать нулевое априорное ожидание аплифта в эксперименте