Как использовать линейную регрессию для оценки эффективности рекламы у инстаблогеров и по-новому взглянуть на интеграции

В 2020 году мы, онлайн-площадка Flowwow, начали активно сотрудничать с блогерами в Instagram и YouTube, а также пробовать новый для нас рынок подкастов. За это время получилось сделать около 30 интеграций — неплохо для старта.

Перед запуском рекламы такого формата встал резонный вопрос: «Как правильно замерить эффективность взаимодействия?» В этой статье расскажем, как мы выводили формулу, которая помогла взглянуть на интеграции по-новому.

В этой статье

Дарю промокод!

Мы привыкли считать реальные конверсии. Эфемерные охваты, лайки и комментарии нас интересуют мало. Приемлемые для нас показатели эффективности — это объём выручки и доля рекламных расходов.

Никого не удивим: сначала мы считали выручку по промокодам, а оценивали стоимость привлечения клиента по простой формуле (её же мы обычно применяем для таких PPC-каналов, как Яндекс.Директ и Google Ads):

ДРР = (I + P)/Rp, где:

I — затраты на интеграцию;
P — затраты на промокоды;
Rp — выручка, полученная с промокодов.

Блогеры делились промокодами, подписчики охотно совершали покупки. При этом мы стали замечать рост заказов по органическому трафику из поисковых систем, а также из Apple Store и Google Play.

В ходе общения с клиентами обнаружили, что некоторые из них узнавали о нашем сервисе благодаря интеграциям с блогерами, но забывали активировать промокод. Мы предположили, что интеграции с блогерами положительно сказываются на органическом трафике. Но насколько сильно это влияние и какую дополнительную ценность нужно атрибутировать интеграциям с блогерами? Решили разобраться в этом вопросе и купили учебник по математической статистике.

Влияет ли охват на объём органического трафика?

Сначала мы посмотрели, есть ли зависимость между охватом публикации и объёмом органических заказов. Для этого хорошо подходит диаграмма рассеяния. Построить её можно в Excel или в Python при помощи библиотек Pandas и Matplotlib. Выглядит она вот так:

В нашем случае по вертикальной оси (Y) — объёмы заказов по органическому трафику, а по X — охваты блогеров. Точка на пересечении значений — это дни, в которые проходили интеграции. Чем точка правее, тем шире был охват, чем выше — тем больше заказов было совершено в этот день.

Цветочный бизнес имеет ярко выраженные сезонные всплески (например, 14 февраля и 8 марта), поэтому мы убрали пиковые даты.

В реальных условиях практически всегда бывает так, что в данных появляются экстремально высокие или экстремально низкие значения. Из-за этого точки уплотняются влево или вправо. Выводы по такой диаграмме сделать крайне трудно, поэтому рекомендуется убирать выбросы: в нашем случае это интеграция с охватом в 2,5 млн пользователей.

Как видно на диаграмме выше, явной зависимости между охватом и органическими заказами не наблюдается. Более того, на графике видно, что в некоторые дни без интеграций (точки в крайней левой части) органических заказов было больше, чем в дни с интеграциями. Для наглядности уберём из диаграммы периоды, в которые не было интеграций.

И здесь, на данных без нулевых значений, также не видно явной зависимости: точки расположены хаотично.

Далее рассмотрим наличие зависимости между охватом и заказами по промокодам. В нашем случае по вертикальной оси (Y) — количество заказов по промокодам, а по X — охваты блогеров.

Корреляции нет: большой охват блогера не гарантирует большие объёмы заказов. Следующий шаг: проверим, насколько сильна зависимость между объёмом заказов по промокодам и органическими заказами.

Как видно, точки на этой диаграмме сконцентрированы более плотно вокруг прямой линии тренда. Это значит, что есть шанс проследить положительную корреляцию. Чтобы оценить её, воспользуемся методом ранговой корреляции Спирмена (в этом нам поможет специальная библиотека scipy.stats в Python).

Мы получили значение ~0,59. При этом p-критерий близок к нулю (а это значит, что у статистических данных низкая вероятность ошибки). Интерпретировать полученные значения можно с помощью этой таблицы:

В нашем случае можно сделать вывод, что между заказами по промокодам и органическими заказами есть заметная корреляция. Чтобы сравнить, мы посчитали зависимость между охватом блогеров и заказами по промокоду: значение 0,27 подтверждает, что корреляция слабая.

Как рассчитать дополнительную ценность

Теперь, когда мы знаем, что между заказами по промокоду и органическими заказами есть зависимость, нужно рассчитать дополнительную ценность от интеграции. В этом нам поможет метод регрессионного анализа.

Так выглядит формула линейной регрессии: Y = а + b1X1 + b2X2 + b3X3…+ e.

Чтобы построить линию регрессии для наших значений, необходимо рассчитать коэффициенты a и b. Для расчёта мы воспользовались специальной библиотекой Phyton sklearn.linear_model.

Среди преимуществ построения регрессии в sklearn — возможность автоматически разделить выборку на обучающую и тестовую и оценить реальную погрешность прогноза. В нашем случае это позволит оценить, насколько точно предсказывается прирост органического трафика при заданных значениях заказов по промокодам.

Полученные коэффициенты:

a = 365,88;
b = 11,58.

Далее визуально оценим, насколько высока точность нашего прогноза:

Затем рассчитаем среднеквадратичную ошибку при помощи библиотеки Numpy:

Чтобы понять, насколько высока погрешность нашего прогноза, необходимо значение среднеквадратичной ошибки разделить на среднее значение (Mean) тестовой выборки: 152/423 = 35,9 %.

Таким образом, доля ошибки от среднего значения составляет 35,9 %. Это довольно высокая относительная погрешность. И мы попробовали её снизить.

Повысить точность прогноза можно, применив метод множественной регрессии и добавив в расчёт дополнительные признаки. Признаки (или фичи) можно искать, также визуализируя данные при помощи диаграмм рассеяния и оценивая корреляцию между значениями признака и значением, которое мы хотим спрогнозировать.

После некоторых исследований мы добавили к нашему датасету дополнительные предикторы:

influene_last_week — количество заказов в аналогичный день на прошлой неделе по промокодам;
organic_last_week — количество заказов в аналогичный день на прошлой неделе по органическому трафику.

Перед тем, как добавить дополнительные фичи в уравнение регрессии, мы убедились, что у них есть заметная корреляция с показателем органического трафика, который мы пытаемся предсказать:

Далее при помощи sklearn аналогично рассчитываем множественную регрессию и считаем среднеквадратичную ошибку:

Root Mean Squared Error: ~102. Считаем процент погрешности: 102/423 = ~24 %.

Итак, нам удалось увеличить точность прогноза до 24 (на 11 пунктов). Вероятно, это не предел, но остановимся пока на этом значении.

Мы нашли коэффициенты для формулы множественной линейной регрессии, которая описывает зависимость между органическими заказами и заказами по промокодам, а также средним значением по органическим заказам за последние 5 дней. Подставим полученные значения коэффициентов a и b в наше уравнение регрессии:

Y = 168,32 + X1*5,03 + X2*(-0,84) + X3*0,58.

Напомним, что всё это мы делаем для одной единственной цели: вычислить дополнительную ценность от интеграций с блогерами, которая скрыта в органическом трафике. Как это уравнение нам поможет? Всё предельно просто.

В X1 подставляем количество заказов по промокодам.

В X2 подставляем значения по заказам с промокодов в аналогичный день на прошлой неделе.

В X3 указываем количество заказов в аналогичный день на прошлой неделе.

Пример расчёта

Теперь рассчитаем Y (или прогноз органических заказов) на примере одного реального дня.

26 февраля мы получили 10 заказов (X1 = 10) по промокодам от блогера. При этом 247 заказов пришло из органики. Неделю назад от этой даты было заказов по промокодам и 240 органических заказов (X3 = 240).

Подставляем в формулу и получаем:

Y1 = 168,32 + 10*5,03 + 0*(-0,84) + 240 = 359.

Теперь рассчитаем то же самое, но вместо 10 в X1 подставим 0, как если бы у нас не было заказов по промокодам. И в X2 также подставим 0.

Получим:

Y2 = 168,32 + 0*5,03 + 0*(-0,84) + 240 = 309.

Посчитаем разность Y1 — Y2 = 359 — 309 = 50.

50/359 = 14,02%.

14,02% — это и есть доля от органического трафика, которую мы можем дополнительно отнести к интеграции с блогером. Таким образом, полученный коэффициент умножаем на фактическое значение органических заказов.

14,02 %*247 = ~34 дополнительных заказа.

10 + 34 = 44 заказа.

Так как нам интереснее оценить объём выручки, полученное значение (44 заказа) можно умножить на средний чек по органическому трафику. Также важно понимать, что это только прогнозная оценка с погрешностью, поэтому рекомендуем дополнительно умножать полученный результат (34 заказа, вытащенные из органики) на поправочный коэффициент. В нашем случае, учитывая относительную ошибку в 24 %, это может выглядеть так:

0,76*34 = ~26

26 + 10 = 36

Согласитесь, 36 и 10 — это большая разница, которая действительно позволяет по-новому взглянуть на интеграцию.

Полученные в этой статье коэффициенты подходят только под наш продукт и рассчитаны на основе нашей внутренней статистики. У вас могут быть совершенно другие зависимости и коэффициенты. Помимо оценки дополнительной ценности интеграций с блогерами, вы можете использовать этот метод и для других каналов, в том числе и контекстной рекламы. Желаем удачи и успешных интеграций!

Мнение редакции может не совпадать с мнением автора. Ваши статьи присылайте нам на 42@cossa.ru. А наши требования к ним — вот тут.

Источник: cossa.ru