算法归因建模——马尔可夫链

不确定使用哪种归因模型?如果数据可以为您做出选择并确定转化路径中每次交互的重要性,该怎么办?解决这个问题的尝试是最近流行的基于马尔可夫链的算法归因模型。

众所周知,在线交易通常不会在一次交互后发生;而是在一次交互之后发生。它通常是广告的多次印象、浏览和点击以及其他营销内容的消费的结果。分析工具允许您跟踪这些路径和归因建模,即将转化份额分配给各个交互。

选择归因模型

我们目前面临的最大困境之一是选择归因模型。线性模型?时间安排?或者也许是您自己的定制模型?在寻找此问题的答案时,您很可能会找到以下提示:“考虑哪些交互对您来说更重要,并为它们分配更高的重要性”或“测试不同的模型并选择最有效的模型”。你会承认这没有多大帮助。

任何严格的规则都将始终是一种简化,因为每次交互都可能对给定用户发挥不同的、或多或少重要的作用。在一种情况下,最后一次点击至关重要,在另一种情况下,早期的交互将更为重要。事实上,每条路径都应该单独分析。

为此,创建了算法归因模型,也称为数据驱动归因模型。基于对转化路径的分析,他们试图确定每个交互的重要性,并根据在路径中扮演的角色为其分配适当的权重。最近,使用马尔可夫链的算法模型变得越来越流行。

什么是马尔可夫链?

马尔可夫链是一个随机过程,其中每个事件的概率仅取决于前一个事件。

马尔可夫链的一个例子是以下过程:

我要去度一个星期的假期。在这个假期里我是参加容易受伤的运动还是放松一下取决于我将在哪里度过假期。放松时发生事故的风险可以忽略不计,但运动引起事故的可能性要高出 1/10:

我在给定的假期去山区并在那里发生事故的概率,即过渡“开始”>“去山区”>“运动”>“我破碎地回来”,是:

获取 2024 年最新 C 级高管名单?我们通过 Biswas 为您提 C级执行名单 供采矿数据库和服务。您可以从我们这里获取您需要的决策者的电子邮件列表

另请阅读

归因建模中的 Shapley 值

维托尔德·沃达尔奇克

反过来,我在假期去海边并在那里发生事故的概率是:开始 > 去海边 > 运动 > 我受伤回来了:

没有其他方法会导致事故。因此,发生事故的总概率为:

这就解释了为什么当我每年去三次假期时,我每 5-6 年就会回来一次。

转化路径链

假设用户与广告互动有四种路径,其中两种产生了转化:

这些路径可以以图形的形式呈现,其中节点是单独的通道,通过箭头形式的弧线连接(见下图)。弧处的分数是由图节点之间发生的转换数量得出的。我们将其解释为穿过给定弧的概率。

例如,与 Facebook 交互后,有两条路径将导致与 Google 交互,一条路径将导致与再营销交互。总共有 3 条路径,因此这些转移的概率分别为 2/3 和 1/3:

总转换概率为 1/2(有四个路径,其中两个转换)。该概率也可以通过对图中从 START 节点到 CONVERSION 节点的所有可能路径进行遍历的概率求和来计算:

现在看看如果您删除某个频道,转化概率将如何变化。删除 Facebook 后,转化路径只有一条,概率为 1/9:

同样,去除Google后,转化概率为1/6:

反过来,删除再营销意味着无法通过图表实现转化,即其概率为 0:

现在你需要计算所谓的去除效果。它决定了由于删除单个通道而导致的转换概率的降低。例如,删除 Google 后,转化概率从 1/2 下降到 1/6,即 66.7%(见下表)。

我们发现去除效果加起来并没有达到 100%。因此,为了计算各个通道对结果的贡献,我们按比例减少它们,使它们总和为 1。

最后,为了计算转化归因,我们将转化总数(在本例中为两次转化)乘以对结果的贡献。

没有非转换路径

Google Analytics(分析)转化路径报告仅显示导致 Tableau 的 VizQL 数据服务:以您的方式使用您的数据 转化的路径:

非转化渠道的报告无法直接获得。幸运的是,还可以为仅包含转换路径的数据创建马尔可夫链。前面讨论的示例中的转换路径如下所示:

转换成图后:

在这样的链中,转换的概率为 1,因为所有路径都通向它。

与前面的示例一样,您现在需要计算每个通道的去除效果。删除 Facebook 后转化的概率为零:

去除Google后,转化概率为1/2:

去除再营销后,转化概率为0:

通过这种方式,您可以计算各个渠道的删除效果和转化份额:

高阶马尔可夫链

根据定义,在马尔可夫链中,每个事件的概率仅取决于前一个事件。经典马尔可夫链的节点被认为是“没有记忆”的。

这在实践中意味着什么?看下图。无论之前的访问是来自 Facebook 还是 Google,与再营销互动后的转化概率都是 2/3:

我们知道这实际上并非如此。再营销的效果将完全不同,具体取决于用户来自哪里,无论是之前在 Google 上搜索过您的产品的人,还是对您在 Facebook 上的帖子感兴趣的人。这个问题可以通过高阶马尔可夫链来解决。对于二阶链,移动到后续节点的概率也取决于先前的状态。应该分析他们的配对,而不是单独的相互作用:

在这种情况下,马尔可夫链图将如下所示:

概率计算的执行方式与一阶马尔可夫链类似。根据该图计算的转换概率(可能有三种方式,用颜色标记)始终为 1/2:

与前面的示例一样,计算了移除的影响。删除 Facebook 会导致所有包含 Facebook 的交互对节点消失:

删除 Google 的效果类似地计算:

…以及再营销:

删除效应和结果份额的计算与前面的示例相同:

您还可以创建三阶、四阶及更高阶的马尔可夫链。它们的节点将 CUB目录 具有更长的“记忆”,并且移动到下一个节点的概率将取决于先前的两个、三个等状态。在实践中,很少使用高于第四阶的链。

如果您想了解有关使用马尔可夫链进行归因建模的更多信息,请继

这是完美的模型吗?

马尔可夫链是一种有趣的算法模型,它允许您考虑交互的顺序。然而,它们并非没有缺陷。

使用马尔可夫链建模时,您经常会看到路径中唯一的通道(单通道路径)可能会失去其他通道的转化份额。但这没有意义!如果渠道中只有一种互动,则所有转化都应归因于该互动。

纠正此缺点的一种方法是隔离单通道路径并仅分析包含两个或多个交互的那些路径。这并没有改变基于马尔可夫链的模型会出现一些错误的事实,即使在单通道路径的微不足道的情况下,这些错误也是可见的。

尽管该模型仍然是一个近似模型,但与线性模型和其他模型相比,使用马尔可夫链进行归因分析可以提供有价值的分析信号。

建议

在网站上发现一个免费工具,可让您根据马尔可夫链独立计算归因,具有以下选项:

  • 包括转换路径和非转换路径或仅转换路径,
  • 一阶、二阶、三阶和四阶马尔可夫链,
  • 单独计算单通道路径的可能性。

目前可用的算法归因模型似乎还不是最终的解决方案。它们的局限性不仅源于数学模型本身。更重要的问题是数据完整性。基于 Cookie 的转化测量不适合跨设备和浏览器跟踪用户。报告广告印象也存在限制,并且某些媒体根本无法使用可用方法进行跟踪(例如某些应用程序中的活动或离线广告)。

越来越多的用户也在使用隐身模式,并且浏览器本身正在引入对信息收集的限制(例如 Safari 中的智能跟踪预防或 Chrome 中的计划更改),这可能会极大地限制使用当前技术进行用户跟踪。

即使是最完美的模型,在不完整的数据上运行也会得出错误的结论。填充缺失数据的技术很大程度上依赖于采样和外推,这增加了额外的复杂性。

当然,它还远不是一个自动支持将预算分配给各个营销渠道的决策的完美工具。在那之前,算法归因模型将成为出价优化和预算分配的复杂过程中的重要工具,但仍然只是辅助工具。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注