正文

On the persistent mischaracterization of Google and Facebook A/B tests: How to conduct and report online platform studies

Author links open overlay panelJohannes Boegershausen a, Yann Cornil b, Shangwen Yi c, David J. Hardisty b

Outline Add to Mendeley Share Cite https://doi.org/10.1016/j.ijresmar.2024.12.004Get rights and content Under a Creative Commons license Open access

营销研究越来越依赖于在线平台研究,即在自然的在线环境中进行的研究,并利用诸如 Facebook 或 Google Ads 等平台提供的 A/B 测试工具。这些研究使研究人员能够比较不同广告的效果及其投放方式,并研究“真实”的消费者行为,例如点击广告。但是,它们缺乏将广告真正随机分配给消费者的机制,从而妨碍了因果推断。在本手稿中,我们对 133 项已发表的在线平台研究进行了全面回顾,揭示了到目前为止研究人员如何利用和描述这些研究;我们发现,这些研究大多被错误地呈现为(随机)实验,并且它们的大多数发现被错误地描述为因果关系。我们的评论表明,人们对在线平台研究固有的混淆性(即,无法将用户响应归因于广告素材与平台的定位算法)的认识有限。重要的是,这些不良做法的普遍性随着时间的推移保持相对恒定。在此背景下,我们为对这种方法感兴趣的研究人员以及受邀评估它的评审人员,就如何定位、进行和报告在线平台研究提供明确的指导。

Keywords

Advertising Social media Digital marketing Research methodology Design Choice Consumer strategy Online platform studies A/B test Facebook Google Meta Search engine advertising Validity Research ethics

1. Introduction

平均每个人每天花费 6 小时 58 分钟盯着屏幕进行互联网连接活动 (We are Social, 2022)。随着消费者行为日益数字化,营销研究也随之数字化。特别是,基于在线调查的实验,托管在诸如 Qualtrics 之类的基于云的软件上,并通过诸如 Prolific 或 Cloud Research 之类的众包平台运行,已成为营销和消费者研究的支柱,并且占了近一半的行为研究(例如,Goodman & Paolacci, 2017)。

最近,研究人员越来越多地采用在线平台研究。我们将在线平台研究定义为在自然的在线环境中运行的研究,其目的是通过使用数字平台(例如 Facebook (Meta) 或 Google Ads)提供的 A/B 测试功能来比较不同刺激(尤其是广告)的效果及其向在线受众的投放方式。这些平台使广告商(或研究人员)能够通过平台进行的竞标过程购买广告,并将所谓的“A/B 测试”功能用作这些过程的一部分。在线平台研究在平台之间以及随着时间的推移在许多维度(例如,功能、算法、受众)上有所不同,但共同之处在于广告投放不是真正随机的,正如将在本手稿中详细介绍的那样。因此,我们有目的地使用术语在线平台“研究”,以避免给人一种错误的印象,即它们是“实验”或具有适当随机分配给不同处理的真正的 A/B 测试。

Facebook A/B 测试(到目前为止,学术研究中最流行的在线平台研究类型)包括一个广告系列,该广告系列具有不同的广告,这些广告显示在 Facebook 新闻提要(或其他 Meta 平台,例如 Instagram)上相互排斥的用户组。然后,研究人员可以使用诸如点击率 (CTR) 之类的指标来比较这些广告的效果及其投放方式,该指标指示暴露于广告的用户点击嵌入在广告中的号召性用语按钮的可能性(例如,“立即购买”、“了解更多”、“联系我们”等)。另一个流行的平台是 Google Ads(以前称为 Google AdWords)。基于 Google Ads 的在线平台研究在用户搜索特定术语后,在 Google 搜索结果页面上运行不同的展示广告(例如,主题网站上的横幅广告)或不同的赞助链接。在所有情况下,不同的广告或链接同时显示给相互排斥的观看者组,并且 CTR 也是通过 Google Ads 运行的大多数在线平台研究中的关键因变量。

通过搜索 2012-2023 年期间,我们使用主要广告平台的 A/B 测试功能共识别了 99 篇已发表文章中的 133 项研究。这些研究大多发表在营销期刊上。如图 Fig. 1 所示,自 2019 年以来,已发表的在线平台研究数量急剧增加。学术研究人员对这些研究的日益普及可以用以下事实来解释:它们相对容易执行,它们允许研究野外的消费者行为 (Morales et al., 2017),并且它们还允许跟踪整个购买渠道的转化结果 (Colicev et al., 2019)。例如,在线平台研究已用于研究具有美容缺陷的农产品的不同标签的效果 (Mookerjee et al., 2021)、退休计划的积极与消极框架 (Hardisty & Weber, 2020),以及关系类型如何影响消费者对捐赠给事业的兴趣 (Zhao et al., 2023)。

  1. Download: Download high-res image (209KB)
  2. Download: Download full-size image

Fig. 1. Online platform studies over time and by discipline (20122023). Note: The figure shows the number of published online platform studies organized by discipline between 2012 and 2023. These 133 online platform studies are contained within 99 articles. 然而,在线平台研究存在一个关键问题:它们要求研究人员将对研究设计的重要元素的控制权让给数字平台,尤其是将广告投放到用户的方式。事实上,在线平台研究采用后随机化定位算法,这些算法阻止了参与者向不同处理的干净的随机分配,从而导致了所谓的倾斜或“发散投放” (Ali et al., 2019, Braun and Schwartz, 2024, Johnson, 2023),正如我们在本文 Section 2 中详细介绍的那样。由于缺乏内部有效性,因此不应将在线平台研究视为随机实验。

总而言之,虽然在线平台研究是消费者研究的一种创新研究工具,但由于它们经常被错误地描述为实验而变得颇具争议,以至于一些研究人员质疑是否应该使用它们 (Braun et al., 2024, Braun and Schwartz, 2024, de Langhe and Puntoni, 2021)。随着近年来在线平台研究变得越来越流行,迫切需要不仅了解这些工具的工作原理,而且还要了解研究人员到目前为止如何利用它们,以及将来应该如何利用它们。

我们的手稿旨在提供对在线平台研究在学术研究中的使用和滥用的全面回顾 (Schreier et al., 2021)。我们利用我们的评论来提供有关这些研究可以或不能完成什么以及如何最好地使用和报告它们的指导。我们的文章组织如下。首先,我们通过讨论它们的内部有效性问题并提供一个案例研究,该案例研究说明了发散投放如何使因果推断无效,从而将这些研究定位在营销中使用的经验研究工具网络中。其次,我们对 133 项已发表的在线平台研究进行全面回顾和分析,以了解研究到目前为止如何承认内部有效性问题,并探索哪些研究特征与在线平台研究的理想与有问题的描述相关。第三,我们为作者和评论者提供了关于如何以及何时使用在线平台研究的指导;突出显示 (1) 需要进行近乎相同的实验室复制,以及 (2) 适当使用在线平台研究是通过检查广告素材和设计选择如何共同影响暴露于广告的用户的特征来研究发散投放本身。我们还就如何透明且合乎道德地报告在线平台研究的结果提供指导。

对于案例研究和系统回顾,我们在 Open Science Framework (OSF) 存储库上提供其他文档、代码和数据:https://osf.io/rysvc/

2. The critical internal validity issue in online platform studies

2.1. Online platform studies ≠ randomized experiments

2.1.1. Divergent delivery and other threats to internal validity

在线平台研究的一个关键特征是,研究人员必须将对随机化过程的控制权让给平台。如图 Fig. 2 所示(另请参阅 Braun & Schwartz, 2024 提出的图),数字平台的 A/B 测试工具将受众随机分成相互排斥的用户组,这些用户有资格暴露于广告 A 或广告 B。在每个组中,机器学习定位算法会通过将广告展示给最有可能实现广告系列目标的人(例如,最有可能点击广告的人)来寻求“优化”响应。至关重要的是,这种优化定位是针对每个广告单独进行的。因此,所谓的“发散投放”出现了,因为平台根据对每个广告的预期响应来选择不同的用户集 (Braun and Schwartz, 2024, Johnson, 2023)。观看每个广告的用户通常在许多特征上有所不同,例如人口统计特征或兴趣。由于优化算法会生成暴露于不同广告的用户集(即,假定的处理)的差异,因此跨广告的消费者响应的任何差异都不会表明仅广告素材的因果效应 - 严重损害了在线平台研究的内部有效性,以比较广告效果 (Eckles et al., 2018)。例如,以产品的环境效益为特色的广告可能会表现良好(与对照广告相比),因为它更容易定位,并且不成比例地显示给环保主义者,而不是因为它对所有消费者都更具吸引力。

  1. Download: Download high-res image (297KB)
  2. Download: Download full-size image

Fig. 2. Divergent Delivery in Online Platform Studies. Note: For simplicity, we consider users as combinations of two characteristics, for instance, age and pro-environmental attitudes (in reality, consumers are targeted on a myriad of observable and unobservable user characteristics). In online platform studies, users are randomly assigned to be eligible for exposure to either ad A (left square) or ad B (right square). However, only a subset of eligible users will be targeted and selected to be actually exposed to ad A or ad B (those inside the circles), and this selection occurs in a non-random fashion, for instance based on click maximization. Hence the combination of user characteristics often differs across users exposed to ad A versus those exposed to ad B. 此外,用户可能还会对不同版本的广告表达不同的反应(表情符号,例如“赞”、“心形”和“愤怒的脸”或评论,可以是正面的或负面的)。在表达反应后,任何暴露于广告的用户都可以看到这些反应,并且这可能会影响点击和转化率 (Agarwal et al., 2024)。

重要的是,尽管 Meta 和 Google 提供了禁用某些优化功能或限制受众反应的选项,但目前无法通过受众优化来消除发散投放。因此,跨广告 A 和广告 B 的点击率比较实际上是 广告 A + 优化 A + 反应 A广告 B + 优化 B + 反应 B 的效果比较。

2.1.2. Online platform studies are not field experiments

在线平台展示其 A/B 测试功能的方式导致了在营销和相邻学科中使用的更广泛的方法工具包中如何定位这些工具的显着异质性 (Blanchard et al., 2022)。正如我们的评论所证明的那样(参见 Section 3),研究人员倾向于将此类测试定位为“现场实验”。我们强烈建议不要这样做。所有现场实验的必要条件是实验者可以控制随机化过程,即使他们无法控制可能在野外发生的所有外部变异源。但是,现场实验的内部有效性仍然可以接受,因为这些外部变异与用户分配到处理的不同分支的方式是独立的。相反,在在线平台研究中,我们知道外部变异(特别是,基于算法的受众优化,但也包括受众反应)取决于用户分配到处理的不同分支的方式。因此,与通过数字环境中的其他有机数据收集工具(如 Web 抓取 (Boegershausen et al., 2022) 生成的数据集相比,在线平台研究可以说与传统现场实验具有更多的相似之处。

2.1.3. Online platform studies versus lift tests

正如 Braun et al. (2024) 指出的那样,在线平台研究通常被标记为“A/B 测试”,并被消费者研究人员广泛采用,可以归类为“没有保留的多广告研究”。在这些研究中,广告平台将用户分成至少两个不同的组,并且在这些组中,由算法定位的用户会暴露于不同的广告。我们注意到,还有其他数据收集方法利用数字广告平台提供的测试工具,特别是“具有保留的单广告研究”,通常被称为“提升测试”,用于通过比较运行广告系列与不运行广告系列对转化的影响(例如,购买或应用安装)来计算在线广告系列的真正投资回报率。

提升测试与在线平台研究之间的一个关键区别是,提升测试会随机分配用户暴露于广告或不暴露于广告,从而允许对根据用户对广告的预期响应与定位算法相结合而被投放广告的影响进行真正的因果推断 (Braun et al., 2024)。重要的是,提升测试使用单个算法来选择暴露于广告(相对于未暴露于广告)的用户,从而使两组用户平均而言具有相似的特征。相反,在线平台研究使用两个不同的算法来选择暴露于广告 A 的用户与选择暴露于广告 B 的用户,从而使两组用户平均而言具有不同的特征(如图 Fig. 2 所示)。

然而,这些提升测试中的一个关键挑战是,广告点击不能用作因变量,因为不看广告的用户无法点击它。因此,研究人员必须研究其他变量,例如实际购买,并找到一种方法来跟踪用户随时间和跨环境的变化。因此,它们通常需要研究人员与公司合作。由于提升测试不允许研究人员比较不同广告的效果(而是运行广告与不运行广告的效果),因此它们无法提供用户暴露于不同刺激影响的因果证据。可能出于这些原因,提升测试在消费者研究中尚未获得任何显着采用。

总而言之,提升测试(由于其功能方式)和在线平台研究(由于内部有效性受损)都无法提供驱动用户对不同广告素材的响应的心理过程的清晰因果证据。1

2.2. A case study of internal validity issues in online platform studies

尽管在线平台研究中缺乏随机分配和发散投放已被确定为对内部有效性的关键威胁 (Braun and Schwartz, 2024, Eckles et al., 2018, Johnson, 2023),导致一些观察者将这些研究称为“有缺陷的实验” (Braun et al., 2024),但关于这个问题的严重程度仍然存在相当大的争论。一些观察者推测,优化算法可能永远无法完全解释广告变化对消费者响应的影响,尤其是在测试调节效应时 (Matz et al., 2018),或者某些优化选项(例如,针对覆盖范围与点击进行优化)对于内部有效性而言更可取 (Orazi & Johnston, 2020)。不幸的是,鉴于广告平台的算法的不透明性以及有限的报告选项,无法提供确凿的证据表明任何这些补救策略(例如,使用调节设计或针对覆盖范围进行优化)可以减少发散投放。

为了探索发散投放问题的范围以及研究人员可用的不同优化选项的效果,我们接下来将介绍一个案例研究,该案例研究使用了 Holthöwer and van Doorn (2023) 进行的平台在线研究的关键要素。此案例研究已预先注册:https://aspredicted.org/D2B_DT8

2.2.1. Methodology

最初的研究旨在证明在令人尴尬的情况下,人们更喜欢机器人而不是人提供的服务。因此,这项研究的作者表明,机器人(相对于人)提供的减肥建议的 Facebook 广告产生了更高的点击率,2 也就是说,暴露于广告的机器人(相对于人)版本的用户点击它的可能性更高。

正如在原始研究中一样,我们使用来自 Holthöwer and van Doorn (2023) 的刺激创建了一个“机器人”广告和一个“人”广告,如图 Fig. 3 所示,并使用 Facebook 的 A/B 测试工具来比较这些广告(及其投放方法)对用户响应的影响。此外,为了评估不同优化方法的效果,我们设置了三个不同的 Facebook A/B 测试,我们在 2023 年 4 月 25 日至 28 日的三天期间同时启动了这些测试,每个测试的预算为 200 美元(即,每个广告 100 美元)。在第一个 A/B 测试中,广告投放针对“链接点击”进行了优化(如原始研究和大多数在线平台研究中一样,另请参见 Section 3)。当针对“链接点击”进行优化时,Facebook 的算法会尝试将广告投放到最有可能点击该广告的用户。请注意,广告可以多次投放到同一用户,并且用户可以多次点击广告。在第二个 A/B 测试中,广告投放针对“展示次数”进行了优化;也就是说,广告的投放方式旨在经济高效地最大限度地提高它们向用户展示的次数,并且广告可以多次展示给同一用户。从业者通常将此优化目标用于旨在提高曝光度和知名度的营销活动。在第三个 A/B 测试中,广告投放针对“覆盖范围”进行了优化,并设置了频率上限,也就是说,广告的投放方式旨在经济高效地最大限度地提高暴露于广告的唯一用户数量。每个用户在广告系列中投放一次的频率上限通常确保广告仅投放给每个暴露的用户一次。有人建议将其作为减少发散投放的一种方法 (Orazi & Johnston, 2020),虽然它消除了发散投放的一个途径(每个用户的不同展示次数),但它并没有改善在线平台研究的核心问题(正在定位的不同用户)。我们在我们的 OSF 存储库上提供了其他方法详细信息 (https://osf.io/rysvc/)。

  1. Download: Download high-res image (142KB)
  2. Download: Download full-size image

Fig. 3. Facebook ads used in the case study, “human” version (left) and “robot” version (right). 我们在 Table 1 中介绍了此案例研究的主要结果。

Table 1. Facebook case study – key results. Empty Cell| Optimization on Clicks| Optimization on Impressions| Optimization on Reach with Frequency Cap
---|---|---|---
Empty Cell| Human Ad| Robot Ad| Human Ad| Robot Ad| Human Ad| Robot Ad
Key Results
Impressions| 11,874| 11,735| 62,581| 61,808| 59,554| 59,599
Reach| 8,760| 9,268| 25,400| 24,208| 59,345| 59,056
Unique Link Clicks| 120| 152| 22| 29| 23| 23
CTR1 (Unique Link Clicks/Impression)| 1.01 %| 1.30 %| 0.04 %| 0.05 %| 0.04 %| 0.04 %
95 % CI of Difference in CTR1| [0.01 %, 0.56 %]| [-0.01 %, 0.03 %]| [-0.02 %, 0.02 %]| [-0.02 %, 0.02 %]| [-0.02 %, 0.02 %]| [-0.02 %, 0.02 %]
CTR2 (Unique Link Clicks/Reach)| 1.37 %| 1.64 %| 0.09 %| 0.12 %| 0.04 %| 0.04 %
95 % CI of Difference in CTR2| [-0.08 %, 0.63 %]| [-0.02 %, 0.09 %]| [-0.02 %, 0.09 %]| [-0.02 %, 0.09 %]| [-0.02 %, 0.09 %]| [-0.02 %, 0.09 %]
Divergent Delivery Metrics (on Observables)
Frequency (Impression/Reach)| 1.36| 1.27| 2.46| 2.55| 1| 1.01
Proportion of Women among exposed| 52.3 %| 38.5 %| 35.3 %| 29.5 %| 33.9 %| 31.5 %
CTR1 among men| 0.98 %| 1.34 %| 0.03 %| 0.04 %| 0.04 %| 0.04 %
95 % CI of Difference in CTR1 among men| [-0.01 %, 0.72 %]| [-0.02 %, 0.04 %]| [-0.02 %, 0.03 %]| [-0.02 %, 0.03 %]| [-0.02 %, 0.03 %]| [-0.02 %, 0.03 %]
CTR1 among women| 1.02 %| 1.24 %| 0.04 %| 0.05 %| 0.04 %| 0.03 %
95 % CI of Difference in CTR1 among women| [-0.20 %, 0.63 %]| [-0.03 %, 0.05 %]| [-0.04 %, 0.03 %]| [-0.04 %, 0.03 %]| [-0.04 %, 0.03 %]| [-0.04 %, 0.03 %]
Average age of exposed users| 62.11| 62.71| 54.06| 53.41| 53.5| 53.85
Other user reactions
All Link Clicks| 135| 158| 22| 29| 23| 23
Unique Clicks, anywhere on the ad| 203| 246| 36| 48| 41| 49
Comments| 2| 3| 0| 0| 0| 0
Post Reactions| 11| 3| 1| 0| 0| 0

2.2.2. User response (Clickthrough rate)

有很多方法可以计算点击率 (CTR)。我们首先将 CTR 测量为唯一链接点击次数与总展示次数之比(Table 1 中的 CTR1)。在针对点击优化的 A/B 测试中,我们发现机器人广告的点击率高于人工广告(1.30 % vs. 1.01 %, χ2(1) = 4.20, p = 0.04)。这种优化方法复制了原始研究,原始研究也针对广告投放的点击进行了优化。但是,当使用另一种点击率操作化方法(即,唯一链接点击次数/总覆盖范围;Table 1 中的 CTR2)时,我们发现方向一致的结果,尽管机器人广告和人工广告之间的差异不再显着(1.64 % vs. 1.37 %, χ2(1) = 2.21, p = 0.14)。我们使用与原始研究相同的方法和统计模型计算 p 值,以便对报告结果的重新测试稳定性有所了解。然而,由于不同的用户暴露于广告的不同次数,“独立且相同分布”的统计模型的假设被违反,因此这些 p 值可能不准确。

在针对展示次数或覆盖范围优化广告投放的在线平台研究中,CTR 远低于“真实”广告系列中的预期值(与健身相关的广告的平均 CTR 约为 1.01 %;Irvine, 2024)。没有一个 CTR 差异接近传统的显着性水平(所有 ps > 0.8),这可能是由于针对不太可能点击的用户而导致的“地板效应”。这可能解释了为什么这些优化模式很少用于消费者研究(参见 Section 3)。由于几乎没有可观察到的客户响应,因此我们不讨论与展示次数优化或覆盖范围优化相关的其他结果。

2.2.3. Divergent delivery and causal inference

可以通过多种方式观察到发散投放的证据。首先,跨广告的广告投放中的人口统计差异提供了一些有关潜在发散投放的信息。至关重要的是,当针对点击进行优化时,我们发现与性别相关的发散投放很高(暴露于“人工”广告的用户的 52.3 % 是女性,而“机器人”广告的用户的 38.5 % 是女性)。有趣的是,我们还发现机器人广告在投放给男性时产生的 CTR 高于女性(男性为 1.34 %,女性为 1.24 %)。这提出了因果推断问题:由“机器人”广告(当针对点击进行优化时)产生的显着更高的 CTR 可能是由于广告的内容,但也可能是由于 Facebook 算法决定将其投放到更高比例的男性,而男性比女性更有可能点击“机器人”广告(另请参见 Rathee et al., 2023)。

展示次数与覆盖范围之比(即,唯一用户暴露于广告的平均次数)的差异是发散投放的另一个可观察指标。针对点击进行优化的研究表明,两个广告之间的这一比率存在一些差异(1.36 vs. 1.27),这进一步破坏了因果推断。具体而言,由“机器人”(相对于“人工”)广告产生的更高 CTR 可能是由于广告的内容,但也可能是由于 Facebook 算法决定将“机器人”(相对于“人工”)广告分发给更多用户(即,更高的覆盖范围),同时降低了广告的重复频率(即,更低的展示次数与覆盖范围之比)。

当然,Meta 提供的少数可观察特征(即,性别和年龄)以及展示次数与覆盖范围之比的差异可能只是冰山一角。可能还存在许多无法观察到的驱动发散投放的因素,其中许多因素甚至可能不为 Meta 所知。例如,可能机器人广告更常显示给以前对科学技术表现出兴趣的用户。事实上,我们已经发现仅基于可观察因素的差异应该被视为我们案例研究中发散投放普遍存在的一个警告信号。

2.2.4. User reactions

Facebook 用户可以通过选择表情符号(例如,竖起大拇指、心形、愤怒的脸等)或通过在广告下方发表评论来对他们暴露的广告做出反应。任何后续暴露于广告的用户都可以看到这些反应。两个版本广告之间的不同反应可能会鼓励或阻止后续用户点击广告。在我们的研究中,作为针对点击进行优化的 A/B 测试的一部分的广告产生了多种反应(参见 https://osf.io/rysvc/),这些反应确实可能会鼓励或阻止点击。然而,在我们研究的特定背景下,这些