禁书分析:对 Amazon.com 的审查制度研究 (2024)
[Citizen Lab Logo] [Munk School of Global Affairs & Public Policy | University of Toronto Logo]
禁书分析:对 Amazon.com 的审查制度研究
作者:Jeffrey Knockel, Jakub Dalek, Noura Aljizawi, Mohamed Ahmed, Levi Meletti, 和 Justin Lau
2024 年 11 月 25 日
主要发现
- 我们分析了 Amazon 在美国“amazon.com”网站上部署的系统,该系统用于限制某些产品向特定地区的运输。我们发现有 17,050 种产品被 Amazon 限制运往至少一个世界地区。
- 虽然许多运输限制与涉及 WiFi、汽车座椅和其他受到严格监管的产品类别的法规有关,但我们的研究中 Amazon 限制的最常见的产品类别是书籍。
- 被禁书籍主要与 LGBTIQ、神秘学、色情作品、基督教以及健康和保健有关。受到这种审查制度影响的地区包括阿联酋、沙特阿拉伯和许多其他中东国家,以及文莱达鲁萨兰国、巴布亚新几内亚、塞舌尔和赞比亚。在我们的测试样本中,Amazon 在至少其中一个地区审查了 amazon.com 上销售的 1.1% 以上的书籍。
- 我们确定了三个主要的审查阻止列表,Amazon 将其分配给不同的地区。在许多情况下,由此产生的审查要么过于宽泛,要么分类错误。例子包括与乳腺癌有关的书籍、引用“food porn”委婉语的食谱书、尼采的《快乐的科学》(Gay Science)和“彩虹”曼妥思糖。
- 为了解释为什么限制产品无法运送,Amazon 使用了不同的错误消息,例如传达某个商品暂时缺货。在误导其客户和审查书籍方面,Amazon 违反了其对 LGBTIQ 和更广泛人权的公开承诺。
- 我们通过向 Amazon 提供多项建议来结束我们的报告,以解决我们的工作提出的问题。
引言
在线购物的兴起使得公司能够更广泛地进入通过传统零售渠道可能无法进入的市场。这种范围的扩大带来了新的机遇,但也给全球电子商务零售商带来了新的挑战。其中一个挑战是应对全球各地不同且更具限制性的监管环境。
在本报告中,我们分析了美国电子商务零售商 Amazon 及其防止某些产品运往某些世界地区的系统,该系统是在美国网站 amazon.com 上实施的。具体来说,我们分析了 Amazon 实施的 限制 某些产品运往某些地区的功能,即使该产品可用且卖家愿意将其运往该地区。虽然 Amazon 通常使用误导性错误消息向客户隐藏此限制系统,但我们采用了一种新颖的方法来揭示和衡量哪些产品以及在哪些地区激活了该系统,方法是剥离 Amazon 网站的各层并分析其内部运作。值得注意的是,我们的方法可以区分产品是否受到 Amazon 的限制以及产品是否在一个地区自然不可用。
我们总共发现了 17,050 种产品被限制运往至少一个世界地区。虽然我们研究中观察到的许多运输限制与涉及 WiFi、汽车座椅和其他受到严格监管的产品类别的法规有关,但 Amazon 限制的最常见的产品类别是书籍。被禁书籍主要与 LGBTIQ、神秘学、色情作品、基督教以及健康和保健有关。更广泛地说,书籍是 审查制度 的受害者,在本报告中,我们将审查制度定义为 Amazon 出于政治或宗教动机对产品运输的限制。通常受到这种审查制度影响的地区包括阿拉伯联合酋长国(阿联酋)、沙特阿拉伯和许多其他中东国家,以及文莱达鲁萨兰国、巴布亚新几内亚、塞舌尔和赞比亚。
鉴于审查的主题包括 LGBTIQ,我们的发现对 Amazon 对 LGBTIQ 权利的公开承诺 以及对其用户的广泛权利的尊重提出了质疑。通过审查书籍的可用性,Amazon 剥夺了其用户的宝贵信息。此外,通过告知客户被审查的产品自然不可用(例如,缺货),Amazon 剥夺了客户做出知情决定的能力。我们通过向 Amazon 提出多项建议来结束我们的报告。
背景
在本节中,我们将简要介绍 Amazon 的历史,因为它与我们的分析相关。然后,我们将概述适用于 Amazon 在沙特阿拉伯、阿联酋和中国的业务的一些法规,这些法规是对 amazon.com 上的产品可以运送到的更具限制性的监管环境。
Amazon 背景
Amazon 是一家美国跨国公司,最初是一家在线书店,后来发展成为全球电子商务市场。Amazon 的业务主要集中于管理 国际运输物流并为全球消费者提供服务。除了主要的电子商务平台外,它们还提供云计算服务 (Amazon Web Services)、消费电子产品 (Amazon Kindle 和 Amazon Echo) 和在线流媒体 (Amazon Prime Video) 等其他服务。
Amazon 最出名的是其原始网站 — amazon.com — 它是美国客户的登录页面,尽管商品可以根据卖家的偏好在全球范围内运送。截至 2024 年,有 22 个其他地区的专用商店。除了向其他地区的在线扩张外,这些地区的基础设施也相应扩张,包括航运枢纽、物流中心、分拣设施和配送站。
与我们的研究最相关的是,Amazon 已将其专用商店扩展到包括阿联酋 在 2017 年 和沙特阿拉伯 在 2020 年。此次扩张包括 在利雅得开设区域总部 在 2022 年的沙特阿拉伯和 在迪拜开设物流中心 在 2023 年的阿联酋。由于该地区独特的监管制度,这些最近在中东的扩张给零售商带来了独特的挑战,我们将在下面详细介绍这些制度。
遵守国际法规
Amazon 会监管在其平台上销售的产品,并且他们自己的 运输限制常见问题解答 提供了一些关于为什么某些产品可能受到限制的指导,包括需要“遵守所有法律和法规以及 Amazon 政策”以及 Amazon 可能“由于政府进出口要求、制造商限制或保修问题而受到限制,无法运送到您的所在地”。Amazon 已经调整了其政策,允许 删除冒犯性内容,包括 Amazon 认为的“仇恨言论、宣传虐待或性剥削儿童、包含色情内容、美化强奸或恋童癖、鼓吹恐怖主义”的内容,还包括“其他[他们]认为不适当或冒犯性的材料”。然而,Amazon 未能具体说明它限制哪些类别的内容以遵守专制政府的要求。
据报道,Amazon 遵守政府的要求,限制某些产品,甚至操纵其评论。例如,在收到政府要求删除与 LGBTIQ 内容相关的 150 多个关键词后,Amazon 限制了在 阿联酋 购买和搜索结果中的商品。在中国,Amazon 删除了所有客户对中国国家主席习近平的讲话和著作的书籍的评分和评论。在这两种情况下,Amazon 都声称他们遵守当地的法律法规。然而,在印度,Amazon 的内部文件显示,Amazon 通过给予某些卖家优惠待遇并通过 操纵搜索结果 来宣传自己的商品,从而 规避当地法规。Amazon 也因允许其平台 传播白人至上主义和种族主义 而受到批评。尽管记者和非营利组织已经通知了 Amazon,但带有纳粹符号和与新纳粹分子和白人至上主义者相关的 Kindle 书籍 仍然广泛可用。
沙特阿拉伯的法规
在沙特阿拉伯,内容主要受两项法律管辖:2003 年印刷和出版法,主要监管印刷媒体,以及 2007 年反网络犯罪法,监管在线媒体。《印刷和出版法》第 9 条规定,印刷媒体不得违反伊斯兰教法,不得煽动内部冲突,不得损害国家的经济和健康状况,也不得导致违反公共安全、公共政策或外国利益。第 18 条规定,这些法规应适用于印刷材料的进口和分发。为了证明内容不含任何侮辱伊斯兰教、政府、阿联酋利益或道德标准和公共道德的内容,需要在印刷和出版法第 18 条的框架内获得批准。在执行方面,第 39 条规定,如果发现任何违反第 9 条或第 18 条的印刷品,可以撤回流通。
2007 年反网络犯罪法主要侧重于信息安全和内容监管方面的法规。该法第 6 条规定,“通过信息网络或计算机制作、准备、传输或存储侵犯公共秩序、宗教价值观、公共道德或隐私的材料”是一种犯罪行为。违反本条可能导致最高五年监禁和最高 300 万里亚尔(约 80 万美元)的罚款。该法律已应用于在线内容。例如,在 2019 年,沙特阿拉伯警告 Netflix,Hasan Minhaj 的喜剧节目 Patriot Act 的一集违反了该法规,因为它包含对沙特阿拉伯王室的批评。Netflix 遵守了政府的命令,并限制沙特阿拉伯用户访问该集。
阿联酋的法规
在阿联酋,内容受 2023 年关于媒体监管的第 55 号联邦法令 管辖,该法令取代了之前的 1980 年关于出版物和出版的第 15 号联邦法律。具体来说,它监管印刷、电视以及在线媒体。另一项相关法规是 互联网访问管理监管政策,该政策侧重于监管在线内容。根据该政策,阿联酋仅有的两家互联网服务提供商(ISP)Etisalat 和 Du 需要阻止 电信和数字政府监管局 要求的在线内容。禁止的互联网内容包括色情内容、蔑视宗教以及推广或交易被禁止的商品和服务。该政策的第 13 类禁止网站推广或交易阿联酋许可禁止或限制的商品,包括“违反伊斯兰宗教或公共道德,或涉及腐败或煽动意图的印刷品、绘画、照片、图画、卡片、书籍、杂志和石雕”。
遵守中国的要求
2004 年,Amazon 通过 收购卓越网 进入中国市场,这是一家中国的在线书店。Amazon 因其对中国网站 amazon.cn 上的产品进行政治审查而 面临审查。然而,面对国内竞争对手的竞争,Amazon 于 2019 年终止 了其在中国的在线商店,尽管在有限的时间内,海外产品 仍在 amazon.cn 网站上销售。Amazon 仍然在华开展 其他业务,例如 Amazon Web Services (AWS),这是 Amazon 的云计算服务。在中国境外,在 2021 年,在美国 Amazon 网站 amazon.com 上,Amazon 与中国国际图书贸易总公司(一家被贴上“China’s state propaganda arm”标签的国有企业)合作,创建了一个 门户网站 用于销售宣传中国共产党议程的书籍。
方法论
在本节中,我们将解释我们如何确定不同地区的产品可用性。我们的方法论包括两个阶段。由于我们最初的动机是了解 Amazon 审查制度如何应用于中东国家,因此在我们的第一阶段,我们侧重于研究产品和运输限制在中东多个国家/地区如何变化。我们特别希望了解在 Amazon 运营商店的中东国家/地区(即阿联酋和沙特阿拉伯)与未运营商店的国家/地区之间的产品运输限制有何差异。为了更广泛地了解审查制度如何应用于整个世界,在我们的第二阶段,我们从第一阶段的结果出发,衡量全球各地区的产品可用性。
在设计我们的方法论时,我们的动机是消除误报,即使这样做可能会引入漏报。理由是,我们宁愿省略对某些审查实例的测量,也不愿错误地将审查归因于未被审查的产品。
在本节的其余部分中,我们将解释我们方法论的两个阶段。
第 1 阶段:衡量中东地区的审查制度
衡量 Amazon 在中东国家/地区的审查制度的一种方法是访问中东地区可用的 Amazon 商店,即阿联酋的 amazon.ae 或沙特阿拉伯的 amazon.sa,并尝试确定哪些产品异常地“缺失”了,没有在这两个 Amazon 网站上销售。但是,这种方法是有限的。例如,如果我们看到一本与 LGBTIQ 主题相关的书在 amazon.com 上销售,但在 amazon.ae 上没有销售,这可能是因为这本书在 amazon.ae 上被审查了,但另一种可能性是这本书缺货或不够受欢迎,无法在某些国家/地区销售。但是,如果我们看到不成比例的大量与 LGBTIQ 主题相关的书籍在 amazon.com 上可用,但在 amazon.ae 上没有销售,那么我们将有更强的论据,但这种论据充其量只是一种统计论据,对于任何单个产品,我们都无法证明它是审查制度的受害者,还是由于某种其他原因在该商店上不可用。
鉴于先前描述的方法的弱点,我们改为衡量美国商店 amazon.com 上的产品是否可以运往各个国家/地区。作为额外的好处,这种方法使我们能够研究没有自己专用商店的地区的审查制度。对于我们对中东地区审查制度的调查,我们选择了四个中东国家/地区:阿联酋、沙特阿拉伯、卡塔尔和也门。我们还测试了第五个国家/地区加拿大作为对照,我们稍后将在我们的方法论中解释这一点。
为了测试我们可以将哪些产品运往这五个国家/地区,我们需要一种方法来对足够多样的 Amazon 产品进行抽样以进行测试。为了满足这一要求,我们使用了 Common Crawl 数据集,该数据集由 Common Crawl Foundation 提供。此数据集是自 2008 年开始抓取的各种开放式互联网范围内的网页样本。2023 年 4 月,我们下载了所有存档,直至并包括 2023 年 2 月/3 月 存档。为了避免存储整个数据集的过度存储要求,我们以流式方式下载存档,过滤掉任何 Amazon 产品 URL 到一个文件中,而不存储来自数据集的任何其他数据。我们处理了 2013 年到 2023 年 3 月的 Common Crawl 数据,因为 2023 年 3 月是我们开始测试时可用的最新数据集。虽然我们只对美国商店 amazon.com 上提供的产品感兴趣,但由于产品通常在多个商店上提供,我们从当时使用的 23 个 Amazon 专用商店收集了产品。
使用此方法,我们收集了 114,542,719 个 Amazon URL 列表。由于并非每个 Amazon URL 都是产品的 URL,我们使用以下正则表达式搜索每个 URL 来处理此 URL 列表:
/(?:dp|gp/product|gp/aw/d|gp/switch-language/product|product-reviews|asin|offer-listing|kindle-dbs/product)/([^/]*) (?:/|$)/
此正则表达式旨在搜索和检测 Amazon 将 Amazon 标准识别号(ASIN,Amazon 的唯一产品标识符)插入 URL 并从 URL 中提取它们的各种方式。此处理的结果是 19,074,613 个唯一 ASIN 的列表。
图 1:亚马逊的位置选择器在选择了“沙特阿拉伯”之后。
为了收集有关我们的五个测试国家/地区的产品可用性的信息,我们使用自动化程序按顺序测试每个区域中的 ASIN,以执行以下步骤。首先,我们加载 amazon.com。然后,我们使用 Amazon 的位置选择器将我们的位置切换到我们正在测试的区域(参见图 1)。对于每个 ASIN,我们导航到 https://www.amazon.com/dp/[ASIN]/ 以显示该产品的详细信息页面。然后,我们解析该页面以获取该产品的 可用性状态。请注意,在我们的方法论中,我们没有在任何时候登录任何 Amazon 帐户。如果产品在某个区域的可用性是以下任何一种,我们认为该产品在该区域 不可用:
- 此商品无法运送到您选择的送货地点
- 目前不可用
- 暂时缺货
虽然产品可能由于法律或监管限制而在某个区域不可用,但产品不可用也有更良性的原因。上述消息甚至暗示了许多此类原因,例如卖家不再运送到该区域,或者该产品在运送到该区域的卖家中缺货。
因此,我们特别感兴趣的是衡量哪些产品无法运送到某个区域,即使有发货人有库存并愿意将其运送到该区域。我们称这些产品在该区域为 受限 产品,因为即使它们有库存并且有发货人愿意运送它们,Amazon 仍然会限制用户将它们运送到该区域。
尝试将受限产品添加到所有报价显示中的 Amazon 购物车会导致“未添加”错误消息。
图 2:尝试将受限产品添加到所有报价显示中的 Amazon 购物车会导致“未添加”错误消息。
为了辨别哪些不可用产品是受限的,我们利用一个特殊的边信道来揭示 Amazon 是否阻止将不可用产品运送给我们。也就是说,对于任何发现不可用的产品,我们通过我们的自动化程序执行以下附加步骤。首先,我们浏览到 https://www.amazon.com/dp/[ASIN]/?aod=1。请注意,与我们先前浏览的 URL 相比,此 URL 附加了“?aod=1”查询字符串。启用“aod”参数会向 Amazon 发出信号,表明我们希望 Amazon 呈现所有报价显示 (AOD)。此高级显示列出了来自发货人的所有报价,这些发货人愿意运送到用户指定的区域,并且有库存。在每个发货人的选项旁边是一个将该报价添加到购物车的按钮(参见图 2)。我们自动化我们的程序以单击 AOD 上的所有“添加到购物车”按钮。我们测量单击导致“已添加”与“未添加”消息的数量。如果至少有一个报价并且所有将报价添加到我们的购物车的尝试都导致“未添加”错误,我们将认为该产品 可能 限制到我们配置的位置。我们安排在原始测试一周后运行另一个测试,并且如果该测试具有相同的结果(即,至少有一个报价并且所有将报价添加到我们的购物车的尝试都导致“未添加”错误),那么我们将认为该产品 限制 到测试的区域。如果没有报价(即,没有可以单击的按钮),那么我们无法区分产品是否限制在测试的区域与出于良性原因(例如缺货)而不可用(参见表 1,了解可能的结果摘要)。通过利用 AOD 状态消息如何泄露产品是否受到限制,我们可以更多地了解 Amazon 限制产品运输到某些区域的系统。
单击“添加到购物车”按钮的结果 | 解释 ---|--- 至少一个“已添加” | 产品可用 所有和至少一个“未添加” | 产品受限 没有可以单击的“添加到购物车”按钮 | 不确定
表 1:单击“添加到购物车”按钮的可能结果及其解释的摘要。
由于 amazon.com 上的许多产品不进行国际运输,我们执行以下优化以提高测试吞吐量。在测试每个国家/地区的不可用产品是否受限时,我们跳过测试在加拿大不可用的产品。我们选择加拿大作为我们的控制,因为它在地理和法律上与美国相似。此优化将我们需要测试的不可用产品数量减少了 85% 以上。我们有动机减少我们需要测试的不可用产品数量,因为此测试过程最耗时。
第 2 阶段:在全球范围内衡量审查制度
在我们的第 1 阶段方法论中,我们概述了我们如何确定哪些产品限制在阿联酋、沙特阿拉伯、卡塔尔和也门的方法。但是,Amazon 支持运送到全球 239 个国家和地区。在第 2 阶段,我们现在通过限制我们在每个区域中测试的产品数量,将我们的测量目标从针对中东地区扩展到全球测量。我们通过将我们从第 1 阶段的结果输入到第 2 阶段来实现这一点。
具体来说,我们对在我们在分析的四个中东国家/地区中至少一个国家/地区中受到限制的产品集感兴趣。从这个集合中,我们通过以统一随机的方式替换地选择 1,000 个这些产品来创建我们的第 2 阶段测试列表。对于我们的第 2 阶段测试列表中的每个产品,我们执行与我们在第 1 阶段中进行的类似测试,除了我们不是仅在四个中东国家/地区中进行测试,而是测试 Amazon 支持运送的所有 239 个区域中,该产品是否不可用和受限制。通过这样做,我们希望更广泛地了解 Amazon 审查制度在全球范围内如何应用,至少就与我们先前在中东地区测量的任何产品审查制度而言。
实验设置
我们使用 Python 和 Selenium Web 浏览器自动化框架 对我们的方法论进行编码实现,并在 Ubuntu Linux 计算机上执行代码。我们从多伦多大学的网络测试了每个搜索平台。第 1 阶段从 2023 年 4 月到 2023 年 12 月执行。第 2 阶段从 2024 年 5 月到 2024 年 6 月执行。
第 1 阶段结果
在本节中,我们将详细介绍我们的实验的第 1 阶段的结果。
测试产品
在我们的测试期间,我们能够测试在 Common Crawl 数据集中收集的产品链接,从 2023 年 2 月/3 月的存档倒推到并部分包括 2019 年 9 月的存档。总的来说,我们在此实验阶段测试了 5,870,695 个产品链接。其中,2,005,852 个 (34%) 不是(或不再是)有效的产品页面,导致 Amazon“未找到页面”错误。回想一下,我们获得的许多 ASIN 来自美国以外的专用商店。因此,尽管这些链接中的许多链接可能是不再销售的产品的链接,但这些“未找到页面”产品中的大多数产品可能从未在美国 amazon.com 商店中提供,而仅在其他国家/地区的商店中提供。除了上述“未找到页面错误”之外,还有另外 19,968 个产品链接生成了 Amazon“抱歉!出了点问题!”错误。因此,在我们测试的 5,870,695 个产品链接中,我们测试了 3,844,875 个实际产品。
方法论的内部一致性
在我们的测试区域中,许多产品只有一个报价(即,一个卖家提供运输产品),但另一些产品有多达 93 个报价(参见图 3 和表 2)。在我们的方法论中,我们仅当 所有 报价都导致“未添加”状态时,才认为产品受到限制。但是,由于某些产品只有一个报价,我们希望测量有关具有多个报价的产品的结果的一致性,以衡量有关具有单个报价的产品的结果的可靠性。具体来说,我们希望通过测量测试具有多个报价的产品的内部一致性来近似测试具有单个报价的产品的可靠性。我们通过查看其报价具有不同状态的产品数量来实现此目的,即,至少一个导致“已添加”状态,并且至少一个导致“未添加”状态。
图 3:每个区域的报价数量的直方图。
具有...的不可用产品数量 ---|---|---| 零报价 | 一个报价 | > 一个报价 也门 | 429,571 | 19,074 | 5,198 沙特阿拉伯 | 134,737 | 13,316 | 11,901 阿联酋 | 133,641 | 14,804 | 21,943 卡塔尔 | 51,455 | 8,876 | 6,997 总计 | 749,404 | 56,070 | 46,039
表 2:每个区域的报价数量摘要。
在我们的四个感兴趣的国家/地区中,我们仅观察到 11 个冲突结果:阿联酋三个,沙特阿拉伯一个,也门七个。我们没有观察到具有冲突结果的产品的类型有任何明显的趋势,只是没有任何产品具有明确的限制动机(参见表 3 以获取列表)。
产品 | 区域 | # 已添加 | # 未添加 ---|---|---|--- https://www.amazon.com/dp/1944565523/ | 阿联酋 | 8 | 1 https://www.amazon.com/dp/B00GEBMPC0/ | 阿联酋 | 1 | 1 https://www.amazon.com/dp/0521684188/ | 阿联酋 | 4 | 1 https://www.amazon.com/dp/1933662859/ | 沙特阿拉伯 | 33 | 1 https://www.amazon.com/dp/0553152386/ | 也门 | 1 | 1 https://www.amazon.com/dp/B004FTILGC/ | 也门 | 2 | 1 https://www.amazon.com/dp/B00SK73UQQ/ | 也门 | 1 | 1 https://www.amazon.com/dp/1784967335/ | 也门 | 1 | 1 https://www.amazon.com/dp/140819208X/ | 也门 | 2 | 1 https://www.amazon.com/dp/B0052CAZ2O/ | 也门 | 1 | 2 https://www.amazon.com/dp/1905739001/ | 也门 | 2 | 2
表 3:报价之间存在冲突结果的产品。
11 个产品中有 10 个产品的“已添加”结果至少与“未添加”结果一样多。再加上没有明确的限制理由,“未添加”结果可能是误报。由于我们仅当 所有 报价都导致“未添加”消息时才认为产品受到限制,因此我们将这些混合结果的情况正确解释为负面的限制情况。可能存在我们无法检测到的误报,特别是对于只有一个可用报价的产品。但是,鉴于这些误报的低频率,即在测试的至少有两个报价的 46,039 个产品中,只有 11 个显示可能的误报,我们可以怀疑只有一个报价的产品中存在同样低的误报率。具体来说,如果我们假设我们测量的误报率相同,那么在只有一个报价的 56,070 个产品中,我们预计只有 13 到 14 个误报。
排除标准
在开始我们的第 1 阶段实验后,我们注意到,在所有报价显示中,许多无法添加到我们购物车的产品还在“添加到购物车”按钮的左侧显示了一条额外的诊断消息,说明(参见图 4 以获取示例):
“此商品无法运送到您选择的送货地点。请选择其他送货地点。”
最终,在各个区域中,我们发现每个区域的受限产品中,有 16% 到 47% 的产品至少有一个报价包含此额外的诊断消息。
[无法添加到 Amazon 购物车的产品报价,其左侧显示“商品无法运送”消息。](https://citizenlab.ca/wp-content/uploads/20