micahflee

探索 Paramilitary Leaks 数据集

Exploring the Paramilitary Leaks Drone 拍摄的民兵训练画面,来自 Paramilitary Leaks 数据集

今年一月,Distributed Denial of Secrets 发布了超过 200GB 的来自准军事团体和民兵组织的聊天记录和录音,包括 American Patriots Three Percent (APIIII) 和 the Oath Keepers。 这些文件由 John Williams 获取,他是一位野外生存训练员,曾多年深度卧底渗透到美国民兵运动中 – 如果你还没读过 Joshua Kaplan 在 ProPublica 上的相关报道,我强烈推荐。

我注意到,这个数据集对记者和研究人员来说相当难以理解。 我写了一本书,Hacks, Leaks, and Revelations,旨在教导记者和研究人员如何分析此类数据集。 我自己也对这里面的内容非常感兴趣——实际上,这是我离开 The Intercept 后下载的为数不多的数据集之一。 所以,我想我应该写一系列文章,公开探索这个数据集并分享我的发现。

我希望这是一个互动式的体验! 如果你对这个数据集感兴趣,请订阅 以通过电子邮件直接接收这些文章(我刚刚将我的博客转换为新闻通讯)。 如果你订阅了,你可以发表评论。 如果你对数据集或我的发现有任何疑问,或者你有关于要深入挖掘哪些部分的建议,请发表评论,我会参与讨论。 如果你想支持我的工作,可以考虑成为付费支持者。

访问数据集

你可以在 DDoSecrets 网站的 Paramilitary Leaks 页面上找到有关如何访问此数据集的说明。 具体来说:

如果你想在本地下载它,我建议你使用一个专用的 USB 硬盘驱动器来处理数据集。

💡 我刚才提到的很多内容都在我的书中有所介绍——顺便说一句,该书在 Creative Commons 许可下可在线免费获得。 如需进一步阅读,以下是一些相关章节:

数据的简要浏览

我自己还没有浏览太多此数据,所以这次浏览远非完整。 但这是到目前为止我可以告诉你的内容。

下载此数据集的所有压缩文件并使用 7-zip 解压缩后,你最终将获得以下文件夹:

Paramilitary Leaks 数据集中的文件夹

如果你单击这些文件夹,你会发现几个以 ChatExport_ 开头后跟日期的文件夹,以及一些屏幕截图和文档。 例如,这是 AP III State Leaders Chat 文件夹中的内容:

AP III State Leaders Chat 文件夹中的文件

如果你查看 ChatExport_ 文件夹内部,它们有一个或多个 messages.html 文件,以及几个用于文件、照片、视频、语音消息等的文件夹。 当你在浏览器中打开 messages.html 文件时,很明显这些是 Telegram 频道的导出。 这是来自 AP III State Leaders Chat/ChatExport_2023-03-29/messages5.html 的屏幕截图:

来自 2023 年 3 月的 AP III State Leaders 聊天记录,包括语音备忘录

本质上,该数据集是来自不同时间的、不同 Telegram 频道的大量导出,其中包含上传到这些频道的所有内容。 里面有_很多_东西。

例如,我编写了一个小脚本来查找最大的文件,我发现了多个完整长度的电影:几个阴谋论纪录片,如 Cages - Epic Human Trafficking Truth (2023).mp4PlanD3 - Ivermectin The Truth_1080.mp4Fake News A True History 2019.1080p.mp4,以及 The Passion of the Christ - Full Movie.mp4

有很多 Zoom 通话的录音。 很多语音消息。 很多 Office 文档。 来自他们枪支练习的随机 Drone 录像。 还有更多我尚未深入研究的内容。

来自 AP III State Leaders Chat/ChatExport_2023-03-28/video_files/ftx 3.mp4 的剧照

这就是为什么这个数据集很难理解的原因:这里的东西_太多了_。 尝试手动阅读所有内容需要花费大量时间。 此外,至少乍一看,似乎大部分都是闲聊和阴谋论的废话,大概在这里或那里散布着犯罪证据。

使用 Aleph 搜索数据

一个好的开始方法,甚至无需下载数据集,是使用 Library of Leaks Aleph 服务器 搜索它。 显然,这不会搜索所有内容——例如,它不会包括在这些 Zoom 会议录音或语音消息中说的任何内容。 但这是一个很好的起点。

与其他美国人一样,民兵疯子也使用 PayPal 等服务。 当我搜索 "paypal" 时,有 199 个结果。 这是其中一个热门结果,一个有人出售 AP III 帽子,带有 PayPal 和 Cashapp 用户名的屏幕截图:

AP III 帽子上写着“Three Percenter, We Are Everywhere”。 售价 35 美元,你可以通过 PayPal 上的 @ScotSeddon 或 Cashapp 上的 $ScotSeddon 付款。

Scot Seddon 是谁? 我可以做外部研究——比如在 DuckDuckGo 和 Google 上搜索 “Scot Seddon” 和用户名 scotseddon ——但首先,我要搜索数据集本身。 当我在 Aleph 中搜索他的名字时,第一个结果是文件 AP III State Leaders Chat/ChatExport_2023-03-20/files/1_4902439503181906326.pdf

文档顶部写着“Statement by Scot Seddon founder of APIII”

啊,所以他是 American Patriot Three Percent 的创始人,这是他声明否认 2021 年 1 月 6 日的暴力事件。 查看此 PDF 的元数据,它创建于 2021 年 1 月 16 日。 我想知道在 Trump 于 2024 年再次当选后,Scot 现在对 1 月 6 日的看法如何。

在所有可能性中,我可以_确切地_知道他的想法,因为他可能在 Telegram 上向他的民兵伙伴发布了相关内容,并且可能在此数据集中。 问题是,没有简单的方法可以快速过滤掉来自他的消息,甚至无法分辨出他参与了哪些导出的 Telegram 频道。 我认为这将是我要解决的第一个问题。

例如,这是 “Scot Seddon” 的一个 Aleph 搜索结果:

尝试在 Aleph 中查看 Telegram 导出效果不佳

这在 Aleph 中无法读取。 因此,我将继续从我下载的数据版本中打开 AP III National/ChatExport_2023-03-12 (3)/messages77.html。(是的,这是此导出的 Telegram 频道中第 77 页的消息。)

在浏览器中阅读聊天记录

这更易于阅读——但尽管如此,我认为我现在无法让自己坐下来阅读这 77 页消息。 而这只是这个 Telegram 频道的一个导出。

下一步

此数据集包含大量 HTML 格式的导出的 Telegram 频道。 虽然它缺少很多有用的数据(例如,Telegram 用户名或 ID),但 HTML 实际上确实包含了很多:

使用 Firefox 开发者工具检查消息

如你在此屏幕截图中所见,包含此消息的 div 包含帖子的时间戳、用户的显示名称和帖子的文本。 数据集还包括与每条消息关联的图像、音频文件和其他类型的附件。

因此,鉴于此,以下是挑战:编写一个脚本,该脚本将浏览数据集,加载每个导出的 Telegram 聊天中的每个 HTML 文件,提取所有消息,并将它们保存到单个 SQL 数据库。

💡我的书不仅教授 Python 编程,还逐步引导你完成编写此类脚本的过程。 如需进一步阅读,请查看:

这可能是我要做的:

最后,我将拥有整个数据集中 Telegram 消息的单个数据库。 我将能够查询它,例如,按时间顺序显示 Scot Seddon 的所有消息。 这将使我可以轻松地查看他在 1 月 6 日之前、1 月 6 日之后立即说了什么,然后查看在 Trump 再次当选后,他现在对 Trump 的看法如何。

好的,这就是本期节目的全部内容! 对于下一次,我将尝试编写此脚本。 我的计划是在 GitHub 上发布它,以便你可以使用它来基于 HTML Telegram 导出生成你自己的 SQL 数据库,比如这样的。

如果你是一名程序员并且你有时间尝试一下,请务必这样做并告诉我!

记得订阅我的新闻通讯。 如果你想支持我的工作,请注册成为付费支持者或购买一本 Hacks, Leaks, and Revelations: The Art of Analyzing Hacked and Leaked Data

请考虑向 Distributed Denial of Secrets 捐款。 这是一个小型的、简陋的、资金不足的非营利性集体,它还运营着世界上最大的公共黑客攻击和泄露数据集库,例如这个。 他们真的需要你的支持。