Computer Science > Social and Information Networks

arXiv:2502.00627 (cs) [Submitted on 2 Feb 2025]

Title:Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)

Authors:Yan Aquino, Pedro Bento, Arthur Buzelin, Lucas Dayrell, Samira Malaquias, Caio Santana, Victoria Estanislau, Pedro Dutenhefner, Guilherme H. G. Evangelista, Luisa G. Porfírio, Caio Souza Grossi, Pedro B. Rigueira, Virgilio Almeida, Gisele L. Pappa, Wagner Meira Jr 查看由 Yan Aquino 和其他 14 位作者撰写的题为 Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024) 的论文的 PDF 版本 View PDF HTML (experimental)

Abstract:

Discord 已经从一个专注于游戏的通信工具发展成为一个支持各种在线社区的多功能平台。尽管它拥有庞大的用户群和活跃的公共服务器,但由于数据访问的挑战,关于 Discord 的学术研究仍然有限。本文介绍了 Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024),这是迄今为止最广泛的 Discord 公共服务器数据。该数据集包含来自 3,167 个公共服务器上 474 万用户的超过 20.5 亿条消息,约占 Discord 的 Discovery 功能中列出的服务器的 10%。从 Discord 于 2015 年推出到 2024 年底,它为分析去中心化管理、社区治理、信息传播和社会动态提供了一个强大的时间和主题框架。数据是通过 Discord 的公共 API 收集的,通过匿名化技术,遵守道德准则和隐私标准。数据集以结构化的 JSON 文件组织,方便与计算社会科学方法无缝集成。初步分析揭示了用户参与度、机器人利用率和语言多样性的显著趋势,其中英语占主导地位,同时西班牙语、法语和葡萄牙语也有大量表现。此外,社交、艺术、音乐和模因等流行的社区主题突出了 Discord 在其游戏起源之外的扩展。 Comments: | Submitted to ICWSM 2025
---|---
Subjects: | Social and Information Networks (cs.SI); Databases (cs.DB)
Cite as: | arXiv:2502.00627 [cs.SI]
(or arXiv:2502.00627v1 [cs.SI] for this version)
https://doi.org/10.48550/arXiv.2502.00627 Focus to learn more arXiv-issued DOI via DataCite

Submission history

From: Yan Aquino Amorim [view email] [v1] Sun, 2 Feb 2025 02:17:14 UTC (1,433 KB) Full-text links:

Access Paper:

View a PDF of the paper titled Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024), by Yan Aquino and 14 other authors