Scraperr - 一款自托管的 Webscraper
Navigation Menu
自托管的 webscraper。 scraperr-docs.pages.dev/
License
MIT license 1.5k stars 74 forks
jaypyles/Scraperr
Folders and files
Name | Name | Last commit message | Last commit date ---|---|---|--- .github | .github api/backend | api/backend cypress | cypress docker | docker docs | docs public | public src | src .gitignore | .gitignore .python-version | .python-version FUNDING.yml | FUNDING.yml LICENSE | LICENSE Makefile | Makefile README.md | README.md cypress.config.ts | cypress.config.ts docker-compose.dev.yml | docker-compose.dev.yml docker-compose.yml | docker-compose.yml next-env.d.ts | next-env.d.ts next.config.mjs | next.config.mjs package-lock.json | package-lock.json package.json | package.json pdm.lock | pdm.lock postcss.config.js | postcss.config.js pyproject.toml | pyproject.toml supervisord.conf | supervisord.conf tailwind.config.js | tailwind.config.js tsconfig.json | tsconfig.json
Latest commit
History
一个强大的自托管网络爬取解决方案
📋 概述
Scraperr 使您能够使用 XPath 选择器精确地从网站提取数据。这个自托管的应用程序提供了一个简洁的界面来管理爬取任务,查看结果和导出数据。
📚 查看文档 获取全面的快速入门指南和详细信息。
✨ 主要特性
- XPath-Based Extraction: 精确地定位页面元素
- Queue Management: 提交和管理多个爬取任务
- Domain Spidering: 可以选择爬取同一域名内的所有页面
- Custom Headers: 向您的爬取请求添加 JSON headers
- Media Downloads: 自动下载图片、视频和其他媒体
- Results Visualization: 在结构化的表格格式中查看抓取的数据
- Data Export: 以各种格式导出结果
- Notification Channels: 通过各种渠道发送完成通知
🚀 快速开始
make up
⚖️ 法律和道德指南
在使用 Scraperr 时,请记住:
- 尊重
robots.txt
: 始终检查网站的robots.txt
文件,以验证哪些页面允许抓取 - 服务条款: 遵守每个网站关于数据提取的服务条款
- 速率限制: 在请求之间实施合理的延迟,以避免服务器过载
免责声明: Scraperr 旨在仅在明确允许抓取的网站上使用。创建者对此工具的误用不承担任何责任。
📄 License
该项目采用 MIT License 许可。有关详细信息,请参见 LICENSE 文件。
👏 贡献
使用 webapp template 可以更轻松地进行开发。
要开始使用,只需运行 make build up-dev
。
关于
自托管的 webscraper。 scraperr-docs.pages.dev/
Topics
opensource webscraper self-hosted
Resources
License
Stars
Watchers
Forks
Releases 10
v1.0.9 (Notification Channels) 最新 May 11, 2025 + 9 releases
Sponsor this project
Packages 0
No packages published
Contributors 2
Languages
- TypeScript 67.1%
- Python 30.5%
- Other 2.4%
Footer
GitHub © 2025 GitHub, Inc.