aleiei/Web_Scraper_pro
GitHub: aleiei/Web_Scraper_pro
一款 Chrome 扩展,通过自定义 CSS 选择器或一键快速模式帮助用户从网页中提取结构化数据并导出为 CSV。
Stars: 1 | Forks: 0
# Web Scraper Pro — Chrome 扩展(免费)
Web Scraper Pro 是一款 Chrome 扩展,可帮助您快速从网页中提取结构化数据。它支持自定义 CSS selector 工作流和一键快速抓取模式。该扩展在您的浏览器中本地运行,并将历史记录存储在 Chrome 本地存储中。
## 安装(开发者模式)
1. 打开 Chrome 并访问 `chrome://extensions/`
2. 启用开发者模式(右上角)
3. 点击加载已解压的扩展程序
4. 选择此项目文件夹:`Web_Scraper_pro`
5. 固定该扩展,以便从工具栏快速访问
## 项目结构
```
Web_Scraper_pro/
├── manifest.json # Extension manifest (MV3)
├── popup.html # Popup UI
├── popup.js # Main scraping logic
├── styles.css # Additional styles
├── GUIDE.md # Detailed user guide (English)
└── icons/ # Extension icons
```
## 功能
### 1) 自定义抓取(CSS Selectors)
使用您自己的 selector 从页面中提取重复记录。UI 中可用的字段包括 container、title、link、price 和 description。在进行完整提取之前,请使用 Preview 验证 selector。此模式非常适合产品卡片、博客文章列表、目录和类似的重复布局。
### 2) 快速抓取(一键模式)
即时提取常见数据类型:links、titles、emails、phones、images 和 tables。非常适合在构建自定义 selector 之前进行快速探索。
### 3) 结果处理
每次抓取运行后,结果可以导出为 CSV 或复制到剪贴板。CSV 生成支持自定义和快速抓取模式。
### 4) 历史记录
该扩展将最近的抓取会话保存在本地存储中,包括抓取器类型和名称、页面 URL、提取的项目数以及时间戳。可以详细查看或完全清除历史记录。
### 5) 下载设置
可配置的选项包括目标文件夹、自动下载行为、去除空格、去重以及是否包含 URL。这些设置会持久化保存在 `chrome.storage.local` 中。
## 如何使用
### 快速开始(2 分钟)
1. 打开目标网页
2. 点击扩展图标
3. 进入快速抓取
4. 选择一种模式(例如:Titles)
5. 等待提取
6. 点击复制或下载 CSV
### 自定义提取工作流
1. 打开您要抓取的页面
2. 检查元素(右键点击 → 检查)
3. 确定一个重复的 container(例如:`.product-card`)
4. 添加内部 selector(title、link、price、description)
5. 点击 **Preview** 验证 selector
6. 点击 **Scrape** 提取所有匹配的记录
7. 导出为 CSV 或复制结果
示例 HTML:
```
```
示例 selector:container `.product-card`,title `.product-name`,price `.product-price`,link `a`。
## 故障排除
如果扩展弹窗无法工作,请重新加载页面并重新打开弹窗,或者在 `chrome://extensions/` 中禁用并重新启用该扩展。
如果没有提取到数据,请检查 selector 是否正确,以及页面是否为动态渲染。先尝试更宽泛的 selector,然后再进行细化。
如果 CSV 为空或不完整,请在导出前验证抓取是否返回了结果,并检查下载设置。
## 权限说明
来自 `manifest.json`:`activeTab`、`scripting`、`storage`、`downloads`。
## 最佳实践
仅针对无需登录的公开页面。保持适度的提取量,并遵守 `robots.txt` 规则。避免收集个人或隐私数据,请勿重复使用受版权保护的内容。
### OSINT 用法
在适当谨慎并关注法律/道德规范的情况下,此扩展还可以支持对公开可用来源的 OSINT(Open Source Intelligence)工作流。仅针对公开信息,避免侵犯隐私和非法画像,遵守当地法律和平台规则,并保留带有来源引用的清晰审计追踪。
## 许可证
本项目采用 GNU Affero General Public License v3.0 (AGPL-3.0) 授权。
版权所有 © Alessandro Orlando。
标签:CSS选择器, 多模态安全, 数据可视化, 数据提取, 浏览器插件, 自定义脚本