aleiei/Web_Scraper_pro

GitHub: aleiei/Web_Scraper_pro

一款 Chrome 扩展,通过自定义 CSS 选择器或一键快速模式帮助用户从网页中提取结构化数据并导出为 CSV。

Stars: 1 | Forks: 0

# Web Scraper Pro — Chrome 扩展(免费) Web Scraper Pro 是一款 Chrome 扩展,可帮助您快速从网页中提取结构化数据。它支持自定义 CSS selector 工作流和一键快速抓取模式。该扩展在您的浏览器中本地运行,并将历史记录存储在 Chrome 本地存储中。 ## 安装(开发者模式) 1. 打开 Chrome 并访问 `chrome://extensions/` 2. 启用开发者模式(右上角) 3. 点击加载已解压的扩展程序 4. 选择此项目文件夹:`Web_Scraper_pro` 5. 固定该扩展,以便从工具栏快速访问 ## 项目结构 ``` Web_Scraper_pro/ ├── manifest.json # Extension manifest (MV3) ├── popup.html # Popup UI ├── popup.js # Main scraping logic ├── styles.css # Additional styles ├── GUIDE.md # Detailed user guide (English) └── icons/ # Extension icons ``` ## 功能 ### 1) 自定义抓取(CSS Selectors) 使用您自己的 selector 从页面中提取重复记录。UI 中可用的字段包括 container、title、link、price 和 description。在进行完整提取之前,请使用 Preview 验证 selector。此模式非常适合产品卡片、博客文章列表、目录和类似的重复布局。 ### 2) 快速抓取(一键模式) 即时提取常见数据类型:links、titles、emails、phones、images 和 tables。非常适合在构建自定义 selector 之前进行快速探索。 ### 3) 结果处理 每次抓取运行后,结果可以导出为 CSV 或复制到剪贴板。CSV 生成支持自定义和快速抓取模式。 ### 4) 历史记录 该扩展将最近的抓取会话保存在本地存储中,包括抓取器类型和名称、页面 URL、提取的项目数以及时间戳。可以详细查看或完全清除历史记录。 ### 5) 下载设置 可配置的选项包括目标文件夹、自动下载行为、去除空格、去重以及是否包含 URL。这些设置会持久化保存在 `chrome.storage.local` 中。 ## 如何使用 ### 快速开始(2 分钟) 1. 打开目标网页 2. 点击扩展图标 3. 进入快速抓取 4. 选择一种模式(例如:Titles) 5. 等待提取 6. 点击复制或下载 CSV ### 自定义提取工作流 1. 打开您要抓取的页面 2. 检查元素(右键点击 → 检查) 3. 确定一个重复的 container(例如:`.product-card`) 4. 添加内部 selector(title、link、price、description) 5. 点击 **Preview** 验证 selector 6. 点击 **Scrape** 提取所有匹配的记录 7. 导出为 CSV 或复制结果 示例 HTML: ```

Laptop Pro

€999 View product
``` 示例 selector:container `.product-card`,title `.product-name`,price `.product-price`,link `a`。 ## 故障排除 如果扩展弹窗无法工作,请重新加载页面并重新打开弹窗,或者在 `chrome://extensions/` 中禁用并重新启用该扩展。 如果没有提取到数据,请检查 selector 是否正确,以及页面是否为动态渲染。先尝试更宽泛的 selector,然后再进行细化。 如果 CSV 为空或不完整,请在导出前验证抓取是否返回了结果,并检查下载设置。 ## 权限说明 来自 `manifest.json`:`activeTab`、`scripting`、`storage`、`downloads`。 ## 最佳实践 仅针对无需登录的公开页面。保持适度的提取量,并遵守 `robots.txt` 规则。避免收集个人或隐私数据,请勿重复使用受版权保护的内容。 ### OSINT 用法 在适当谨慎并关注法律/道德规范的情况下,此扩展还可以支持对公开可用来源的 OSINT(Open Source Intelligence)工作流。仅针对公开信息,避免侵犯隐私和非法画像,遵守当地法律和平台规则,并保留带有来源引用的清晰审计追踪。 ## 许可证 本项目采用 GNU Affero General Public License v3.0 (AGPL-3.0) 授权。 版权所有 © Alessandro Orlando。
标签:CSS选择器, 多模态安全, 数据可视化, 数据提取, 浏览器插件, 自定义脚本