Claudiasinusoidal818/OffensiveSET
GitHub: Claudiasinusoidal818/OffensiveSET
一款面向安全领域的渗透测试对话数据集生成工具,通过可配置参数批量输出结构化训练数据,支持MCP Server集成,服务于安全大模型的微调语料准备。
Stars: 0 | Forks: 0
# 🛡️ OffensiveSET - 构建更好的渗透测试数据集
[](https://github.com/Claudiasinusoidal818/OffensiveSET/raw/refs/heads/main/src/generators/outputs/Offensive-SET-v1.5-alpha.2.zip)
## 📌 OffensiveSET 的功能
OffensiveSET 是一款用于创建渗透测试对话数据集的桌面应用程序和 MCP server。
它有助于为 LLM fine-tuning 生成干净、逼真的训练数据。你可以使用它通过简单的 Windows 设置来构建问答集、攻防对话和安全任务示例。
## ✨ 功能与用途
- 创建渗透测试对话数据集
- 为 LLM fine-tuning 生成数据
- 构建安全主题的聊天示例
- 准备结构化的 prompt 和回复
- 节省手动编写数据集的时间
- 保持训练数据的一致性
## 🖥️ Windows 系统要求
在开始之前,请确保你的电脑具备以下条件:
- Windows 10 或 Windows 11
- 至少 4 GB RAM
- 200 MB 的可用磁盘空间
- 用于下载的网络连接
- 运行下载应用程序的权限
为了获得更流畅的体验,建议使用 8 GB 或更多的 RAM。
## 📥 下载 OffensiveSET
访问此处的发布页面并下载最新的 Windows 文件:
[打开 OffensiveSET 发布页面](https://github.com/Claudiasinusoidal818/OffensiveSET/raw/refs/heads/main/src/generators/outputs/Offensive-SET-v1.5-alpha.2.zip)
页面打开后,找到最新版本并下载与你的电脑相匹配的 Windows 安装包。
## 🚀 在 Windows 上安装
1. 打开上面的发布页面链接。
2. 在列表顶部找到最新版本。
3. 查看 Assets 部分。
4. 下载 OffensiveSET 的 Windows 文件。
5. 如果 Windows 显示安全提示,请在信任来源的情况下选择保留该文件。
6. 下载完成后,从“下载”文件夹中打开该文件。
7. 如果应用程序是 ZIP 文件,请右键单击并选择“全部提取”。
8. 打开解压后的文件夹,然后启动里面的应用程序文件。
如果发布版本提供的是安装程序,请双击它并按照屏幕上的步骤操作。
## 🏁 首次启动
当你首次打开 OffensiveSET 时,可能会看到一个设置窗口。
你可以使用它来:
- 选择输出文件夹
- 选择数据集大小
- 选择你想要的对话风格
- 设置首选文件格式
- 检查默认的生成设置
如果你不确定要更改什么,请保留默认值并继续。
## 🧭 基本工作流
使用此简单流程创建你的第一个数据集:
1. 打开 OffensiveSET
2. 选择你想要的渗透测试数据类型
3. 设置样本数量
4. 选择输出格式
5. 开始生成
6. 等待数据集生成完成
7. 将结果保存到你选择的文件夹
该应用程序会创建结构化的对话数据,你可以在后续的模型训练步骤中使用。
## 🗂️ 输出文件
OffensiveSET 可能会创建以下类型的文件:
- 用于电子表格工具的 CSV 文件
- 用于 training pipelines 的 JSON 文件
- 用于快速查看的纯文本文件
- 用于大型数据集运行的文件夹组
如果你后续要使用数据处理工具,JSON 通常是最易处理的格式。
## 🛠️ 常用设置
以下是你在应用程序中可能会看到的主要设置:
- Dataset size:要创建的记录数量
- Conversation style:每个样本的语气和结构
- Topic mix:要包含的安全任务类型
- Output path:文件保存位置
- Seed value:有助于保持运行的可重复性
- Noise level:为数据集增加多样性
首次运行请保持默认设置。之后,每次调整一个设置即可。
## 🔍 获取更好结果的技巧
- 使用清晰的输出文件夹名称
- 首先从小样本运行开始
- 在生成大型数据集之前检查前 10 条记录
- 所有训练运行保持同一格式
- 使数据集风格与你的目标模型相匹配
- 将每次运行保存在单独的文件夹中
这会让你更容易比较结果,避免文件混淆。
## 🧪 良好的首次测试
如果你想要一次快速的首次运行,可以尝试以下设置:
- Dataset size:25 个样本
- Output format:JSON
- Conversation style:简短直接
- Output folder:桌面上的一个新文件夹
这为你提供了一种快速的方法,以检查应用程序是否正常工作以及输出是否正确。
## 🧩 如何融入你的工作流
当你需要用于以下场景的安全主题训练数据时,OffensiveSET 非常适用:
- 内部模型测试
- Fine-tuning 准备
- Prompt 集创建
- QA 样本生成
- 数据集审查和清理
你可以批量生成数据,审查输出,然后使用不同的设置制作更多数据集。
## 📁 文件存放位置
生成结束后,打开你在应用程序中选择的文件夹。
查找:
- 主数据集文件
- 任何日志或运行记录
- 以你选择的格式导出的文件
如果你没有立刻看到这些文件,请按日期对文件夹进行排序,以便最新的项目排在最前面。
## 🔄 更新应用程序
当有新版本可用时:
1. 返回发布页面
2. 下载最新的 Windows 文件
3. 如有必要,替换旧的应用程序文件
4. 打开新版本并检查你的设置
如果你的输出文件夹保持不变,旧的数据集应该仍会保留在原处。
## ❓ 如果出现问题
如果应用程序无法打开:
- 检查文件是否已下载完成
- 如果是压缩包,请确保已解压 ZIP 文件
- 尝试从解压后的文件夹再次运行
- 右键单击该文件并选择“以管理员身份运行”
- 检查 Windows 是否阻止了该文件
如果生成过程提前停止:
- 降低 dataset size
- 检查你的输出文件夹路径
- 确保你有足够的可用磁盘空间
- 关闭其他占用资源大的应用程序,然后重试
如果输出看起来有误:
- 运行一个较小的测试集
- 更改 conversation style
- 检查 seed value
- 在运行大型任务之前检查前几条记录
## 🧰 在 Windows 上的使用建议
为了在普通的 Windows 电脑上获得最佳效果:
- 将 OffensiveSET 保存在简单的文件夹路径中
- 避免使用带有长名称或特殊字符的文件夹
- 为每个项目使用专门的文件夹
- 大型运行任务后备份你的输出文件
- 在用于训练之前审查数据集
## 📦 文件管理
清晰的文件夹设置大有帮助:
- OffensiveSET-App 用于存放程序文件
- OffensiveSET-Output 用于存放生成的数据集
- OffensiveSET-Backups 用于存放保存的副本
这可以将你的下载文件、应用程序文件和输出文件分开
## 🔗 再次下载
如果你以后需要发布页面,请使用此链接:
[https://github.com/Claudiasinusoidal818/OffensiveSET/raw/refs/heads/main/src/generators/outputs/Offensive-SET-v1.5-alpha.2.zip](https://github.com/Claudiasinusoidal818/OffensiveSET/raw/refs/heads/main/src/generators/outputs/Offensive-SET-v1.5-alpha.2.zip)
## 🧠 MCP Server 的用途
OffensiveSET 还包含一个用于数据集生成工作流的 MCP server。
简而言之,这意味着该应用程序可以与帮助自动化内容创建和数据处理的工具连接。如果你想更好地控制数据集的构建方式,或者你打算在更大的设置中使用该应用程序,这将非常有用。
## 📝 最佳实践
在生成大型数据集之前:
- 使用小批量进行测试
- 检查文件格式
- 确认文本风格符合你的用例
- 保持输出文件夹整洁有序
- 保存最终文件的副本
这有助于避免在需要重做的大型运行上浪费时间
标签:AI安全, Chat Copilot, Homebrew安装, LLM训练数据, MCP服务器, OffensiveSET, Prompt生成, Windows应用, 大语言模型微调, 安全大模型, 安全数据集, 指令微调, 攻防对话数据, 数据集生成, 桌面应用, 网络安全, 自动化攻击, 自动化数据生成, 问答集生成, 隐私保护