MRJR0101/unified_url_toolkit
GitHub: MRJR0101/unified_url_toolkit
一款集成了提取、清洗、异步校验及DNS与TLS分析的Python URL处理流水线工具。
Stars: 0 | Forks: 0
# 统一 URL 工具包
统一 URL 工具包将 42 多个遗留的 URL/域名实用工具整合到一个可维护的 Python 工具包中。
## 规范方向
项目策略、顺序和当前状态位于:
- [docs/VISION_AND_PLAN.md](docs/VISION_AND_PLAN.md)
本 README 是一个入口点,而非路线图的权威来源。
## 工具包提供的功能
- 从文本和文件中提取 URL/域名
- 规范化和标准化工具
- URL 和域名的验证辅助工具
- 异步 URL 检查
- 分类/摘要分析
- 专门的 HTTP/内容/安全/缓存/DOM 分析模块
## 快速开始
### 1) 环境
```
uv sync --all-groups
```
备选方案:
```
python -m venv .venv
.\.venv\Scripts\python -m pip install -U pip
.\.venv\Scripts\python -m pip install -r requirements.txt
.\.venv\Scripts\python -m pip install pytest pytest-cov ruff mypy
```
### 2) 库示例
```
from unified_url_toolkit.core.extractors import extract_urls_from_text
from unified_url_toolkit.core.normalizers import clean_domain_list
text = "Visit https://example.com and http://test.org"
urls = extract_urls_from_text(text)
domains = clean_domain_list(urls, strip_www=True, remove_duplicates=True)
print(urls)
print(domains)
```
### 3) CLI 示例
```
uv run uut-clean-domains input.txt -o cleaned.txt --strip-www --sort
uv run uut-extract-urls . -r -e txt,md,html --csv extracted.csv
uv run uut-check-links urls.txt -o results.csv --timeout 20 --concurrency 100
```
## 文档导图
- 策略和路线图:[docs/VISION_AND_PLAN.md](docs/VISION_AND_PLAN.md)
- 架构和边界:[docs/ARCHITECTURE.md](docs/ARCHITECTURE.md)
- 使用模式:[docs/USAGE.md](docs/USAGE.md)
- 验证工作流:[VERIFY.md](VERIFY.md)
- 贡献工作流:[CONTRIBUTING.md](CONTRIBUTING.md)
- 迁移指南:[MIGRATION.md](MIGRATION.md)
## 包与布局
主导入命名空间:`unified_url_toolkit`。
主要模块系列:
- `core/`
- `io/`
- `processing/`
- `analysis/`
- `specialized/`
- `cli/`
- `config/`
- `utils/`
## 许可证
MIT 许可证。参见 [LICENSE](LICENSE)。
标签:CDN识别, DNS查询, ESC4, IP 地址批量处理, OSINT, Python工具库, Sigma 规则, SSL证书分析, TLS检测, URL提取, URL规范化, WHOIS查询, 二进制发布, 协议探测, 反编译, 域名分析, 域名工具, 威胁情报, 实时处理, 密码管理, 底层编程, 开发者工具, 开源工具, 异步编程, 数据清洗, 文本挖掘, 文档结构分析, 爬虫预处理, 网站验证, 网络安全, 自动化运维, 逆向工具, 链接分析, 隐私保护