MRJR0101/unified_url_toolkit

GitHub: MRJR0101/unified_url_toolkit

一款集成了提取、清洗、异步校验及DNS与TLS分析的Python URL处理流水线工具。

Stars: 0 | Forks: 0

# 统一 URL 工具包 统一 URL 工具包将 42 多个遗留的 URL/域名实用工具整合到一个可维护的 Python 工具包中。 ## 规范方向 项目策略、顺序和当前状态位于: - [docs/VISION_AND_PLAN.md](docs/VISION_AND_PLAN.md) 本 README 是一个入口点,而非路线图的权威来源。 ## 工具包提供的功能 - 从文本和文件中提取 URL/域名 - 规范化和标准化工具 - URL 和域名的验证辅助工具 - 异步 URL 检查 - 分类/摘要分析 - 专门的 HTTP/内容/安全/缓存/DOM 分析模块 ## 快速开始 ### 1) 环境 ``` uv sync --all-groups ``` 备选方案: ``` python -m venv .venv .\.venv\Scripts\python -m pip install -U pip .\.venv\Scripts\python -m pip install -r requirements.txt .\.venv\Scripts\python -m pip install pytest pytest-cov ruff mypy ``` ### 2) 库示例 ``` from unified_url_toolkit.core.extractors import extract_urls_from_text from unified_url_toolkit.core.normalizers import clean_domain_list text = "Visit https://example.com and http://test.org" urls = extract_urls_from_text(text) domains = clean_domain_list(urls, strip_www=True, remove_duplicates=True) print(urls) print(domains) ``` ### 3) CLI 示例 ``` uv run uut-clean-domains input.txt -o cleaned.txt --strip-www --sort uv run uut-extract-urls . -r -e txt,md,html --csv extracted.csv uv run uut-check-links urls.txt -o results.csv --timeout 20 --concurrency 100 ``` ## 文档导图 - 策略和路线图:[docs/VISION_AND_PLAN.md](docs/VISION_AND_PLAN.md) - 架构和边界:[docs/ARCHITECTURE.md](docs/ARCHITECTURE.md) - 使用模式:[docs/USAGE.md](docs/USAGE.md) - 验证工作流:[VERIFY.md](VERIFY.md) - 贡献工作流:[CONTRIBUTING.md](CONTRIBUTING.md) - 迁移指南:[MIGRATION.md](MIGRATION.md) ## 包与布局 主导入命名空间:`unified_url_toolkit`。 主要模块系列: - `core/` - `io/` - `processing/` - `analysis/` - `specialized/` - `cli/` - `config/` - `utils/` ## 许可证 MIT 许可证。参见 [LICENSE](LICENSE)。
标签:CDN识别, DNS查询, ESC4, IP 地址批量处理, OSINT, Python工具库, Sigma 规则, SSL证书分析, TLS检测, URL提取, URL规范化, WHOIS查询, 二进制发布, 协议探测, 反编译, 域名分析, 域名工具, 威胁情报, 实时处理, 密码管理, 底层编程, 开发者工具, 开源工具, 异步编程, 数据清洗, 文本挖掘, 文档结构分析, 爬虫预处理, 网站验证, 网络安全, 自动化运维, 逆向工具, 链接分析, 隐私保护