liuxiaotong/data-check
GitHub: liuxiaotong/data-check
一个面向 LLM 训练数据的可组合规则引擎,提供质量验证、统计异常检测和自动修复的端到端管线。
Stars: 0 | Forks: 0
**English** | [中文](README.zh-CN.md)
DataCheck
多维度数据质量验证
与统计异常检测
多维数据质量验证框架 — 规则引擎 · 异常检测 · 分布分析 · 自动修复
面向 LLM 训练数据的自动化质量验证 — 可组合规则、IQR/Z-score 异常检测及自动修复管线
[](https://github.com/liuxiaotong/data-check/actions/workflows/ci.yml) [](#mcp-server) [](#quality-rules) [](#quick-start) [摘要](#abstract) · [问题陈述](#problem-statement) · [形式化框架](#formal-framework) · [架构](#architecture) · [核心创新](#key-innovations) · [快速开始](#quick-start) · [质量规则](#quality-rules) · [异常检测](#anomaly-detection) · [MCP 服务器](#mcp-server) · [生态系统](#ecosystem) · [参考文献](#references)
Validation Fragmentation | 质量检查散落在一次性脚本中,规则不可复用 $\implies$ 跨项目重复编写 | 每个团队自建质检脚本,无标准化规则引擎 | 9 条内置规则 + YAML 自定义规则 + 4 种预设规则集(default / sft / preference / llm) | | **异常不可见**
Anomaly Invisibility | 分布异常隐藏在大数据集中,人工审查无法覆盖 $\implies$ $\exists x \in D: \|x - \mu\| > k\sigma$ 未被发现 | 无统计异常检测,或依赖外部工具链 | IQR / Z-score 双方法自动检测数值和长度异常值,纯 Python 无依赖 | | **反馈断裂**
Feedback Disconnection | 质检结果与修复动作分离,修复后无法验证改进效果 | 检查和修复是独立流程,无报告对比 | 端到端管线:验证 → 修复 → 报告对比 (diff),量化质量改进 | ## 形式化框架 ### 质量维度 数据质量定义为四维向量 $Q(D) = \langle Q_c, Q_u, Q_v, Q_a \rangle$: | 维度 | 符号 | 度量 | 对应规则 | |:---|:---|:---|:---| | **完整性** Completeness | $Q_c$ | $1 - \lvert\{x: \exists f \in F_{\text{req}}, x.f = \emptyset\}\rvert / \lvert D\rvert$ | required_fields, non_empty | | **唯一性** Uniqueness | $Q_u$ | $1 - \lvert\text{dup}(D)\rvert / \lvert D\rvert$ | duplicate, near_duplicate | | **有效性** Validity | $Q_v$ | $1 - \lvert\{x: \neg \text{valid}(x)\}\rvert / \lvert D\rvert$ | format_valid, length_bounds, score_valid | | **合规性** Compliance | $Q_a$ | $1 - \lvert\{x: \text{pii}(x) \lor \text{garbled}(x)\}\rvert / \lvert D\rvert$ | pii_detection, garbled_text | ### 综合质量评分 综合质量分为各维度的加权和: $$\text{Score}(D) = \frac{|\{x \in D : \text{pass}(x)\}|}{|D|} \times 100\%$$ | 通过率 | 评级 | 建议 | |:---|:---|:---| | $\geq 90\%$ | Excellent | 可直接使用 | | $\geq 70\%$ | Good | 建议修复警告 | | $\geq 50\%$ | Fair | 需要处理错误 | | $< 50\%$ | Poor | 严重质量问题 | ### 统计异常检测 **IQR 方法**(默认): $$\text{outlier}(x) \iff x < Q_1 - 1.5 \cdot \text{IQR} \;\lor\; x > Q_3 + 1.5 \cdot \text{IQR}$$ 其中 $\text{IQR} = Q_3 - Q_1$(四分位距)。 **Z-score 方法**: $$\text{outlier}(x) \iff \left|\frac{x - \mu}{\sigma}\right| > k, \quad k = 3$$ 两种方法分别应用于数值字段(直接取值)和字符串字段(取长度),样本量 $\geq 10$ 时自动启用。 ### 近似重复检测 基于 n-gram Jaccard 相似度的近似重复检测: $$J(A, B) = \frac{|G_n(A) \cap G_n(B)|}{|G_n(A) \cup G_n(B)|}$$ 其中 $G_n(\cdot)$ 为 n-gram 集合。当 $J(A, B) > \theta$(默认 $\theta = 0.8$)时判定为近似重复。 ## 架构 ``` graph LR D["Data Files
JSON / JSONL / CSV"] --> S["Schema
(Inferred or Defined)"] S --> R["Rule Engine
9 Rules + YAML Custom"] R --> A["Anomaly Detector
IQR / Z-score"] A --> L["LLM Evaluator
(Optional)"] L --> Rep["Quality Report
MD / JSON / HTML"] Rep --> Fix["Auto Fix
Dedup · PII · Trim"] Fix --> Diff["Report Diff
Before vs After"] style R fill:#0969da,color:#fff,stroke:#0969da style A fill:#8b5cf6,color:#fff,stroke:#8b5cf6 style Rep fill:#2da44e,color:#fff,stroke:#2da44e style Fix fill:#e5534b,color:#fff,stroke:#e5534b style D fill:#1a1a2e,color:#e0e0e0,stroke:#444 style S fill:#1a1a2e,color:#e0e0e0,stroke:#444 style L fill:#1a1a2e,color:#e0e0e0,stroke:#444 style Diff fill:#1a1a2e,color:#e0e0e0,stroke:#444 ``` ### 分层架构 | 层 | 模块 | 职责 | |:---|:---|:---| | **Rules** | `rules/` | 9 条内置规则 + YAML 自定义规则 + 4 种预设规则集 | | **Anomaly** | `anomaly.py` | IQR / Z-score 双方法,数值 + 长度异常检测 | | **Schema** | `schema.py` | 自动推断字段类型、约束、必填项 | | **Report** | `report.py` | Markdown / JSON / HTML 三格式报告生成 | | **Fix** | `fix.py` | 去重 · 去空白 · PII 脱敏自动修复 | | **Diff** | `diff.py` | 两次报告对比,量化质量变化 | | **LLM** | `llm/` | Anthropic / OpenAI 指令清晰度和回复相关性评估 | | **Watch** | `watch.py` | 文件变更自动重检,防抖机制 | | **Interface** | `cli.py` · `mcp_server.py` | CLI + MCP 11 工具 | ## 核心创新 ### 1. 可组合规则引擎 9 条内置规则覆盖四个质量维度,可通过 YAML 自定义规则扩展,无需写 Python 代码: | 规则 | 级别 | 说明 | |:---|:---|:---| | `required_fields` | Error | 必填字段检查 | | `non_empty` | Error | 关键字段非空检查 | | `format_valid` | Error | 数据类型校验 | | `score_valid` | Error | 评分范围有效性 | | `length_bounds` | Warning | 文本长度边界 | | `pii_detection` | Warning | 邮箱 / 手机号 / 身份证号检测 | | `garbled_text` | Warning | 乱码 / 异常字符检测 | | `repetitive_text` | Warning | 文本内过度重复检测 | | `language_consistency` | Info | 多语言一致性(中/英/日/韩/俄/阿拉伯/泰) | 4 种预设规则集:`default`(通用)、`sft`(SFT 数据专用)、`preference`(偏好数据专用)、`llm`(LLM 质量评估)。
YAML 自定义规则
``` # rules.yaml rules: - field: instruction check: min_length value: 10 severity: error - field: response check: max_length value: 10000 severity: warning - field: category check: enum values: ["qa", "chat", "code", "math"] severity: error ``` ``` knowlyr-datacheck check data.json --rules-file rules.yaml ```可选依赖
``` pip install knowlyr-datacheck[stats] # 统计分析 (numpy, scipy) pip install knowlyr-datacheck[mcp] # MCP 服务器 pip install knowlyr-datacheck[llm] # LLM 智能检查 pip install knowlyr-datacheck[yaml] # YAML 规则配置 pip install knowlyr-datacheck[watch] # Watch 模式 pip install knowlyr-datacheck[all] # 全部功能 ```Python SDK
``` from datacheck import DataChecker, QualityReport checker = DataChecker() result = checker.check_file("data.json", schema_path="schema.json") report = QualityReport(result) report.print_summary() report.save("./report.md") ```DataRecipe 集成
``` # 验证 DataRecipe 分析结果中的合成数据 knowlyr-datacheck validate ./analysis_output/my_dataset/ knowlyr-datacheck validate ./analysis_output/my_dataset/ -d custom_data.json ```规则详情
| 规则 ID | 级别 | 说明 | |:---|:---|:---| | `required_fields` | Error | 检查必填字段是否存在 | | `non_empty` | Error | 检查关键字段是否为空 | | `format_valid` | Error | 检查数据类型是否正确 | | `score_valid` | Error | 检查评分范围有效性 | | `length_bounds` | Warning | 文本长度范围检查 | | `pii_detection` | Warning | 邮箱 / 手机号 / 身份证号 | | `garbled_text` | Warning | 乱码 / 异常字符 | | `repetitive_text` | Warning | 文本内过度重复 | | `language_consistency` | Info | 多语言一致性 |完整命令列表
| 命令 | 功能 | |:---|:---| | `knowlyr-datacheck check架构图
``` graph LR Radar["RadarDiscovery"] --> Recipe["Recipe
Analysis"] Recipe --> Synth["Synth
Generation"] Recipe --> Label["Label
Annotation"] Synth --> Check["Check
Quality"] Label --> Check Check --> Audit["Audit
Model Audit"] Crew["Crew
Deliberation Engine"] Agent["Agent
RL Framework"] ID["ID
Identity Runtime"] Crew -.->|能力定义| ID ID -.->|身份 + 记忆| Crew Crew -.->|轨迹 + 奖励| Agent Agent -.->|优化策略| Crew style Check fill:#0969da,color:#fff,stroke:#0969da style Crew fill:#2da44e,color:#fff,stroke:#2da44e style Agent fill:#8b5cf6,color:#fff,stroke:#8b5cf6 style ID fill:#e5534b,color:#fff,stroke:#e5534b style Radar fill:#1a1a2e,color:#e0e0e0,stroke:#444 style Recipe fill:#1a1a2e,color:#e0e0e0,stroke:#444 style Synth fill:#1a1a2e,color:#e0e0e0,stroke:#444 style Label fill:#1a1a2e,color:#e0e0e0,stroke:#444 style Audit fill:#1a1a2e,color:#e0e0e0,stroke:#444 ```
knowlyr — 多维度数据质量验证与统计异常检测
标签:DNS解析, IQR, LLM训练数据, MCP, Petitpotam, PII检测, Python, Z-score, 云计算, 去重, 大模型, 开源项目, 异常检测, 数据清洗, 数据管道, 数据质量, 数据预处理, 数据验证, 文档结构分析, 无后门, 统计分析, 自动修复, 规则引擎, 软件工程, 逆向工具