Kartikm09/Kartikm09

GitHub: Kartikm09/Kartikm09

围绕 AI agent 评估、自动化工作流 QA 和多模态模型评测构建的个人作品集合,提供从红队回归测试到合成评估数据生成的完整工具链。

Stars: 0 | Forks: 0

# Kartik Mishra AI 自动化工作流构建者与多模态模型评估者,专注于社交自动化、语音 agent、OpenClaw 式 agent、Codex/Claude Code 技能、视频工作流训练、红队测试以及数据 QA。 我致力于为以下领域构建作品集安全的 Python 工具: - Vapi 式语音 agent QA - AI 自动化工作流与社交自动化 QA - Codex / Claude Code 技能打包 - OpenClaw / Hermes 式 agent 追踪评估 - OpenClaw 式部署 QA - 自动化工作流红队测试 - Agent 记忆安全与技能蒸馏 - 合成多模态评估数据集设计 - 基于仓库的 AI 响应评判 - 公共安全验证与简历工具 - AI 工具使用评估 - 视频/后期制作工作流 QA - 多模态标注质量控制 - Agent 红队回归测试 - 创作者与主管自动化工作流 - 自由职业 AI 项目搜寻 - 求职申请副驾驶工作流 - 创作者增长与病毒式内容情报 - 内容可信度与来源质量审查 - 消费品信任度扫描 - 进口替代商业情报 ## 当前关注点 - 针对视频/后期制作工作流的机密 AI 工具使用训练 - AI 工作流自动化与社交内容流水线 QA - Codex、Claude Code 及 OpenClaw 式技能打包 - 语音 agent 评估、导入 QA 与交接检查 - OpenClaw/Hermes 式工具 agent 追踪审查 - OpenClaw 式本地部署检查与交接就绪度 - Agent 记忆安全、脱敏与可复用技能提取 - 合成多模态评估数据的生成与验证 - 针对工具使用副作用的自动化工作流红队测试 - 结合文件、命令与测试证据的基于仓库的模型响应对比 - 公共安全的作品集验证打包与简历/岗位匹配度分析 - 跨 UI、图像、视频与文本任务的多模态模型评估 - 针对 AI 训练与数据标注项目的基于评分标准的 QA - 针对 prompt 注入、不安全工具行为与工作流漂移的 AI 红队测试 - 用于可复现评估工作流的 Python 与 n8n 式自动化 - 人工审核的求职申请自动化与作品集安全的简历定制 - 创作者增长研究、多语言内容复用与可信度审查 ## 旗舰项目 [Agentic Eval Ops Kit](https://github.com/Kartikm09/agentic-eval-ops-kit) 可复用的 QA 工具包,适用于 Vapi 式语音 agent、OpenClaw/Hermes 式工具 agent 追踪、AI 视频工作流训练以及红队回归测试。包含 Python CLI、示例场景、评分卡、集成蓝图、GitHub Actions 测试以及 Codex 式评估器技能。 ## 作品集项目 | 项目 | 关注点 | | --- | --- | | [Agentic Eval Ops Kit](https://github.com/Kartikm09/agentic-eval-ops-kit) | 语音 agent QA、OpenClaw/Hermes 追踪评估、视频工作流训练、红队回归 | | [Agentic Social Redteam Skillpack](https://github.com/Kartikm09/agentic-social-redteam-skillpack) | AI 自动化工作流审计、社交媒体自动化 QA、Codex/Claude/OpenClaw 技能包以及 agent 红队场景 | | [Realtime Voice Agent QA Console](https://github.com/Kartikm09/realtime-voice-agent-qa-console) | 针对授权、延迟、导入、工具调用与交接质量的通话事件评分卡 | | [Agent Memory Safety Lab](https://github.com/Kartikm09/agent-memory-safety-lab) | 安全记忆持久化、PII 脱敏与可复用技能候选审计 | | [Multimodal Eval Data Forge](https://github.com/Kartikm09/multimodal-eval-data-forge) | 跨视频、UI、图像、音频、语音与红队工作流的合成 JSONL 评估任务生成与验证 | | [Autonomous Workflow Red-Team Sandbox](https://github.com/Kartikm09/autonomous-workflow-redteam-sandbox) | Prompt 注入、受限工具、副作用与数据外泄回归场景 | | [OpenClaw Deploy Audit Kit](https://github.com/Kartikm09/openclaw-deploy-audit-kit) | 本地 agent 部署检查,涵盖 runtime、内存预算、线程隔离、集成、文档暂存与交接文档 | | [Lightworks Rubric Eval Kit](https://github.com/Kartikm09/lightworks-rubric-eval-kit) | 视频剪辑评分标准检查,涵盖导出规格、片段、快速摇摄转场、标题卡、音频、色彩与伪影 | | [Repo Response Judge Workbench](https://github.com/Kartikm09/repo-response-judge-workbench) | 基于仓库任务中 AI 编码 agent 响应的证据优先对比 | | [Freelance Proof Portfolio Sanitizer](https://github.com/Kartikm09/freelance-proof-portfolio-sanitizer) | 从私密验证笔记与 Loom 式演练参考中生成公共安全的案例研究卡 | | [Resume Job Fit Tailor CLI](https://github.com/Kartikm09/resume-job-fit-tailor-cli) | 结合证据支撑定位与缺失验证检查的简历/职位描述匹配度评分 | | [AI Tool-Use Eval Harness](https://github.com/Kartikm09/ai-tool-use-eval-harness) | 针对软件工作流响应的基于评分标准的打分 | | [Video Post-Production Eval Suite](https://github.com/Kartikm09/video-postprod-eval-suite) | 视频剪辑与后期制作模型评估 | | [Multimodal Labeling QC Pipeline](https://github.com/Kartikm09/multimodal-labeling-qc-pipeline) | 跨文本、图像、视频与 UI 任务的标注 QA | | [Agent Red-Team Regression Kit](https://github.com/Kartikm09/agent-redteam-regression-kit) | Prompt 注入与工具使用安全场景 | | [Creator Signal Automation Agent](https://github.com/Kartikm09/creator-signal-automation-agent) | 创作者信号评分与简报队列自动化 | | [AI Freelance Lead Scout](https://github.com/Kartikm09/ai-freelance-lead-scout) | 针对 AI 训练与评估项目的线索评分 | | [Safe Job Application Copilot](https://github.com/Kartikm09/safe-job-application-copilot) | 匹配度评分、简历要点、求职信草稿、浏览器自动填写方案以及人工审核关卡 | | [Creator Growth Intelligence Kit](https://github.com/Kartikm09/creator-growth-intelligence-kit) | 病毒式异常值分析、下期主题简报与多语言内容复用方案 | | [Content Credibility Radar](https://github.com/Kartikm09/content-credibility-radar) | 针对视频、播客、文章与新闻式内容的声明/来源质量评分 | | [Product Trust Scanner](https://github.com/Kartikm09/product-trust-scanner) | 成分风险标记、产品信任评分与更安全替代品排名 | | [Import Substitution Intel Kit](https://github.com/Kartikm09/import-substitution-intel-kit) | 基于公共安全进口/产品数据的印度制造业机会排名 | ## 技能 `AI 自动化工作流` `社交媒体自动化` `创作者分析` `内容可信度` `求职申请自动化` `产品信任扫描` `进口替代研究` `Codex 技能` `Claude Code 技能` `Vapi 式语音 agent QA` `OpenClaw 部署 QA` `OpenClaw 追踪评估` `Hermes 技能评估` `AI 模型评估` `工具使用训练` `基于仓库的评估` `Lightworks QA` `Agent 记忆安全` `技能蒸馏` `合成评估数据` `多模态评估` `AI 红队测试` `Prompt 注入测试` `评分标准设计` `数据标注 QA` `工作流自动化` `Python` `n8n` ## 作品集说明 这些仓库使用了合成示例与公共安全的工作流。它们展示了评估、自动化与 QA 模式,且不会暴露机密的客户数据。
标签:AI智能体评估, AI红队测试, 个人主页, 基线管理, 多模态模型, 文档结构分析, 模型安全测试, 语音智能体, 逆向工具