lboquillon/chipchain

GitHub: lboquillon/chipchain

一个基于多语言搜索协议的半导体供应链情报技能,通过强制来源验证和术语映射,从东亚四地监管文件中产出可审计的供应商关系报告。

Stars: 1 | Forks: 0

chipchain — Trace the chain. From mine to fab. In four languages.

License: MIT Python 3.10+ Claude Code Skill OpenClaw Compatible

# chipchain 如果你问 LLM “谁给 TSMC 供应光刻胶?”,你会得到一个自信、结构清晰的回答,这建立在从 Wikipedia 摘要、Reddit 讨论帖以及模型训练时英语互联网上的其他内容抓取的训练数据之上。无论其描述的供应商关系是否仍然存在、是否曾经存在,或是从训练语料库的统计模式中编造出来的,这个回答听起来都很权威。仅从输出是无法分辨的。无论答案对错,那种自信的语气是完全一样的。 这就是今天大多数人使用 AI 进行研究的方式:问它记住了什么,相信其表达的自信程度,并且没有任何机制来验证任何事情。我们正在把有史以来最强大的研究工具当成一只非常昂贵的鹦鹉来用。 chipchain 的运作方式恰恰相反。**先搜索,后回答。** 当它收到一个问题时,它做的第一件事就是搜索。不是回忆。是搜索。它会访问 DART 拉取韩国公告,查询 EDINET 获取日本年报,阅读 cninfo 上的中国招股书,检查 KIPRIS 和 J-PlatPat 上的专利共同申请,从 Comtrade 拉取双边贸易流向数据。它使用字典翻译会搞错的正确本地术语,搜索韩语、日语和中文的行业媒体。最终报告中的每一个主张,都可以追溯到在该次会话中实际获取并阅读过的来源,而不是从可能过时、不完整或错误的训练数据中回忆出来的。 如果技能跳过搜索并凭记忆回答,即使答案碰巧是正确的,那也是一次失败的任务。一个无来源的正确答案与一个无来源的幻觉是无法区分的,而 chipchain 的全部意义就在于让这种区别可见。 目标不是产生答案。目标是产生支持人类判断的有来源证据。任何阅读 chipchain 报告的人都应该能够顺着每条引用回到原始文件或文章并自行验证。如果做不到,报告就是失败的。 **一个问题。四种语言。数十个来源。零幻觉。80 秒。** 为 [Claude Code](https://claude.ai/code) 和 [OpenClaw](https://openclaw.ai) 构建。兼容 [Agent Skills](https://agentskills.io) 开放标准。也可在 [ClawHub](https://clawhub.ai/lboquillon/chipchain) 上获取。 ## 适用人群 研究 TSMC、Samsung、SK Hynix 及其二级材料供应商的半导体供应商关系的股票分析师。追踪东亚地区出口管制、供应链瓶颈和本地化进程的政策研究人员。绘制一级以外材料依赖关系的采购和供应链团队,那里隐藏着真正的集中风险。需要用原始语言搜索韩国 DART 公告、日本 EDINET 报告、中国招股书和台湾 MOPS 披露的 OSINT 研究人员。厌倦了从聊天机器人那里获得无来源答案、对自己半导体持仓进行尽职调查的散户投资者。任何尝试过用 Google Translate 翻译半导体行业术语却得到无用结果的人。 ## 目录 - [适用人群](#who-this-is-for) - [存在原因](#why-this-exists) - [产出内容](#what-it-produces) - [Google Translate 在这里会辜负你](#google-translate-will-fail-you-here) - [如何保持诚实](#how-it-stays-honest) - [内部构成](#whats-inside) - [查询类型](#query-types) - [安装说明](#installation) - [路线图](#roadmap) - [贡献指南](#contributing) ## 存在原因 LLM 对供应链的看法会自信地出错。它们编造供应商关系,虚构文件引用,并将训练数据作为 freshly researched fact(新研究的事实)呈现出来。训练数据本身是可靠来源、过时信息、任何人都可以编辑的 Wikipedia 摘要、从未读过监管文件的 Reddit 用户评论,以及在互联网上出现次数足以被摄入的完全错误的主张的混合体。投资者如果根据幻觉出来的供应商关系行事,可能会损失真金白银。政策分析师如果引用虚构的文件引用,将永久丧失信誉。在供应链情报中,幻觉的代价不是一张令人尴尬的聊天机器人截图,而是实际的经济损失。 问题不在于 AI 不能做研究。问题在于没人教它展示工作过程。 chipchain 是一种结构化的研究方法,它使每一个主张都可审计。“来源优先引用”强制 AI 在发言前拥有证据。强制性的搜索日志准确显示了搜索了什么、用什么语言、以及什么没有结果。六个置信度等级区分了本次会话中实际发现的内容与来自技能数据库或训练知识的内容。如果 AI 不能写出来源标签,该主张就不会进入报告。该系统的设计使得 agent(智能体)最容易的路径是诚实,因为编造一个主张需要违反多个硬性约束,而报告一个缺口只需要说一句“我找不到这个”。 除了幻觉问题,大约 80% 的半导体供应链信息隐藏在语言障碍之后。问一个更难的问题: 答案就在韩语的 [DART 公告](https://dart.fss.or.kr) 里,在 `주요 거래처`(主要客户)这一节标题下。或者在日本公司的 [EDINET 年报](https://disclosure2.edinet-fsa.go.jp) 里,在 `主要仕入先`(主要供应商)部分。或者在中国 STAR Market 于 [cninfo](https://cninfo.com.cn) 的招股书中,在 `前五名供应商采购额`(前五名供应商采购金额)的披露里。或者在某篇 [ET News](https://etnews.com) 文章中被提及一次,该文章使用了 `프리커서` 这个术语,这是韩国半导体媒体中“precursor”(前驱体)实际使用的行业外来语。Google Translate 会给你 `전구체`,这会返回完全不同的搜索结果。 chipchain 知道去哪里找、搜索什么、以及在哪种语言中使用哪个术语。你的分析师不会说韩语、日语和中文。这个会。 ## 产出内容 真实的调查。真实的来源。真实的置信度评级。 ### 调查 1:“谁向 Samsung 的平泽工厂供应电子级 HF?” 三个并行研究 agent。韩语、日语和英语搜索同时运行。**80 秒。** 试着用人类分析师团队做到这一点。 **它发现了什么:** - **确定了 6 家供应商**:Soulbrain、ENF Technology、Wonick Materials、Stella Chemifa、Morita Chemical、Foosung - **完整的 2019 年前 vs 2019 年后供应链重组**:日本的出口限制如何永久性地将 Samsung 的 HF 采购从日本供应商转移到韩国国内供应商 - **韩国从日本进口的 HF 下降了 87.6%**(2018 年至 2022 年),来源为本次会话中访问的一篇真实文章 - **引用了 12+ 个具体来源**:피치원미디어、녹색경제신문、BusinessKorea、ZDNet Korea、Nikkei、ET News、The Worldfolio、Kabutan - Soulbrain 标记为 **CONFIRMED**(已确认,多个独立韩国媒体来源)。Stella Chemifa 的 2019 年前角色标记为 **STRONG INFERENCE**(强推断,Nikkei + 营收地区,但未找到直接的 Samsung 确认) - 一个“我无法验证的内容”部分列出了 6 个具体缺口,以及 4 个可操作的后续步骤(具体的 DART 公告查询、Comtrade HS 编码、EDINET 代码) *结果:带有来源置信度的供应链图谱* ![Supply chain restructuring diagram](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/66f1a974e2014122.png) *它无法验证的内容:诚实的缺口、失败的搜索和可操作的后续步骤* ![Evidence chain with gaps and next steps](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/828fc35ba2014124.png) ### 调查 2:“如果中国限制萤石出口,下游会有什么影响?” 完整的情景分析。多个 agent。贸易数据、公司文件、国防智库报告。 **它发现了什么:** - 完整的 **氟级联**:萤石 → HF → NF₃ + WF₆ + CF₄ + C₄F₈ + SF₆ + 含氟聚合物 + LiPF₆(电动汽车电池对同一原料的竞争) - **Stella Chemifa 运营着中国合资子公司**(Zhejiang Blue Star Chemical、Quzhou BDX)专门为了确保萤石,这是通过实时搜索发现的 - **IDA 文件 D-5379** 模拟了军事冲突情景下 71,847 吨的萤石缺口 - **中国自己的储量正在枯竭**:储采比为 11.75 年,而全球平均为 31.82 年。中国正在成为来自蒙古的净 *进口国* - **Koura/Sojitz 正在福冈建设一家以墨西哥萤石为来源的 HF 工厂**,这是日本第一家非中国来源的 HF 工厂 - 逐国风险评估、替代供应评估,以及直到第三年的按周影响时间表 ## Google Translate 在这里会辜负你 英语研究最多覆盖半导体供应链的 20%。其余的隐藏在机器翻译无法跨越的语言障碍之后,因为机器翻译不知道半导体工程师实际上是如何说话的。 ### 问题所在 如果你把“etch”(蚀刻)用 Google Translate 翻译成韩语,你会得到 `에칭`。韩国半导体工程师和行业媒体使用 `식각`,这是一个韩语汉字词。在 ET News 上搜索 `에칭` 你会得到噪音。搜索 `식각` 你会得到每一篇关于 Samsung 蚀刻工艺开发的文章。 如果你把“supplier”(供应商)用 Google Translate 翻译成日语,你可能会得到 `サプライヤー`。EDINET 财务文件——那些法律上披露谁供应给谁的文件——使用 `仕入先`。错过这个术语,就错过了数据。 如果你在研究中文的光刻胶,你需要知道中国大陆说 `光刻胶` 而台湾说 `光阻`。完全不同的词。搜索错了,你看到的就是错误国家的供应链。 ### 本技能掌握的内容 **280+ 个行业特定的术语映射**,涵盖韩语、日语、简体中文和繁体中文。这些是监管文件、行业媒体、专利文件和公司披露中使用的实际术语。 #### 韩语 (한국어):教科书韩语失效的地方 | Google 给你的 | 行业实际使用的 | 为什么重要 | |---|---|---| | 에칭 (etching) | **식각** | 每篇 ET News 文章、每份 DART 公告都使用 식각 | | 디포지션 (deposition) | **증착** | 韩国半导体媒体中通用 | | 익스포저 (exposure) | **노광** | 标准的光刻术语 | | 재료 (material) | **소재** | 在供应链语境中,소재 占主导地位 | | 회사 (company) | **업체** | 行业媒体默认用法 | 此外还有英语中没有对应词的术语: - **소부장** (소재+부품+장비):“材料/零部件/设备”的缩写,出现在自 2019 年以来的每一份韩国半导体政策文件中 - **국산화**:“本地化/国产化”,追踪韩国取代日本供应商进程的 *那个* 搜索词 - **탈일본**:字面意思是“脱日本”,2019-2020 年进口替代的流行词 #### 日语 (日本語):混合文字的迷宫 日语半导体语言使用独特的汉字、片假名和原始英语缩写混合。这种模式是特定的: | 类别 | 使用的文字 | 示例 | |---|---|---| | 工艺缩写 | 英语 | ALD、CVD、CMP、EUV(从不翻译) | | 传统化学 | 汉字 | フッ酸 (HF)、過酸化水素 (H₂O₂) | | 较新概念 | 片假名 | フォトレジスト、エッチング | | 商业/文件术语 | 汉字 | 仕入先(供应商)、歩留まり(良率) | 关键的拼写陷阱:**硅晶圆 = ウェーハ**,而不是 ウエハー。Shin-Etsu 和 SUMCO 都使用 ウェーハ。用错误的拼写搜索会得到零结果。 EDINET 文件使用 `主要仕入先`(主要供应商)来揭示供应商关系。行业媒体使用片假名外来语 `サプライヤー`。不同的术语,不同的语境,不同的搜索策略。 #### 中文:同一行业,两本字典 十一个关键术语在中国大陆和台湾之间是完全不同的词: | 概念 | 大陆 (简体) | 台湾 (繁體) | 影响 | |---|---|---|---| | 硅 | **硅** (gui) | **矽** (xi) | 级联影响数百个复合术语 | | 芯片 | **芯片** | **晶片** | 完全不同的词 | | 光刻胶 | **光刻胶** | **光阻** | 完全不同的词 | | 光刻 | **光刻** | **微影** | 完全不同的词 | | 蚀刻 | **刻蚀** | **蝕刻** | 相同汉字,顺序相反 | | 外延 | **外延** | **磊晶** | 不同的词 | | 等离子体 | **等离子体** | **電漿** | 不同的词 | | 纳米 | **纳米** | **奈米** | 不同的词 | | 工艺节点 | **工艺** |製程** | 不同的词 | | 集成电路 | **集成电路** | **積體電路** | 不同的词 | | IP 核 | **IP核** | **矽智財** | 完全不同的概念框架 | 中国特有的政策词汇开启了一个全新的研究维度: - **卡脖子** (qia bozi,“被掐住脖子”):技术瓶颈的普遍隐喻。搜索 `卡脖子 半导体` 你会找到每一篇关于半导体供应链漏洞的中国文章 - **国产替代**:“国内替代”,追踪中国取代外国供应商的进展 - **大基金**:“大基金”,国家半导体投资工具 ### 按国家查找供应商披露的位置 | 国家 | 文件系统 | 揭示供应商的章节 | |---|---|---| | 韩国 | DART (dart.fss.or.kr) | `주요 거래처`(主要贸易伙伴),`원재료 매입 현황`(原材料采购现状) | | 日本 | EDINET | `主要仕入先`(主要供应商),`主要販売先`(主要客户 >10% 营收) | | 台湾 | MOPS (mops.twse.com.tw) | `主要供應商`(主要供应商),`前十大供應商`(前十大供应商) | | 中国 | cninfo (cninfo.com.cn) | `前五名供应商采购额`(前五名供应商采购金额) | 中国 STAR Market 招股书(`招股说明书`)按 **姓名和金额** 披露前五名供应商。这是中国半导体供应链图谱最丰富的公开来源,而且几乎中国以外没人知道它的存在。 ## 如何保持诚实 半导体供应链情报如果错误就毫无用处。一个自信的编造比没有回答更糟糕。chipchain 的整体设计始于这样一个前提:LLM 被问及供应链时的默认行为是合理地产生幻觉,而技能的工作就是让这种行为在结构上变得困难。 ### 先搜索,后知晓 这是第零规则。当 chipchain 收到一个问题时,它在开口之前先搜索。它不会咨询记忆来寻找草稿答案然后再寻找来源确认。它去数据库、文件、媒体、专利注册处,并根据它实际找到的内容构建答案。如果搜索返回为空,那被报告为一个结果,而不是用一个合理的猜测来掩盖。如果每次搜索都返回为空,报告会说“我找不到这方面的证据”,这份报告比编造的更有价值,因为它准确地告诉用户缺口在哪里以及下一步该搜索什么。 大多数 AI 工具的工作方式恰恰相反:先回答,后引用,如果引用不存在,就编造一个听起来正确的或者干脆跳过。chipchain 颠倒了这一点。没有来源,就没有主张。 ### 为什么这需要自己的协议 LLM 会产生幻觉。它们编造合理的供应商关系,虚构文件引用,并将训练知识作为 freshly researched fact 呈现。最危险的幻觉不是明显错误的那个。而是听起来完全正确的那个,因为没有你可以核查的来源。这些模型学习的训练数据是可靠的主要来源、多年前的陈旧信息、任何匿名用户都可以编辑的 Wikipedia 文章、从未打开过监管文件的 Reddit 用户评论,以及在足够多网站上出现从而显得权威的错误主张的混合体。当模型产生一个答案时,它无法区分这些来源中哪一个对输出做出了贡献,你也无法区分。 chipchain 的构建是为了让 agent 最容易的路径是诚实。编造一个主张需要违反多个硬性约束。报告一个缺口只需要写一句“我找不到这个”。系统的设计使得说实话比撒谎更容易,而且每个输出都可以被任何想要检查的人审计。 ### “制造 ≠ 供应” 供应链分析中最常见的单一幻觉,也是引发了一条明确规则的那个: 制造一种材料和将其供应给特定客户需要完全不同的证据。一家公司的产品目录证明他们制造某物。一份将他们列为主要贸易伙伴的 DART 公告证明了商业关系。专利共同申请暗示了合作。营收地区缩小了客户范围。这些是不同等级的证据,chipchain 对它们的处理方式不同,因为把“制造”混同为“供应”正是 LLM 默认产生的那种合理推断,并且在有人检查的那一刻就会悄然崩溃。 ### 六级置信度体系 每个发现都根据 **它是如何获得的** 来评级,而不是根据它听起来有多合理: | 等级 | 含义 | 示例 | |---|---|---| | **CONFIRMED (YYYY)** | 本次会话访问的来源,带年份 | “DART 公告 2024,章节 주요 거래처 列出了公司 X” | | **STRONG INFERENCE** | 2+ 个独立信号,本次会话 | “专利共同申请 + 供应商获奖 + 营收地区” | | **MODERATE INFERENCE** | 1 个间接信号,本次会话 | “仅会议共同署名” | | **SPECULATIVE** | 逻辑推导 | “全球只有 3 家公司生产这个” | | **FROM SKILL DATABASE** | 实体文件,今日未验证 | “entities/korea.md 列出了公司 X” | | **FROM TRAINING KNOWLEDGE** | LLM 记忆,可靠性最低 | “我记得公司 Y 在这个领域” | **CONFIRMED (2025 来源)** 比 **CONFIRMED (2020 来源)** 具有更高的信任度。年份限定符防止陈旧数据伪装成新鲜情报。而且 CONFIRMED 的意思是“我刚才确实访问了这个来源”。不是“我记得在哪里见过这个”。不是“这通常被报道”。是本次会话中实际获取、实际阅读的。 ### 六条硬性规则 | # | 规则 | 原因 | |---|---|---| | 1 | **永远不要说“根据 DART 公告”,除非你确实获取了它** | “根据”意味着访问。如果你没有访问,你就在撒谎。 | | 2 | **永远不要编造 URL、文件号或专利号** | 说“在 Y 上搜索 X”,而不是编造一个引用。 | | 3 | **永远不要将实体数据库信息呈现为已确认的当前事实** | “被列为供应商” ≠ “供应”。数据库是一个假设。 | | 4 | **永远不要用合理的猜测填补空白** | 诚实的“我不知道”每次都胜过自信的编造。 | | 5 | **永远不要将训练知识通过技能文件回环** | 读取你自己的数据库不能验证任何事情。 | | 6 | **永远不要声称搜索了你没搜索的东西** | 失败的搜索是信息。报告它们。 | ### 来源优先引用 最重要的结构性反幻觉规则:**在主张之前写来源标签,而不是之后。** ``` ## 错误 (事后,易于伪造) Soulbrain is Samsung's primary HF supplier [CONFIRMED] ## 正确 (溯源优先,强制先有证据后有声明) [FOUND: 피치원미디어 2024-03-15] → Soulbrain is Samsung's primary HF supplier ``` 如果你不能写出 `[SOURCE]` 标签,你就没有证据。该主张不属于报告。这是一个小小的格式选择,但它显著改变了 agent 的行为:它不能先陈述一个结论,然后再去寻找支持它的东西。它必须先找到证据,让结论随之而来。 ### 强制性搜索日志 每份报告都包含完整的搜索日志:搜索了什么、用什么语言、返回了什么,包括失败的搜索。这使调查可审计,并防止 agent 声称进行了它从未执行的搜索。空结果不是失败,它是排除可能性的证据。 ``` | # | Query | Language | Source | Result | |---|---|---|---|---| | 1 | "삼성전자 불산 공급업체" | KO | ET News | 3 relevant articles | | 2 | "ステラケミファ 主要販売先" | JA | WebSearch | Paywalled, snippet only | | 3 | DART 솔브레인 사업보고서 | KO | OpenDART | Filing not accessible | ``` 一个展示工作过程(包括死胡同)的研究者比一个只展示结论的研究者更有用。 ### 强制性缺口部分 每份报告都以“我无法验证的内容”结束:搜索了什么但一无所获、根本没有搜索什么、以及哪些具体的后续步骤可以填补缺口。这个部分的存在是因为研究工具能告诉你的最有价值的事情是剩余的不确定性在哪里。如果每个缺口都用合理的猜测填补而不是诚实地报告,用户就不知道该把自己的精力导向哪里。一份有五个缺口和清晰后续步骤的 chipchain 报告,比一份零缺口但无法验证其中任何内容的幻觉报告更具可操作性。 ### 在实践中 来自 HF 供应商调查: - `[FOUND: 피치원미디어, BusinessKorea, ZDNet Korea]` → Soulbrain:**CONFIRMED (2024 来源)**,作为 Samsung 的主要 HF 供应商 - `[FOUND: Nikkei + revenue geography]` → Stella Chemifa 2019 年前:**STRONG INFERENCE**,未找到直接的 Samsung 确认 - 6 件它 **无法验证** 的具体事情,诚实列出 - 4 个 **可操作的后续步骤**:具体的 DART 查询、Comtrade HS 编码、EDINET 文件代码 没有编造的文件号。没有虚构的 URL。没有伪装成研究的自信猜测。重点不是产生一份完美的报告。重点是产生一份可信的报告。 ## 内部构成 ### 调查流水线 ``` User Question │ ▼ ┌─────────────────────────────┐ │ 1. CLASSIFY │ Supplier ID? Bottleneck? Scenario? │ Route to workflow │ Change detection? Reverse lookup? └──────────┬──────────────────┘ ▼ ┌─────────────────────────────┐ │ 2. LOAD CONTEXT │ Only files needed for THIS question │ Lexicon + Entities + │ Korean question? → ko.md + korea.md │ Sources for the region │ Japan materials? → ja.md + japan.md └──────────┬──────────────────┘ ▼ ┌─────────────────────────────┐ │ 3. MULTI-AGENT RESEARCH │ Parallel sub-agents: │ 3-4 languages │ - Filing search (DART/EDINET/MOPS/cninfo) │ simultaneously │ - Industry press (ET News/DigiTimes/JiWei) │ │ - Patent/academic co-filing │ │ - Trade data (Comtrade/e-Stat) └──────────┬──────────────────┘ ▼ ┌─────────────────────────────┐ │ 4. TRIANGULATE │ Patent co-filing + revenue geography + │ Multiple signals │ supplier award + conference co-authorship │ required │ + trade data + chemical registrations └──────────┬──────────────────┘ ▼ ┌─────────────────────────────┐ │ 5. REPORT │ CONFIRMED → STRONG INFERENCE → │ Grade every claim │ MODERATE → SPECULATIVE → │ Source everything │ SKILL DATABASE → TRAINING KNOWLEDGE │ Flag every gap │ + "What I Could Not Verify" └─────────────────────────────┘ ``` ### 技能内容 - **200+ 家公司** 分布在 `entities/` 文件(韩国、日本、台湾、中国
标签:BSD, Claude, CVE检测, DLL 劫持, ESC4, OSINT, Python, RAG, TSMC, 专利分析, 东亚市场, 中国巨潮资讯, 事实核查, 企业关系图谱, 供应链情报, 供应链溯源, 供应链风险管理, 光刻胶, 初级商品调研, 半导体供应链, 多语言AI, 大语言模型, 数据挖掘, 无后门, 日本EDINET, 晶圆厂, 检索增强生成, 自动化报告, 跨境贸易, 逆向工具, 金融报表分析, 韩国DART