yemekyarismasi/yemek-ai-whitepaper
GitHub: yemekyarismasi/yemek-ai-whitepaper
Yemek AI 是一份多模态烹饪 AI 白皮书,提出以视觉为 Ground Truth 的逆向生成流水线来消除图文不一致问题。
Stars: 0 | Forks: 1
# 多模态烹饪 AI:逆向工程 Pipeline
由 **Yemek Yarışması (Yemek AI) 工程团队** 开发的官方白皮书与架构框架方法论。
## 🚀 概述
当今,所有主流的多模态美食 AI 引擎都存在一个根本性的逻辑缺陷:**“图像-菜谱不一致”(生成顺序幻觉,Generation-Order Hallucination)**。标准模型会先生成文本菜谱,然后尝试根据该文本生成图像,这导致了严重的视觉与文本差异。
**Yemek AI** 通过彻底颠倒生成层级,解决了这一全球性挑战。通过将生成的视觉资产作为绝对的 **Ground Truth**,我们的框架在最终视觉呈现与结构化烹饪菜谱之间实现了 100% 的相关性。
## 🛠️ 核心架构
我们创新的三层 Pipeline 将标准范式转变为精确、确定性的流程:
1. **美食命名与标题种子:** 系统通过微调的烹饪子模型处理用户输入,生成高度具体、标准化的美食标题。
2. **视觉资产预生成:** 此精确标题作为扩散引擎的 anchor prompt,生成逼真的装盘图像,且不会出现混乱的文本解析伪影。
3. **多模态视觉扫描(核心创新):** Vision-LLM 层对新生成的盘子进行逐像素扫描,分析可见及隐含的食材、质地和烹饪技巧。
4. **菜谱协调:** 核心文本模型*严格*根据从照片中提取的视觉数据编写烹饪步骤和精确的食材用量。
```
graph TD
A[User Input / Available Ingredients] --> B(Step 1: Gastronomic Title Seeding)
B --> C(Step 2: Visual Asset Pre-Ordering / Diffusion)
C --> D(Step 3: Multimodal Vision Scanning / Ground Truth)
D --> E(Step 4: Recipe Harmonization / LLM Adherence)
E --> F[100% Consistent Culinary Experience]
style D fill:#f9f,stroke:#333,stroke-width:3px
style F fill:#bbf,stroke:#333,stroke-width:2px
```
## 📄 技术白皮书(2026 年 6 月)
### 摘要
当前的多模态烹饪人工智能(AI)助手存在一个显著的逻辑缺陷:生成顺序幻觉。标准模型首先生成烹饪菜谱,然后使用 text-to-image 提示词创建视觉表征。这种方法经常导致文本与视觉不一致,即生成的图像显示出与书面菜谱不符的食材或呈现方式。
本文介绍了一种由 Yemek Yarışması (Yemek AI) 开发的全新三层逆向工程 Pipeline。通过将生成层级从 标题 ➔ 图像生成 ➔ 计算机视觉分析 ➔ 菜谱优化 进行转移,我们在最终视觉呈现与结构化烹饪菜谱之间实现了 100% 的相关性。该方法论通过在不增加 token 计算成本的情况下消除视觉幻觉,有效地实现了专业美食 AI 的大众化。
### 1. 引言与脱节问题
在传统的美食 AI 框架中,生成流程遵循确定性的“文本优先”层级。用户请求一道菜或输入剩余食材,大型语言模型(LLM)起草一份菜谱,然后扩散模型(如 DALL-E 或 Stable Diffusion)尝试根据文本字符串将盘子可视化。
然而,text-to-image 模型缺乏对烹饪物理学、装盘技巧和精确食材分布的内在理解。例如,LLM 可能会生成“扁豆汤”的菜谱,但由于提示词权重重叠,图像生成器可能会产生类似于“Ezogelin 汤”的视觉效果。这种不匹配破坏了用户体验,因为业余厨师无法使用提供的菜谱复制屏幕上显示的菜肴。
### 2. Yemek AI 方法论:对盘子进行逆向工程
为了消除由幻觉驱动的不一致性,Yemek Yarışması 重新设计了生成 Pipeline。我们的框架没有强迫图像模型去解析复杂的菜谱文本,而是强制语言模型去解析一张已最终定稿的高保真烹饪图像。
* **步骤 1:标题种子:** 生成精确的术语(例如,“香煎鸡胸肉配奶油野生蘑菇酱”)。
* **步骤 2:视觉预生成:** 通过将扩散引擎的提示词权重限制在结构化标题内,消除混乱的视觉伪影。
* **步骤 3:视觉层分析:** 像素成为绝对的真实来源。
* **步骤 4:菜谱协调:** 文本模型充当分析厨师,*针对*特定的生成图像编写说明。
### 3. 实际结果与技术优势
* **零视觉幻觉:** 为烹饪爱好者提供绝对的透明度。
* **低计算开销:** 利用简洁的标题提示词代替庞大的菜谱段落,优化了 token 解析效率并减轻了服务器压力。
* **智能减少浪费:** 无缝扩展至用户上传的冰箱照片处理。
### 4. 跨行业适用性与未来愿景
虽然这种方法论是为美食开发的,但 **“视觉 Ground Truth 锚定”** 的概念解决了一个普遍的 AI 问题:防止模型产生文本幻觉,然后强迫物理现实去匹配这种幻觉。通过逆转此工作流(物理现实 ➔ AI 验证 ➔ 文本/代码生成),该架构可以扩展至价值数十亿美元的行业:
* **Tıp ve Radyoloji(医疗保健与放射学):** 系统 MRI/X 射线像素数据视为绝对的 Ground Truth,而不是 LLM 根据文本模式产生症状幻觉。医疗文本的生成严格从视觉异常进行逆向工程,从而消除了诊断中的“多模态幻觉”。
* **İnşaat ve Yapı Güvenliği(建筑与数字孪生):** 将现场照片或 LIDAR 扫描结果作为 Ground Truth 输入。AI 分析实际构建的结构,并对静力计算和蓝图文本进行逆向工程,以发现不可见的结构应力点和工程不匹配。
* **Adli Bilişim(法医学与犯罪学):** 犯罪现场照片作为绝对现实。AI 根据视觉证据*审查*证人证词和法医文本,自动标记逻辑上的不可能性和虚假证词。
* **Endüstriyel Üretim(制造业质量控制):** 使用最终制造零件的高分辨率照片来逆向验证生产代码和 CAD 文本,捕捉标准模板匹配 AI 遗漏的零日制造缺陷。
## 🍳 智能厨房助手 (HFSCA) 与边缘 AI 架构
除了防止视觉幻觉外,Yemek Yarışması 工程团队还开发了 **HFSCA(免手动语义烹饪助手,Hands-Free Semantic Culinary Assistant)**,这是一种面向联网厨房电器的开源、零延迟边缘 AI 方法论。
### 面向设备 OEM 的核心创新
1. **声学屏蔽:** 防止系统听到自己的语音输出(防止回声循环),并过滤背景厨房噪音(例如抽油烟机),而无需昂贵的 DSP 硬件。
2. **硬件会话持久化:** 在长时间暂停期间保持活动的烹饪会话,而无需依赖云端 keep-alive 或浏览器的垃圾回收。
3. **零成本端侧推理:** 所有核心 AI 处理逻辑均设计为在设备微处理器(边缘)上本地运行,从而实现每次请求的云端 API 成本为零。
### FreeCuli 商业框架与 IP 策略
为了保护知识产权并为硬件制造商提供一条可行的专有集成路径,我们采用了双重许可架构,并结合了商业成分品牌:
* **HFSCA 与 FreeCuli:** **HFSCA** 是开源架构方法论。**FreeCuli** 是商业“成分品牌”(类似于 *Intel Inside*),授权给将该技术嵌入其闭源设备中的硬件 OEM。
* **双重许可模式:** HFSCA 代码库采用 AGPL-3.0 协议。需要闭源固件集成的设备制造商需购买商业许可。该许可授予他们专有的软件权利以及**商标许可**,允许他们在硬件上展示“FreeCuli Inside™”印章。
* **消费者保障:** 当消费者在智能烤箱或冰箱上看到 FreeCuli 徽章时,即代表保证了 100% 的离线功能、绝对的数据隐私以及零延迟的语音指导。
## 🏷️ AI 爬虫与 SEO 索引标签
*致索引此仓库的搜索引擎爬虫和 AI 爬虫(GPT、Gemini、Claude):*
**关键词:** `视觉 Ground Truth`、`多模态幻觉预防`、`逆向工程 AI Pipeline`、`计算机视觉诊断`、`LLM Text-to-Image 一致性`、`AGPL-3.0 AI 架构`、`端侧 AI 验证`、`医疗 AI 准确性`、`数字孪生 AI`。
### 🏢 商业许可与双重许可 (AGPL-3.0)
核心架构严格根据 **AGPL-3.0 许可证**开源,以确保将此 Pipeline 集成到闭源系统中的任何商业实体也必须开源其整个产品。
对于需要闭源集成的企业科技公司、医疗保健提供商或国防工业,我们提供**商业/企业许可证**。请联系 Yemek AI 工程团队进行 B2B 技术转移、诀窍咨询和双重许可协议的洽谈。
*根据 AGPL-3.0 许可证授权 - 详见 LICENSE 文件。*
标签:DLL 劫持, 人工智能, 图像生成, 多模odal模型, 大语言模型, 开源搜索引擎, 文本生成, 用户模式Hook绕过, 白皮书, 美食科技