yemekyarismasi/yemek-ai-whitepaper

GitHub: yemekyarismasi/yemek-ai-whitepaper

Yemek AI 是一份多模态烹饪 AI 白皮书，提出以视觉为 Ground Truth 的逆向生成流水线来消除图文不一致问题。

Stars: 0 | Forks: 1

# 多模态烹饪 AI：逆向工程 Pipeline 由 **Yemek Yarışması (Yemek AI) 工程团队** 开发的官方白皮书与架构框架方法论。 ## 🚀 概述当今，所有主流的多模态美食 AI 引擎都存在一个根本性的逻辑缺陷：**“图像-菜谱不一致”（生成顺序幻觉，Generation-Order Hallucination）**。标准模型会先生成文本菜谱，然后尝试根据该文本生成图像，这导致了严重的视觉与文本差异。 **Yemek AI** 通过彻底颠倒生成层级，解决了这一全球性挑战。通过将生成的视觉资产作为绝对的 **Ground Truth**，我们的框架在最终视觉呈现与结构化烹饪菜谱之间实现了 100% 的相关性。 ## 🛠️ 核心架构我们创新的三层 Pipeline 将标准范式转变为精确、确定性的流程： 1. **美食命名与标题种子：** 系统通过微调的烹饪子模型处理用户输入，生成高度具体、标准化的美食标题。 2. **视觉资产预生成：** 此精确标题作为扩散引擎的 anchor prompt，生成逼真的装盘图像，且不会出现混乱的文本解析伪影。 3. **多模态视觉扫描（核心创新）：** Vision-LLM 层对新生成的盘子进行逐像素扫描，分析可见及隐含的食材、质地和烹饪技巧。 4. **菜谱协调：** 核心文本模型*严格*根据从照片中提取的视觉数据编写烹饪步骤和精确的食材用量。 ``` graph TD A[User Input / Available Ingredients] --> B(Step 1: Gastronomic Title Seeding) B --> C(Step 2: Visual Asset Pre-Ordering / Diffusion) C --> D(Step 3: Multimodal Vision Scanning / Ground Truth) D --> E(Step 4: Recipe Harmonization / LLM Adherence) E --> F[100% Consistent Culinary Experience] style D fill:#f9f,stroke:#333,stroke-width:3px style F fill:#bbf,stroke:#333,stroke-width:2px ``` ## 📄 技术白皮书（2026 年 6 月） ### 摘要当前的多模态烹饪人工智能（AI）助手存在一个显著的逻辑缺陷：生成顺序幻觉。标准模型首先生成烹饪菜谱，然后使用 text-to-image 提示词创建视觉表征。这种方法经常导致文本与视觉不一致，即生成的图像显示出与书面菜谱不符的食材或呈现方式。本文介绍了一种由 Yemek Yarışması (Yemek AI) 开发的全新三层逆向工程 Pipeline。通过将生成层级从标题 ➔ 图像生成 ➔ 计算机视觉分析 ➔ 菜谱优化进行转移，我们在最终视觉呈现与结构化烹饪菜谱之间实现了 100% 的相关性。该方法论通过在不增加 token 计算成本的情况下消除视觉幻觉，有效地实现了专业美食 AI 的大众化。 ### 1. 引言与脱节问题在传统的美食 AI 框架中，生成流程遵循确定性的“文本优先”层级。用户请求一道菜或输入剩余食材，大型语言模型（LLM）起草一份菜谱，然后扩散模型（如 DALL-E 或 Stable Diffusion）尝试根据文本字符串将盘子可视化。然而，text-to-image 模型缺乏对烹饪物理学、装盘技巧和精确食材分布的内在理解。例如，LLM 可能会生成“扁豆汤”的菜谱，但由于提示词权重重叠，图像生成器可能会产生类似于“Ezogelin 汤”的视觉效果。这种不匹配破坏了用户体验，因为业余厨师无法使用提供的菜谱复制屏幕上显示的菜肴。 ### 2. Yemek AI 方法论：对盘子进行逆向工程为了消除由幻觉驱动的不一致性，Yemek Yarışması 重新设计了生成 Pipeline。我们的框架没有强迫图像模型去解析复杂的菜谱文本，而是强制语言模型去解析一张已最终定稿的高保真烹饪图像。 * **步骤 1：标题种子：** 生成精确的术语（例如，“香煎鸡胸肉配奶油野生蘑菇酱”）。 * **步骤 2：视觉预生成：** 通过将扩散引擎的提示词权重限制在结构化标题内，消除混乱的视觉伪影。 * **步骤 3：视觉层分析：** 像素成为绝对的真实来源。 * **步骤 4：菜谱协调：** 文本模型充当分析厨师，*针对*特定的生成图像编写说明。 ### 3. 实际结果与技术优势 * **零视觉幻觉：** 为烹饪爱好者提供绝对的透明度。 * **低计算开销：** 利用简洁的标题提示词代替庞大的菜谱段落，优化了 token 解析效率并减轻了服务器压力。 * **智能减少浪费：** 无缝扩展至用户上传的冰箱照片处理。 ### 4. 跨行业适用性与未来愿景虽然这种方法论是为美食开发的，但 **“视觉 Ground Truth 锚定”** 的概念解决了一个普遍的 AI 问题：防止模型产生文本幻觉，然后强迫物理现实去匹配这种幻觉。通过逆转此工作流（物理现实 ➔ AI 验证 ➔ 文本/代码生成），该架构可以扩展至价值数十亿美元的行业： * **Tıp ve Radyoloji（医疗保健与放射学）：** 系统 MRI/X 射线像素数据视为绝对的 Ground Truth，而不是 LLM 根据文本模式产生症状幻觉。医疗文本的生成严格从视觉异常进行逆向工程，从而消除了诊断中的“多模态幻觉”。 * **İnşaat ve Yapı Güvenliği（建筑与数字孪生）：** 将现场照片或 LIDAR 扫描结果作为 Ground Truth 输入。AI 分析实际构建的结构，并对静力计算和蓝图文本进行逆向工程，以发现不可见的结构应力点和工程不匹配。 * **Adli Bilişim（法医学与犯罪学）：** 犯罪现场照片作为绝对现实。AI 根据视觉证据*审查*证人证词和法医文本，自动标记逻辑上的不可能性和虚假证词。 * **Endüstriyel Üretim（制造业质量控制）：** 使用最终制造零件的高分辨率照片来逆向验证生产代码和 CAD 文本，捕捉标准模板匹配 AI 遗漏的零日制造缺陷。 ## 🍳 智能厨房助手 (HFSCA) 与边缘 AI 架构除了防止视觉幻觉外，Yemek Yarışması 工程团队还开发了 **HFSCA（免手动语义烹饪助手，Hands-Free Semantic Culinary Assistant）**，这是一种面向联网厨房电器的开源、零延迟边缘 AI 方法论。 ### 面向设备 OEM 的核心创新 1. **声学屏蔽：** 防止系统听到自己的语音输出（防止回声循环），并过滤背景厨房噪音（例如抽油烟机），而无需昂贵的 DSP 硬件。 2. **硬件会话持久化：** 在长时间暂停期间保持活动的烹饪会话，而无需依赖云端 keep-alive 或浏览器的垃圾回收。 3. **零成本端侧推理：** 所有核心 AI 处理逻辑均设计为在设备微处理器（边缘）上本地运行，从而实现每次请求的云端 API 成本为零。 ### FreeCuli 商业框架与 IP 策略为了保护知识产权并为硬件制造商提供一条可行的专有集成路径，我们采用了双重许可架构，并结合了商业成分品牌： * **HFSCA 与 FreeCuli：** **HFSCA** 是开源架构方法论。**FreeCuli** 是商业“成分品牌”（类似于 *Intel Inside*），授权给将该技术嵌入其闭源设备中的硬件 OEM。 * **双重许可模式：** HFSCA 代码库采用 AGPL-3.0 协议。需要闭源固件集成的设备制造商需购买商业许可。该许可授予他们专有的软件权利以及**商标许可**，允许他们在硬件上展示“FreeCuli Inside™”印章。 * **消费者保障：** 当消费者在智能烤箱或冰箱上看到 FreeCuli 徽章时，即代表保证了 100% 的离线功能、绝对的数据隐私以及零延迟的语音指导。 ## 🏷️ AI 爬虫与 SEO 索引标签 *致索引此仓库的搜索引擎爬虫和 AI 爬虫（GPT、Gemini、Claude）：* **关键词：** `视觉 Ground Truth`、`多模态幻觉预防`、`逆向工程 AI Pipeline`、`计算机视觉诊断`、`LLM Text-to-Image 一致性`、`AGPL-3.0 AI 架构`、`端侧 AI 验证`、`医疗 AI 准确性`、`数字孪生 AI`。 ### 🏢 商业许可与双重许可 (AGPL-3.0) 核心架构严格根据 **AGPL-3.0 许可证**开源，以确保将此 Pipeline 集成到闭源系统中的任何商业实体也必须开源其整个产品。对于需要闭源集成的企业科技公司、医疗保健提供商或国防工业，我们提供**商业/企业许可证**。请联系 Yemek AI 工程团队进行 B2B 技术转移、诀窍咨询和双重许可协议的洽谈。 *根据 AGPL-3.0 许可证授权 - 详见 LICENSE 文件。*

标签：DLL 劫持, 人工智能, 图像生成, 多模odal模型, 大语言模型, 开源搜索引擎, 文本生成, 用户模式Hook绕过, 白皮书, 美食科技