yemekyarismasi/yemek-ai-whitepaper

GitHub: yemekyarismasi/yemek-ai-whitepaper

Yemek AI 是一份多模态烹饪 AI 白皮书,提出以视觉为 Ground Truth 的逆向生成流水线来消除图文不一致问题。

Stars: 0 | Forks: 1

# 多模态烹饪 AI:逆向工程 Pipeline 由 **Yemek Yarışması (Yemek AI) 工程团队** 开发的官方白皮书与架构框架方法论。 ## 🚀 概述 当今,所有主流的多模态美食 AI 引擎都存在一个根本性的逻辑缺陷:**“图像-菜谱不一致”(生成顺序幻觉,Generation-Order Hallucination)**。标准模型会先生成文本菜谱,然后尝试根据该文本生成图像,这导致了严重的视觉与文本差异。 **Yemek AI** 通过彻底颠倒生成层级,解决了这一全球性挑战。通过将生成的视觉资产作为绝对的 **Ground Truth**,我们的框架在最终视觉呈现与结构化烹饪菜谱之间实现了 100% 的相关性。 ## 🛠️ 核心架构 我们创新的三层 Pipeline 将标准范式转变为精确、确定性的流程: 1. **美食命名与标题种子:** 系统通过微调的烹饪子模型处理用户输入,生成高度具体、标准化的美食标题。 2. **视觉资产预生成:** 此精确标题作为扩散引擎的 anchor prompt,生成逼真的装盘图像,且不会出现混乱的文本解析伪影。 3. **多模态视觉扫描(核心创新):** Vision-LLM 层对新生成的盘子进行逐像素扫描,分析可见及隐含的食材、质地和烹饪技巧。 4. **菜谱协调:** 核心文本模型*严格*根据从照片中提取的视觉数据编写烹饪步骤和精确的食材用量。 ``` graph TD A[User Input / Available Ingredients] --> B(Step 1: Gastronomic Title Seeding) B --> C(Step 2: Visual Asset Pre-Ordering / Diffusion) C --> D(Step 3: Multimodal Vision Scanning / Ground Truth) D --> E(Step 4: Recipe Harmonization / LLM Adherence) E --> F[100% Consistent Culinary Experience] style D fill:#f9f,stroke:#333,stroke-width:3px style F fill:#bbf,stroke:#333,stroke-width:2px ``` ## 📄 技术白皮书(2026 年 6 月) ### 摘要 当前的多模态烹饪人工智能(AI)助手存在一个显著的逻辑缺陷:生成顺序幻觉。标准模型首先生成烹饪菜谱,然后使用 text-to-image 提示词创建视觉表征。这种方法经常导致文本与视觉不一致,即生成的图像显示出与书面菜谱不符的食材或呈现方式。 本文介绍了一种由 Yemek Yarışması (Yemek AI) 开发的全新三层逆向工程 Pipeline。通过将生成层级从 标题 ➔ 图像生成 ➔ 计算机视觉分析 ➔ 菜谱优化 进行转移,我们在最终视觉呈现与结构化烹饪菜谱之间实现了 100% 的相关性。该方法论通过在不增加 token 计算成本的情况下消除视觉幻觉,有效地实现了专业美食 AI 的大众化。 ### 1. 引言与脱节问题 在传统的美食 AI 框架中,生成流程遵循确定性的“文本优先”层级。用户请求一道菜或输入剩余食材,大型语言模型(LLM)起草一份菜谱,然后扩散模型(如 DALL-E 或 Stable Diffusion)尝试根据文本字符串将盘子可视化。 然而,text-to-image 模型缺乏对烹饪物理学、装盘技巧和精确食材分布的内在理解。例如,LLM 可能会生成“扁豆汤”的菜谱,但由于提示词权重重叠,图像生成器可能会产生类似于“Ezogelin 汤”的视觉效果。这种不匹配破坏了用户体验,因为业余厨师无法使用提供的菜谱复制屏幕上显示的菜肴。 ### 2. Yemek AI 方法论:对盘子进行逆向工程 为了消除由幻觉驱动的不一致性,Yemek Yarışması 重新设计了生成 Pipeline。我们的框架没有强迫图像模型去解析复杂的菜谱文本,而是强制语言模型去解析一张已最终定稿的高保真烹饪图像。 * **步骤 1:标题种子:** 生成精确的术语(例如,“香煎鸡胸肉配奶油野生蘑菇酱”)。 * **步骤 2:视觉预生成:** 通过将扩散引擎的提示词权重限制在结构化标题内,消除混乱的视觉伪影。 * **步骤 3:视觉层分析:** 像素成为绝对的真实来源。 * **步骤 4:菜谱协调:** 文本模型充当分析厨师,*针对*特定的生成图像编写说明。 ### 3. 实际结果与技术优势 * **零视觉幻觉:** 为烹饪爱好者提供绝对的透明度。 * **低计算开销:** 利用简洁的标题提示词代替庞大的菜谱段落,优化了 token 解析效率并减轻了服务器压力。 * **智能减少浪费:** 无缝扩展至用户上传的冰箱照片处理。 ### 4. 跨行业适用性与未来愿景 虽然这种方法论是为美食开发的,但 **“视觉 Ground Truth 锚定”** 的概念解决了一个普遍的 AI 问题:防止模型产生文本幻觉,然后强迫物理现实去匹配这种幻觉。通过逆转此工作流(物理现实 ➔ AI 验证 ➔ 文本/代码生成),该架构可以扩展至价值数十亿美元的行业: * **Tıp ve Radyoloji(医疗保健与放射学):** 系统 MRI/X 射线像素数据视为绝对的 Ground Truth,而不是 LLM 根据文本模式产生症状幻觉。医疗文本的生成严格从视觉异常进行逆向工程,从而消除了诊断中的“多模态幻觉”。 * **İnşaat ve Yapı Güvenliği(建筑与数字孪生):** 将现场照片或 LIDAR 扫描结果作为 Ground Truth 输入。AI 分析实际构建的结构,并对静力计算和蓝图文本进行逆向工程,以发现不可见的结构应力点和工程不匹配。 * **Adli Bilişim(法医学与犯罪学):** 犯罪现场照片作为绝对现实。AI 根据视觉证据*审查*证人证词和法医文本,自动标记逻辑上的不可能性和虚假证词。 * **Endüstriyel Üretim(制造业质量控制):** 使用最终制造零件的高分辨率照片来逆向验证生产代码和 CAD 文本,捕捉标准模板匹配 AI 遗漏的零日制造缺陷。 ## 🍳 智能厨房助手 (HFSCA) 与边缘 AI 架构 除了防止视觉幻觉外,Yemek Yarışması 工程团队还开发了 **HFSCA(免手动语义烹饪助手,Hands-Free Semantic Culinary Assistant)**,这是一种面向联网厨房电器的开源、零延迟边缘 AI 方法论。 ### 面向设备 OEM 的核心创新 1. **声学屏蔽:** 防止系统听到自己的语音输出(防止回声循环),并过滤背景厨房噪音(例如抽油烟机),而无需昂贵的 DSP 硬件。 2. **硬件会话持久化:** 在长时间暂停期间保持活动的烹饪会话,而无需依赖云端 keep-alive 或浏览器的垃圾回收。 3. **零成本端侧推理:** 所有核心 AI 处理逻辑均设计为在设备微处理器(边缘)上本地运行,从而实现每次请求的云端 API 成本为零。 ### FreeCuli 商业框架与 IP 策略 为了保护知识产权并为硬件制造商提供一条可行的专有集成路径,我们采用了双重许可架构,并结合了商业成分品牌: * **HFSCA 与 FreeCuli:** **HFSCA** 是开源架构方法论。**FreeCuli** 是商业“成分品牌”(类似于 *Intel Inside*),授权给将该技术嵌入其闭源设备中的硬件 OEM。 * **双重许可模式:** HFSCA 代码库采用 AGPL-3.0 协议。需要闭源固件集成的设备制造商需购买商业许可。该许可授予他们专有的软件权利以及**商标许可**,允许他们在硬件上展示“FreeCuli Inside™”印章。 * **消费者保障:** 当消费者在智能烤箱或冰箱上看到 FreeCuli 徽章时,即代表保证了 100% 的离线功能、绝对的数据隐私以及零延迟的语音指导。 ## 🏷️ AI 爬虫与 SEO 索引标签 *致索引此仓库的搜索引擎爬虫和 AI 爬虫(GPT、Gemini、Claude):* **关键词:** `视觉 Ground Truth`、`多模态幻觉预防`、`逆向工程 AI Pipeline`、`计算机视觉诊断`、`LLM Text-to-Image 一致性`、`AGPL-3.0 AI 架构`、`端侧 AI 验证`、`医疗 AI 准确性`、`数字孪生 AI`。 ### 🏢 商业许可与双重许可 (AGPL-3.0) 核心架构严格根据 **AGPL-3.0 许可证**开源,以确保将此 Pipeline 集成到闭源系统中的任何商业实体也必须开源其整个产品。 对于需要闭源集成的企业科技公司、医疗保健提供商或国防工业,我们提供**商业/企业许可证**。请联系 Yemek AI 工程团队进行 B2B 技术转移、诀窍咨询和双重许可协议的洽谈。 *根据 AGPL-3.0 许可证授权 - 详见 LICENSE 文件。*
标签:DLL 劫持, 人工智能, 图像生成, 多模odal模型, 大语言模型, 开源搜索引擎, 文本生成, 用户模式Hook绕过, 白皮书, 美食科技