每周AI新闻：VR + 大语言模型 = 未来版Siri ？

作者：FancyPig | 发布时间：2023-06-18 10:11:21 | 更新时间：2023-06-18 10:54:47

视频讲解

欢迎来到《人工智能时间线》最新一期！本期我们带来了一系列激动人心的研究成果。首先，想象一下Otter语言模型与增强现实技术相结合，成为Siri的未来，其中一个视频展示了人工智能如何在打麻将时助你一臂之力。此外，Meta发布的MusicGen是一款文本到音乐的神奇模型，让我们一起来欣赏一下它的作品！

我们也要关注到，Meta通过开源人工智能研究为世界做出了巨大贡献。然而，谷歌却对Imagine Editor持谨慎态度，拒绝向公众发布。英伟达的最新研究ATT3D，将文本到3D生成时间大幅缩短，实现了3D物体变形等功能。

Mind2Web是一个网络通用代理，能按照语言指令在任何网站上自动化完成复杂任务。最新研究表面，语言模型在因果推断方面表现不佳。此外，FasterVIT是NVIDIA实验室发布的一种新的视觉转换器架构，具有很大潜力。

关于人工智能如何拯救世界的热门博客文章值得一读。Matting anything是一项去除任何图像背景的研究，使用了SAM技术。Photoshop和ClipDrop之间的对比展示了他们在图像处理方面的优劣之处。

InterLM这个新模型正在逼近GPT-4的性能。然而，ChatGPT在生成笑话方面表现不佳，90%的生成笑话都是重复的。近7000个subreddits因抗议Reddit CEO的决策而陷入黑暗……

备用播放线路

相关资料

OTTER-E

项目地址 https://otter-ntu.github.io/
相关论文 https://arxiv.org/abs/2306.05425
Youtube演示视频 https://www.youtube.com/watch?v=K8o_LKGQJhs&t=0s

MusicGEN

data-postsbox="{"id":39303,"title":"Meta开源神器 | 不懂音乐，也可以AI生成音乐了！","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2023/06/20230614012251560.jpg","cover_video":"https://v.pigsec.cn/INSTALL%20MusicGen%20NOW%21%20Generate%20AMAZING%20MUSIC%20Using%20META%27s%20AI%21_ts.m3u8","views":2297,"comment_count":2,"category":"knowledge","is_forum_post":false}">{"id":39303,"title":"Meta开源神器 | 不懂音乐，也可以AI生成音乐了！","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2023/06/20230614012251560.jpg","cover_video":"https://v.pigsec.cn/INSTALL%20MusicGen%20NOW%21%20Generate%20AMAZING%20MUSIC%20Using%20META%27s%20AI%21_ts.m3u8","views":2297,"comment_count":2,"category":"knowledge","is_forum_post":false}

项目地址 https://ai.honu.io/papers/musicgen/
相关论文 https://arxiv.org/pdf/2306.05284.pdf
Github项目地址 https://github.com/facebookresearch/audiocraft

图文讲解

欢迎回到《人工智能时间线》的另一集，本周我们其实没有什么疯狂的大新闻，但我们确实有很多很酷的新研究。像你现在看到的这个是一个增强现实与一个叫做Otter的语言模型相结合，你可以和它聊天以获得现实生活中的帮助。想象一下，它与苹果Vision Pro相结合，这可能就是Siri的未来。另一个视频显示，这个人在Otter的帮助下打麻将，这也可能是作弊吧，有一个人工智能协助你玩。

由Meta发布的MusicGen是一个文本到音乐的模型，它在生成音乐方面非常出色。

让我们只听一个结果。基本上就是MusicLM，但要好得多。而且我还会单独制作一个关于它的深度视频，所以请大家订阅，敬请关注。在这一点上，有些人说，真正的开放人工智能是Meta，因为Meta通过开源人工智能研究为世界贡献的工作数量实在是巨大。

Llama、PyTorch、Segment Anything、Detectron等都是由Meta为大家免费发布的。当人们在抨击Metaverse是一个失败之类的时候，我认为所有的钱都花在了人工智能的研究上，而且他们正在开放源代码，这让我们的世界得到了很大的改善。所以向扎克致敬。

同时，谷歌根本没有开放任何人工智能研究，对于Imagine Editor，他们声称，注意，由于对负责任的人工智能的担忧，我们不会向公众发布Imagine Editor。

诶，不管了。我们在6个月前就已经能够在开源中做到这一点了，它离最先进的技术还有一段距离。

英伟达的最新研究，ATT3D，

已经将文本到3D的生成时间从的15分钟降低到了2秒。

这太疯狂了。还可以实现3D物体之间的变形等功能。同时跟踪所有事物，无处不在，一个伟大的电影参考，也可能是视频编辑的终极目标之一。

如果这项研究真的很普遍，它将成为编辑的救星，为任何专业视频制作带来变革。他们的官方网页上有这个互动演示，如果你愿意，可以试试。

VULCAN指出了一种新型的大型语言模型漏洞，

它依靠它们幻化出一个不存在的库，推荐给人们导入，攻击者然后找到这些幻化的导入，创建它们，使它们具有恶意的有效载荷，导入这些幻化的库的人将自动在他们自己的机器上添加恶意软件。

这听起来确实像某种只发生在电影中的科幻网络攻击。一项名为Mind2Web的新研究，它是一个网络的通用代理，可以按照语言指令在任何网站上完成复杂的任务。

订机票、预约、寻找最低的奖品，任何你说的任务。

我真的认为，由于这些语言模型，未来的HAPCHA验证码会变得越来越古怪。

但语言模型能从相关关系中推断出因果关系吗？嗯，答案是否定的。

这项研究表明，LLM的因果推断能力几乎接近于随机猜测，所以是的，他们在这方面相当糟糕。即使你对它进行了微调，它仍然无法泛化。另一方面，OpenAI和DeemMind将向英国政府开放他们的源代码和模型，可能是出于AI安全的考虑。

虽然这很不错，但OpenAI、谷歌和Anthropic禁止使用他们的AI模型生成的输出内容来训练其他模型。有些人引用他们没有护城河，但主要问题是服务条款会在法庭上站住脚吗？因为谷歌也使用了OpenAI的生成内容。OpenAI要起诉谷歌了吗？

谈到护城河，这个名为InterLM的新模型正在追赶GPT-4的性能。

这还真有点疯狂。FasterVIT，一个新的视觉转化器架构由NVIDIA实验室发布，它看起来非常有前途，与之前的顶级表现者相比，它的速度和准确性权衡得分最高。

为什么人工智能会拯救世界？这是由Mark Andresen写的博客，上周炸开了锅，如果你愿意，可以读一读。

Matting anything是一项为任何图像去除背景的研究，而这项研究仍在使用SAM。

想象一下，如果用SAMHQ代替，这能改善多少，这是我在以前的AI新闻中提到的一项研究。咳，免费的博士论文，咳，咳，是的。总之，有人甚至把它放在一个非常混乱的视频上，并制作了一个抠图任意视频。

Photoshop失败的病毒传播比我想象的要多得多，也许是因为结果更真实，

特别是当你将其与本周发布的Stability的ClipDrop未裁剪功能进行比较时。ClipDrop是由Stability AI制作的Dream Studio的官方免费替代品，可以像Photoshop中的生成填充一样进行未裁剪。

请看这里，ClipDrop生成的部分有点模糊，而Photoshop看起来更清晰和自然。

可能是因为Firefly训练的是逼真和高分辨率的库存图像，具有其优点。说到Firefly，Adobe如此自信其生成式AI不会违反任何版权法，以至于他们将支付您的法律费用，如果您因使用它而陷入麻烦的话。

这个来自Runway Gen 1的结果也有点像病毒，它是一个视频风格的转移，但它只是看起来非常令人满意。对于更多的背景，Runway Gen 1是一个风格转移模型，意味着你需要一个视频作为参考，Runway Gen 2是一个纯文本到视频的合成模型。

而这是一个你根本不需要任何参考视频。

ChatGPT很有趣，但不好玩。这项研究表明，90%的ChatGPT生成的笑话都是相同的25个笑话。

他们说，ChatGPT也是过度适应于特定的笑话结构，这使得它们变得特别无聊和可预测。这也可能暗示了它的创意能力，比如我总觉得ChatGPT创造或建议的标题很垃圾。

另一方面，iOS上的ChatGPT现在支持Siri和快捷键，这很不错。

近7000个subreddits陷入黑暗，以抗议Reddit CEO的恶劣决定使其为疑似IPO而获利。

这是废话，因为他们要对Reddit的API收费，这将基本摧毁很多围绕Reddit的第三方应用。例如，名为Apollo的Reddit改进版，为手机用户提供更好的用户界面，将被迫关闭，否则将迫使他们每年花费2000万美元，只是为了API请求。

大多数与人工智能相关的子版块也都关闭了，包括我最喜欢的R/StableDiffusion和r/chatgpt。

日本的山地救援队只花了20秒就找到了一个失踪者，而他们的智能手机却完全不在范围内。

我最初以为是关于人工智能的，所以我报道了它，但原来是新的软银无人机在转发卫星的GPS信号，然后定位在范围之外的智能手机。不过它还是很变态。

TemporalNet 2.0已经发布了，现在它还会同时处理前一帧的光流图。

所有您现在看到的结果都没有使用Epson进行处理。顺便说一下。与此同时，这里还有一些图像到图像的视频结果。这个是由TokyoJab制作的。

他只在Instagram和Reddit上活跃，由于他平时的栖息地r/StableDiffusion现在瘫痪了，他的所有工作流都被锁在了栏杆后，这真是太遗憾了。还有其他相当令人印象深刻的，比如这个把一个中年男子跳舞变成可爱的女孩。

人工智能影响者的未来真的在向我们逼近。让我们用更多的二维码动漫女孩来结束这段话，这就是我在上周的节目中提到的二维码ControlNet而且它还能用，这很不错。

喜欢并订阅，这样我就能知道你是否真的喜欢这集《人工智能新闻》，如果你还没有，请关注我的Twitter，我们下期再见。

标签：人工智能, 网络攻击, ChatGPT, openai, Photoshop, 语言模型, 视频制作, meta ai, meta ai平台, meta Ai产品, 安全漏洞, PyTorch, vr, MusicGen, 人工智能语言, reddit, meta, 搜索人工智能模型, ATT3D, 增强现实, InterLM, 源代码安全, 图像去背景, 图像到视频转换, GEN-2, GEN-1, Segment Anything

每周AI新闻：VR + 大语言模型 = 未来版Siri ？

相关阅读

视频讲解

相关资料

OTTER-E

MusicGEN

Imagen Editor

ATT3D

一次性跟踪所有的事情和所有的地方

新型LLM攻击手段

Mind2Web

大型语言模型能否从相关性推断因果关系？

OpenAI和DeepMind vs 英国政府

OpenAI、谷歌和Anthropic禁止使用生成的输出内容

InterLM

FasterViT

人工智能将拯救世界

MattingAnything

ClipDrop

Runway Gen-1

ChatGPT很有趣，但不搞笑

日本的山岳救援

TemporalNet 2.0

Tokyo Jab

中年男子AI生成可爱的女孩

图文讲解