每周AI新闻:VR + 大语言模型 = 未来版Siri ?

作者:FancyPig | 发布时间: | 更新时间:

相关阅读

data-postsbox="{"id":38671,"title":"英伟达席卷Computex展会,本周人工智能新闻一网打尽!","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2023/06/20230606143000641.jpg","cover_video":"https://v.pigsec.cn/WEEKLY%20AI%20NEWS-%20Next%20Gen%20Catfishing-The%20AI%20Timeline%203_ts.m3u8","views":1498,"comment_count":3,"category":"knowledge","is_forum_post":false}">{"id":38671,"title":"英伟达席卷Computex展会,本周人工智能新闻一网打尽!","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2023/06/20230606143000641.jpg","cover_video":"https://v.pigsec.cn/WEEKLY%20AI%20NEWS-%20Next%20Gen%20Catfishing-The%20AI%20Timeline%203_ts.m3u8","views":1498,"comment_count":3,"category":"knowledge","is_forum_post":false}

视频讲解

欢迎来到《人工智能时间线》最新一期!本期我们带来了一系列激动人心的研究成果。首先,想象一下Otter语言模型与增强现实技术相结合,成为Siri的未来,其中一个视频展示了人工智能如何在打麻将时助你一臂之力。此外,Meta发布的MusicGen是一款文本到音乐的神奇模型,让我们一起来欣赏一下它的作品!

我们也要关注到,Meta通过开源人工智能研究为世界做出了巨大贡献。然而,谷歌却对Imagine Editor持谨慎态度,拒绝向公众发布。英伟达的最新研究ATT3D,将文本到3D生成时间大幅缩短,实现了3D物体变形等功能。

Mind2Web是一个网络通用代理,能按照语言指令在任何网站上自动化完成复杂任务。最新研究表面,语言模型在因果推断方面表现不佳。此外,FasterVIT是NVIDIA实验室发布的一种新的视觉转换器架构,具有很大潜力。

关于人工智能如何拯救世界的热门博客文章值得一读。Matting anything是一项去除任何图像背景的研究,使用了SAM技术。Photoshop和ClipDrop之间的对比展示了他们在图像处理方面的优劣之处。

InterLM这个新模型正在逼近GPT-4的性能。然而,ChatGPT在生成笑话方面表现不佳,90%的生成笑话都是重复的。近7000个subreddits因抗议Reddit CEO的决策而陷入黑暗……

相关资料

OTTER-E

MusicGEN

data-postsbox="{"id":39303,"title":"Meta开源神器 | 不懂音乐,也可以AI生成音乐了!","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2023/06/20230614012251560.jpg","cover_video":"https://v.pigsec.cn/INSTALL%20MusicGen%20NOW%21%20Generate%20AMAZING%20MUSIC%20Using%20META%27s%20AI%21_ts.m3u8","views":2277,"comment_count":2,"category":"knowledge","is_forum_post":false}">{"id":39303,"title":"Meta开源神器 | 不懂音乐,也可以AI生成音乐了!","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2023/06/20230614012251560.jpg","cover_video":"https://v.pigsec.cn/INSTALL%20MusicGen%20NOW%21%20Generate%20AMAZING%20MUSIC%20Using%20META%27s%20AI%21_ts.m3u8","views":2277,"comment_count":2,"category":"knowledge","is_forum_post":false}

Imagen Editor

ATT3D

一次性跟踪所有的事情和所有的地方

新型LLM攻击手段

Mind2Web

大型语言模型能否从相关性推断因果关系?

OpenAI和DeepMind vs 英国政府

OpenAI、谷歌和Anthropic禁止使用生成的输出内容

InterLM

FasterViT

人工智能将拯救世界

MattingAnything

ClipDrop

Runway Gen-1

ChatGPT很有趣,但不搞笑

日本的山岳救援

TemporalNet 2.0

Tokyo Jab

中年男子AI生成可爱的女孩

图文讲解

欢迎回到《人工智能时间线》的另一集,本周我们其实没有什么疯狂的大新闻,但我们确实有很多很酷的新研究。像你现在看到的这个是一个增强现实与一个叫做Otter的语言模型相结合,你可以和它聊天以获得现实生活中的帮助。想象一下,它与苹果Vision Pro相结合,这可能就是Siri的未来。另一个视频显示,这个人在Otter的帮助下打麻将,这也可能是作弊吧,有一个人工智能协助你玩。

由Meta发布的MusicGen是一个文本到音乐的模型,它在生成音乐方面非常出色。

让我们只听一个结果。基本上就是MusicLM,但要好得多。而且我还会单独制作一个关于它的深度视频,所以请大家订阅,敬请关注。在这一点上,有些人说,真正的开放人工智能是Meta,因为Meta通过开源人工智能研究为世界贡献的工作数量实在是巨大。

Llama、PyTorch、Segment Anything、Detectron等都是由Meta为大家免费发布的。当人们在抨击Metaverse是一个失败之类的时候,我认为所有的钱都花在了人工智能的研究上,而且他们正在开放源代码,这让我们的世界得到了很大的改善。所以向扎克致敬。

同时,谷歌根本没有开放任何人工智能研究,对于Imagine Editor,他们声称,注意,由于对负责任的人工智能的担忧,我们不会向公众发布Imagine Editor。

诶,不管了。我们在6个月前就已经能够在开源中做到这一点了,它离最先进的技术还有一段距离。

英伟达的最新研究,ATT3D,

已经将文本到3D的生成时间从的15分钟降低到了2秒。

这太疯狂了。还可以实现3D物体之间的变形等功能。同时跟踪所有事物,无处不在,一个伟大的电影参考,也可能是视频编辑的终极目标之一。

如果这项研究真的很普遍,它将成为编辑的救星,为任何专业视频制作带来变革。他们的官方网页上有这个互动演示,如果你愿意,可以试试。

VULCAN指出了一种新型的大型语言模型漏洞,

它依靠它们幻化出一个不存在的库,推荐给人们导入,攻击者然后找到这些幻化的导入,创建它们,使它们具有恶意的有效载荷,导入这些幻化的库的人将自动在他们自己的机器上添加恶意软件。

这听起来确实像某种只发生在电影中的科幻网络攻击。一项名为Mind2Web的新研究,它是一个网络的通用代理,可以按照语言指令在任何网站上完成复杂的任务。

订机票、预约、寻找最低的奖品,任何你说的任务。

我真的认为,由于这些语言模型,未来的HAPCHA验证码会变得越来越古怪。

但语言模型能从相关关系中推断出因果关系吗?嗯,答案是否定的。

这项研究表明,LLM的因果推断能力几乎接近于随机猜测,所以是的,他们在这方面相当糟糕。即使你对它进行了微调,它仍然无法泛化。另一方面,OpenAI和DeemMind将向英国政府开放他们的源代码和模型,可能是出于AI安全的考虑。

虽然这很不错,但OpenAI、谷歌和Anthropic禁止使用他们的AI模型生成的输出内容来训练其他模型。有些人引用他们没有护城河,但主要问题是服务条款会在法庭上站住脚吗?因为谷歌也使用了OpenAI的生成内容。OpenAI要起诉谷歌了吗?

谈到护城河,这个名为InterLM的新模型正在追赶GPT-4的性能。

这还真有点疯狂。FasterVIT,一个新的视觉转化器架构由NVIDIA实验室发布,它看起来非常有前途,与之前的顶级表现者相比,它的速度和准确性权衡得分最高。

为什么人工智能会拯救世界?这是由Mark Andresen写的博客,上周炸开了锅,如果你愿意,可以读一读。

Matting anything是一项为任何图像去除背景的研究,而这项研究仍在使用SAM。

想象一下,如果用SAMHQ代替,这能改善多少,这是我在以前的AI新闻中提到的一项研究。咳,免费的博士论文,咳,咳,是的。总之,有人甚至把它放在一个非常混乱的视频上,并制作了一个抠图任意视频。

Photoshop失败的病毒传播比我想象的要多得多,也许是因为结果更真实,

特别是当你将其与本周发布的Stability的ClipDrop未裁剪功能进行比较时。ClipDrop是由Stability AI制作的Dream Studio的官方免费替代品,可以像Photoshop中的生成填充一样进行未裁剪。

请看这里,ClipDrop生成的部分有点模糊,而Photoshop看起来更清晰和自然。

可能是因为Firefly训练的是逼真和高分辨率的库存图像,具有其优点。说到Firefly,Adobe如此自信其生成式AI不会违反任何版权法,以至于他们将支付您的法律费用,如果您因使用它而陷入麻烦的话。

这个来自Runway Gen 1的结果也有点像病毒,它是一个视频风格的转移,但它只是看起来非常令人满意。对于更多的背景,Runway Gen 1是一个风格转移模型,意味着你需要一个视频作为参考,Runway Gen 2是一个纯文本到视频的合成模型。

而这是一个你根本不需要任何参考视频。

ChatGPT很有趣,但不好玩。这项研究表明,90%的ChatGPT生成的笑话都是相同的25个笑话。

他们说,ChatGPT也是过度适应于特定的笑话结构,这使得它们变得特别无聊和可预测。这也可能暗示了它的创意能力,比如我总觉得ChatGPT创造或建议的标题很垃圾。

另一方面,iOS上的ChatGPT现在支持Siri和快捷键,这很不错。

近7000个subreddits陷入黑暗,以抗议Reddit CEO的恶劣决定使其为疑似IPO而获利。

这是废话,因为他们要对Reddit的API收费,这将基本摧毁很多围绕Reddit的第三方应用。例如,名为Apollo的Reddit改进版,为手机用户提供更好的用户界面,将被迫关闭,否则将迫使他们每年花费2000万美元,只是为了API请求。

大多数与人工智能相关的子版块也都关闭了,包括我最喜欢的R/StableDiffusion和r/chatgpt。

日本的山地救援队只花了20秒就找到了一个失踪者,而他们的智能手机却完全不在范围内。

我最初以为是关于人工智能的,所以我报道了它,但原来是新的软银无人机在转发卫星的GPS信号,然后定位在范围之外的智能手机。不过它还是很变态。

TemporalNet 2.0已经发布了,现在它还会同时处理前一帧的光流图。

所有您现在看到的结果都没有使用Epson进行处理。顺便说一下。与此同时,这里还有一些图像到图像的视频结果。这个是由TokyoJab制作的。

他只在Instagram和Reddit上活跃,由于他平时的栖息地r/StableDiffusion现在瘫痪了,他的所有工作流都被锁在了栏杆后,这真是太遗憾了。还有其他相当令人印象深刻的,比如这个把一个中年男子跳舞变成可爱的女孩。

人工智能影响者的未来真的在向我们逼近。让我们用更多的二维码动漫女孩来结束这段话,这就是我在上周的节目中提到的二维码ControlNet而且它还能用,这很不错。

喜欢并订阅,这样我就能知道你是否真的喜欢这集《人工智能新闻》,如果你还没有,请关注我的Twitter,我们下期再见。

标签:人工智能, 网络攻击, ChatGPT, openai, Photoshop, 语言模型, 视频制作, meta ai, meta ai平台, meta Ai产品, 安全漏洞, PyTorch, vr, MusicGen, 人工智能语言, reddit, meta, 搜索人工智能模型, ATT3D, 增强现实, InterLM, 源代码安全, 图像去背景, 图像到视频转换, GEN-2, GEN-1, Segment Anything