每周AI新闻:VR + 大语言模型 = 未来版Siri ?
作者:FancyPig | 发布时间: | 更新时间:
相关阅读
视频讲解
欢迎来到《人工智能时间线》最新一期!本期我们带来了一系列激动人心的研究成果。首先,想象一下Otter语言模型与增强现实技术相结合,成为Siri的未来,其中一个视频展示了人工智能如何在打麻将时助你一臂之力。此外,Meta发布的MusicGen是一款文本到音乐的神奇模型,让我们一起来欣赏一下它的作品!
我们也要关注到,Meta通过开源人工智能研究为世界做出了巨大贡献。然而,谷歌却对Imagine Editor持谨慎态度,拒绝向公众发布。英伟达的最新研究ATT3D,将文本到3D生成时间大幅缩短,实现了3D物体变形等功能。
Mind2Web是一个网络通用代理,能按照语言指令在任何网站上自动化完成复杂任务。最新研究表面,语言模型在因果推断方面表现不佳。此外,FasterVIT是NVIDIA实验室发布的一种新的视觉转换器架构,具有很大潜力。
关于人工智能如何拯救世界的热门博客文章值得一读。Matting anything是一项去除任何图像背景的研究,使用了SAM技术。Photoshop和ClipDrop之间的对比展示了他们在图像处理方面的优劣之处。
InterLM这个新模型正在逼近GPT-4的性能。然而,ChatGPT在生成笑话方面表现不佳,90%的生成笑话都是重复的。近7000个subreddits因抗议Reddit CEO的决策而陷入黑暗……
相关资料
OTTER-E
- 项目地址 https://otter-ntu.github.io/
- 相关论文 https://arxiv.org/abs/2306.05425
- Youtube演示视频 https://www.youtube.com/watch?v=K8o_LKGQJhs&t=0s
MusicGEN
- 项目地址 https://ai.honu.io/papers/musicgen/
- 相关论文 https://arxiv.org/pdf/2306.05284.pdf
- Github项目地址 https://github.com/facebookresearch/audiocraft
Imagen Editor
- 相关Twitter https://twitter.com/hardmaru/status/1667506066492653568?s=20
- 相关Twitter https://twitter.com/hardmaru/status/1667513739707568128?s=20
- Google博客 https://ai.googleblog.com/2023/06/imagen-editor-and-editbench-advancing.html
ATT3D
一次性跟踪所有的事情和所有的地方
新型LLM攻击手段
Mind2Web
大型语言模型能否从相关性推断因果关系?
OpenAI和DeepMind vs 英国政府
OpenAI、谷歌和Anthropic禁止使用生成的输出内容
- 相关文章 https://www.businessinsider.com/openai-google-anthropic-ai-training-models-content-data-use-2023-6
InterLM
FasterViT
人工智能将拯救世界
MattingAnything
- 项目地址 https://chrisjuniorli.github.io/project/Matting-Anything/
- 相关Twitter https://twitter.com/fffiloni/status/1667911451061764103?s=20
ClipDrop
- 官网 https://clipdrop.co/
- 相关Twitter https://twitter.com/_akhaliq/status/1667054632613433346?s=20
- 相关Twitter https://twitter.com/forasteran/status/1666992758815625219?s=20
- 新PS vs 老PS的梗 https://twitter.com/0xgaut/status/1667320106739810305?s=20
- Adobe将为你支付版权费 https://www.fastcompany.com/90906560/adobe-feels-so-confident-its-firefly-generative-ai-wont-breach-copyright-itll-cover-your-legal-bills
Runway Gen-1
ChatGPT很有趣,但不搞笑
日本的山岳救援
TemporalNet 2.0
- Hugging Face项目地址 https://huggingface.co/CiaraRowles/TemporalNet2
- 相关Twitter https://twitter.com/CiaraRowles1/status/1667145942556966912
Tokyo Jab
中年男子AI生成可爱的女孩
图文讲解
欢迎回到《人工智能时间线》的另一集,本周我们其实没有什么疯狂的大新闻,但我们确实有很多很酷的新研究。像你现在看到的这个是一个增强现实与一个叫做Otter的语言模型相结合,你可以和它聊天以获得现实生活中的帮助。想象一下,它与苹果Vision Pro相结合,这可能就是Siri的未来。另一个视频显示,这个人在Otter的帮助下打麻将,这也可能是作弊吧,有一个人工智能协助你玩。

由Meta发布的MusicGen是一个文本到音乐的模型,它在生成音乐方面非常出色。

让我们只听一个结果。基本上就是MusicLM,但要好得多。而且我还会单独制作一个关于它的深度视频,所以请大家订阅,敬请关注。在这一点上,有些人说,真正的开放人工智能是Meta,因为Meta通过开源人工智能研究为世界贡献的工作数量实在是巨大。

Llama、PyTorch、Segment Anything、Detectron等都是由Meta为大家免费发布的。当人们在抨击Metaverse是一个失败之类的时候,我认为所有的钱都花在了人工智能的研究上,而且他们正在开放源代码,这让我们的世界得到了很大的改善。所以向扎克致敬。

同时,谷歌根本没有开放任何人工智能研究,对于Imagine Editor,他们声称,注意,由于对负责任的人工智能的担忧,我们不会向公众发布Imagine Editor。


诶,不管了。我们在6个月前就已经能够在开源中做到这一点了,它离最先进的技术还有一段距离。


英伟达的最新研究,ATT3D,

已经将文本到3D的生成时间从的15分钟降低到了2秒。


这太疯狂了。还可以实现3D物体之间的变形等功能。同时跟踪所有事物,无处不在,一个伟大的电影参考,也可能是视频编辑的终极目标之一。

如果这项研究真的很普遍,它将成为编辑的救星,为任何专业视频制作带来变革。他们的官方网页上有这个互动演示,如果你愿意,可以试试。


VULCAN指出了一种新型的大型语言模型漏洞,

它依靠它们幻化出一个不存在的库,推荐给人们导入,攻击者然后找到这些幻化的导入,创建它们,使它们具有恶意的有效载荷,导入这些幻化的库的人将自动在他们自己的机器上添加恶意软件。

这听起来确实像某种只发生在电影中的科幻网络攻击。一项名为Mind2Web的新研究,它是一个网络的通用代理,可以按照语言指令在任何网站上完成复杂的任务。

订机票、预约、寻找最低的奖品,任何你说的任务。

我真的认为,由于这些语言模型,未来的HAPCHA验证码会变得越来越古怪。
但语言模型能从相关关系中推断出因果关系吗?嗯,答案是否定的。

这项研究表明,LLM的因果推断能力几乎接近于随机猜测,所以是的,他们在这方面相当糟糕。即使你对它进行了微调,它仍然无法泛化。另一方面,OpenAI和DeemMind将向英国政府开放他们的源代码和模型,可能是出于AI安全的考虑。

虽然这很不错,但OpenAI、谷歌和Anthropic禁止使用他们的AI模型生成的输出内容来训练其他模型。有些人引用他们没有护城河,但主要问题是服务条款会在法庭上站住脚吗?因为谷歌也使用了OpenAI的生成内容。OpenAI要起诉谷歌了吗?

谈到护城河,这个名为InterLM的新模型正在追赶GPT-4的性能。

这还真有点疯狂。FasterVIT,一个新的视觉转化器架构由NVIDIA实验室发布,它看起来非常有前途,与之前的顶级表现者相比,它的速度和准确性权衡得分最高。

为什么人工智能会拯救世界?这是由Mark Andresen写的博客,上周炸开了锅,如果你愿意,可以读一读。

Matting anything是一项为任何图像去除背景的研究,而这项研究仍在使用SAM。



想象一下,如果用SAMHQ代替,这能改善多少,这是我在以前的AI新闻中提到的一项研究。咳,免费的博士论文,咳,咳,是的。总之,有人甚至把它放在一个非常混乱的视频上,并制作了一个抠图任意视频。


Photoshop失败的病毒传播比我想象的要多得多,也许是因为结果更真实,


特别是当你将其与本周发布的Stability的ClipDrop未裁剪功能进行比较时。ClipDrop是由Stability AI制作的Dream Studio的官方免费替代品,可以像Photoshop中的生成填充一样进行未裁剪。


请看这里,ClipDrop生成的部分有点模糊,而Photoshop看起来更清晰和自然。


可能是因为Firefly训练的是逼真和高分辨率的库存图像,具有其优点。说到Firefly,Adobe如此自信其生成式AI不会违反任何版权法,以至于他们将支付您的法律费用,如果您因使用它而陷入麻烦的话。

这个来自Runway Gen 1的结果也有点像病毒,它是一个视频风格的转移,但它只是看起来非常令人满意。对于更多的背景,Runway Gen 1是一个风格转移模型,意味着你需要一个视频作为参考,Runway Gen 2是一个纯文本到视频的合成模型。







而这是一个你根本不需要任何参考视频。
ChatGPT很有趣,但不好玩。这项研究表明,90%的ChatGPT生成的笑话都是相同的25个笑话。

他们说,ChatGPT也是过度适应于特定的笑话结构,这使得它们变得特别无聊和可预测。这也可能暗示了它的创意能力,比如我总觉得ChatGPT创造或建议的标题很垃圾。

另一方面,iOS上的ChatGPT现在支持Siri和快捷键,这很不错。

近7000个subreddits陷入黑暗,以抗议Reddit CEO的恶劣决定使其为疑似IPO而获利。

这是废话,因为他们要对Reddit的API收费,这将基本摧毁很多围绕Reddit的第三方应用。例如,名为Apollo的Reddit改进版,为手机用户提供更好的用户界面,将被迫关闭,否则将迫使他们每年花费2000万美元,只是为了API请求。

大多数与人工智能相关的子版块也都关闭了,包括我最喜欢的R/StableDiffusion和r/chatgpt。


日本的山地救援队只花了20秒就找到了一个失踪者,而他们的智能手机却完全不在范围内。

我最初以为是关于人工智能的,所以我报道了它,但原来是新的软银无人机在转发卫星的GPS信号,然后定位在范围之外的智能手机。不过它还是很变态。

TemporalNet 2.0已经发布了,现在它还会同时处理前一帧的光流图。

所有您现在看到的结果都没有使用Epson进行处理。顺便说一下。与此同时,这里还有一些图像到图像的视频结果。这个是由TokyoJab制作的。


他只在Instagram和Reddit上活跃,由于他平时的栖息地r/StableDiffusion现在瘫痪了,他的所有工作流都被锁在了栏杆后,这真是太遗憾了。还有其他相当令人印象深刻的,比如这个把一个中年男子跳舞变成可爱的女孩。



人工智能影响者的未来真的在向我们逼近。让我们用更多的二维码动漫女孩来结束这段话,这就是我在上周的节目中提到的二维码ControlNet而且它还能用,这很不错。

喜欢并订阅,这样我就能知道你是否真的喜欢这集《人工智能新闻》,如果你还没有,请关注我的Twitter,我们下期再见。