会议转写、视频搬运、知识学习神器 | 阿里通义听悟 | 万语千言,心领神悟

作者:FancyPig | 发布时间: | 更新时间:

相关产品

网易见外工作台

之前在介绍海外的视频搬运时,我们曾给大家分享过网易的见外工作台

data-postsbox="{"id":11129,"title":"全网视频快速搬运(附AI字幕处理)","author":"Adil","author_id":292,"cover_image":"","cover_video":"","views":2400,"comment_count":9,"category":"knowledge","is_forum_post":false}">{"id":11129,"title":"全网视频快速搬运(附AI字幕处理)","author":"Adil","author_id":292,"cover_image":"","cover_video":"","views":2400,"comment_count":9,"category":"knowledge","is_forum_post":false}
data-postsbox="{"id":11282,"title":"网易见外工作台 AI翻译视频字幕教程","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2022/03/20220311022136833.png","cover_video":"","views":2167,"comment_count":2,"category":"knowledge","is_forum_post":false}">{"id":11282,"title":"网易见外工作台 AI翻译视频字幕教程","author":"FancyPig","author_id":1,"cover_image":"https://static.pigsec.cn/wp-content/uploads/2022/03/20220311022136833.png","cover_video":"","views":2167,"comment_count":2,"category":"knowledge","is_forum_post":false}

AI字幕识别

但是后面很多热心网友表示字幕的识别准确率非常低,由此我们结合OpenAI的Whisper上线了一个在线工具

阿里通义听悟

注册链接

不过,终究维护速度锤不过大厂,阿里最近推出了一个更强悍的产品,支持

  • 实时语音转文字
  • 音视频转文字

并在这些基础之上,还增加了关键词概括、简介、实时字幕的划重点标记等功能,可以说非常好的结合了语言模型

接下来我们也将进行效果的实测

效果实测

我们以Youtube中的视频为例,进行效果实测,我们之前其实更新了很多Aitrepreneur语言模型相关的视频

之前的视频制作方法

但之前的视频制作流程基本上是以下两步

  • 使用AI字幕识别进行英文字幕精确识别
  • 之后在使用我之前写的Python脚本,在文本中插入字符,通过这种方式完成上下文
  • 最后将字幕使用arctime导入2行轨道,进行校对生成

使用阿里通义听悟

我们点击上传音视频

这里可以看到它很好的关联了自己的另一个产品,那就是云盘里的资料

但是你会发现,这里可能还是有些限制,那就是语言种类仅支持了英文、中文、粤语,并不像我们之前的那个AI字幕识别可以支持上百种语言,这个功能可能对于搬运的热心网友还是比较有限的,但是做一个会议纪要是肯定没问题的(这里关于会议里如何识别不同人声音的,其实我们之前也有分享过相关的开源项目,大家也可以去Github上搜下,譬如https://github.com/m-bain/whisperX

之后我们上传好视频就可以开始转录了

可以看到转写速度还是不错的,大约一分钟

之后我们打开看下效果,可以看到关键词章节速览做的还是可以的

至于英文字幕的识别准确率,这里就比较GG了

可以看到这里LLM(大语言模型),它识别成了N and M

这一点我们的在线视频转录还是非常精确的

之后可以在左侧导出srt字幕

当然还有笔记模式,这一点还算比较新颖吧。

但最终,我觉得可能是我找错场景了……至少在视频搬运上,我觉得还是和理想上有很大差异的,但是如果国内做一些会议的发言人字幕识别、概括总结应该是它的长项……

具体效果如何,大家可以自行体验。

标签:阿里, 阿里通义, 阿里语言大模型, 阿里语言模型, 阿里通义千问, 阿里通义听悟, 阿里会议神器