Whisper 不只是语音识别模型
它是变形金刚(Transformer)
阅读时间 2 分钟
Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web.
OPENAI 官网这段指出 Whisper 是一个语音识别模型,但有别与以往的其他模型,它是一个在 大规模数据集 上训练的 多语言 且 多任务 的 Transformer。模型已经公开在 huggingface,其中最大参数的 large-v2
模型甚至在 CUDNN 下最低至少要 3G 显存就能推理。本文简单介绍一下 whisper 的使用心得。
安装
目前流行的 whisper 有两个实现,一个是官方使用 pytorch 实现的 openai/whisper,large-v2
模型推理需要约 11G 显存;另一个是社区使用 CUDNN 实现的 guillaumekln/faster-whisper,large-v2
模型推理需要最低 3G 显存,并且速度比官方快好几倍。
要使用 faster-whisper,请安装 whisper-ctranslate2,这个项目为 faster-whisper 提供了命令行接口
pip install whisper-ctranslate2 --upgrade
然后就可以直接开始使用,例如使用 CPU 转录当前目录下所有 mp4 文件
whisper-ctranslate2 --model large-v2 --device cpu --task transcribe *.mp4
特性
正如本文标题所示,whisper 能做到的事情远远不止语音转录。
翻译(到英语)
以下是原始中文音频内容:
就是他这个就是我想的他这个Live Together这个Virtual Reality Library
他有就是三个部门嘛
一个是Virtual Library, Virtual Bookstore, Virtual Reality Study Room
就是第一个他相当于就像Summon一样
就是我能借阅实体,也可以借实体书
但是这个不重要
就是你把它理解为Summon
但是所有的我交了可能年费会员或者说季度会员
然后就是可以借所有的包括电子的就是文章也好
电子书也好都可以借阅
然后Virtual Bookstore就是代替了淘宝那种
使用 --task translate
进行翻译,得到英文内容:
I think that the Live Together Virtual Reality Library has three departments.
One is Virtual Library, Virtual Bookstore and Virtual Reality Study Room.
The first one is like a summit.
I can borrow physical books, but it doesn't matter.
I can borrow all the books, articles and books from the store.
Virtual Bookstore can replace Taobao.
很明显,这并不是逐字翻译。whisper 对原文内容进行了一定的整理,让翻译后的句子是完整通顺的:
忽略了很多重复的词语例如
啊
、就是
;将重复的句子合并成一句(第一行和第二行被整理成一句)
但也有一些信息没有翻译到,例如 年费会员或者说季度会员
这一部分。
提示词
由于是 transformer 架构,下一个生成的词语会受到上文的影响。那么使用 --initial_prompt
就可以直接影响 whisper 的输出。
例如 --initial-prompt "完整的句子。"
那么输出会变成如下带有完整标点符号的形式。
就是他这个,就是我想的他这个Live Together这个Virtual Reality Library,他有就是三个部门嘛,一个是Virtual Library, Virtual Bookstore, Virtual Reality Study Room。
就是第一个,他相当于就像Summon一样,就是我能借阅实体,也可以借实体书,但是这个不重要,就是你把它理解为Summon嘛,但是所有的我交了可能年费会员或者说季度会员,
然后就是可以借所有的包括电子的就是文章也好,电子书也好,都可以借阅,然后Virtual Bookstore就是代替了淘宝那种,就是反正全球各地的书你都可以买到,然后也可以买电子书,也可以买实体书,然后反正只要就跟淘宝一样,但是好处在于它融合了。
其他应用
例如对于 https://www.youtube.com/watch?v=LVEGRj3RZSA 这个长达半小时的关于介绍 Deno 新特性和未来方向的讲座。使用 whisper 进行转录后丢给 ChatGPT 进行总结,得到如下结果
演讲者 Ryan Dahl 谈论了 Dino 1.0,这是一个继续从 Node 的目标发展的现代化项目,旨在创建易于构建和优化的服务器。Dino 2.0 即将在今年夏天发布,带来了许多新功能,如数据库、事务支持以及更深入的与 Node 和 NPM 的兼容性。该项目的目标是让开发者能够快速地构建真实的应用程序服务器,不仅仅局限在本地服务器上,也能在全球范围内使用。Dino 的许多功能都是面向未来的,并且可以通过扩展范围来适应更复杂的应用程序。
问答环节中,观众提出了一些关于 Dino 及其功能的问题。Ryan 解释了 Dino 不会尝试修复 JavaScript 浮点算法上的问题,因为这主要是一个 Tc39 和语言定义的问题。关于特定权限和部署问题,他表示 Dino 可以部署在任何地方,甚至可以在其他云提供商上使用。Dino 中的 KV 存储也适用于各种规模的应用程序,尤其是那些需要较快速度和简单与中等复杂性的应用程序。
演讲接近尾声时,Ryan 概述了他对未来计算领域发展的看法。他认为 KV 数据存储可以扩展到更多领域,并希望见证关系数据库和应用程序之间的界限变得越来越模糊。整个演讲为观众提供了 Dino 的强大功能和可扩展性,激发了他们对未来项目的关注和好奇。
不到一分钟,我就知道这个视频的主要讨论内容,以及应该观看哪些感兴趣的部分。(这下长视频更加没人看了
或者其他应用像是一些 AI 变声器模型,使用 whisper 识别源语音中的语义特征(hidden state),在结合其他方式提取到的风格特征,进行音频重建,达到变声效果。(好耶装妹子去了(夹