水族馆

Whisper 不只是语音识别模型

它是变形金刚(Transformer)

阅读时间 2 分钟


Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web.

OPENAI 官网这段指出 Whisper 是一个语音识别模型,但有别与以往的其他模型,它是一个在 大规模数据集 上训练的 多语言多任务Transformer。模型已经公开在 huggingface,其中最大参数的 large-v2 模型甚至在 CUDNN 下最低至少要 3G 显存就能推理。本文简单介绍一下 whisper 的使用心得。

安装

目前流行的 whisper 有两个实现,一个是官方使用 pytorch 实现的 openai/whisper,large-v2 模型推理需要约 11G 显存;另一个是社区使用 CUDNN 实现的 guillaumekln/faster-whisper,large-v2 模型推理需要最低 3G 显存,并且速度比官方快好几倍。

要使用 faster-whisper,请安装 whisper-ctranslate2,这个项目为 faster-whisper 提供了命令行接口

pip install whisper-ctranslate2 --upgrade

然后就可以直接开始使用,例如使用 CPU 转录当前目录下所有 mp4 文件

whisper-ctranslate2 --model large-v2 --device cpu --task transcribe *.mp4

特性

正如本文标题所示,whisper 能做到的事情远远不止语音转录。

翻译(到英语)

以下是原始中文音频内容:

就是他这个就是我想的他这个Live Together这个Virtual Reality Library
他有就是三个部门嘛
一个是Virtual Library, Virtual Bookstore, Virtual Reality Study Room
就是第一个他相当于就像Summon一样
就是我能借阅实体,也可以借实体书
但是这个不重要
就是你把它理解为Summon
但是所有的我交了可能年费会员或者说季度会员
然后就是可以借所有的包括电子的就是文章也好
电子书也好都可以借阅
然后Virtual Bookstore就是代替了淘宝那种

使用 --task translate 进行翻译,得到英文内容:

I think that the Live Together Virtual Reality Library has three departments.
One is Virtual Library, Virtual Bookstore and Virtual Reality Study Room.
The first one is like a summit.
I can borrow physical books, but it doesn't matter.
I can borrow all the books, articles and books from the store.
Virtual Bookstore can replace Taobao.

很明显,这并不是逐字翻译。whisper 对原文内容进行了一定的整理,让翻译后的句子是完整通顺的:

但也有一些信息没有翻译到,例如 年费会员或者说季度会员 这一部分。

提示词

由于是 transformer 架构,下一个生成的词语会受到上文的影响。那么使用 --initial_prompt 就可以直接影响 whisper 的输出。

例如 --initial-prompt "完整的句子。"那么输出会变成如下带有完整标点符号的形式。

就是他这个,就是我想的他这个Live Together这个Virtual Reality Library,他有就是三个部门嘛,一个是Virtual Library, Virtual Bookstore, Virtual Reality Study Room。
就是第一个,他相当于就像Summon一样,就是我能借阅实体,也可以借实体书,但是这个不重要,就是你把它理解为Summon嘛,但是所有的我交了可能年费会员或者说季度会员,
然后就是可以借所有的包括电子的就是文章也好,电子书也好,都可以借阅,然后Virtual Bookstore就是代替了淘宝那种,就是反正全球各地的书你都可以买到,然后也可以买电子书,也可以买实体书,然后反正只要就跟淘宝一样,但是好处在于它融合了。

其他应用

例如对于 https://www.youtube.com/watch?v=LVEGRj3RZSA 这个长达半小时的关于介绍 Deno 新特性和未来方向的讲座。使用 whisper 进行转录后丢给 ChatGPT 进行总结,得到如下结果

演讲者 Ryan Dahl 谈论了 Dino 1.0,这是一个继续从 Node 的目标发展的现代化项目,旨在创建易于构建和优化的服务器。Dino 2.0 即将在今年夏天发布,带来了许多新功能,如数据库、事务支持以及更深入的与 Node 和 NPM 的兼容性。该项目的目标是让开发者能够快速地构建真实的应用程序服务器,不仅仅局限在本地服务器上,也能在全球范围内使用。Dino 的许多功能都是面向未来的,并且可以通过扩展范围来适应更复杂的应用程序。

问答环节中,观众提出了一些关于 Dino 及其功能的问题。Ryan 解释了 Dino 不会尝试修复 JavaScript 浮点算法上的问题,因为这主要是一个 Tc39 和语言定义的问题。关于特定权限和部署问题,他表示 Dino 可以部署在任何地方,甚至可以在其他云提供商上使用。Dino 中的 KV 存储也适用于各种规模的应用程序,尤其是那些需要较快速度和简单与中等复杂性的应用程序。

演讲接近尾声时,Ryan 概述了他对未来计算领域发展的看法。他认为 KV 数据存储可以扩展到更多领域,并希望见证关系数据库和应用程序之间的界限变得越来越模糊。整个演讲为观众提供了 Dino 的强大功能和可扩展性,激发了他们对未来项目的关注和好奇。

不到一分钟,我就知道这个视频的主要讨论内容,以及应该观看哪些感兴趣的部分。(这下长视频更加没人看了

或者其他应用像是一些 AI 变声器模型,使用 whisper 识别源语音中的语义特征(hidden state),在结合其他方式提取到的风格特征,进行音频重建,达到变声效果。(好耶装妹子去了(夹