Whisper 不只是语音识别模型

它是变形金刚（Transformer）

发布于: 2023-06-27 15:19:05 阅读时间 2 分钟

Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web.

OPENAI 官网这段指出 Whisper 是一个语音识别模型，但有别与以往的其他模型，它是一个在 大规模数据集 上训练的 多语言 且 多任务 的 Transformer。模型已经公开在 huggingface，其中最大参数的 large-v2 模型甚至在 CUDNN 下最低至少要 3G 显存就能推理。本文简单介绍一下 whisper 的使用心得。

安装

目前流行的 whisper 有两个实现，一个是官方使用 pytorch 实现的 openai/whisper，large-v2 模型推理需要约 11G 显存；另一个是社区使用 CUDNN 实现的 guillaumekln/faster-whisper，large-v2 模型推理需要最低 3G 显存，并且速度比官方快好几倍。

要使用 faster-whisper，请安装 whisper-ctranslate2，这个项目为 faster-whisper 提供了命令行接口

pip install whisper-ctranslate2 --upgrade

然后就可以直接开始使用，例如使用 CPU 转录当前目录下所有 mp4 文件

whisper-ctranslate2 --model large-v2 --device cpu --task transcribe *.mp4

特性

正如本文标题所示，whisper 能做到的事情远远不止语音转录。

翻译（到英语）

以下是原始中文音频内容：

就是他这个就是我想的他这个Live Together这个Virtual Reality Library
他有就是三个部门嘛
一个是Virtual Library, Virtual Bookstore, Virtual Reality Study Room
就是第一个他相当于就像Summon一样
就是我能借阅实体,也可以借实体书
但是这个不重要
就是你把它理解为Summon
但是所有的我交了可能年费会员或者说季度会员
然后就是可以借所有的包括电子的就是文章也好
电子书也好都可以借阅
然后Virtual Bookstore就是代替了淘宝那种

使用 --task translate 进行翻译，得到英文内容：

I think that the Live Together Virtual Reality Library has three departments.
One is Virtual Library, Virtual Bookstore and Virtual Reality Study Room.
The first one is like a summit.
I can borrow physical books, but it doesn't matter.
I can borrow all the books, articles and books from the store.
Virtual Bookstore can replace Taobao.

很明显，这并不是逐字翻译。whisper 对原文内容进行了一定的整理，让翻译后的句子是完整通顺的：

忽略了很多重复的词语例如 啊、就是；
将重复的句子合并成一句（第一行和第二行被整理成一句）

但也有一些信息没有翻译到，例如 年费会员或者说季度会员 这一部分。

提示词

由于是 transformer 架构，下一个生成的词语会受到上文的影响。那么使用 --initial_prompt 就可以直接影响 whisper 的输出。

例如 --initial-prompt "完整的句子。"那么输出会变成如下带有完整标点符号的形式。

就是他这个,就是我想的他这个Live Together这个Virtual Reality Library,他有就是三个部门嘛,一个是Virtual Library, Virtual Bookstore, Virtual Reality Study Room。
就是第一个,他相当于就像Summon一样,就是我能借阅实体,也可以借实体书,但是这个不重要,就是你把它理解为Summon嘛,但是所有的我交了可能年费会员或者说季度会员,
然后就是可以借所有的包括电子的就是文章也好,电子书也好,都可以借阅,然后Virtual Bookstore就是代替了淘宝那种,就是反正全球各地的书你都可以买到,然后也可以买电子书,也可以买实体书,然后反正只要就跟淘宝一样,但是好处在于它融合了。

其他应用

例如对于 https://www.youtube.com/watch?v=LVEGRj3RZSA 这个长达半小时的关于介绍 Deno 新特性和未来方向的讲座。使用 whisper 进行转录后丢给 ChatGPT 进行总结，得到如下结果

演讲者 Ryan Dahl 谈论了 Dino 1.0，这是一个继续从 Node 的目标发展的现代化项目，旨在创建易于构建和优化的服务器。Dino 2.0 即将在今年夏天发布，带来了许多新功能，如数据库、事务支持以及更深入的与 Node 和 NPM 的兼容性。该项目的目标是让开发者能够快速地构建真实的应用程序服务器，不仅仅局限在本地服务器上，也能在全球范围内使用。Dino 的许多功能都是面向未来的，并且可以通过扩展范围来适应更复杂的应用程序。

问答环节中，观众提出了一些关于 Dino 及其功能的问题。Ryan 解释了 Dino 不会尝试修复 JavaScript 浮点算法上的问题，因为这主要是一个 Tc39 和语言定义的问题。关于特定权限和部署问题，他表示 Dino 可以部署在任何地方，甚至可以在其他云提供商上使用。Dino 中的 KV 存储也适用于各种规模的应用程序，尤其是那些需要较快速度和简单与中等复杂性的应用程序。

演讲接近尾声时，Ryan 概述了他对未来计算领域发展的看法。他认为 KV 数据存储可以扩展到更多领域，并希望见证关系数据库和应用程序之间的界限变得越来越模糊。整个演讲为观众提供了 Dino 的强大功能和可扩展性，激发了他们对未来项目的关注和好奇。

不到一分钟，我就知道这个视频的主要讨论内容，以及应该观看哪些感兴趣的部分。（这下长视频更加没人看了

或者其他应用像是一些 AI 变声器模型，使用 whisper 识别源语音中的语义特征（hidden state），在结合其他方式提取到的风格特征，进行音频重建，达到变声效果。（好耶装妹子去了（夹