浙江工商大学探秘OpenAI开源神器whisper能识别全球99种语言的语音魔法系统
OpenAI 最近推出了一个名为 Whisper 的语音识别模型。这款模型基于来自互联网的 680,000 小时多语言数据进行训练,能够识别和翻译全球 99 种语言。Whisper 采用了 Transformer 架构,这一架构在自然语言处理领域非常流行。
Whisper 的训练过程不同于其他现有的方法,它没有针对特定的数据集进行微调,而是在一个庞大且多样化的数据集上进行了训练,因此它并不像专门针对某个任务设计的模型那样高效。但是在各种不同的测试中,Whisper 显示出比那些模型更稳定,并且错误率降低了 50%。
此外,Whisper 支持五种不同的模型尺寸,可以根据需要选择合适的大小。用户可以通过安装 pytube 和 Whisper 库来开始使用这些功能,然后下载 YouTube 视频中的音频文件,并使用 Whisper 进行语音识别。此外,还可以将中文语音输入到模型中,并将其翻译成中文。
虽然 Whisper 在一些特定任务上可能不如专门设计的模型表现好,但它提供了一种灵活、开源且免费的解决方案,对于希望尝试自动语音识别技术的人来说是一个很好的起点。