五年级科技小制作大全最简单开启OpenAI的神奇语音识别系统whisper识别99种语言
OpenAI 最近推出了一个名为 Whisper 的语音识别模型。这款模型基于来自互联网的 680,000 小时多语言数据进行训练,能够识别和翻译全球99种语言。与 DALLE-2 和 GPT-3 不同,Whisper 是一个免费且开源的工具。
——1——
Whisper 是一种自动语音转录模型,它在处理口音、背景噪音以及专业术语方面表现出色。此外,它还具有从这些语言到英语的翻译功能。
Whisper 使用了Transformer框架,这是当前自然语言处理领域中广泛应用的一种架构。其他现有的方法通常使用更小、更紧密匹配的音频文本数据集进行训练,或使用广泛但无监督的预训练方法。而 Whisper 在一个庞大而多样化的数据集上进行了训练,因此它不会专门针对某个特定数据集微调,以此来优化性能。不过,当我们在许多不同的数据集上测试 Whisper 时,我们发现它比那些专门研究 LibriSpeech 性能的模型更加稳健,并且错误率降低了50%。
Whisper 支持五种不同尺寸的模型,其中前四种适用于英文版本。用户可以根据需要选择合适大小的模型来进行测试。在安装必要库后,如 pip install --upgrade pytube 以及 git clone https://github.com/openai/whisper.git -q 后,你就可以开始尝试了。
首先,你需要安装 pytube 库,该库主要用于从 YouTube 下载视频或其内容。然后你可以通过复制视频链接并插入相应代码来下载视频中的音频文件。一旦完成下载,你就可以使用 Whisper 模型对该文件进行语音识别。此过程涉及加载指定尺寸(medium)的 Whisper 模型,然后调用 transcribe 方法将 MP4 文件转换成文本格式。
除了英文字母之外,Whisper 还支持其他多种语言。你甚至可以用中文作为输入,然后再将输出翻译成中文以便理解。如果你有兴趣了解更多关于这个开源项目的话,可以访问 OpenAI 提供的一个交互式界面,它允许用户探索各种参数和设置,同时提供实时反馈和结果展示。此外,还有一些可视化工具可帮助开发者深入了解他们正在创建的事情,从而进一步改进他们工作流程。