科技玩具解锁语言界限开启99种声音的秘密对话 Whisper语音识别系统实战
OpenAI 最近推出了一个名为 Whisper 的语音识别模型。这款模型基于来自互联网的 680,000 小时多语言数据进行了训练,能够识别和翻译 99 种不同的语言。与 DALLE-2 和 GPT-3 不同,Whisper 是一个免费且开源的模型,这意味着开发者可以自由地使用、修改和分发它。
Whisper 使用的是标准的Transformer架构,这表明Transformer在各种应用中的普及程度。相比之下,其他现有的方法通常会使用更小、更紧密配对的音频文本训练集,或是广泛但无监督的音频预训练。而Whisper则是在一个庞大而多样的数据集上进行了训练,并没有针对任何特定的数据集进行微调,因此它不会击败专门研究 LibriSpeech 性能的模型。但当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更加稳健,并且错误率降低了50%。
Whisper支持五种不同的模型尺寸,其中前四种针对英文版本。开发者可以通过安装pytube库来下载YouTube视频中的音频文件,然后再使用whisper来进行语音识别任务。代码执行完成后,将会自动下载此视频文件的音频文件,即MP4格式,但实际上是一个只有声音内容的地球波长音乐录制文件。
一旦下载完成所需的声音片段,开发者就可以利用whisper.load_model(medium)加载中等大小的模型并调用model.transcribe(11.mp4)来实现自动语音识别功能。在这个过程中,被检测到的中文或其他语言将被翻译成英文。此外,还有一些额外选项,比如调整语言设置以支持更多不同类型的声音输入。
当然,由于其高效性和准确性,使得whisper成为处理复杂环境中的多语言交流的一个强有力的工具,无论是在商业环境还是个人项目中都十分有用。如果你正在寻找一种能够跨越文化边界并提供即时翻译服务的一种技术,那么openAI提供的一些实用功能可能会非常适合你的需求,不仅限于英语,还包括诸如阿拉伯语、汉语、西班牙语等众多其他语言。