和平精英免费开科技软件下载一探OpenAI开源语音识别系统whisper的神奇之处
OpenAI 最近推出了一个名为 Whisper 的语音识别模型。这款模型基于来自互联网的 680,000 小时多语言数据进行训练,能够识别和翻译全球99种语言中的任何一种。此外,由于其广泛的应用范围,Whisper 使用了标准的Transformer架构,这使得它在处理各种噪音和口音时表现出色。
Whisper支持五种不同的模型尺寸,每种尺寸都有其特定的用途。用户可以根据需要选择合适的模型进行使用。值得注意的是,尽管OpenAI提供了免费且开源的Whisper模型,但它并没有达到专门针对某些数据集微调过的其他模型那样高水平。但是,在许多不同数据集上的零样本性能测试中,Whisper显示出了比那些微调过的小型数据库更好的鲁棒性,并且错误率降低了50%。
为了体验Whisper如何工作,我们可以安装pytube库来下载YouTube视频,并通过以下代码将视频转换为可用于语音识别任务的MP4格式:
import pytube
yt = pytube.YouTube(video_url)
stream = yt.streams.get_by_itag(22) # 下载720p版本
stream.download()
然后,我们可以使用以下代码加载Medium大小的Whisper模型并对下载后的音频文件进行转录:
model = whisper.load_model("medium")
text = model.transcribe(audio_file_path)
print(text)
例如,对于英文电影《 Taken》中的一段台词,“I don't know who you are. I don't know what you want. If you are looking for ransom, I can tell you I don't have money. But what I do have are a very particular set of skills...”,whisper会自动识别并输出文本内容。
此外,虽然我们以英语作为例子,但这个系统同样适用于其他语言,如中文等。如果你有一个想要翻译成中文的声音片段,你只需将其输入到系统中,然后系统就会给出相应的中文翻译。