和平精英免费开科技软件下载一探OpenAI开源语音识别系统whisper的神奇之处

  • 综合资讯
  • 2025年02月18日
  • OpenAI 最近推出了一个名为 Whisper 的语音识别模型。这款模型基于来自互联网的 680,000 小时多语言数据进行训练,能够识别和翻译全球99种语言中的任何一种。此外,由于其广泛的应用范围,Whisper 使用了标准的Transformer架构,这使得它在处理各种噪音和口音时表现出色。 Whisper支持五种不同的模型尺寸,每种尺寸都有其特定的用途

和平精英免费开科技软件下载一探OpenAI开源语音识别系统whisper的神奇之处

OpenAI 最近推出了一个名为 Whisper 的语音识别模型。这款模型基于来自互联网的 680,000 小时多语言数据进行训练,能够识别和翻译全球99种语言中的任何一种。此外,由于其广泛的应用范围,Whisper 使用了标准的Transformer架构,这使得它在处理各种噪音和口音时表现出色。

Whisper支持五种不同的模型尺寸,每种尺寸都有其特定的用途。用户可以根据需要选择合适的模型进行使用。值得注意的是,尽管OpenAI提供了免费且开源的Whisper模型,但它并没有达到专门针对某些数据集微调过的其他模型那样高水平。但是,在许多不同数据集上的零样本性能测试中,Whisper显示出了比那些微调过的小型数据库更好的鲁棒性,并且错误率降低了50%。

为了体验Whisper如何工作,我们可以安装pytube库来下载YouTube视频,并通过以下代码将视频转换为可用于语音识别任务的MP4格式:

import pytube

yt = pytube.YouTube(video_url)

stream = yt.streams.get_by_itag(22) # 下载720p版本

stream.download()

然后,我们可以使用以下代码加载Medium大小的Whisper模型并对下载后的音频文件进行转录:

model = whisper.load_model("medium")

text = model.transcribe(audio_file_path)

print(text)

例如,对于英文电影《 Taken》中的一段台词,“I don't know who you are. I don't know what you want. If you are looking for ransom, I can tell you I don't have money. But what I do have are a very particular set of skills...”,whisper会自动识别并输出文本内容。

此外,虽然我们以英语作为例子,但这个系统同样适用于其他语言,如中文等。如果你有一个想要翻译成中文的声音片段,你只需将其输入到系统中,然后系统就会给出相应的中文翻译。