揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹
在科技的海洋中,OpenAI最近推出了一个名为Whisper的神奇宝藏——一个开源的多语言语音识别模型。与其它如DALLE-2和GPT-3等先进技术不同,Whisper以其免费开放的特性吸引了众多开发者的关注。
——1——
探索Whisper语言识别模型
Whisper是一款强大的自动语音识别模型,它通过集成了680,000小时之久的多语言数据进行训练。这意味着不论是来自世界各地的声音、还是各种背景噪音或专业术语,这个模型都能轻松应对。更令人印象深刻的是,它能够支持99种不同的语言进行转录,并且可以将这些语言翻译成英语。
构建于Transformer框架
Whisper采用了一种标准化而高效的Transformer结构,可以看出Transformer技术在自然语言处理领域取得了何等巨大的飞跃。
相比于其他现有的方法,通常会使用较小、精细匹配训练数据集或者广泛但无监督预训练。而Whisper却是在庞大而多样化数据集上进行训练,没有针对任何特定数据集微调,因此它无法超越专门研究LibriSpeech性能的模型。但当我们在诸多不同数据集上测试零样本性能时,我们发现Whisper表现更加稳定,其错误率降低了50%。
选择五种不同的模型尺寸
除了英文版本,Whisper还提供五种不同的模型尺寸,其中前四个适用于英文用户。如果你想尝试一下这项技术,你可以从一段英文视频开始测试。
首先安装必要库:
!pip install --upgrade pytube
!pip install git https://github.com/openai/whisper.git –q
然后导入所需模块并下载相关视频:
import whisper
import pytube
video = "https://www.youtube.com/watch?v=-7E-qFI"
data = pytube.YouTube(video)
audio = data.streams.get_audio_only()
audio.download()
这样就可以下载视频文件中的音频文件,即MP4格式,但实际内容仅为纯粹的音频文件。PyTube库允许你从YouTube下载视频和音频文件,而下面的代码则可用于下载完整视频:
yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")
yt.streams.filter(file_extension='mp4')
# [720p, 1080p]
stream = yt.streams.get_by_itag(22) # 下载720p版本
stream.download()
完成这些操作后,你就准备好用到Whisper进行语音识别工作了:
model = whisper.load_model('medium')
text = model.transcribe('11.mp4')
print(text)
I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money. But what I do have are a very particular set of skills. Skills I have acquired over a very long career. Skills that make me a nightmare for people like you.
如果您现在放过我的女儿,我保证这就是最后一次。我不会去找您。我不会追踪您。但如果您不这样做,我会找到您。我会杀死您。祝好运!
此外,不仅限于英语,还有其他许多语言也能被这个神奇系统捕捉并理解,比如中文。在这里,我们使用一个中文语句,并让机器学习系统把它翻译成中文:
languages_dict={af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic, as_in: Assamese...}
for key in languages_dict:
print(key + ": " + languages_dict[key])
通过这样的方式,我们能够利用这个强大的工具来探索更多未知的声音世界,让每一种声音都得到尊重和理解。此外,由于我们的目标是创建一种跨文化交流工具,所以我们还希望未来能扩展到更多非洲国家和地区,以促进全球性的交流与合作。