揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

  • 科研动态
  • 2025年02月18日
  • 在科技的海洋中,OpenAI最近推出了一个名为Whisper的神奇宝藏——一个开源的多语言语音识别模型。与其它如DALLE-2和GPT-3等先进技术不同,Whisper以其免费开放的特性吸引了众多开发者的关注。 ——1—— 探索Whisper语言识别模型 Whisper是一款强大的自动语音识别模型,它通过集成了680,000小时之久的多语言数据进行训练。这意味着不论是来自世界各地的声音

揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

在科技的海洋中,OpenAI最近推出了一个名为Whisper的神奇宝藏——一个开源的多语言语音识别模型。与其它如DALLE-2和GPT-3等先进技术不同,Whisper以其免费开放的特性吸引了众多开发者的关注。

——1——

探索Whisper语言识别模型

Whisper是一款强大的自动语音识别模型,它通过集成了680,000小时之久的多语言数据进行训练。这意味着不论是来自世界各地的声音、还是各种背景噪音或专业术语,这个模型都能轻松应对。更令人印象深刻的是,它能够支持99种不同的语言进行转录,并且可以将这些语言翻译成英语。

构建于Transformer框架

Whisper采用了一种标准化而高效的Transformer结构,可以看出Transformer技术在自然语言处理领域取得了何等巨大的飞跃。

相比于其他现有的方法,通常会使用较小、精细匹配训练数据集或者广泛但无监督预训练。而Whisper却是在庞大而多样化数据集上进行训练,没有针对任何特定数据集微调,因此它无法超越专门研究LibriSpeech性能的模型。但当我们在诸多不同数据集上测试零样本性能时,我们发现Whisper表现更加稳定,其错误率降低了50%。

选择五种不同的模型尺寸

除了英文版本,Whisper还提供五种不同的模型尺寸,其中前四个适用于英文用户。如果你想尝试一下这项技术,你可以从一段英文视频开始测试。

首先安装必要库:

!pip install --upgrade pytube

!pip install git https://github.com/openai/whisper.git –q

然后导入所需模块并下载相关视频:

import whisper

import pytube

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这样就可以下载视频文件中的音频文件,即MP4格式,但实际内容仅为纯粹的音频文件。PyTube库允许你从YouTube下载视频和音频文件,而下面的代码则可用于下载完整视频:

yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")

yt.streams.filter(file_extension='mp4')

# [720p, 1080p]

stream = yt.streams.get_by_itag(22) # 下载720p版本

stream.download()

完成这些操作后,你就准备好用到Whisper进行语音识别工作了:

model = whisper.load_model('medium')

text = model.transcribe('11.mp4')

print(text)

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money. But what I do have are a very particular set of skills. Skills I have acquired over a very long career. Skills that make me a nightmare for people like you.

如果您现在放过我的女儿,我保证这就是最后一次。我不会去找您。我不会追踪您。但如果您不这样做,我会找到您。我会杀死您。祝好运!

此外,不仅限于英语,还有其他许多语言也能被这个神奇系统捕捉并理解,比如中文。在这里,我们使用一个中文语句,并让机器学习系统把它翻译成中文:

languages_dict={af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic, as_in: Assamese...}

for key in languages_dict:

print(key + ": " + languages_dict[key])

通过这样的方式,我们能够利用这个强大的工具来探索更多未知的声音世界,让每一种声音都得到尊重和理解。此外,由于我们的目标是创建一种跨文化交流工具,所以我们还希望未来能扩展到更多非洲国家和地区,以促进全球性的交流与合作。

猜你喜欢