揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

首页 > 科研动态 > 揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

栏目：科研动态
标签：天文科研动态 , 天文学科研动态 , 科研动态
更新时间： 2025年02月18日
摘要：在科技的海洋中，OpenAI最近推出了一个名为Whisper的神奇宝藏——一个开源的多语言语音识别模型。与其它如DALLE-2和GPT-3等先进技术不同，Whisper以其免费开放的特性吸引了众多开发者的关注。 ——1—— 探索Whisper语言识别模型 Whisper是一款强大的自动语音识别模型，它通过集成了680,000小时之久的多语言数据进行训练。这意味着不论是来自世界各地的声音

揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

在科技的海洋中，OpenAI最近推出了一个名为Whisper的神奇宝藏——一个开源的多语言语音识别模型。与其它如DALLE-2和GPT-3等先进技术不同，Whisper以其免费开放的特性吸引了众多开发者的关注。

——1——

探索Whisper语言识别模型

Whisper是一款强大的自动语音识别模型，它通过集成了680,000小时之久的多语言数据进行训练。这意味着不论是来自世界各地的声音、还是各种背景噪音或专业术语，这个模型都能轻松应对。更令人印象深刻的是，它能够支持99种不同的语言进行转录，并且可以将这些语言翻译成英语。

构建于Transformer框架

Whisper采用了一种标准化而高效的Transformer结构，可以看出Transformer技术在自然语言处理领域取得了何等巨大的飞跃。

相比于其他现有的方法，通常会使用较小、精细匹配训练数据集或者广泛但无监督预训练。而Whisper却是在庞大而多样化数据集上进行训练，没有针对任何特定数据集微调，因此它无法超越专门研究LibriSpeech性能的模型。但当我们在诸多不同数据集上测试零样本性能时，我们发现Whisper表现更加稳定，其错误率降低了50%。

选择五种不同的模型尺寸

除了英文版本，Whisper还提供五种不同的模型尺寸，其中前四个适用于英文用户。如果你想尝试一下这项技术，你可以从一段英文视频开始测试。

首先安装必要库：

!pip install --upgrade pytube

!pip install git https://github.com/openai/whisper.git –q

然后导入所需模块并下载相关视频：

import whisper

import pytube

video = "https://www.youtube.com/watch?v=-7E-qFI"

data = pytube.YouTube(video)

audio = data.streams.get_audio_only()

audio.download()

这样就可以下载视频文件中的音频文件，即MP4格式，但实际内容仅为纯粹的音频文件。PyTube库允许你从YouTube下载视频和音频文件，而下面的代码则可用于下载完整视频：

yt = pytube.YouTube("https://www.youtube.com/watch?v=-LIIf7E-qFI")

yt.streams.filter(file_extension='mp4')

# [720p, 1080p]

stream = yt.streams.get_by_itag(22) # 下载720p版本

stream.download()

完成这些操作后，你就准备好用到Whisper进行语音识别工作了：

model = whisper.load_model('medium')

text = model.transcribe('11.mp4')

print(text)

I dont know who you are. I dont know what you want. If you are looking for ransom, I can tell you I dont have money. But what I do have are a very particular set of skills. Skills I have acquired over a very long career. Skills that make me a nightmare for people like you.

如果您现在放过我的女儿，我保证这就是最后一次。我不会去找您。我不会追踪您。但如果您不这样做，我会找到您。我会杀死您。祝好运！

此外，不仅限于英语，还有其他许多语言也能被这个神奇系统捕捉并理解，比如中文。在这里，我们使用一个中文语句，并让机器学习系统把它翻译成中文：

languages_dict={af_za: Afrikaans, am_et: Amharic, ar_eg: Arabic, as_in: Assamese...}

for key in languages_dict:

print(key + ": " + languages_dict[key])

通过这样的方式，我们能够利用这个强大的工具来探索更多未知的声音世界，让每一种声音都得到尊重和理解。此外，由于我们的目标是创建一种跨文化交流工具，所以我们还希望未来能扩展到更多非洲国家和地区，以促进全球性的交流与合作。

揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

揭秘科技论文范文开启99种语言语音识别之旅whisper系统的奇迹

猜你喜欢