科技巨擘的语音解码器开启99种语言的清晰对话

  • 天文科普
  • 2025年02月18日
  • OpenAI 最近推出了一个名为 Whisper 的开源语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是免费且开源的。 ——1—— Whisper 语言识别模型:解码全球多语言对话 Whisper 是一种基于网络上共享的 680,000 小时多语言数据进行训练的自动语音识别模型。这意味着它能够很好地适应不同口音、背景噪音以及专业术语。此外,Whisper

科技巨擘的语音解码器开启99种语言的清晰对话

OpenAI 最近推出了一个名为 Whisper 的开源语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是免费且开源的。

——1——

Whisper 语言识别模型:解码全球多语言对话

Whisper 是一种基于网络上共享的 680,000 小时多语言数据进行训练的自动语音识别模型。这意味着它能够很好地适应不同口音、背景噪音以及专业术语。此外,Whisper 支持转录和翻译来自 99 种不同的语言到英语。

Transformer 架构:技术奇迹的核心

可以看出,Whisper 使用的是标准化的 Transformer 模型框架,这展示了 Transformer 模型在各种应用中的广泛使用。

传统方法通常会使用较小、更紧密配对的声音文本数据集,或是依赖于广泛但未监督的预训练过程。而 Whisper 在一个庞大而多样化的数据集上进行了训练,并没有针对特定数据集进行微调,因此它不会击败专门针对 LibriSpeech 数据集优化性能模型。但是在许多不同数据集中测量 Whisper 的零样本性能时,我们发现它比那些模型更加稳定,其错误率降低了 50%。

支持5种不同的尺寸选项

Whisper 提供5种不同的模型尺寸,其中前四种是针对英文版本。我们可以先用一段英文版本的声音来测试一下这些功能。

安装必要库并获取代码示例:

首先,我们需要安装 pytube 与 whisper 库。pytube 主要用于从 YouTube 下载视频及相关内容,而不仅限于下载视频或音频文件。不过,在这个示例中,我们将专注于下载并处理单独的声音文件。

import whisper

# 获取YouTube视频链接并复制其中的一部分以作为输入参数

video = "https://www.youtube.com/watch?v=-7E-qFI"

# 实例化YouTube对象并获取声音流信息(例如720p)

yt = pytube.YouTube(video)

stream = yt.streams.get_by_itag(22) # 下载720p质量

# 将声音流保存为MP4格式文件,但实际上只包含声音内容,不含视觉元素

stream.download()

通过运行这段代码,你将能成功下载指定 YouTube 视频片段中所需的声音文件,然后你就可以利用 Whisper 来执行语音识别任务:

model = whisper.load_model("medium") # 加载"medium"大小级别模式

text = model.transcribe("audio_file.mp4") # 对下载好的MP4格式声波文件执行转录操作

print(text)

输出结果可能如下所示:

"I don't know who you are. I don't know what you want. If you're looking for ransom, I can tell you I don't have money. But what I do have are a very particular set of skills. Skills that make me a nightmare for people like you."

此外,还有其他非英语语言也可被识别,如中文等,可以通过以下方式实现:

languages = {

af_za: "Afrikaans",

am_et: "Amharic",

ar_eg: "Arabic",

as_in: "Assamese",

az_az: "Azerbaijani",

}

text_chinese = model.transcribe("audio_file.mp4", language="cmn_hans_cn")

print(text_chinese)

这样你就能看到中文语句被正确地理解和翻译成汉字了:“我不知道你是谁。我不知道你想要什么。如果你在寻找赎金,我可以告诉你我没钱。但是我有一套非常特殊的手艺。”

因此,尽管 OpenAI 的 Whisper 并不能在所有情况下达到特定领域内最优性能,但其跨语言能力使得其成为处理各种情境下的多语言交流的一个强大的工具。

猜你喜欢