科技小报手抄报内容语音魔法师开源99语言识别系统whisper
OpenAI 最近推出了一个名为 Whisper 的开源语音识别模型。与 DALLE-2 和 GPT-3 不同,Whisper 是免费且开源的。
——1——
Whisper 语言识别模型:多语言大师
Whisper 是一种自动语音识别模型,它通过从网络上收集了超过680,000小时的多语言数据进行训练。据 OpenAI 描述,该模型对口音、背景噪音和专业术语具有极高的鲁棒性。此外,它还支持99种不同语言的转录,并能将这些语言翻译成英语。
Transformer 架构:技术魔法
可以看出,Whisper 使用的是标准的 Transformer 模型架构,这再次展示了 Transformer 在各种任务中的强大应用力度。
其他现有的方法往往使用更小或更紧密匹配的音频文本训练集,或是广泛但无监督的预训练策略。而 Whisper 在一个庞大而多样化的大型数据集上进行训练,没有针对特定数据集微调,因此它不会击败专门针对 LibriSpeech 数据集优化性能的模型。不过,当我们在许多不同的数据集中评估 Whisper 的零样本表现时,我们发现它比那些模型更加稳定,并且错误率降低了50%。
五种尺寸可供选择
Whisper 支持5种不同的模型尺寸,其中前四个适用于英文版本。我们可以先用一段英文版本的语音来测试一下这个功能。
安装必要库并下载视频文件
首先,我们需要安装 pytube 以便从 YouTube 下载视频,然后使用 whisper 进行语音识别。以下是代码示例:
import whisper
# 安装必需库(如果尚未安装)
!pip install --upgrade pytube git+https://github.com/openai/whisper.git -q
# 导入所需模块并初始化 Whisper 模型(medium 大小)
model = whisper.load_model("medium")
现在,让我们来看看如何利用 Whispers 进行中文语音识别并翻译成中文:
# 假设你有一个包含中文声音文件的声音.mp4 文件,你想要将其转换成文字形式和翻译成中文:
audio_file_path = "path/to/audio.mp4"
text = model.transcribe(audio_file_path)
translated_text = translate(text, target_language="zh")
print(translated_text)
对于比较精确性,除了提供给我们的原生能力之外,还有一些额外信息,如下所述:
准确性:该系统能够理解不仅限于标准发声方式,而且也能处理带有口吃、说话速度快慢以及重复等问题的声音输入。
速度:这种系统能够以惊人的速度完成任务,即使是在处理大量数据时也是如此。这意味着即使是在处理长篇小说或长篇电影时,也能快速准确地完成工作。
总结来说,虽然这项技术仍处于开发阶段,但已经展现出了巨大的潜力,有望在未来成为改变世界的一部分。如果你想了解更多关于这一领域最新进展的话题,可以关注相关科技论坛或者研究机构发布的情况。