训练和管理模型

使用 API,您无需编写任何代码即可创建和训练自定义 Speech-to-Text 模型,以提高现有 Speech-to-Text 模型的识别准确率。此全托管式服务会自动预配计算资源、执行训练应用代码,并确保在训练作业后删除计算资源。您将获得一个经过完全调优的转写模型,适用于任何下游应用。

与机器学习模型类似,自定义 Speech-to-Text 模型的训练通常是迭代的,涉及选择基本模型作为起点,使用文本和音频数据集对其进行调优,然后测试模型的识别质量。如果结果不符合预期,您可以使用不同数据组合重新训练新模型、再次测试,或直接在您的网域中使用该模型进行转写。

准备工作

确保您已注册 Google Cloud 账号、创建 Google Cloud 项目并启用 Speech-to-Text API:转到 Google Cloud 控制台中的语音,然后进入 Speech-to -Text API。在左侧导航栏的自定义模型部分操作。

创建自定义模型

首先,创建自定义 Speech-to-Text 模型并定义其参数,例如基本模型和转写语言:

  1. 点击创建以创建自定义模型。
  2. 输入模型名称,该名称将用于显示,并在 API 请求和 Google Cloud Speech 控制台中引用。
  3. 为模型输入说明
  4. 选择最适合您的应用场景的基本模型
  5. 选择模型的转写语言
  6. 选择应用于进行训练的区域
  7. 点击继续
自定义 Speech-to-Text 模型创建工作流的屏幕截图,其中显示了自定义模型所需的字段

如需完成自定义 Speech-to-Text 模型作业的定义并开始训练,您需要定义训练和验证数据集。

  1. 通过提供有效的 Cloud Storage 目录 URI,选择训练数据集。确保只存在音频和文本文件,并且音频总时长符合训练数据集要求
  2. 通过提供有效的 Cloud Storage 目录 URI,选择验证数据集。确保只存在音频和文本文件,并且音频总时长符合验证数据集要求
  3. 点击创建以开始训练过程。

如果在音频小时数不足的情况下编入索引或文件未遵循指南,则训练作业将失败。

自定义 Speech-to-Text 模型创建工作流的屏幕截图,其中显示了自定义模型的训练和验证数据集所需的字段

训练作业可以在我们系统中的其他作业之后排入队列,训练模型可能需要几个小时到几天的时间,具体取决于数据集大小。模型训练完成后,其状态将被标记为活跃

删除自定义模型

开始之前,请确保没有通过任何端点路由到您的自定义 Speech-to-Text 模型的流量,因为删除该模型会阻止其处理任何请求。

  1. 前往自定义模型部分的模型标签页。
  2. 点击展开选项,然后点击删除。片刻之后,自定义 Speech-to-Text 模型及其所有端点将被删除,不再处理任何流量。

列出您的自定义模型

自定义模型部分中选择模型后,您还可以列出所有自定义 Speech-to-Text 模型,包括正在训练、活跃和删除的模型。

自定义 Speech-to-Text 模型列表工作流的屏幕截图,其中显示了一个表格,该表格中包含所有已创建的自定义模型

后续步骤

请按照以下资源在应用中利用自定义语音模型: