手把手教学 | 企业如何在微软 Azure OpenAI 服务上调用GPT_语音_模型

微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出，这是对Microsoft Azure OpenAI 服务的重大增强，增加了高级语音功能并扩展了 GPT-4o 的多模式产品。这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位，尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立，该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能，涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。

参考链接：https://azureopenai.cloudallonline.com/?zxwsh168

微软 Azure OpenAI 申请

现在，GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合，进一步突破了界限，为开发人员提供了打造更自然、对话式 AI 体验所需的工具。从创建虚拟助手到提供实时客户支持，这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分，新模型还与 Copilot 集成。

实时 API：构建快速的语音到语音体验

OpenAI 在开发者大会上正式推出实时 API 的公测版，允许所有付费开发者在他们的应用程序中构建低延迟、多模态的体验。

与 ChatGPT 的高级语音模式类似，实时 API 支持使用 API 中已经支持的 6 种预设语音进行自然的语音到语音对话。这意味着开发者可以开始将 ChatGPT 的语音控制添加到应用程序中。

他们还推出了聊天完成 API（Chat Completions API）中的音频输入和输出功能，以支持那些不需要实时 API 低延迟优势的使用场景。

以前，要创建类似的语音助手体验，开发者需要使用像 Whisper 这样的自动语音识别模型来转录音频，然后将文本传递给文本模型进行推理，最后使用文本到语音模型播放模型的输出。这种方法常常导致情感和口音的丢失，以及明显的延迟。

现在有了聊天完成 API，开发者可以用一个 API 调用来处理整个流程，尽管它仍然比人类对话慢。实时 API 通过直接流式传输音频输入和输出来改进这一点，使得会话体验更加自然。它还可以自动处理中断，就像 ChatGPT 中的高级语音模式一样。

实时 API 本质上简化了构建语音助手和其他会话 AI 工具的过程，消除了将多个模型组合用于转录、推理和文本到语音转换的需要。

例如，一个名为 Speak 的语言学习平台，使用实时 API 来驱动其角色扮演功能，鼓励用户练习用新语言进行对话。

实时 API 使用文本和音频 token 价格也已出炉。

文本输入 token 的价格是每 100 万个 5 美元，输出 token 每 100 万个 20 美元。

音频输入的价格是每 100 万个 100 美元，输出是每 100 万个 200 美元。这相当于每分钟音频输入约 0.06 美元，每分钟音频输出约 0.24 美元。

对于希望创建基于语音的应用程序的开发者来说，这个价格还是比较公道的。

视觉微调：使用图像和文本微调 GPT-4o

自从 OpenAI 在 GPT-4o 上首次引入微调功能以来，已经有成千上万的开发者使用仅限文本的数据集定制模型，以提高特定任务的性能。然而，在许多情况下，仅对文本进行模型微调并不能提供预期的性能提升。

因此，此次 OpenAI 宣布为 GPT-4o 引入视觉微调功能，允许开发者使用图像和文本来自定义模型的视觉理解能力，从而实现增强的视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测，以及更准确的医学图像分析等应用。

例如，东南亚的一家食品配送和共享出行公司 Grab 已经利用这项技术来改进其地图服务。仅使用 100 个示例的视觉微调，Grab 在车道计数准确率上提高了 20%，在限速标志定位上提升了 13%，超过了基础 GPT-4o 模型。

这一现实世界的应用展示了视觉微调的可能性，即使用少量的视觉训练数据，也能显著增强各行各业的人工智能服务。

目前，所有付费用户都可以使用视觉微调功能，直到 2024 年 10 月 31 日，OpenAI 每天为开发者提供免费的 100 万个训练 token，用于通过图像微调 GPT-4o 模型。

2024 年 10 月 31 日之后，微调 GPT-4o 模型的费用将是每 100 万个 token 25 美元，推理的费用是每 100 万个输入 token 3.75 美元，每 100 万个输出 token 15 美元。

提示缓存：成本可降低50%

许多开发者在构建 AI 应用程序时会在多个 API 调用中重复使用相同的上下文，比如在编辑代码库或与聊天机器人进行长时间、多轮次的对话时。

今天，OpenAI 引入了提示缓存（Prompt Caching），这是一个旨在降低开发者成本和延迟的功能。

该系统会自动对模型最近处理过的输入 tokens 应用打 50% 的折扣，对于频繁重复使用上下文的应用来说，这可能会带来成本的大幅降低。

提示缓存将自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini，以及这些模型的微调版本。

（来源：OpenAI）OpenAI 在 2024 DevDay 上公布的定价表显示，AI 模型使用成本大幅降低，缓存输入 tokens 相比未缓存 tokens 在各种 GPT 模型中最多可节省 50% 的费用。新的 o1 模型展示了其高级功能的溢价定价。

「我们一直很忙，」OpenAI 平台产品负责人奥利维尔・戈德蒙特（Olivier Godement）在公司旧金山总部举行的小型新闻发布会上说，「就在两年前，GPT-3 还处于领先地位。现在，我们已经将成本降低了近 1000 倍。我试图想出一个在两年内将成本降低了近 1000 倍的技术示例 —— 但我想不到这样的例子。」

这种显著的降成本，为初创企业和企业探索新应用提供了重大机遇，这些应用此前由于成本高昂而无法触及。

模型蒸馏：让小模型拥有尖端模型功能

OpenAI 此次还引入了模型蒸馏（Model Distillation）。这种集成的工作流程允许开发者使用 o1-preview 和 GPT-4o 等高级模型的输出，来提高像 GPT-4o mini 这样更高效模型的性能。

模型蒸馏涉及使用更强大的模型的输出来微调更小、更经济的模型，使它们能够在特定任务上以更低的成本匹配高级模型的性能。

直到现在，蒸馏一直是一个多步骤、容易出错的过程，需要开发者手动协调多个操作，从生成数据集到微调模型和测量性能提升。由于蒸馏本质上是迭代的，开发者需要重复运行每一步，增加了显著的工作量和复杂性。

OpenAI 新模型蒸馏套件包括：

存储完成：开发者现在可以通过自动捕获和存储我们的 API 生成的输入输出对，轻松地为蒸馏生成数据集，比如 GPT-4o 或 o1-preview。有了存储完成，你可以轻松地使用生产数据构建数据集来评估和微调模型。开发者可以查看这个集成指南来学习如何选择存储完成。

评估（beta）：开发者现在可以在我们平台上创建和运行自定义评估，以测量模型在特定任务上的性能。与手动创建评估脚本和整合不同的日志工具相比，评估提供了一种集成的方式来测量模型性能。你可以使用存储完成的数据或上传现有数据集来设置你的评估。评估也可以独立于微调使用，以定量评估模型在用例中的性能。

微调：存储完成和评估完全集成到我们现有的微调服务中。这意味着开发者可以在他们的微调作业中使用存储完成创建的数据集，并使用评估在微调模型上运行评估，所有这些都在我们的平台上完成。

这种方法可以使小型公司利用与高级模型相似的能力，而不必承担相同的计算成本。它解决了 AI 行业中长期存在的一个分歧，即尖端、资源密集型系统与更易访问但能力较弱的对应系统之间的分歧。

比如一家小型医疗技术初创公司，该公司正在为农村诊所开发一个 AI 驱动的诊断工具。使用模型蒸馏，该公司可以训练一个紧凑的模型，该模型在标准笔记本电脑或平板电脑上运行时，能够捕捉到更大模型的大部分诊断能力。这可能会将复杂的 AI 能力带到资源受限的环境中，有可能改善服务不足地区的医疗保健结果。

微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT的可能。返回搜狐，查看更多

责任编辑：

广州独角兽数码科技

手把手教学 | 企业如何在微软 Azure OpenAI 服务上调用GPT