实现实时互动:使用 Live API 进行构建

2025年4月23日
Ivan Solovyev Product Manager
Shrestha Basu Mallick Group Product Manager Gemini API

Live API 为开发者提供了必要的工具,用于构建能够处理流式音频、视频和文本的应用及智能代理,且具有极低的延迟。这种速度对于打造真正的互动式体验至关重要,为客户服务支持解决方案、教育平台和实时监控服务等领域开辟了广阔的创新空间。

Link to Youtube Video (visible only when JS is disabled)

近日,我们宣布推出适用于 Gemini 模型的 Live API 预览版,这是赋能开发者构建强大且可扩容的实时应用的重要一步。立即通过 Google AI StudioVertex AI 中的 Gemini API 体验最新功能。


Live API 的新功能

自去年 12 月推出实验性版本以来,我们一直在认真倾听您的反馈,并整合了多项新功能和能力,使 Live API 达到生产就绪状态。更多详细信息,请查阅 Live API 文档

增强的会话管理与可靠性

  • 通过上下文压缩延长会话时间:突破以往的时间限制,支持更长时间的互动。通过滑动窗口机制配置上下文窗口压缩,自动管理上下文长度,避免因上下文限制而导致的突然中断。

  • 会话恢复:在网络临时中断后保持会话的连续性。Live API 现支持服务器端会话状态存储(最长可达 24 小时),并提供会话恢复标识 (session_resumption),以便重新连接会话并从上次中断处继续。

  • 平稳的断开连接通知:在连接即将关闭时,服务器会发送 GoAway 消息,使用户能够在进程终止前妥善处理。

  • 可配置的轮次覆盖:决定 Live API 是持续处理所有音频和视频输入,还是仅在检测到终端用户讲话时才捕获输入内容。

  • 可配置的媒体分辨率:通过选择输入媒体的分辨率,来决定使优化质量还是令牌使用。


对互动动态的更精细控制

  • 可配置的语音活动检测 (VAD):选择灵敏度等级,或完全禁用自动 VAD,并通过新的客户端事件(activityStartactivityEnd)手动控制轮次。

  • 可配置的中断处理:决定用户输入是否应中断模型的响应。

  • 灵活的会话设置:在会话期间随时修改系统指令及其他设置配置


更丰富的输出与功能

  • 扩展的语音与语言选项:从两种新声音和 30 种新语言中选择音频输出。现在可以通过 speechConfig 配置输出语言。

  • 文本流式传输:在生成文本响应时逐步接收响应,从而更快地向用户展示内容。

  • 令牌使用报告:通过服务器消息中的 usageMetadata 字段获取详细的令牌计数,按模态和提示/响应阶段细分,深入了解使用情况。


了解 Live API 的实际应用:真实案例

为了激发您的下一个项目灵感,我们将展示一些开发者在其应用中巧妙运用 Live API 的精彩案例:


Daily.co

Daily 将 Live API 支持整合到了适用于 Web、Android、iOS 和 C++ 的 Pipecat 开源 SDK 中。

借助 Live API 的强大功能,Pipecat Daily 打造了一款基于语音的猜词游戏“Word Wrangler”。您可在这个融合了 AI 技术的经典文字游戏中测试自己的描述能力,并探索如何自行构建一个类似的应用

Live API - Word Wrangler

LiveKit

LiveKit 将 Live API 支持集成到了 LiveKit Agents 中。此框架适用于构建语音 AI 代理,可提供完全开源的平台,支持创建服务器端智能代理应用。

在 Live API 出现之前,没有任何其他 LLM 能够提供可直接提取流式视频的开发者接口。”
——
首席执行官 Russell d’Sa

点击此处查看演示。该公司构建了一个 AI Copilot,可以一边与您一起浏览互联网,一边实时分享它对所见内容的见解。


Bubba.ai

Hey Bubba 是一款专为卡车司机打造的以语音为核心的智能 AI 代理应用。通过利用 Live API,它实现了无缝的多语言语音通信,使司机能够完全免触摸操作。其主要功能包括:

  • 搜索货运订单并提供详细信息。

  • 致电经纪人/发货方。

  • 根据市场数据协商货运价格。

  • 预订货运订单并核实价格确认信息。

  • 查找和预订卡车停车位,包括致电酒店以确认可订状态。

  • 与发货方和收货方预约时间。

Live API 不仅支持司机的互动(通过函数调用和上下文缓存来实现如未来取货查询等功能),还使 Bubba 能够在电话中完成协商和预订。这使得 Hey Bubba 成为面向美国规模最大、最具多样性的职业群体的一款综合性 AI 工具。

Link to Youtube Video (visible only when JS is disabled)

立即开始构建

Live API 已准备好为您的下一个实时语音应用提供支持,立即开启您的开发之旅:

祝大家尽情享受构建的乐趣!

OSZAR »