Gemini API 全新升级:Gemini 2.5 Flash 及 Pro、Live API 和 Veo 2

2025年4月9日
Shrestha Basu Mallick Group Product Manager Gemini API
Alisa Fortin Product Manager
Ivan Solovyev Product Manager
Joana Carrasqueira Senior Manager, DeepMind Developer Relations

在今年的 Cloud Next 大会上,我们激动地宣布推出多项更新内容和最新功能,助力您和其他开发者携手 Google AI 塑造未来。本周面向在 Google AI Studio 中使用 Gemini API 的开发者发布的部分精彩更新包括:最新版 Gemini 2.5 思维模型、Live API 实时交互体验的最新进展,以及正式面向开发者推出的高质量视频生成工具 Veo 2。


使用 Gemini 2.5 进行构建

我们近期推出了 Gemini 2.5 Pro,这是我们迄今为止功能最强的 AI 模型,可以展现思维模型在生成响应之前进行逻辑推演的能力。作为当前最先进的编码模型,Gemini 2.5 Pro 在创建引人注目的 Web 应用和开发代理编程应用方面表现非常出色。

自上周起,开发者已经可以在 Google AI Studio 中通过 Gemini API 进行构建,企业客户则可通过 Vertex AI 进行构建。

Link to Youtube Video (visible only when JS is disabled)

在这种势头的基础上,我们高兴地宣布 Gemini 2.5 Flash 即将问世。作为热门主力模型的革新版本,Gemini 2.5 Flash 在保持低延迟和成本效益的同时,融入了思维能力。

这标志着我们朝着让所有 Gemini 模型都具备自适应思维的愿景,迈出了重要一步。使用 Gemini 2.5 模型进行构建时,开发者可以解锁海量全新的应用用例,包括支持更强大的代理、管理多代理系统,以及利用多达 100 万令牌输入上下文窗口加快编码辅助和整个代码库的生成式推理。


Veo 2 现可用于生产环境

我们很高兴地宣布,Gemini API 中的 Veo 2 现在已经可以用于生产环境。Veo 2 能够理解简单和复杂的指令,并以各种视觉样式模拟现实世界的真实情况。Veo 2 让开发者可以直接在其应用中根据文本和图像提示生成高质量视频:

  • 文本到视频 (t2v):根据文本描述生成视频。

  • 图像到视频 (i2v):根据图像生成视频,另可提供可选文本提示以供参考。

Wolf Games 为例,该公司正在构建生成式游戏平台,以打造个性化的互动叙事游戏体验。他们借助 Veo 2 构建出栩栩如生的影院级游戏场景,显著提升了视频真实感、动作准确率和镜头控制。Wolf Games 表示,Veo 2 使得其获取理想视觉效果所需的迭代次数减少了 60% 以上,并大幅缩短了制作周期,加速了公司创意愿景的实现。

Link to Youtube Video (visible only when JS is disabled)

即日起,您便可在 Google AI Studio 的 Gemini API 中使用 Veo 2:

  • 质量:720p 分辨率,24 帧/秒。

  • 长度:视频片段时长上限为 8 秒。

  • 定价:所生成视频的价格为 0.35 美元/秒。

准备好使用这款视频生成工具构建交互式应用了吗?敬请查阅我们有关 Veo 2 的文档提示指南和入门实战宝典阅读更多 Vertex AI 在语音和音乐等其他模态的企业级生成式媒体方案。


Gemini 模型 Live API:预览版中的新功能

动态的实时互动体验是新一代 AI 应用的核心。Gemini 模型 Live API 现已推出预览版,其速率限制显著提高,便于开发者开始构建和测试更强大且可扩展的应用。请在 Google AI StudioVertex AI 中使用 Gemini API 中体验最新功能。

Live API 让开发者可以构建应用和代理,以低延迟处理流式音频、视频和文本,继而为创建类人对话、参与实时会议或监控实时状况等场景提供理想的解决方案。

自去年 12 月份推出实验性版本以来,我们收集了大量开发者的反馈,并在 GA 版本中添加了多项呼声极高的功能:

  • 支持 30 种新语言,并新增 2 个全新语音选项。

  • 可配置的语音活动检测 (VAD),便于更加灵活地使用自定义 VAD 解决方案。

  • 通过滑动上下文窗口实现近乎无限的会话时长

Live API 将这些功能与强大的工具集成(搜索、代码执行、函数调用)能力融为一体,非常适合在高度交互应用中使用 Gemini 2.0 Flash 等模型。

准备好构建实时体验了吗?请深入了解有关 Live API 的文档,并查看相关入门实战宝典


立即开始构建

从 Gemini 2.5 更强大的思维能力,到通过 Live API 进行实时互动,再到 Veo 2 的视频生成功能,这些更新将为开发者社群带来无限可能。我们热切期待看到您的下一个杰作!

OSZAR »