当前位置:主页 > 要闻 > 正文

谷歌发布最高质量音频模型Gemini 3.1 Flash Live,低延迟、高精度响应,打造实时语音交互新范式

发布时间:2026-03-27 已有: 位 网友关注

  Gemini 3.1 Flash Live是一款专为实时音频和语音交互设计的模型,核心能力集中在“实时对话”和“连续理解”。

  该模型具备以下关键特征:

  性能方面,在专用于评估包含多种约束条件的多步函数调用基准测试——ComplexFuncBench Audio中,Gemini 3.1 Flash Live取得约90.8%的成绩,远超2.5版本的前代,在多步骤语音任务理解与调用能力上表现突出。

  此外,在Scale AI的音频复杂任务测试中,模型在启用“thinking”模式后,能够更好处理现实环境中的干扰与长时任务。

  向开发者全面开放:API与多场景接入

  谷歌此次强调,该模型并非仅用于终端产品,而是优先服务开发者生态:

  这意味着开发者可以直接构建如下应用场景:

  媒体指出,这种“API优先”的策略与当前AI行业趋势一致,即通过工具链绑定开发者,从而扩大生态壁垒。

  Gemini 3.1体系持续扩张:从“理解”到“实时行动”

  例如,Flash-Lite主打高性价比与高并发场景,在速度和成本上显著优于上一代模型,并支持开发者控制“思考深度”。

  整体来看,谷歌正通过“分层模型体系”覆盖不同需求:

  模型类型 核心定位 Pro 高复杂度推理 Flash 高速响应 Flash-Lite 低成本大规模调用 Flash Live 实时语音交互 战略意

  结合此前Gemini在多模态领域的布局,Flash Live补上了“实时交互”这一关键拼图,意味着谷歌正加速向“全栈AI平台”转型。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。