谷歌发布最高质量音频模型Gemini 3.1 Flash Live，低延迟、高精度响应，打造实时语音交互新范式

发布时间：2026-03-27 已有：位网友关注

　　Gemini 3.1 Flash Live是一款专为实时音频和语音交互设计的模型，核心能力集中在“实时对话”和“连续理解”。

　　该模型具备以下关键特征：

　　性能方面，在专用于评估包含多种约束条件的多步函数调用基准测试——ComplexFuncBench Audio中，Gemini 3.1 Flash Live取得约90.8%的成绩，远超2.5版本的前代，在多步骤语音任务理解与调用能力上表现突出。

　　此外，在Scale AI的音频复杂任务测试中，模型在启用“thinking”模式后，能够更好处理现实环境中的干扰与长时任务。

　　向开发者全面开放：API与多场景接入

　　谷歌此次强调，该模型并非仅用于终端产品，而是优先服务开发者生态：

　　这意味着开发者可以直接构建如下应用场景：

　　媒体指出，这种“API优先”的策略与当前AI行业趋势一致，即通过工具链绑定开发者，从而扩大生态壁垒。

　　Gemini 3.1体系持续扩张：从“理解”到“实时行动”

　　例如，Flash-Lite主打高性价比与高并发场景，在速度和成本上显著优于上一代模型，并支持开发者控制“思考深度”。

　　整体来看，谷歌正通过“分层模型体系”覆盖不同需求：

　　模型类型核心定位 Pro 高复杂度推理 Flash 高速响应 Flash-Lite 低成本大规模调用 Flash Live 实时语音交互战略意

　　结合此前Gemini在多模态领域的布局，Flash Live补上了“实时交互”这一关键拼图，意味着谷歌正加速向“全栈AI平台”转型。

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

推荐