一文读懂Google IO 2025 开发者大会：开启 “模型即平台” 的 AI 生态新时代

发布时间：2025-05-21 已有：位网友关注

　　继微软之后，谷歌也全面拥抱人工智能智能体。在开发者大会上，谷歌宣布要让智能体全面进驻谷歌的主打业务以及AI助手Gemini，并通过Gemini与结合，推出全新的AI模式。

　　美东时间5月20日周二，谷歌2025年度I/O开发者大会的主题演讲展示了在AI、多模态模型、跨设备整合与开发者工具方面的最新成果。从升级后的 Gemini 2.5 Pro 模型到智能眼镜的 XR 应用，再到 AI 驱动的与网页浏览体验。谷歌展现的不仅是模型的性能提升，更是AI从“信息工具”进化为“通用智能体” 的进步。

　　本次发布内容主要包括：

　　新实验项目 Stitch：通过文本提示自动生成 App UI 设计，并即时转为代码。

　　设计不仅是静态图，而是可以

　　AI Studio 新增原生语音模型，支持 24 种语言与主动音频识别。

　　URL Context 功能：模型可从链接中提取上下文，支持最多 20 个链接。

　　增强了函数调用与推理功能，可与外部工具协同工作。

　　展示了如何构建语音助手、游戏等项目，包括自动生成、调试和部署。

　　用 Gemini 构建的虚拟形象 “Casey”，可监听关键词如“Gemini”并实时更新 UI。

　　与地图整合：通过语音指令让 Casey 展示地点、寻找 Wi-Fi 咖啡馆并提供导航。

　　支持异步函数调用，实现更自然的多轮对话体验。

　　实时部署：通过 Cloud Run 一键部署应用到线上，并集成至 IDE。

　　刚开场，登台的Alphabet兼谷歌CEO 皮查伊就强调了Gemini的重要性，称“在谷歌，每天都是Gemini季”，并力推新模型Gemini 2.5 Pro ——“ 迄今为止我们最强大的通用 AI 模型”。

　　皮查伊说，自上次I/O大会以来，谷歌已推出十多款模型和20项AI功能，谷歌的发货速度已经是史上最快：

　　“我们希望尽快将最好的模型和产品交到大家手中，因此我们的发货速度比以往任何时候都快。”

　　皮查伊透露，Gemini 2.5 Pro模型已在大语言模型测评LLM Arena的所有类别排行榜上名列前茅。Gemini是热门AI代码

　　他介绍，一年来，谷歌系统每月处理的token数量激增，从去年的9.7万亿增加到现在的480万亿，增长将近50倍。Gemini的App每月有4 亿多活跃用户。

　　皮查伊宣布，谷歌将在Chrome浏览器、以及Gemini的App中推出智能体模式。

　　智能体可以与浏览器和其他软件进行交互和操作。谷歌研究的AI智能体Mariner现在可以同时管理多达10个任务，用户只需向其展示一次任务，它就会学习该任务，并将经验用于未来的案例。

　　智能体模式的实验版即将向Gemini App的订阅者推出。

　　皮查伊现场演示Gemini App中的智能体模式，要求它帮用户找公寓。得到指令后，Gemini房产网Zillow，用电脑调整筛选条件，并使用模型上下文协议MCP预约看房。

　　“这是一个新兴的时代。将研究成果转化为现实的最佳方式就是让它真正发挥作用。”

　　他说，在经用户许可的情况下，Gemini 现在可以在各种App中以“私密安全”的方式使用个人信息。

　　谷歌高管称，Gemini App有三大定位：Personal、Proactive、Powerful。它可主动帮助你准备考试、整理任务、制定旅行计划，甚至提前生成解释。

　　Gemini Live语音助手升级，即日起在Android 和 iOS免费开放，支持 45种以上的语言。它支持语音对话、摄像头识别与屏幕共享，能在上下班途中与用户自然聊天或帮你读懂周围环境。谷歌称，Gemini Live的“这些交互是如此自然，以至于你会忘了你在跟 AI 说话。”

　　在智能体模式下，Gemini Live可帮用户找房、预约、订票。谷歌演示，用户只需说出需求：“我和两个室友在奥斯汀找房，每人预算 1200 美元”，Gemini 会自动比对 Zillow 房源、筛选洗衣设施、甚至安排看房时间。完全不需要切换 App，AI 就已为你搞定。

　　Canvas功能让文档“变身”成可分享的内容。用户可以上传文档，一键生成互动网页、信息图，甚至播客内容。“Canvas 不是工具，它是共创空间。”

　　模型现在可以用更具表现力的方式交谈，甚至可以低声细语。它可以无缝切换到印地语，然后以相同的声音切换回英语。Gemini API现在就可以提供原生音频输出。

　　Gemini的实时语音助手Gemini Live现在可以区分说话者的声音和背景音，因此可以做出更恰当的响应。

　　谷歌发布名为Google Beam 的新产品。它是一个AI驱动的通信平台，让人们的感觉如同面对面聊天。它是谷歌3D会议系统项目Starline 技术的升级版。谷歌与惠普合作，将Google Beam 系统商业化，今年晚些时候，惠普将推出首批Google Beam设备。

　　Google Beam 采用六个摄像头阵列，从不同角度捕捉拍摄对象、比如人物。AI模型将实时拼接这些视图，渲染成类似 3D 的画面，从而创建3D 人物。谷歌表示，该系统拥有近乎完美的头部追踪技术，精度可达毫米级，以帧率每秒60 帧的实时渲染速度呈现。

　　谷歌高层介绍，Gemini 2.5 Pro 很快就能实现实时翻译。Gemini模型产品团队负责人Tulsee Doshi现场进行了实时翻译的演示，让AI语音先用英语说话，在说到一半时切换到印地语。

　　Doshi 还表示，Gemini 2.5 Pro 更加安全，具有针对提示注入这种网络共计的保护措施。提示注入是指，利用恶意或非预期提示词诱骗 AI执行不应执行的操作。

　　谷歌的在线会议服务Google Meet本周二推出实时语音翻译功能，目前支持英语到西班牙语的互译，更多语言将在未来几周内推出。该服务功能首先面向订阅用户，今年晚些时候扩大到企业用户。

　　Gemini 2.5 Flash是一个高效轻量版本的模型，速度比 Pro 快、成本更低，适合常规任务。它支持 “思考预算”机制，让用户可以控制输出质量与响应速度。

　　谷歌介绍，谷歌的推理模型Gemini 2.5 Flash效率更高。在实现相同性能的情况下，它使用的token更少，这样一来，效率就提升了22%。如果用户使用 Gemini 2.5 Flash 进行构建，使用的token会更少的。

　　Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示，该模型在多项基准测试中均处于领先地位，初期仅向受信任的测试人员开放。

　　Gemini 现在包括模型“原始想法”的“思想摘要”。Gemini 2.5 Pro 现在有“思考预算”，它存在于 Flash模型中，可以供开发人员控制模型使用多少个token来控制成本和延迟。

　　上周OpenAI推出了自家的最强写代码智能体Codex，本周二谷歌介绍了自研的编码智能体App Jules。异步编码代理 Jules 现已开启公测，任何人都可以注册。

　　Gemini 2.5 Pro 可以将用户绘制的草图和 3D 动画编码到现有的App中，同时更新文件以便使用 AI Studio 生成动画。

　　谷歌即将推出一种新的研究模型Gemini Diffusion。这个新模型在回答问题时更加高效、快速。该模型正在面向一小部分人测试。它是谷歌首次将扩散模型用于文本生成的实验性研究，速度提升 5 倍，可

　　谷歌演示了一段概念，展示多模态虚拟助手项目Astra加持的Gemini Live功能。它可以帮助用户进行研究，比如弄清楚如何修理自行车。

　　Gemini 会进行研究并提供指导，首先找到 PDF 说明书，然后找到 YouTube ，最后自行车店的邮件。用户可以根据需要给自行车店打电话订购零件，并查看使用手册。这基本上就是一个多任务处理的过程。

　　谷歌还演示了一个名为Aira的项目。它通过智能眼镜为盲人和视力低的用户提供实时

　　显示，当用户准备在俱乐部现场演奏音乐时，用户用手机的摄像头环顾房间，通过在手机上运行的Aira服务，手机可以实时描述房间内的事物。

　　DeepMind的CEO Hassabis说：“我们正在打造更加个性化、更有主动性和更强大的AI。” 所有这一切将迎来“一个充满发现和奇迹的新黄金时代”。

　　谷歌添加AI模式标签页支持长达数百字提问周二在美上线

　　皮查伊称AI概览是谷歌最成功的产品之一，每月有15 亿用户在中使用AI概览，它推动某些类型的查询增长了10%。这意味着，谷歌提供生成式AI服务的用户规模超过其他公司。

　　Gemini模型将与谷歌集合。它将通过AI模式增强智能，成为一种强大的新型AI功能，可帮助解答问题。它是中的新标签页，也将包含在AI 概览中。

　　作为全新的功能，AI模式让用户可以提出更长、更复杂的查询。它支持长达数百字的提问、自动分解查询意图、并生成结构化答案。该模式本周二就上线，作为的新标签页形势，向所有美国的用户推出。

　　1) 直接通过自然语言发问，系统会提供摘要式、结构化回答。

　　2) 与结果进行多轮对话，进一步深入了解相关内容。

　　3) 获取图文并茂的“智能回答卡片”，例如自动整理出旅游行程、购物建议、编程指南等。

　　“我们正在重新定义的未来。不是找到链接，而是直接给出答案。”

　　谷歌负责人Liz Reid介绍，AI模式会得到名为Deep Research的模型加持，谷歌称之为“深度”。该模型将通过逻辑结果和高度相关的内容，更好地整理研究主题。

　　AI模式的“就像你身边有一位博学助理。” 它还会结合地图、评论、等生成图表和推荐内容。

　　Reid说，AI 模式将拥有谷歌所有最优秀的 AI 特性和功能。“随着时间的推移，我们将逐步将 AI 模式的许多尖端特性和功能融入核心体验。” 她还说，AI 模式现在就将支持AI概览。

　　多模态 AI 创作突破：图像、模型和创作平台、音频模型

　　谷歌推出新一代图像模型Imagine 4 ，让图像质量大幅提升，更强细节捕捉、构图理解，首次支持精确文本生成。

　　该模型加入“快速变体”：比前代快10倍，适合创意探索。新版本的Imagine模型更强细节捕捉与构图理解，可识别中文、英文等复杂字体，实时生成图像、海报甚至插画。

　　谷歌介绍Veo 3 模型。它是谷歌最强生成模型，支持角色一致性、镜头控制和原生语音生成，能自动合成环境音、对白、背景音乐。甚至连角色间的对话语音都能生成，画面还能和角色的口型同步。

　　Veo 3可控制摄像机角度、剪辑节奏，确保人物一致性、风格统一。

　　谷歌与导演合作开发了名为Flow的创作平台，支持一键式场景、故事生成。

　　Flow 平台支持AI 制作软件，支持剧本、镜头语言、画面构图等创作全过程。谷歌与 Darren Aronofsky、Eliza McNitt 等电影人合作推出短片项目。

　　用户可上传角色、设定场景，AI 自动生成镜头组接。

　　谷歌还推出了Lyria 音频模型和Music AI Sandbox。它支持生成专业音乐、合唱、独唱，结合 AI Sandbox 成为音乐人创作工具，能结合 Flow、Veo 可用于完整电影原声音乐生成。

　　谷歌展示了在扩展现实——XR生态的重要进展，其中之一是智能眼镜。它是全天候的Gemini 助理

　　谷歌的智能眼镜内建摄像头、骨传导音响与内嵌显示，眼镜可识别物体、翻译语言、记住你喝的咖啡名字，还能用语音控制 AI 导航、订位、拍照。

　　同时，谷歌的Android XR 平台与三星联合推出头显Moohan。

　　该头显支持沉浸式地图、播放、交互式 Gemini AI 等。XR 版本地图可瞬间“带你”走遍世界。

　　谷歌称，Moohan“不再是Clark Kent摘眼镜变超人，而是戴上眼镜，你就拥有 AI 超能力。”

　　谷歌推出全新的 AI 订阅套餐Google AI Ultra，订阅者将拥有最高使用限额，并可访问谷歌最强大的模型和高级功能。

　　Google AI Ultra 现已在美国上市，每月价格为 249.99 美元（首次用户可享受订阅前三个月的半价优惠。谷歌称，将很快在更多国家地区推出。

　　使用Gemini模型，计划提供 Deep Research 的最高使用限额、Veo 2 的尖端生成功能以及Veo 3 模型的抢先体验，未来几周还将获得增强推理模式 Deep Think 2.5 Pro 版的使用权限；

　　Whisk，获得 Whisk Animate 的最高使用限制，它能通过 Veo 2 将您的图像转换成生动的八秒；

　　NotebookLM让学习者可以用“思维导图”方式组织资料，今年晚些时候订阅用户可获得最高使用限制和增强的模型功能；

上一篇：Labubu，新时代的Hello Kitty？

下一篇：藏不住的车圈焦虑

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。