发布时间:2025-05-21 已有: 位 网友关注
继微软之后,谷歌也全面拥抱人工智能智能体。在开发者大会上,谷歌宣布要让智能体全面进驻谷歌的主打业务以及AI助手Gemini,并通过Gemini与结合,推出全新的AI模式。
美东时间5月20日周二,谷歌2025年度I/O开发者大会的主题演讲展示了在AI、多模态模型、跨设备整合与开发者工具方面的最新成果。从升级后的 Gemini 2.5 Pro 模型到智能眼镜的 XR 应用,再到 AI 驱动的与网页浏览体验。谷歌展现的不仅是模型的性能提升,更是AI从“信息工具”进化为“通用智能体” 的进步。
本次发布内容主要包括:
新实验项目 Stitch:通过文本提示自动生成 App UI 设计,并即时转为代码。
设计不仅是静态图,而是可以
AI Studio 新增原生语音模型,支持 24 种语言与主动音频识别。
URL Context 功能:模型可从链接中提取上下文,支持最多 20 个链接。
增强了函数调用与推理功能,可与外部工具协同工作。
展示了如何构建语音助手、游戏等项目,包括自动生成、调试和部署。
用 Gemini 构建的虚拟形象 “Casey”,可监听关键词如“Gemini”并实时更新 UI。
与地图整合:通过语音指令让 Casey 展示地点、寻找 Wi-Fi 咖啡馆并提供导航。
支持异步函数调用,实现更自然的多轮对话体验。
实时部署:通过 Cloud Run 一键部署应用到线上,并集成至 IDE。
刚开场,登台的Alphabet兼谷歌CEO 皮查伊就强调了Gemini的重要性,称“在谷歌,每天都是Gemini季”,并力推新模型Gemini 2.5 Pro ——“ 迄今为止我们最强大的通用 AI 模型”。
皮查伊说,自上次I/O大会以来,谷歌已推出十多款模型和20项AI功能,谷歌的发货速度已经是史上最快:
“我们希望尽快将最好的模型和产品交到大家手中,因此我们的发货速度比以往任何时候都快。”
皮查伊透露,Gemini 2.5 Pro模型已在大语言模型测评LLM Arena的所有类别排行榜上名列前茅。Gemini是热门AI代码
他介绍,一年来,谷歌系统每月处理的token数量激增,从去年的9.7万亿增加到现在的480万亿,增长将近50倍。Gemini的App每月有4 亿多活跃用户。
皮查伊宣布,谷歌将在Chrome浏览器、以及Gemini的App中推出智能体模式。
智能体可以与浏览器和其他软件进行交互和操作。谷歌研究的AI智能体Mariner现在可以同时管理多达10个任务,用户只需向其展示一次任务,它就会学习该任务,并将经验用于未来的案例。
智能体模式的实验版即将向Gemini App的订阅者推出。
皮查伊现场演示Gemini App中的智能体模式,要求它帮用户找公寓。得到指令后,Gemini房产网Zillow,用电脑调整筛选条件,并使用模型上下文协议MCP预约看房。
“这是一个新兴的时代。将研究成果转化为现实的最佳方式就是让它真正发挥作用。”
他说,在经用户许可的情况下,Gemini 现在可以在各种App中以“私密安全”的方式使用个人信息。
谷歌高管称,Gemini App有三大定位:Personal、Proactive、Powerful。它可主动帮助你准备考试、整理任务、制定旅行计划,甚至提前生成解释。
Gemini Live语音助手升级,即日起在Android 和 iOS免费开放,支持 45种以上的语言。它支持语音对话、摄像头识别与屏幕共享,能在上下班途中与用户自然聊天或帮你读懂周围环境。谷歌称,Gemini Live的“这些交互是如此自然,以至于你会忘了你在跟 AI 说话。”
在智能体模式下,Gemini Live可帮用户找房、预约、订票。谷歌演示,用户只需说出需求:“我和两个室友在奥斯汀找房,每人预算 1200 美元”,Gemini 会自动比对 Zillow 房源、筛选洗衣设施、甚至安排看房时间。完全不需要切换 App,AI 就已为你搞定。
Canvas功能让文档“变身”成可分享的内容。用户可以上传文档,一键生成互动网页、信息图,甚至播客内容。“Canvas 不是工具,它是共创空间。”
模型现在可以用更具表现力的方式交谈,甚至可以低声细语。它可以无缝切换到印地语,然后以相同的声音切换回英语。Gemini API现在就可以提供原生音频输出。
Gemini的实时语音助手Gemini Live现在可以区分说话者的声音和背景音,因此可以做出更恰当的响应。
谷歌发布名为Google Beam 的新产品。它是一个AI驱动的通信平台,让人们的感觉如同面对面聊天。它是谷歌3D会议系统项目Starline 技术的升级版。谷歌与惠普合作,将Google Beam 系统商业化,今年晚些时候,惠普将推出首批Google Beam设备。
Google Beam 采用六个摄像头阵列,从不同角度捕捉拍摄对象、比如人物。AI模型将实时拼接这些视图,渲染成类似 3D 的画面,从而创建3D 人物。谷歌表示,该系统拥有近乎完美的头部追踪技术,精度可达毫米级,以帧率每秒60 帧的实时渲染速度呈现。
谷歌高层介绍,Gemini 2.5 Pro 很快就能实现实时翻译。Gemini模型产品团队负责人Tulsee Doshi现场进行了实时翻译的演示,让AI语音先用英语说话,在说到一半时切换到印地语。
Doshi 还表示,Gemini 2.5 Pro 更加安全,具有针对提示注入这种网络共计的保护措施。提示注入是指,利用恶意或非预期提示词诱骗 AI执行不应执行的操作。
谷歌的在线会议服务Google Meet本周二推出实时语音翻译功能,目前支持英语到西班牙语的互译,更多语言将在未来几周内推出。该服务功能首先面向订阅用户,今年晚些时候扩大到企业用户。
Gemini 2.5 Flash是一个高效轻量版本的模型,速度比 Pro 快、成本更低,适合常规任务。它支持 “思考预算”机制,让用户可以控制输出质量与响应速度。
谷歌介绍,谷歌的推理模型Gemini 2.5 Flash效率更高。在实现相同性能的情况下,它使用的token更少,这样一来,效率就提升了22%。如果用户使用 Gemini 2.5 Flash 进行构建,使用的token会更少的。
Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示,该模型在多项基准测试中均处于领先地位,初期仅向受信任的测试人员开放。
Gemini 现在包括模型“原始想法”的“思想摘要”。Gemini 2.5 Pro 现在有“思考预算”,它存在于 Flash模型中,可以供开发人员控制模型使用多少个token来控制成本和延迟。
上周OpenAI推出了自家的最强写代码智能体Codex,本周二谷歌介绍了自研的编码智能体App Jules。异步编码代理 Jules 现已开启公测,任何人都可以注册。
Gemini 2.5 Pro 可以将用户绘制的草图和 3D 动画编码到现有的App中,同时更新文件以便使用 AI Studio 生成动画。
谷歌即将推出一种新的研究模型Gemini Diffusion。这个新模型在回答问题时更加高效、快速。该模型正在面向一小部分人测试。它是谷歌首次将扩散模型用于文本生成的实验性研究,速度提升 5 倍,可
谷歌演示了一段概念,展示多模态虚拟助手项目Astra加持的Gemini Live功能。它可以帮助用户进行研究,比如弄清楚如何修理自行车。
Gemini 会进行研究并提供指导,首先找到 PDF 说明书,然后找到 YouTube ,最后自行车店的邮件。用户可以根据需要给自行车店打电话订购零件,并查看使用手册。这基本上就是一个多任务处理的过程。
谷歌还演示了一个名为Aira的项目。它通过智能眼镜为盲人和视力低的用户提供实时
显示,当用户准备在俱乐部现场演奏音乐时,用户用手机的摄像头环顾房间,通过在手机上运行的Aira服务,手机可以实时描述房间内的事物。
DeepMind的CEO Hassabis说:“我们正在打造更加个性化、更有主动性和更强大的AI。” 所有这一切将迎来“一个充满发现和奇迹的新黄金时代”。
谷歌添加AI模式标签页 支持长达数百字提问 周二在美上线
皮查伊称AI概览是谷歌最成功的产品之一,每月有15 亿用户在中使用AI概览,它推动某些类型的查询增长了10%。这意味着,谷歌提供生成式AI服务的用户规模超过其他公司。
Gemini模型将与谷歌集合。它将通过AI模式增强智能,成为一种强大的新型AI功能,可帮助解答问题。它是中的新标签页,也将包含在AI 概览中。
作为全新的功能,AI模式让用户可以提出更长、更复杂的查询。它支持长达数百字的提问、自动分解查询意图、并生成结构化答案。该模式本周二就上线,作为的新标签页形势,向所有美国的用户推出。
1) 直接通过自然语言发问,系统会提供摘要式、结构化回答。
2) 与结果进行多轮对话,进一步深入了解相关内容。
3) 获取图文并茂的“智能回答卡片”,例如自动整理出旅游行程、购物建议、编程指南等。
“我们正在重新定义的未来。不是找到链接,而是直接给出答案。”
谷歌负责人Liz Reid介绍,AI模式会得到名为Deep Research的模型加持,谷歌称之为“深度”。该模型将通过逻辑结果和高度相关的内容,更好地整理研究主题。
AI模式的“就像你身边有一位博学助理。” 它还会结合地图、评论、等生成图表和推荐内容。
Reid说,AI 模式将拥有谷歌所有最优秀的 AI 特性和功能。“随着时间的推移,我们将逐步将 AI 模式的许多尖端特性和功能融入核心体验。” 她还说,AI 模式现在就将支持AI概览。
多模态 AI 创作突破:图像、模型和创作平台、音频模型
谷歌推出新一代图像模型Imagine 4 ,让图像质量大幅提升,更强细节捕捉、构图理解,首次支持精确文本生成。
该模型加入“快速变体”:比前代快10倍,适合创意探索。新版本的Imagine模型更强细节捕捉与构图理解,可识别中文、英文等复杂字体,实时生成图像、海报甚至插画。
谷歌介绍Veo 3 模型。它是谷歌最强生成模型,支持角色一致性、镜头控制和原生语音生成,能自动合成环境音、对白、背景音乐。甚至连角色间的对话语音都能生成,画面还能和角色的口型同步。
Veo 3可控制摄像机角度、剪辑节奏,确保人物一致性、风格统一。
谷歌与导演合作开发了名为Flow的创作平台,支持一键式场景、故事生成。
Flow 平台支持AI 制作软件,支持剧本、镜头语言、画面构图等创作全过程。谷歌与 Darren Aronofsky、Eliza McNitt 等电影人合作推出短片项目。
用户可上传角色、设定场景,AI 自动生成镜头组接。
谷歌还推出了Lyria 音频模型和Music AI Sandbox。它支持生成专业音乐、合唱、独唱,结合 AI Sandbox 成为音乐人创作工具,能结合 Flow、Veo 可用于完整电影原声音乐生成。
谷歌展示了在扩展现实——XR生态的重要进展,其中之一是智能眼镜。它是全天候的Gemini 助理
谷歌的智能眼镜内建摄像头、骨传导音响与内嵌显示,眼镜可识别物体、翻译语言、记住你喝的咖啡名字,还能用语音控制 AI 导航、订位、拍照。
同时,谷歌的Android XR 平台与三星联合推出头显Moohan。
该头显支持沉浸式地图、播放、交互式 Gemini AI 等。XR 版本地图可瞬间“带你”走遍世界。
谷歌称,Moohan“不再是Clark Kent摘眼镜变超人,而是戴上眼镜,你就拥有 AI 超能力。”
谷歌推出全新的 AI 订阅套餐Google AI Ultra,订阅者将拥有最高使用限额,并可访问谷歌最强大的模型和高级功能。
Google AI Ultra 现已在美国上市,每月价格为 249.99 美元(首次用户可享受订阅前三个月的半价优惠。谷歌称,将很快在更多国家地区推出。
使用Gemini模型,计划提供 Deep Research 的最高使用限额、Veo 2 的尖端生成功能以及Veo 3 模型的抢先体验,未来几周还将获得增强推理模式 Deep Think 2.5 Pro 版的使用权限;
Whisk,获得 Whisk Animate 的最高使用限制,它能通过 Veo 2 将您的图像转换成生动的八秒;
NotebookLM让学习者可以用“思维导图”方式组织资料,今年晚些时候订阅用户可获得最高使用限制和增强的模型功能;