×
加载中...
我们等了十年的国产 Siri,可能不是语音助手,而是豆包手机助手
Z Finance 2025-12-02 17:57

上周豆包输入法刚上线,引发了一轮“输入法要被重新发明了”的讨论;结果刚过几天,豆包手机助手又紧跟着亮相。

官方给出的定义很克制:这是一款“基于豆包 App,与手机厂商在操作系统层面合作的 AI 助手软件”,目前以技术预览版形式,首发搭载在与中兴联合打造的工程样机 nubia M153 上,定价 3499 元,只面向开发者和科技爱好者少量发售,甚至在售卖上也比较克制。



它不是“豆包 App 2.0”,而是和手机厂商合作的系统级能力。豆包大模型不是单独开个界面让你聊天,而是被深度嵌入系统,可以在任意界面被唤醒,直接理解当前页面内容并发起操作。

它也不是“豆包自研手机”。字节已经反复澄清:没有自研手机的计划,现在的中兴合作机本质是给手机厂商看的“样板机”,未来要的是多家厂商一起做生态合作,把豆包助手整合进不同品牌机型中。

为了让 AI 更自然融入日常使用,nubia M153 的机身侧面还加入了一颗专属物理按键。据《晚点 LatePost》报道,无论手机处于何种状态——锁屏、后台、应用内、视频中——按一下侧键,助手就会以“半屏叠加层”(Overlay)的形式浮现在界面上。这种呈现方式不会打断你正在做的事情,却能让 AI 随时“接入上下文”。

更关键的是,豆包具备真正意义上的“屏幕感知”。举一个很生活化的例子:你在微信聊天,对方发来一条情绪低落的消息。你按下侧键,豆包立刻能读懂聊天内容、揣摩语气、理解上下文,并端出一条自然得不像 AI 的安慰建议。你无需截图、复制、粘贴——它直接读屏并接手这段情绪劳动。

在这个层面上,豆包手机助手已经不是过去那种“语音助手升级版”,而是系统里的一位影子同事。他站在你随时能触碰的位置,读你的屏幕,听你的指令,理解你的任务,并主动把一部分“数字繁杂工作”接过去。

下面这篇,就当是一篇认真观察后的深度测评:它到底是什么,实际体验如何,和一众“AI 手机”“AI 助手”有什么本质不同。

豆包手机助手到底在做什么?

如果只用一句话概括,豆包手机助手不是一个新 App,而是在豆包APP的基础上,和手机厂商在操作系统层面合作的AI助手软件。基于豆包大模型的能力和手机厂商的授权,做更多交互。

在传统范式里,豆包是一个云端助手:你打开 App、输入问题、等它给答案,一切都停留在“语言交互”里。手机是手机,豆包是豆包,两者之间的关系更像是“一个很强的搜索+写作工具”。

豆包手机助手试图打破这层壁:它和手机深入结合,可以随时被唤醒,理解你在干什么,然后“接过你的手机”去完成一连串操作。你给的是自然语言任务,执行的是真实的系统行为。

这意味着,它不是在手机里多了一个“更好用的搜索框”,而是在你的手机操作系统上,又叠了一层“AI 代理层”:

上面是你看到的 App 图标和界面,下面是厂商和安卓内核,再往上一层,就是这个能理解意图、会自己规划路径的豆包大脑。

表面上看,豆包手机助手能做的事情并不陌生:语音唤醒、看屏幕、跨 App 搜索、帮你下单、帮你修图、帮你整理内容。这些能力拆开来看,别家产品或多或少也在做。

真正有差异的,是它试图重写“手机交互的最小单位”。

过去,交互单位是“点击一次”“滑动一下”“输入一段话”,于是我们才需要几十个 App,几百个入口,在屏幕上一遍遍重复相似的动作。

现在,豆包手机助手想把最小单位改成“任务”:

不是“打开 XX App→搜索电饭煲→切到另一家 App 比价→领券→加入购物车”,

而是一句话:“帮我在全平台比价这个电饭煲,挑出最值得买的那一个”。

它要做的,是把这句自然语言拆成一个“任务树”:

  • 它先读懂屏幕上这是什么商品;

  • 再打开不同电商 App 搜索同款;

  • 比较价格、优惠、发货、评价;

  • 领券,选出一款;

  • 最后停在下单页等你确认。

购物、订票、查攻略、整理快递、筛通知、改图片,这些我们每天在手机上做的琐事,在豆包眼里都是同一类问题:从“信息 + 意图”出发,生成一套跨 App 的操作计划,然后帮你执行。



实测视角:豆包到底改变了什么?

介绍视频里的效果演示看起来很流畅,但只有真正握着工程机、按下侧键、把一个又一个真实任务抛给豆包时,你才会意识到:它带来的不是某个功能的升级,而是一种截然不同的手机使用方式。

为了尽量还原接近用户现场的体验,我把多家媒体的上手测评、工程机用户在小红书上的分享、以及几位技术博主的实机体验视频都看了一遍。

一台手机,到底能被 AI 变薄到什么程度?

办公碎片:重复劳动被接管,效率的天花板被悄悄抬高

编辑把一整天的办公碎片——微信群里被狂甩的十几个文件、企业微信里等着回的同事、还没想明白的文件夹命名——当场扔给了豆包。

以前的流程你一定很熟悉:先点进微信,把所有附件一个个点开保存;再切到文件管理器,翻来翻去找那些散落各处的文件;然后分类、重命名、建文件夹;最后切到企业微信,把结果推给需要的人。光是微信群和企微之间要来回切多少次,算过的人都知道能把心态切到“离职”。

这一次,编辑只做了一件事:按下侧键,说一句话。

屏幕上随即出现了一种奇异的连贯感:微信群被自动打开,附件被逐个抓走,文件管理器被调起,分类规则自动生效,压缩包在几秒钟里生成,然后企业微信自动跳出聊天窗口。整个过程快得有点不真实,像是在看一个隐形的人在抢你的手机用,而你只需要在一旁喝口水。任务完成后,编辑笑着说了一句:“这手机,好像薄了一层。”

这就是“变薄”的第一种含义:原本占据你注意力的重复劳动,被 AI 平均稀释掉了。手机仍然是那台手机,但你不再被迫跟它的 UI 做低效的搏斗。



购物比价:体验有惊喜,也有边界

晚点给豆包布置了一个经典电商折磨题:让它比较京东、美团、淘宝三家同款肯德基汉堡的价格,挑出最便宜的那一份,生成截图,然后发给指定微信联系人。注意,这不是「搜索一下谁家便宜」,而是「自动下单、自动截图、自动转发」。

豆包在这个场景下的表现相当接近“人类助理”。它先识别屏幕上的商品,再依次调起三个 App,搜索、比价、领券、停在下单页等你点确认,随后自动完成截图、打开微信、找到联系人、发送。整个任务链条没有一次人工跳转,没有一次重新输入。你说,它就做;你开口,它马上执行。



图片来源:晚点

但因为豆包仍然会受限于界面结构的复杂性,有时会遇到隐藏按钮、有时会被弹窗遮挡、偶尔会误点 SKU。这就是豆包“变薄”逻辑的第二个条件——这套魔法的成立,是建立在“你让 AI 去的地方,它能看清楚;你要它点的按钮,它能点得准”之上的。

当这两个条件被满足时,它就像是放在手机里的一个真实助理。

但边界同样清晰: 商品标题写得花里胡哨、型号藏在图里、平台搜索结果质量参差不齐的时候,豆包也会“踩坑”,比如认错规格、选到带水分的低价 SKU,给出的推荐理由略显生硬。这种时候,你还是需要人工做最后一层 sanity check。

多模态 P 图:相册第一次变成了“可对话的工具”

在相册里直接用语音做修图,是这次体验里最有“爽点”的一条。你不用再把图导入别的 App,只需要点开照片,随口说“帮我把后面那个人 P 掉”“换一个更暗一点、电影感强一点的背景”,方案就会在眼前刷出来。

简单任务的效果已经足够实用:路人消除、杂物清理、整体调色,都能达到主流 AI 修图产品的合格水平;但在复杂构图、精细光影、人物边缘这些地方,仍然能看到“人工智能的痕迹”,离专业修图师还有明显差距。



但这件事真正重要的地方不在于“修得多好”,而在于它改变了一个默认心智:相册不再是一个“被动存放图片的地方”,而是变成了一个“可以被语言驱动的内容工坊”。这为后面更多玩法(自动生成相册故事、按人/场景搜索、自动拼短视频)打开了想象空间。

它和其他“AI 手机助手”的真正区别在哪里?

这一年来,“AI 手机”的标签几乎被各家说烂了。有人给相机加个生成框,有人给输入法挂个模型,有人做个本地小模型当“随身智囊”。豆包手机助手的路线,跟这些相比有两个关键不同:

第一,它把重点放在“操作手机的行动”,而不是单点炫技。

很多 AI 手机的发布会,会强调照片修得有多好、语音克隆有多像、总结文档有多快,这些都是真实的能力提升,但大多停留在“某一个 App 环节更聪明”。

豆包想做的是:把“点哪个 App、在里面点哪儿、下一步点什么”这整条链路交给模型。也就是说,它不满足只做一个更聪明的输入法或更聪明的相机,而是要做一个能完成更多复杂任务的助手。

这用户来说是不一样的体验。

第二,它从一开始就假定:这是要开放给别人用的“AI 层”,而不是一家厂商的独家卖点。

豆包手机助手现在挂在的是一个合作样机上,它本质上是在给全行业展示一个“样板间”——如果你愿意,未来完全可以在你家机型上装上同样的一层 AI 行动系统。

对于很多没有能力自建通用大模型、又不甘心被 OS 厂商完全绑定的手机品牌来说,这是难得的第三条路:

既不用从零做 AI,也不用被锁死在别人的封闭生态里。

豆包手机助手意味着什么?

如果把这两年的全球 AI 演进串在一起,会看到一个越来越清晰的趋势:大模型厂商正在从 App 形态,走向与手机厂商的深度协作,与操作系统更紧密地耦合。谷歌 Gemini 进入 iPhone、Gemini 进三星,都是同一方向的例证——当模型能力进步足够快,厂商更希望把它放在系统层,而不是一个需要点开才能使用的工具。

豆包手机助手的出现,可以放在这个大趋势下理解。它不是字节突然想夺“入口”,而是技术演化自然催生的新合作形态:当模型能力差距变大,独立模型厂商反而更有能力向系统层延伸,帮助 OEM 在更短周期内获得高质量的 AI 行为层

这与其说是“字节插入系统”,不如说是字节把自己定位成安卓生态里可被多家厂商接入的 AI 能力提供方

过去,豆包作为 App,本质仍然依赖“内容分发入口”:用户需要打开 App、输入需求,它才能开始工作。而豆包手机助手改变的是它的触发方式——从“应用被调用”,变成“系统自动唤醒”。这使得豆包的使用路径与硬件更紧密地融合,从一个工具迁移到一个“行为层”,它陪伴的不是某个场景,而是整个设备的使用链路。这种迁移本身并不激进,而是行业里正在发生的共识:当 AI 进入系统级,执行任务的逻辑会比 App 逻辑更重要

它不是传统意义的 OS,也不是单一的 App,而是一个能够跨场景、跨品牌执行任务的 AI 行为层。豆包手机助手只是第一步,真正重要的是:中国市场可能会率先跑出“模型厂商 × 手机厂商”这一全球新范式

要不要现在就上车?

最后回到一个实际问题:现在这台挂了豆包手机助手的工程机,值不值得普通用户冲一台?

非常坦白的建议:如果你只是想找一台稳定、好用的主力机,现在不一定是时候。

但如果你是下面几类人之一——

  • 做产品、做交互、做 AI 应用,希望近距离拆解一个“系统级 Agent”是怎么被落地的;

  • 做电商、做内容、做效率工具,希望判断“AI 行为层”对自己业务意味着什么;

  • 对手机形态下一阶段的变革真的非常好奇;

那这台机器就很值得你当成一件研究用的硬件,至少可以帮你在脑子里构建出一条更清晰的时间线:在“手机里有一个更强大的搜索框”和“手机变成一个可以托付事务的 AI 助手”之间,现实世界到底还隔着多少坑、多少缝、多少看不见的妥协。

豆包手机助手现在做的,就是把这条路的第一段摊在我们面前。

它不完美,但这一次,手机屏幕背后那只“看不见的手”,第一次真的开始帮我们点东西了。

(转载自Z Finance)


扫码下载app 最新资讯实时掌握