我们等了十年的国产 Siri，可能不是语音助手，而是豆包手机助手

Z Finance 2025-12-02 17:57

上周豆包输入法刚上线，引发了一轮“输入法要被重新发明了”的讨论；结果刚过几天，豆包手机助手又紧跟着亮相。

官方给出的定义很克制：这是一款“基于豆包 App，与手机厂商在操作系统层面合作的 AI 助手软件”，目前以技术预览版形式，首发搭载在与中兴联合打造的工程样机 nubia M153 上，定价 3499 元，只面向开发者和科技爱好者少量发售，甚至在售卖上也比较克制。

它不是“豆包 App 2.0”，而是和手机厂商合作的系统级能力。豆包大模型不是单独开个界面让你聊天，而是被深度嵌入系统，可以在任意界面被唤醒，直接理解当前页面内容并发起操作。

它也不是“豆包自研手机”。字节已经反复澄清：没有自研手机的计划，现在的中兴合作机本质是给手机厂商看的“样板机”，未来要的是多家厂商一起做生态合作，把豆包助手整合进不同品牌机型中。

为了让 AI 更自然融入日常使用，nubia M153 的机身侧面还加入了一颗专属物理按键。据《晚点 LatePost》报道，无论手机处于何种状态——锁屏、后台、应用内、视频中——按一下侧键，助手就会以“半屏叠加层”（Overlay）的形式浮现在界面上。这种呈现方式不会打断你正在做的事情，却能让 AI 随时“接入上下文”。

更关键的是，豆包具备真正意义上的“屏幕感知”。举一个很生活化的例子：你在微信聊天，对方发来一条情绪低落的消息。你按下侧键，豆包立刻能读懂聊天内容、揣摩语气、理解上下文，并端出一条自然得不像 AI 的安慰建议。你无需截图、复制、粘贴——它直接读屏并接手这段情绪劳动。

在这个层面上，豆包手机助手已经不是过去那种“语音助手升级版”，而是系统里的一位影子同事。他站在你随时能触碰的位置，读你的屏幕，听你的指令，理解你的任务，并主动把一部分“数字繁杂工作”接过去。

下面这篇，就当是一篇认真观察后的深度测评：它到底是什么，实际体验如何，和一众“AI 手机”“AI 助手”有什么本质不同。

豆包手机助手到底在做什么？

如果只用一句话概括，豆包手机助手不是一个新 App，而是在豆包APP的基础上，和手机厂商在操作系统层面合作的AI助手软件。基于豆包大模型的能力和手机厂商的授权，做更多交互。

在传统范式里，豆包是一个云端助手：你打开 App、输入问题、等它给答案，一切都停留在“语言交互”里。手机是手机，豆包是豆包，两者之间的关系更像是“一个很强的搜索+写作工具”。

豆包手机助手试图打破这层壁：它和手机深入结合，可以随时被唤醒，理解你在干什么，然后“接过你的手机”去完成一连串操作。你给的是自然语言任务，执行的是真实的系统行为。

这意味着，它不是在手机里多了一个“更好用的搜索框”，而是在你的手机操作系统上，又叠了一层“AI 代理层”：

上面是你看到的 App 图标和界面，下面是厂商和安卓内核，再往上一层，就是这个能理解意图、会自己规划路径的豆包大脑。

表面上看，豆包手机助手能做的事情并不陌生：语音唤醒、看屏幕、跨 App 搜索、帮你下单、帮你修图、帮你整理内容。这些能力拆开来看，别家产品或多或少也在做。

真正有差异的，是它试图重写“手机交互的最小单位”。

过去，交互单位是“点击一次”“滑动一下”“输入一段话”，于是我们才需要几十个 App，几百个入口，在屏幕上一遍遍重复相似的动作。

现在，豆包手机助手想把最小单位改成“任务”：

不是“打开 XX App→搜索电饭煲→切到另一家 App 比价→领券→加入购物车”，

而是一句话：“帮我在全平台比价这个电饭煲，挑出最值得买的那一个”。

它要做的，是把这句自然语言拆成一个“任务树”：

它先读懂屏幕上这是什么商品；
再打开不同电商 App 搜索同款；
比较价格、优惠、发货、评价；
领券，选出一款；
最后停在下单页等你确认。

购物、订票、查攻略、整理快递、筛通知、改图片，这些我们每天在手机上做的琐事，在豆包眼里都是同一类问题：从“信息 + 意图”出发，生成一套跨 App 的操作计划，然后帮你执行。

实测视角：豆包到底改变了什么？

介绍视频里的效果演示看起来很流畅，但只有真正握着工程机、按下侧键、把一个又一个真实任务抛给豆包时，你才会意识到：它带来的不是某个功能的升级，而是一种截然不同的手机使用方式。

为了尽量还原接近用户现场的体验，我把多家媒体的上手测评、工程机用户在小红书上的分享、以及几位技术博主的实机体验视频都看了一遍。

一台手机，到底能被 AI 变薄到什么程度？

办公碎片：重复劳动被接管，效率的天花板被悄悄抬高

编辑把一整天的办公碎片——微信群里被狂甩的十几个文件、企业微信里等着回的同事、还没想明白的文件夹命名——当场扔给了豆包。

以前的流程你一定很熟悉：先点进微信，把所有附件一个个点开保存；再切到文件管理器，翻来翻去找那些散落各处的文件；然后分类、重命名、建文件夹；最后切到企业微信，把结果推给需要的人。光是微信群和企微之间要来回切多少次，算过的人都知道能把心态切到“离职”。

这一次，编辑只做了一件事：按下侧键，说一句话。

屏幕上随即出现了一种奇异的连贯感：微信群被自动打开，附件被逐个抓走，文件管理器被调起，分类规则自动生效，压缩包在几秒钟里生成，然后企业微信自动跳出聊天窗口。整个过程快得有点不真实，像是在看一个隐形的人在抢你的手机用，而你只需要在一旁喝口水。任务完成后，编辑笑着说了一句：“这手机，好像薄了一层。”

这就是“变薄”的第一种含义：原本占据你注意力的重复劳动，被 AI 平均稀释掉了。手机仍然是那台手机，但你不再被迫跟它的 UI 做低效的搏斗。

购物比价：体验有惊喜，也有边界

晚点给豆包布置了一个经典电商折磨题：让它比较京东、美团、淘宝三家同款肯德基汉堡的价格，挑出最便宜的那一份，生成截图，然后发给指定微信联系人。注意，这不是「搜索一下谁家便宜」，而是「自动下单、自动截图、自动转发」。

豆包在这个场景下的表现相当接近“人类助理”。它先识别屏幕上的商品，再依次调起三个 App，搜索、比价、领券、停在下单页等你点确认，随后自动完成截图、打开微信、找到联系人、发送。整个任务链条没有一次人工跳转，没有一次重新输入。你说，它就做；你开口，它马上执行。

图片来源：晚点

但因为豆包仍然会受限于界面结构的复杂性，有时会遇到隐藏按钮、有时会被弹窗遮挡、偶尔会误点 SKU。这就是豆包“变薄”逻辑的第二个条件——这套魔法的成立，是建立在“你让 AI 去的地方，它能看清楚；你要它点的按钮，它能点得准”之上的。

当这两个条件被满足时，它就像是放在手机里的一个真实助理。

但边界同样清晰：商品标题写得花里胡哨、型号藏在图里、平台搜索结果质量参差不齐的时候，豆包也会“踩坑”，比如认错规格、选到带水分的低价 SKU，给出的推荐理由略显生硬。这种时候，你还是需要人工做最后一层 sanity check。

多模态 P 图：相册第一次变成了“可对话的工具”

在相册里直接用语音做修图，是这次体验里最有“爽点”的一条。你不用再把图导入别的 App，只需要点开照片，随口说“帮我把后面那个人 P 掉”“换一个更暗一点、电影感强一点的背景”，方案就会在眼前刷出来。

简单任务的效果已经足够实用：路人消除、杂物清理、整体调色，都能达到主流 AI 修图产品的合格水平；但在复杂构图、精细光影、人物边缘这些地方，仍然能看到“人工智能的痕迹”，离专业修图师还有明显差距。

但这件事真正重要的地方不在于“修得多好”，而在于它改变了一个默认心智：相册不再是一个“被动存放图片的地方”，而是变成了一个“可以被语言驱动的内容工坊”。这为后面更多玩法（自动生成相册故事、按人/场景搜索、自动拼短视频）打开了想象空间。

它和其他“AI 手机助手”的真正区别在哪里？

这一年来，“AI 手机”的标签几乎被各家说烂了。有人给相机加个生成框，有人给输入法挂个模型，有人做个本地小模型当“随身智囊”。豆包手机助手的路线，跟这些相比有两个关键不同：

第一，它把重点放在“操作手机的行动”，而不是单点炫技。

很多 AI 手机的发布会，会强调照片修得有多好、语音克隆有多像、总结文档有多快，这些都是真实的能力提升，但大多停留在“某一个 App 环节更聪明”。

豆包想做的是：把“点哪个 App、在里面点哪儿、下一步点什么”这整条链路交给模型。也就是说，它不满足只做一个更聪明的输入法或更聪明的相机，而是要做一个能完成更多复杂任务的助手。

这用户来说是不一样的体验。

第二，它从一开始就假定：这是要开放给别人用的“AI 层”，而不是一家厂商的独家卖点。

豆包手机助手现在挂在的是一个合作样机上，它本质上是在给全行业展示一个“样板间”——如果你愿意，未来完全可以在你家机型上装上同样的一层 AI 行动系统。

对于很多没有能力自建通用大模型、又不甘心被 OS 厂商完全绑定的手机品牌来说，这是难得的第三条路：

既不用从零做 AI，也不用被锁死在别人的封闭生态里。

豆包手机助手意味着什么？

如果把这两年的全球 AI 演进串在一起，会看到一个越来越清晰的趋势：大模型厂商正在从 App 形态，走向与手机厂商的深度协作，与操作系统更紧密地耦合。谷歌 Gemini 进入 iPhone、Gemini 进三星，都是同一方向的例证——当模型能力进步足够快，厂商更希望把它放在系统层，而不是一个需要点开才能使用的工具。

豆包手机助手的出现，可以放在这个大趋势下理解。它不是字节突然想夺“入口”，而是技术演化自然催生的新合作形态：当模型能力差距变大，独立模型厂商反而更有能力向系统层延伸，帮助 OEM 在更短周期内获得高质量的 AI 行为层。

这与其说是“字节插入系统”，不如说是字节把自己定位成安卓生态里可被多家厂商接入的 AI 能力提供方。

过去，豆包作为 App，本质仍然依赖“内容分发入口”：用户需要打开 App、输入需求，它才能开始工作。而豆包手机助手改变的是它的触发方式——从“应用被调用”，变成“系统自动唤醒”。这使得豆包的使用路径与硬件更紧密地融合，从一个工具迁移到一个“行为层”，它陪伴的不是某个场景，而是整个设备的使用链路。这种迁移本身并不激进，而是行业里正在发生的共识：当 AI 进入系统级，执行任务的逻辑会比 App 逻辑更重要。

它不是传统意义的 OS，也不是单一的 App，而是一个能够跨场景、跨品牌执行任务的 AI 行为层。豆包手机助手只是第一步，真正重要的是：中国市场可能会率先跑出“模型厂商 × 手机厂商”这一全球新范式。

要不要现在就上车？

最后回到一个实际问题：现在这台挂了豆包手机助手的工程机，值不值得普通用户冲一台？

非常坦白的建议：如果你只是想找一台稳定、好用的主力机，现在不一定是时候。

但如果你是下面几类人之一——

做产品、做交互、做 AI 应用，希望近距离拆解一个“系统级 Agent”是怎么被落地的；
做电商、做内容、做效率工具，希望判断“AI 行为层”对自己业务意味着什么；
对手机形态下一阶段的变革真的非常好奇；

那这台机器就很值得你当成一件研究用的硬件，至少可以帮你在脑子里构建出一条更清晰的时间线：在“手机里有一个更强大的搜索框”和“手机变成一个可以托付事务的 AI 助手”之间，现实世界到底还隔着多少坑、多少缝、多少看不见的妥协。

豆包手机助手现在做的，就是把这条路的第一段摊在我们面前。

它不完美，但这一次，手机屏幕背后那只“看不见的手”，第一次真的开始帮我们点东西了。

（转载自Z Finance）

扫码下载app 最新资讯实时掌握

豆包 字节跳动

上一篇谷歌AI研究员，潜入梵蒂冈游说教皇：AGI将带来末日！

下一篇联合国警告：AI或引爆全球不平等新危机