AIPress.com.cn报道
12月2日消息,字节跳动豆包团队召开豆包AI手机专家会议。会议披露,字节跳动明确推进豆包AI手机落地节奏,量产机型预计于2026年Q2中晚期正式发布。
核心合作模式为:由中兴通讯承担硬件生产,字节豆包团队主导AI技术研发与功能落地,双方将按比例进行利润分成。
而这款承载行业期待的AI手机,其核心探索方向正契合当下行业对手机终极形态的集体追寻。

Agent+跨应用自动化:AI手机赛道的核心探索方向
以近期“AI原生手机”热潮为起点,行业正掀起一场关于手机终极形态的探索,“系统级Agent+跨应用自动化”已经成为核心方向。
一些厂商试图打破传统App商店的手动操作逻辑,将手机打造成“通用Agent+多应用自动化”平台,用户只需一句自然语言,就能完成打车、订票、购物、日程安排、跨应用比价等复杂操作。

其核心技术路径围绕“大模型理解用户意图+系统级权限+多模态视觉识别与模拟点击”展开,直指跨应用、多任务调度的终极目标。
这一构想并非空中楼阁。2025年2月24日,一篇名为MobileSteward的论文指出,传统单App-Agent难以应对多步骤、多App的复杂指令,而其提出的“多Agent协作+中央调度”结构,已在公开的Cross-AppBenchmark中取得领先成绩。从理论与实践角度看,“手机Agent跨应用调用系统级权限”,正是当前AI手机发展的合理方向。字节豆包AI手机的推进,正是这一行业趋势的重要实践落地。



技术瓶颈与安全风险:AI手机落地的现实攻坚
从技术和体验细节看,豆包AI手机的核心痛点与现存瓶颈清晰可见,跨应用调用是当前攻坚重点。
单应用调度(如明确指令下的机票预订)识别率较高,但跨应用复杂调度(如同时涉及飞书订票和请假)错误率超50%,根源在于模型能力不足,具体表现为语义理解不精准、跨应用调度偏差,以及多应用页面视觉语言识别难。

这也印证了MobileSteward的研究结论:当前mobile-agent在执行跨App指令时,仍面临复杂任务关系、多样App环境、多步操作中误差传播与信息丢失等挑战。
据了解,多模态视觉识别+GUI模拟操作容易因界面变化、布局不同、App更新等因素失败,而设备硬件(算力/NPU/内存/电池/功耗/延迟)更是现实限制。
硬件方面,芯片需达到骁龙8至尊版水平才能保障功能稳定,AI功能占用内存约3GB,电量消耗比日常使用高8%-12%。

学界与产业报告均指出,这种“移动Agent全能力化+可用化”的普及,仍需要克服算力/功耗/兼容性/安全性棱线,目前仅少数旗舰机型可能较好支撑,中低端设备难以保证用户体验。
据悉,在adversarial环境中,自动化脚本、广告弹窗、权限滥用等都可能成为攻击入口。目前端云协同架构已明确分工。
端侧模型参数规模约130亿(13B),负责语音识别、简单问答、本地信息管理等隐私相关及离线任务,确保数据不离开本地;云端则承担复杂文生图/文生视频、多轮知识问答及跨应用操作,需端云协同的任务以“文生”内容为主。不过,高权限Agent仍面临安全与隐私挑战,其权限相当于“root以后的root”,存在系统级权限操作的攻击风险。
对此,字节豆包团队采取了针对性应对措施,在涉及用户隐私或支付的关键操作步骤,将权限交还给用户手动处理,遵循权限最小化原则,同时通过技术手段保障用户隐私安全。

用户体验层面,80%受访者对现有AI手机助手不满意,核心问题集中在功能调用失败与意图理解错误,且当前演示场景(如订票)依赖标准prompt模板,未适配日常自然语言表达,用户更倾向于自主确认关键信息(如时间、区域)。
在合作层面,目前主流应用厂商的常用权限已基本谈妥,覆盖打车、外卖、订票、信息查询、新闻资讯等场景。
与其他手机厂商的合作中,华为、荣耀、OV等自研生态完善的厂商里,OV因自身大模型发展情况,后续可能以模型层合作为主(如模型打通、调用),应用层仍保留小布同学、蓝心小V,中兴、传音、魅族、联想则可能沿用中兴与字节的合作模式。

值得注意的是,对于携程价格系统等应用厂商的核心权限,系统通过视觉识图而非直接调用实现功能,避免触碰其核心资产,而意图框架、语音识别理解等能力则由AI自主学习完成,无需与厂商额外洽谈。




AI手机未来的发展机遇与现实路径:从试点到普及
尽管困难重重,但业内普遍认为,AI手机+Agent模式仍具有长远价值和广泛潜力。
首先,它能显著降低普通用户的操作复杂性,将碎片化应用和繁琐操作变为一句自然语言,非常符合人机交互的未来趋势。
其次,一旦Agent技术、系统级权限机制、界面识别与任务调度机制成熟,它可能重塑手机生态,APP商店分发逻辑、流量分配规则、广告和推荐机制等,都可能被重新定义。

在目前行业公认的合理发展路径下,首先以语音助手为基础,聚焦简单任务处理,依托本地或端侧模型,同时重视隐私保护和用户授权两个关键环节,逐步推广为通过语音或文本指令,就能完成单个App内简单操作的应用场景。
与此同时,在旗舰设备和愿意尝试的高知用户群体中,推进Agent相关的跨应用自动化功能,将其作为面向进阶用户的专属功能来提供。
待多模态视觉技术、高性能模型能力以及系统安全与权限机制均发展成熟后,再逐步探索更为复杂的应用场景,达成多任务并行处理与多应用协同运作的目标。
长期来看,AI手机可能成为“个人Agent+智能助手+操作系统入口”的统一平台,或将彻底改变人们与手机、应用、服务的交互方式。

扫码下载app 最新资讯实时掌握
