字节炸场!豆包手机助手来了:AI可直接控制手机

抖音秀 热点资讯 2

字节跳动发布了全新一代豆包手机助手的技术预览版。不同于以往那些只能定闹钟、查天气的传统语音助手,这款新产品被定义为真正意义上的手机第二大脑。它具备了视觉感知、长期记忆以及直接动手操作的能力,甚至能替用户把整个手机的功能玩明白。

豆包手机助手最引人注目的突破在于其真正的端侧记忆能力。这是业界首次在手机本地实现了持久化的记忆功能。它能像一个细心的私人管家一样,记住用户生活中的琐碎细节。

在实际演示中,这种能力表现得令人印象深刻。当用户询问车停在哪里时,助手能直接调出用户上次拍摄的车位照片并附带楼层指引。

当需要取快递时,它能瞬间读取短信历史并报出取件码;甚至当用户询问高铁座位号时,它能自动翻找12306的购票记录并告知准确位置。更进一步的是,这种记忆具有联想能力,比如它记住了用户最喜欢凡高,那么在规划巴黎行程时,就会自动优先推荐奥赛博物馆。

如果说记忆是基础,那么跨App代操作则是豆包手机助手的杀手锏。它利用先进的GUI模拟点击技术,能够像真人一样接管屏幕,跨越应用壁垒进行自动点击、输入和滑动。

在全网比价场景下,用户只需发出一句指令,豆包就能打开淘宝、京东、拼多多和抖音电商,在3秒内给出最低价并直接停留在支付页面。在更复杂的办公场景中,它可以响应帮我请三天假,顺便订回老家高铁的指令,自动打开办公软件填写请假单、提交审批,随后无缝跳转至12306完成订票和付款流程。

甚至连特斯拉车主都能体验到这种便捷,一句打开前备箱放东西,助手即可直接远程控制车辆执行操作。

在多模态交互方面,该助手展现了实时视觉理解能力。当用户拿起一本英文绘本对准摄像头时,豆包手机助手会立刻开启实时视频通话模式。

画面中不仅会出现中英双语字幕,AI还能用流利的普通话或英语边讲故事边与用户互动提问,甚至根据孩子的反应临时改编剧情,让阅读变得生动有趣。

针对模糊且复杂的长链条需求,豆包引入了Pro模式。该模式结合了GUI模拟点击、API工具调用以及超强推理能力,能完成以往AI根本不敢接的任务。

以巴黎旅行为例,用户只需模糊地表达下个月去巴黎,把收藏的餐厅标到地图上,再帮我订一张有我喜欢展览的博物馆票,助手便能执行全流程。

它首先读取记忆确认用户喜爱凡高,接着搜索确认奥赛博物馆正在举办凡高特展,随后打开地图应用将收藏的米其林餐厅打点,最后跳转官网抢票并生成完整的行程单推送至备忘录。

在展现强大能力的同时,字节跳动也极度重视隐私安全。官方反复强调,所有的记忆数据均在手机本地进行处理和加密存储,绝对不会上传至云端。

用户拥有完全的控制权,随时可以在设置中一键彻底关闭记忆功能。这种设计在确保了智能体验的同时,也做到了真正的可控可信,为AI时代的隐私保护提供了新的解题思路。