9月30日消息,据“火山引擎”微信公众号发文,豆包大模型1.6-vision正式发布,这是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强的通用多模态理解和推理能力,并支持Responses API。
新模型以工具调用的差异化能力,将图像融入其思维链中,实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细处理。 并通过模拟人类从“从全局扫描到局部聚焦”的视觉推理过程,在增强推理可解释性的同时,可高效精准地完成图像操作。
豆包大模型1.6-vision支持Responses API,可自主选择调用工具,大幅度减少Agent开发过程中的代码量,提升开发效率,让开发 者应用开发更加高效。
此外,对比上一版视觉理解模型Doubao-1.5-thinking-vision-pro,综合成本降低约50%,以更低成本解锁更强性能。
文章来源:
快科技
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至23467321@qq.com举报,一经查实,本站将立刻删除;如已特别标注为本站原创文章的,转载时请以链接形式注明文章出处,谢谢!