蚂蚁百灵做万亿思考模型:大模型又回到企业复杂任务这张考卷
蚂蚁百灵发布 Ring-2.6-1T,最值得看的不是“万亿级”三个字,而是它把模型卖点放回了真实复杂任务。过去一年,国内大模型发布会已经把参数、榜单、上下文长度讲到有点疲劳。企业真正关心的东西更土:能不能稳定拆任务,能不能少犯低级错,成本是不是可控,出了问题能不能定位。
这次 Ring-2.6-1T 引入 Reasoning Effort 机制,意思是用户可以按任务难度调节推理强度。这个设计很现实。不是每个问题都值得让模型“深思熟虑”。客服 FAQ、表格改写、简单检索,如果也调用高强度推理,成本会被白白烧掉;法律审查、投研分析、复杂代码修复,又不能让模型草草给答案。
推理能力开始变成成本管理问题
模型厂商以前喜欢证明“我能想得更深”,现在必须证明“我知道什么时候该想深”。这对企业客户更重要。大规模部署 AI 后,推理成本会像云账单一样每天出现,财务部门迟早会问:哪些请求真的需要贵模型,哪些请求可以用便宜模型处理?
蚂蚁的优势在场景。金融、支付、风控、商家服务本来就是复杂任务密集区,单纯聊天没有太大价值,模型要能读材料、查证据、走流程、留下记录。Ring-2.6-1T 如果要站住,不能只靠“更聪明”,还要把错误率、延迟、审计、权限和成本一起交代清楚。
风险也在这里。思考模型容易把产品做重,响应慢、价格高、解释绕。如果用户每次都要手动选择推理强度,体验会很别扭;如果系统自动判断,又要承担错配风险。真正好用的企业 AI,应该让复杂性藏在后台,把结果、依据和成本暴露给管理者。
国内大模型进入这个阶段是好事。少一点榜单互殴,多一点工程账。万亿参数不会自动带来生产力,能被企业长期付费的,是稳定完成任务的系统。