日前,由中国互联网协会主办的2025“人工智能+”产业生态大会在北京中关村举办。会上,衔远科技首席技术官张开颜在分享中谈到,当前企业在落地通用智能体过程中面临着“实习生困境”:“10分钟就能做出一个惊艳的演示案例(Demo),但落地却数以月计,且困难重重。”
如何跨越通用智能体的实习生困境?以下为张开颜对此的相关分享。
张开颜。衔远科技供图
通用智能体的“实习生困境”
从ChatGPT发布,到今年各类大模型层出不穷,搭建一个智能体Demo变得前所未有的简单。10分钟,我们就能做出一个惊艳的演示(Demo),但落地却数以月计,且困难重重。
我们发现,解决行业长尾问题的边际成本,正在呈指数级上升。目前的通用智能体,就像是一个名校毕业的“高智商实习生”——
基础模型的预训练赋予了其博学的知识,数学和代码的强化学习带来了极强的逻辑推理,但在垂直领域的实际应用中,依然“眼高手低”。
根本原因在于:基础模型被“困”在了数学、代码和通用的文本环境中。它们从海量预训练语料中学会了专家的“台词”,却不懂业务背后的“逻辑与因果”。它们缺乏在真实业务环境中的经验学习,这也是目前通用基础模型面临的最大天花板。
“通专融合”的技术路径
一段时间以来,通过多个阶段的规模法则(Scaling Law),大模型的通用泛化能力确实在显著提升,但专业性依然不足。反观历史上达到专家级别的专业AI,无一不是在特定的专业场景中进行了海量的自我博弈与强化学习。当然,过去这种成本是极高的。
对此,上海人工智能实验室主任、衔远科技创始人周伯文,早在三年前就预判了这一瓶颈,并提出了“通专融合”的技术路径。
这一路径包含三个层次。首先是基础模型层,需要全新的模型架构设计,实现“知识”与“推理”的解耦。
然而对于应用层创业公司来说,我们更关注接下来的第二、第三层。
第二层是“融合协同层”,我们需要实现通用模型与专业知识、专业工具的深度协同推理。第三层是“探索进化层”,这是最关键的一层——大模型必须在环境中进行交互,通过探索和反馈不断提升专业能力。通过在大量专业环境中的经验学习,最终反哺通用能力的提升。
AI的下半场:“经验学习”
事实上,今年以来“通专融合”已不再只是我们的预测,而是正在成为国际行业的共识。
2024年诺贝尔化学奖得主、DeepMind创始人戴密斯·哈萨比斯在今年5月就明确表示,DeepMind目前的重心全在“通用+专业”的结合上。而“强化学习之父”理查德·萨顿在今年4月说得更直接:AI 发展的“上半场”是从人类标注数据中学习知识,而下半场则是“经验学习”。
对于智能体应用而言,现在的关键点,已经从模型架构和训练算法,转移到了现实世界的任务定义与评估体系重构。只有这样,才能支持专家智能体的能力进化。
对于上述问题,我们给出的解法便是“衔远大观”。它不是一个简单的智能体编排工具,而是一个进化引擎。
它的逻辑可以用这样一个公式来表达:
专家能力=(基础模型×仿真环境)强化学习
在这里,通用模型只提供“底座智力”,我们真正的壁垒,在于中间这一项——“环境”。没有环境,强化学习就没有奖励信号 (Reward),模型就无法进化。 换句话说,我们不只是在写提示词(Prompt),而是在构建一个能让智能体“摔跟头”的虚拟世界。
更进一步,我们发现了一个有趣的现象:当不同智能体的训练环境叠加时,跨领域任务的强化学习不仅不会降低效率,反而能通过迁移学习,极大地促进专业能力的提升。而这,正是通专融合的根本价值所在。
让智能体“摔跟头”的虚拟世界如何构建
如何构建一个能让智能体“摔跟头”的虚拟世界?我们通过自研“衔远大观”,探索出三大技术内核。
第一,是智能体的“模拟训练场”。不仅要提供一个静态的“考场”,还要赋予其动态的“宇宙”。其中的考量是,如果完全依赖真实历史数据,我们永远无法覆盖那些罕见但致命的“黑天鹅”场景。
因此,我们利用程序化规则,合成出海量的、现实中极少发生的边缘案例。为了解决外部工具调用不稳定的问题,我们引入了生成式世界模型(World Model)来模拟环境反馈。
更重要的是,这个环境具备“课程学习”(Curriculum Learning)能力。就像游戏设计一样,它会根据AI当前的水平,自适应地调整难度。AI只有通关了“简单模式”,才能进入“困难模式”。
第二,是“接近专家水准的反馈机制”,也就是自适应奖励。
传统的强化学习往往只提供最终结果,这对于长链条的复杂任务来说,信号过于稀疏。就像学高数,老师只告诉你期末挂科了,却不说错哪一步,你永远学不会。
在“大观”里,我们引入了“过程奖励”。对于数学、物理等精确的专业领域,我们采用类似DeepSeek R1的思路,将指标映射为可验证的规则奖励。而对于复杂的物理世界,我们用动力学公式进行程序化验证。
甚至,我们赋予了AI“好奇心”。我们团队今年和清华大学首次提出了测试时强化学习算法(TTRL),引入基于自我一致性的“内在奖励”机制。这项工作刚刚被AI顶会NeurIPS收录。
第三,是让学习更经济的“高效强化学习引擎”。
训练专家级AI非常消耗资源,不能只靠蛮力计算。我们利用强化学习稀疏奖励的特性,通过“低秩适应”(LoRA)只更新极少量参数,在保证性能同时能够实现高效训练。而在面对复杂的多阶段任务时,我们采用多智能体强化学习(MARL),平衡不同模型的专业能力和推理成本。
即使面对无法改动参数的闭源模型,我们也能通过上下文强化学习(In-Context RL),优化它的记忆经验库,让它在对话流中变得越来越聪明。
总结一下,高保真的环境、专家级的密集反馈、高效的进化引擎,这就是“衔远大观”这台“数字风洞”的内部运作机制。
从智能体进化平台到企业智能涌现平台
基于衔远大观的进化能力,我们进一步系统构建了三层平台:底层的数据管理、中间的进化引擎、上层的专家智能体管理。
在应用层,我们将智能体分为两类:一类是指挥规划智能体(CIP),是在作战指挥室进行决策的“诸葛亮”;一类是协同执行智能体(Syngents),是在战场上执行任务的“赵子龙”。
以前企业买AI是买软件,现在是买“数字员工”。我们的平台,实际上就是这些数字员工的“入职培训中心”和“终身学习中心”。
基于这套平台,我们已经构建了多个行业的专家级智能体。比如,在生物信息行业,我们与国家蛋白质科学中心合作构建的智能体,能提出新的科学假设,并自动进行蛋白质组学数据分析。实测显示,其分析速度比人工快10倍,且约有25~30%的自动生成假设,达到了研究生水平的原创性与合理性。
在建筑行业,我们与某头部央企合作构建了“计划编制智能体”。它既能从“经验驱动”到“模型驱动”,实现智能计划编制;又能从“事后补救”到“事前预见”,实现智能风险预警。相比人工,计划编制时间节省70%,工期延误全面受控,并为某中型企业降本3300万元。我们还为供应链领域行业头部企业构建了“国际物流多式联运路径规划智能体”,它结合大模型对多源路况的实时感知,以及运筹学求解器的最佳路径计算,将应急物流规划的时间从几小时缩短到了几分钟。
数据终将耗尽,但环境可以无限生成数据。我们坚信,高质量的智能体环境,将是2026年最稀缺的资产。我们也希望与各行各业的专家携手合作,将各领域深厚的行业“know-how”,转化为智能体的训练场,一起构建真正专家级别的智能体。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。