作者:王敏 来源:中国科学报 发布时间:2024/9/9 0:07:27
选择字号:
校企联合发布工具调用数据合成框架ToolACE
赋能轻量模型效果持平GPT4

 

近日,中国科学技术大学教授陈恩红团队联合华为诺亚方舟实验室等提出了一个统一的工具调用数据合成框架ToolACE。该框架可以自动化地生成高准确性、高复杂性、高多样性的工具调用数据。研究人员基于ToolACE合成的数据训练了轻量级开源模型ToolACE-8B,以80亿的模型参数量级,在开源工具调用榜单BFCL(伯克利大学发布的函数调用榜单)中效果持平千亿参数量级别大语言模型GPT4,获得开源第一,超过如Functionary等700亿模型效果。 

大语言模型(如GPT-4)具备强大的语言处理能力,但其独立运作时仍存在局限性,比如,无法进行复杂数学计算,获取不到实时信息,难以提供专业定制化功能等。而通过为大语言模型提供各类工具,可以使其能提供更全面、实时、精确的服务,极大地扩展了其应用范围和实际价值。

为提高模型的工具调用能力,高质量、多样化且复杂的训练数据扮演着至关重要的角色。然而,在现实中,工具调用数据的收集和标注极为困难,现有的合成数据生成方式在覆盖率和准确性方面仍存在不足。新开发的工具调用数据合成框架ToolACE通过创新的自进化合成过程,构建了一个包含26507个多样化的应用程序接口(API)的应用程序接口库。通过多智能体之间的交互生成对话,并通过形式化的思维链过程引导数据生成,得到一系列真实、多样、复杂的对话数据。进一步地,研究人员结合了基于规则和基于模型的数据质检机制,验证数据中工具使用和工具参数的合理性,确保了数据准确性。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
珠穆朗玛峰因何成为世界最高 极目卫星团队在伽马暴研究中取得重要进展
实践十九号卫星成功发射 他们的15年“铸剑”之路
>>更多
 
一周新闻排行
 
编辑部推荐博文