大模型掌握16000真实世界API了清华等机构ToolLLM不输ChatGPT

机器之心报道

编辑:陈萍、梓文

本文提出了一个新的框架 ToolLLM,其增强了大型语言模型对 API 的使用。在指令调优数据集 ToolBench 上对 LLaMA 进行微调,得到的 ToolLLaMA 与 ChatGPT 性能相当。

相信大家都已经见识到了,开源大型语言模型(LLMs)及其变体(例如 LLaMA 和 Vicuna)在各种任务上取得了显著的进展。

然而,尽管 LLM 很强大,但它们在执行更高级任务方面局限性仍然很大,比如让 LLM 按照人类给出的指令使用外部工具(APIs),很多开源 LLM 就很难办到。

原因在于当前 LLM 的指令调优技术主要集中在基本语言任务上,缺乏对工具使用方面的探索。这与最先进的闭源模型如 ChatGPT 形成了鲜明的对比,后者已经展示出出色的工具使用能力。

为了让开源 LLM 更好的使用外部工具,来自清华、、耶鲁、腾讯、知乎等多家机构的研究者联合撰写了论文,他们引入了一个通用工具使用框架 ToolLLM,该框架包括数据构建、模型训练和评估多项功能。

值得一提的是,该研究从 RapidAPI Hub 收集了 16464 个真实世界的 RESTful API,涵盖 49 个类别。

该研究在 ToolBench(指令调优数据集)上对 LLaMA 进行微调,得到了 ToolLLaMA。ToolEval(自动评估器)评估显示,ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力,并且在工具使用方面性能与 ChatGPT 相媲美。

从表 3 可以看出,DFSDT 在所有情况下的性能都明显优于其余两种基线方法,这表明 DFSDT 是一种更有效的方法,可以节省解路径标注的成本。并且与较简单的指令(I1)相比,DFSDT 对较难指令(即 I2 和 I3)的性能提升更为明显。这说明,除了效率之外,DFSDT 还能解决那些困难、复杂的指令,而这些指令是普通 ReACT 无论执行多少次都无法回答的。将此类 「困难示例 」纳入数据集,可以充分激发工具在这些复杂情况下的使用能力。

更多详细内容,请参阅原文。