当前位置：首页 > 智能 > 大模型掌握16000真实世界API了清华等机构ToolLLM不输ChatGPT

大模型掌握16000真实世界API了清华等机构ToolLLM不输ChatGPT

智能
2024-10-10 10:29
0

机器之心报道

编辑：陈萍、梓文

本文提出了一个新的框架 ToolLLM，其增强了大型语言模型对 API 的使用。在指令调优数据集 ToolBench 上对 LLaMA 进行微调，得到的 ToolLLaMA 与 ChatGPT 性能相当。

相信大家都已经见识到了，开源大型语言模型（LLMs）及其变体（例如 LLaMA 和 Vicuna）在各种任务上取得了显著的进展。

然而，尽管 LLM 很强大，但它们在执行更高级任务方面局限性仍然很大，比如让 LLM 按照人类给出的指令使用外部工具（APIs），很多开源 LLM 就很难办到。

原因在于当前 LLM 的指令调优技术主要集中在基本语言任务上，缺乏对工具使用方面的探索。这与最先进的闭源模型如 ChatGPT 形成了鲜明的对比，后者已经展示出出色的工具使用能力。

为了让开源 LLM 更好的使用外部工具，来自清华、、耶鲁、腾讯、知乎等多家机构的研究者联合撰写了论文，他们引入了一个通用工具使用框架 ToolLLM，该框架包括数据构建、模型训练和评估多项功能。

值得一提的是，该研究从 RapidAPI Hub 收集了 16464 个真实世界的 RESTful API，涵盖 49 个类别。

该研究在 ToolBench（指令调优数据集）上对 LLaMA 进行微调，得到了 ToolLLaMA。ToolEval（自动评估器）评估显示，ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力，并且在工具使用方面性能与 ChatGPT 相媲美。

从表 3 可以看出，DFSDT 在所有情况下的性能都明显优于其余两种基线方法，这表明 DFSDT 是一种更有效的方法，可以节省解路径标注的成本。并且与较简单的指令（I1）相比，DFSDT 对较难指令（即 I2 和 I3）的性能提升更为明显。这说明，除了效率之外，DFSDT 还能解决那些困难、复杂的指令，而这些指令是普通 ReACT 无论执行多少次都无法回答的。将此类「困难示例」纳入数据集，可以充分激发工具在这些复杂情况下的使用能力。