机器之心专栏
机构:达摩院多语言NLP
阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。
随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。
这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展,论文和数据代码已公开:
正如名字所示,M3Exam 有三个特征:
Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等多个因素,挑选了 9 个国家对应的语言,涵盖英文、中文、意大利语、葡萄牙语、越南语、南非荷兰语、斯瓦希里语、泰语、爪哇语,所有问题均来自于对应国家的官方试题。
Multimodal 多模态:我们同时考虑纯文字以及带图片的题目,并且认真处理了所有图片从而方便模型进行处理。
Multilevel 多阶段:我们考虑三个重要的教育阶段:小升初、初升高、高中毕业,并且从对应阶段的官方考试取得题目,使得可以比较不同阶段对应的不同智力要求下,模型的表现差异。
多语言测试
我们选取了多种开源、闭源模型来测试它们的多语言能力,结果如图所示:
可以看到,大部分模型表现都很糟糕,甚至没有模型可以超过 50% 的准确率。即使跟相近参数量的 Flan-T5 模型相比(Flan-T5 并没有拿图片当作输入),多模态模型基本没有体现出优势。
进一步检查我们发现,可能是因为现有的多模态测试数据都比较简单,例如 VQA 中往往只是对图片的某一方面进行简单提问。而人类考题往往涉及到对图片更复杂的理解,例如数理类考试中需要注意到图片的数字细节。下图给了一个具体问题以及各个模型的输出:
可以看到出人意料的是,从较低的教育阶段到更高阶段,模型效果并没有呈现显著下降。奇怪的是基本所有模型都在中等阶段的问题上表现最好。然而对于人类来说,例如在中国,如果能在高考中得到 70% 左右的正确率,解决小学考题应该是轻而易举的事情,然而对模型来说似乎并不如此。
这个观察给我们带来的启发是,不断用更困难的数据去测试模型不一定能最大限度衡量出模型的差异。如果想要可靠地在实际生活中使用模型,例如用于 AI 教育,研究为什么模型会在基础问题上犯错可能更有价值。
结语
这篇文章介绍了我们新创建的测试基准 M3Exam,目标是可以为多语言 / 多模态大模型的评价提供一个可靠的基准。从目前的测试结果我们可以看出,虽然不少模型在高资源语言例如英文甚至中文上已经可以取得还不错的效果,但在多语言情况下绝大部分模型的效果都差强人意。多模态模型的效果则更难令人满意,显示目前的多模态模型还只能对图片的简单特征进行捕捉,而无法捕捉更精确的细节。我们期待 M3Exam 未来可以帮助相关模型的开发迭代,从而将大模型的便利带给所有语言的使用者以及更丰富的使用场景。