今年的高考迎来一批有点特殊的考生。
随着多地高考成绩出炉,中国各家大模型的“赶考”情况也一目了然:字节跳动旗下的豆包拿下中国“文科状元”,大模型们的理科成绩相对要差。
据极客公园6月24日发布的高考新课标Ⅰ卷大模型评测报告中,排在文科总分第一的是国外公司OpenAI的GPT-4o考出的562分,从国内公司来看,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。
本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI成功冲上一本线,而豆包更是超出一本线20多分。
一:语言类考试成大模型拿手好戏
无论是语文还是英文,对于大模型而言,语言类考试显得得心应手。
作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。夏老师认为,Al写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感彩,自然就缺乏感染力。
值得注意的是,豆包语文成绩排名第二,但其作文在匿名阅卷中,获得阅卷老师的好评。
夏老师认为,豆包的文章中显出的对就业结构、伦理方面的担心,展现出豆包已经具有不错的思想深度和思辨能力。在立住“问题”后,豆包随即用反问句自然过渡,引出三个排比段提出解决问题的方法——保持“问题意识”。
其中,用发展的眼光分析问题,结合现实生活揭示问题产生的根源和危害的部分颇为亮点,并且整体上“结构严谨,层层推进,语句流畅,认识全面”。
英语则是大模型表现最优异的学科,九个大模型的平均分高达 132 分,大部分大模型都可以做到客观题接近满分,而只在作文少量失分,这也是大模型表现最接近的学科。
在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得80分满分,豆包和文心一言4.0也接近满分。
二:大模型普遍“偏科”,豆包文综拿高分
语言类考试能力强的大模型也有点“偏科”,文科考试中的成绩相比理科而言显然要亮眼很多。
在由历史、地理、组成的新课标文综考卷评测中,GPT-4o获得237分的成绩,平均分达到79分,优于多数人类考生。
国产大模型产品中,豆包的文综成绩最高,分数达到224.5分,其中历史科目拿到82.5分,在所有9款大模型中得分第一。
特别是历史和两科,测试选手中有三至四家能达到 80% 以上的得分率。历史单科的桂冠归属豆包 82.5 的平均分,考试最强的却意外是 GPT-4o,这个“外来的和尚”甚至在考试中得到了夸张的 91.5 分。而文心 4.0、百川 4.0,在历史、两大学科都能达到 80 分左右的水准。
三:数学挂科不少,理科建议“复读”
让大部分考生头疼的数学试卷也难住了大模型,这与过往的印象有些不同,数学似乎一直都是计算机的强项,但在中国高考卷上却得不到印证。
GPT-4o 是高考数学卷中答的最好的,得了 70 分,这意味着在满分150的情况下,测试中表现最好的的大模型仍然在数学考试里“挂了科”,甚至一半分都拿不到。
总体的测试结果是,大模型解决数学问题的能力明显不足,在所有产品的 2 轮测试中,9 款产品的数学平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超过 60 分的,分别是 62.5 分和 61.5 分,剩下的六位大模型考生中则只有百小应能够维持 40 分以上的平均分。
值得注意的是,从得分比例上来看,大模型在化学学科的表现要略差于物理,这可能跟化学标记语言和化学结构图示相对更加复杂有关。在一道考察原子核外电子排布的化学题中,九个大模型几乎全军覆没,只有豆包正确分析出了对应的原子序数以及类别。
对于河南高考理科 511 分的一本线,表现最好的文心 4.0 仍然有超过 30 分的差距,但从测试结果来看,大模型目前的智力水平找个二本的理科专业已经绰绰有余。
把大模型和人类的智力水平放进同一个参照系,高考的成绩让我们看到,参加测试的大模型已经接近半数有能力拿到一张一本文科的录取通知书。但与此同时,测试结果也表明了,即使性能最顶尖的大模型产品们,目前也仍然在高考的数理化考题里疲于应付。对于大模型而言,真正的“智能”还在路上。