最近,人工智能圈子里发生了一件挺有意思的事儿——让各大AI模型“参加”了一次货真价实的高考。这可不是什么模拟测试,而是直接拿2024年全国新课标I卷的语文、数学、英语全卷,让这些硅基“考生”闭卷作答,再请有经验的高考阅卷老师来人工批改打分。结果一出,可真是几家欢喜几家愁,活脱脱一张大模型的“成绩单”和“偏科诊断报告”。今天,咱们就来好好盘一盘这张成绩单,看看在这些AI眼里,高考的哪个科目最难啃。
先来看看这场特殊“高考”的总体排名。根据上海人工智能实验室司南评测体系(OpenCompass)发布的首个AI高考全卷评测结果,在参与测试的6个开源模型及GPT-4o中,阿里通义千问的Qwen2-72B模型以总分303分(满分420分)拔得头筹,成为了本次的“AI高考状元”。紧随其后的是OpenAI的GPT-4o(296分)和上海人工智能实验室自家的“书生·浦语2.0”文曲星模型(InternLM2-20B-WQX,295.5分)。
这个结果挺耐人寻味的。一方面,头部模型的得分率都超过了70%,说明顶尖AI在应对高考这种综合性、高难度测试时,已经具备了相当不错的基础知识掌握和问题解答能力。但另一方面,如果我们把这个分数换算成750分制的常规高考总分(约541分),再对比一下各省的本科线,嗯……你会发现,即便是状元,距离顶尖人类学霸还有一段路要走。更重要的是,这张成绩单清晰地揭示了一个事实:AI严重“偏科”。
为了方便大家直观对比,我们整理了本次评测中部分代表性模型的科目得分情况:
| 模型名称 | 语文得分(满分150) | 数学得分(满分150) | 英语得分(满分120) | 总分(满分420) | 总排名 |
|---|---|---|---|---|---|
| :--- | :--- | :--- | :--- | :--- | :--- |
| Qwen2-72B(阿里) | 表现良好 | 不及格 | 表现良好 | 303 | 1 |
| GPT-4o(OpenAI) | 表现良好 | 不及格 | 表现良好 | 296 | 2 |
| InternLM2-20B-WQX(上海AI实验室) | 表现良好 | 75(最高,但不及格) | 表现良好 | 295.5 | 3 |
| Qwen2-57B(阿里) | 表现良好 | 不及格 | 表现良好 | 254 | 4 |
| Yi-1.5-34B(零一万物) | 表现良好 | 不及格 | 表现良好 | 未明确 | 未明确 |
| GLM-4-9B(智谱AI) | 表现良好 | 不及格 | 表现良好 | 未明确 | 未明确 |
| Mixtral8x22B(法国Mistral) | 表现一般 | 不及格 | 表现一般 | 未明确 | 未明确 |
*注:表格数据综合自多个评测报告,部分模型单科具体分数未完全公开,但“数学不及格”是普遍结论。*
看这表格,是不是一目了然?几乎所有模型都在语文和英语上“表现良好”,但一到数学,齐刷刷地亮起了红灯。那么,具体到每个科目,AI的表现究竟如何?难度排行又是怎样的呢?
没错,在AI看来,高考三科里相对最简单的可能是英语。平均得分率高达81%,这个成绩相当亮眼。为什么?仔细想想也不奇怪。英语作为一门高度结构化、规则相对清晰的语言,其语法、词汇、阅读理解(尤其是现代文)的题目,非常符合AI基于大规模语料库进行模式匹配和概率预测的强项。客观题,比如选择题、完形填空,对AI来说几乎是送分题,很多模型能拿到接近满分。
但是(对,总有个但是),AI在英语科目上也并非全无破绽。阅卷老师指出了两个典型问题:一是部分模型不适应“七选五”、完形填空等特定题型,得分率较低;二是英语作文普遍存在“超字数”问题。这很有意思,人类考生常因字数不够扣分,AI却因为“话太多”被扣分。这背后反映的是AI在理解并严格遵守“字数限制”这种指令性规则时,控制力仍有不足,它倾向于生成尽可能完整(甚至冗余)的答案,而不是精炼地满足要求。
语文科目的平均得分率约为67%,介于英语和数学之间。AI在现代文阅读、基础语言运用上表现不错,这说明它们对文本表层信息的提取和归纳能力已经很强。然而,一旦进入需要深度理解、文化背景和情感共鸣的领域,AI就开始“露怯”了。
阅卷老师的点评一针见血:
*文言文是“试金石”:不同模型的文言文阅读理解能力差距极大。这直接反映了模型训练语料中古文数据的质量和数量。有的模型能大致读懂,有的则完全不知所云。
*作文像“问答题”:这是最致命的弱点。AI写的作文,结构清晰、逻辑通顺、语言流畅,但缺乏情感色彩和感染力。它们几乎不会使用举例论证、引用名人名言、运用修辞手法(如比喻、暗喻)。老师提到,很多模型甚至无法理解“本体”、“喻体”这些基本语文概念。AI输出的本质是数据匹配,它难以体会和传递人类细腻的情感体验,也抓不住文章字里行间的“潜台词”。所以,它只能“回答”问题,而很难进行真正意义上的“创作”。
换句话说,语文考试测出了AI在理性认知与感性创造之间的鸿沟。处理信息,它是一把好手;但要它写出打动人心的文字,目前还强“模型”所难。
毫无悬念,数学是全体AI模型的“阿喀琉斯之踵”,是本次高考难度排行的绝对“冠军”。平均得分率仅为36%,即便是单科最高分——书生·浦语2.0文曲星拿到的75分,也仍未达到及格线(90分)。这意味着,在数学这个科目上,所有AI考生“全军覆没”。
为什么数学这么难?我们可以从阅卷反馈中窥见端倪:
1.链式逻辑推理薄弱:数学解题往往需要多步骤、严密的逻辑推导。AI可以记忆公式和定理,但在面对复杂问题时,难以像人类一样进行灵活、连贯的逻辑跳跃和步骤规划。
2.符号与计算容易出错:纯粹的数学符号运算和数值计算,对AI来说并非其天生优势。过程中容易出现错误,有时甚至会“一本正经地胡说八道”,给出一个过程错误但答案巧合正确的解答,极具迷惑性。
3.抽象思维与建模能力不足:将实际问题转化为数学模型,需要高度的抽象思维能力。这恰恰是当前大模型基于统计概率的范式所欠缺的。
有另一份2025年的评测(来源2)显示,在一些更侧重于推理的测试中,如DeepSeek-R1、腾讯混元等国产模型能在数学题上取得满分,但这可能依赖于特定的提示工程或题目类型。在标准化的、综合性的高考数学试卷面前,AI普遍性的短板暴露无遗。这清楚地表明,在需要严格、深度逻辑推理和问题解决能力的领域,大模型还有很长的路要走。
让AI参加高考,绝不仅仅是一场炫技或娱乐。它的意义在于,像一面镜子,照出了当前大语言模型能力的边界和特点。
首先,它验证了AI的“强弱项”。强在信息处理、语言生成、规则明确的领域(如英语客观题、语文基础);弱在深度逻辑、数学推理、情感创造和抽象思维(如数学全卷、语文作文、文言文)。这为AI技术的发展指明了重点攻坚方向——如何提升模型的逻辑推理和数学能力,是下一代模型必须面对的挑战。
其次,它引发了关于AI与教育关系的思考。既然AI在语言类知识检索和辅导上表现不俗,未来它或许能成为学生强大的学习工具和“智能家教”。但同时,它在数学和深度理解上的不足也提醒我们,人类在批判性思维、创新创造和情感共鸣方面的价值,是AI目前无法替代的。教育的目标,或许应该更侧重于培养这些AI难以企及的能力。
最后,这次评测本身也是一次技术范式的展示。采用全卷、闭卷、人工阅卷的方式,尽可能模拟了真实的高考环境,使得评测结果更具说服力和参考价值。它告诉我们,评估AI的能力,需要放在复杂、综合、贴近真实应用的场景中进行。
回过头来看这张“AI高考科目难度排行”:英语<语文<数学。这个排行,与其说是科目本身难度的绝对反映,不如说是当前AI技术能力光谱的一次精准测绘。它让我们在惊叹AI进步神速的同时,也清醒地认识到,要让AI真正变得“全能”,我们还有不少硬骨头要啃。下一次“AI高考”,数学能及格吗?我们拭目以待。
