位置：AI门户网 > AI报告 > AI排行榜 > AI高考科目难度排行：大模型的“偏科”报告单

AI高考科目难度排行：大模型的“偏科”报告单

来源：AI门户网时间：2026/3/28 17:26:49 共 2324 浏览

最近，人工智能圈子里发生了一件挺有意思的事儿——让各大AI模型“参加”了一次货真价实的高考。这可不是什么模拟测试，而是直接拿2024年全国新课标I卷的语文、数学、英语全卷，让这些硅基“考生”闭卷作答，再请有经验的高考阅卷老师来人工批改打分。结果一出，可真是几家欢喜几家愁，活脱脱一张大模型的“成绩单”和“偏科诊断报告”。今天，咱们就来好好盘一盘这张成绩单，看看在这些AI眼里，高考的哪个科目最难啃。

一、总体战况：谁是“AI状元”？

先来看看这场特殊“高考”的总体排名。根据上海人工智能实验室司南评测体系（OpenCompass）发布的首个AI高考全卷评测结果，在参与测试的6个开源模型及GPT-4o中，阿里通义千问的Qwen2-72B模型以总分303分（满分420分）拔得头筹，成为了本次的“AI高考状元”。紧随其后的是OpenAI的GPT-4o（296分）和上海人工智能实验室自家的“书生·浦语2.0”文曲星模型（InternLM2-20B-WQX，295.5分）。

这个结果挺耐人寻味的。一方面，头部模型的得分率都超过了70%，说明顶尖AI在应对高考这种综合性、高难度测试时，已经具备了相当不错的基础知识掌握和问题解答能力。但另一方面，如果我们把这个分数换算成750分制的常规高考总分（约541分），再对比一下各省的本科线，嗯……你会发现，即便是状元，距离顶尖人类学霸还有一段路要走。更重要的是，这张成绩单清晰地揭示了一个事实：AI严重“偏科”。

为了方便大家直观对比，我们整理了本次评测中部分代表性模型的科目得分情况：

模型名称	语文得分（满分150）	数学得分（满分150）	英语得分（满分120）	总分（满分420）	总排名
:---	:---	:---	:---	:---	:---
Qwen2-72B(阿里)	表现良好	不及格	表现良好	303	1
GPT-4o(OpenAI)	表现良好	不及格	表现良好	296	2
InternLM2-20B-WQX(上海AI实验室)	表现良好	75(最高，但不及格)	表现良好	295.5	3
Qwen2-57B(阿里)	表现良好	不及格	表现良好	254	4
Yi-1.5-34B(零一万物)	表现良好	不及格	表现良好	未明确	未明确
GLM-4-9B(智谱AI)	表现良好	不及格	表现良好	未明确	未明确
Mixtral8x22B(法国Mistral)	表现一般	不及格	表现一般	未明确	未明确

*注：表格数据综合自多个评测报告，部分模型单科具体分数未完全公开，但“数学不及格”是普遍结论。*

看这表格，是不是一目了然？几乎所有模型都在语文和英语上“表现良好”，但一到数学，齐刷刷地亮起了红灯。那么，具体到每个科目，AI的表现究竟如何？难度排行又是怎样的呢？

二、科目难度深度剖析：从“得心应手”到“步履维艰”

难度最低：英语——AI的“舒适区”

没错，在AI看来，高考三科里相对最简单的可能是英语。平均得分率高达81%，这个成绩相当亮眼。为什么？仔细想想也不奇怪。英语作为一门高度结构化、规则相对清晰的语言，其语法、词汇、阅读理解（尤其是现代文）的题目，非常符合AI基于大规模语料库进行模式匹配和概率预测的强项。客观题，比如选择题、完形填空，对AI来说几乎是送分题，很多模型能拿到接近满分。

但是（对，总有个但是），AI在英语科目上也并非全无破绽。阅卷老师指出了两个典型问题：一是部分模型不适应“七选五”、完形填空等特定题型，得分率较低；二是英语作文普遍存在“超字数”问题。这很有意思，人类考生常因字数不够扣分，AI却因为“话太多”被扣分。这背后反映的是AI在理解并严格遵守“字数限制”这种指令性规则时，控制力仍有不足，它倾向于生成尽可能完整（甚至冗余）的答案，而不是精炼地满足要求。

难度中等：语文——理解与创造的“分水岭”

语文科目的平均得分率约为67%，介于英语和数学之间。AI在现代文阅读、基础语言运用上表现不错，这说明它们对文本表层信息的提取和归纳能力已经很强。然而，一旦进入需要深度理解、文化背景和情感共鸣的领域，AI就开始“露怯”了。

阅卷老师的点评一针见血：

*文言文是“试金石”：不同模型的文言文阅读理解能力差距极大。这直接反映了模型训练语料中古文数据的质量和数量。有的模型能大致读懂，有的则完全不知所云。

*作文像“问答题”：这是最致命的弱点。AI写的作文，结构清晰、逻辑通顺、语言流畅，但缺乏情感色彩和感染力。它们几乎不会使用举例论证、引用名人名言、运用修辞手法（如比喻、暗喻）。老师提到，很多模型甚至无法理解“本体”、“喻体”这些基本语文概念。AI输出的本质是数据匹配，它难以体会和传递人类细腻的情感体验，也抓不住文章字里行间的“潜台词”。所以，它只能“回答”问题，而很难进行真正意义上的“创作”。

换句话说，语文考试测出了AI在理性认知与感性创造之间的鸿沟。处理信息，它是一把好手；但要它写出打动人心的文字，目前还强“模型”所难。

难度最高：数学——逻辑推理的“滑铁卢”

毫无悬念，数学是全体AI模型的“阿喀琉斯之踵”，是本次高考难度排行的绝对“冠军”。平均得分率仅为36%，即便是单科最高分——书生·浦语2.0文曲星拿到的75分，也仍未达到及格线（90分）。这意味着，在数学这个科目上，所有AI考生“全军覆没”。

为什么数学这么难？我们可以从阅卷反馈中窥见端倪：

1.链式逻辑推理薄弱：数学解题往往需要多步骤、严密的逻辑推导。AI可以记忆公式和定理，但在面对复杂问题时，难以像人类一样进行灵活、连贯的逻辑跳跃和步骤规划。

2.符号与计算容易出错：纯粹的数学符号运算和数值计算，对AI来说并非其天生优势。过程中容易出现错误，有时甚至会“一本正经地胡说八道”，给出一个过程错误但答案巧合正确的解答，极具迷惑性。

3.抽象思维与建模能力不足：将实际问题转化为数学模型，需要高度的抽象思维能力。这恰恰是当前大模型基于统计概率的范式所欠缺的。

有另一份2025年的评测（来源2）显示，在一些更侧重于推理的测试中，如DeepSeek-R1、腾讯混元等国产模型能在数学题上取得满分，但这可能依赖于特定的提示工程或题目类型。在标准化的、综合性的高考数学试卷面前，AI普遍性的短板暴露无遗。这清楚地表明，在需要严格、深度逻辑推理和问题解决能力的领域，大模型还有很长的路要走。

三、思考：这张“偏科”成绩单告诉我们什么？

让AI参加高考，绝不仅仅是一场炫技或娱乐。它的意义在于，像一面镜子，照出了当前大语言模型能力的边界和特点。

首先，它验证了AI的“强弱项”。强在信息处理、语言生成、规则明确的领域（如英语客观题、语文基础）；弱在深度逻辑、数学推理、情感创造和抽象思维（如数学全卷、语文作文、文言文）。这为AI技术的发展指明了重点攻坚方向——如何提升模型的逻辑推理和数学能力，是下一代模型必须面对的挑战。

其次，它引发了关于AI与教育关系的思考。既然AI在语言类知识检索和辅导上表现不俗，未来它或许能成为学生强大的学习工具和“智能家教”。但同时，它在数学和深度理解上的不足也提醒我们，人类在批判性思维、创新创造和情感共鸣方面的价值，是AI目前无法替代的。教育的目标，或许应该更侧重于培养这些AI难以企及的能力。

最后，这次评测本身也是一次技术范式的展示。采用全卷、闭卷、人工阅卷的方式，尽可能模拟了真实的高考环境，使得评测结果更具说服力和参考价值。它告诉我们，评估AI的能力，需要放在复杂、综合、贴近真实应用的场景中进行。

回过头来看这张“AI高考科目难度排行”：英语<语文<数学。这个排行，与其说是科目本身难度的绝对反映，不如说是当前AI技术能力光谱的一次精准测绘。它让我们在惊叹AI进步神速的同时，也清醒地认识到，要让AI真正变得“全能”，我们还有不少硬骨头要啃。下一次“AI高考”，数学能及格吗？我们拭目以待。