共计 4278 个字符,预计需要花费 11 分钟才能阅读完成。
这真是让人感到惊讶,人工智能竟然以作弊者的身份现身于大学的期末考场!(你是否感到震惊呢?)
这并非玩笑,而是发生在香港科技大学的《计算机网络原理》本科期末考试“现场”。
一款搭载ChatGPT-5.2模型的AI眼镜被佩戴上,模拟真实考试环境,顺利完成了整个期末考卷:

结果令人惊讶:仅用30分钟便交卷,取得了92.5分的高分,并在一百多名考生中位列前五,轻松超过95%的普通考生:

显然,随着时代的变迁,学习工具也随之更新,从以前的小抄变成了如今的—“整机”。
然而,当这样的整机能够顺利完成整套考试流程时,大家所关注的焦点或许已经不再是AI是否能答卷的问题了。
此次的AI“作弊者”仅仅是像人类考生一样顺利完成了所有问题,但这却使得传统的教学评估体系显得有些力不从心。
一副AI眼镜,完成了整场大学期末考试
这场看似荒谬的“人机同场考试”并非学生们的随意尝试,而是由香港科技大学的张军教授和孟子立教授团队所主导的一项实验。
其目标非常明确,那就是让一副搭载大型模型的AI眼镜,在考场内“作弊”,并观察其能够取得多高的分数~
所选的测试场景也十分直接,直指令无数大学生感到畏惧的专业课程——计算机网络原理。(让人不禁瑟瑟发抖…

这门课程不仅考查大量的专业概念,还涉及严密的逻辑推理与算法应用,对人类学生而言是一大挑战,而对AI来说则更是难上加难。
为了让这位AI考生发挥最佳水平,项目组在「软硬件」的选择上可谓下足了功夫!
在硬件筛选阶段,项目团队对市场上12款主流商业智能眼镜进行了全面评估,其中包括大家熟悉的Meta、小米、乐奇Rokid等品牌的产品:
AI眼镜助力期末考试:乐奇Rokid大放异彩经过首轮筛选,项目团队意识到,市场上同时配备内置摄像头与显示屏的智能眼镜并不多,最终进入候选的产品主要包括Meta的Ray-Ban、Frame以及乐奇的Rokid。
然而,实验还需进行进一步的开发。尽管Meta提供了设备访问工具包,但并未开放直接控制显示内容的接口,这使得实验对信息呈现方式的需求难以满足。
相比之下,乐奇Rokid的SDK更加丰富,生态系统也更为完善,开发自由度明显提升。在综合考虑Frame在试卷识别等应用中的相机画质限制后,研究团队最终决定选择乐奇AI眼镜作为此次考试的硬件设备。

在选择影响大脑性能的大模型时,团队比较了多款主流模型,最终选定了OpenAI最新发布的模型——其响应速度与通用知识能力均表现出色的ChatGPT—5.2。

随着软硬件的准备工作完成,现在迎来了重头戏——考试的实施。
考试过程可谓顺畅无比:学生低头查看试卷,AI眼镜通过摄像头迅速捕捉题目,并经由“眼镜—手机—云端”的链路将图像传输至远程模型进行推理,所得答案再沿相反路径返回,最终在眼镜屏幕上显示,供学生抄写。

结果出乎意料,这款基于Rokid Glasses开发并搭载GPT-5.2模型的AI眼镜,在这次期末考试中取得了92.5分的优异成绩,超过了95%的学生。
更令人惊喜的是,在多项选择题和单页短答题中,乐奇Rokid均获得满分,甚至在难度较高的跨页短答题(SAQ)中也取得了大部分分数:
AI眼镜在期末考试中表现突出,传统评估标准面临挑战
在最近的期末考试中,搭载了GPT-5.2模型的AI眼镜乐奇Rokid取得了92.5分的优异成绩,这一结果超越了95%的同学。更令人鼓舞的是,该设备在多项选择题和单页短答题中均获得满分,同时在较为复杂的跨页短答题中也表现出色,取得了绝大部分分数。
此外,当面临那些核心问题分散在不同页码且高度依赖上下文的跨页短答题时,乐奇Rokid依然展现了卓越的推理能力。尽管在计算某些复杂部分时偶尔出现误差,但其所呈现的中间步骤相当完整,处理高难度知识任务时表现尤为出色。
然而,这次测试不仅验证了软件的逻辑运行,还揭示了当前商业AI眼镜的一些短板。首先凸显出来的是功耗问题。
在高压环境下进行考试时,连接设备本身已成为主要的耗电来源。例如,在实验中,仅开启Wi-Fi并持续传输高分辨率图像,眼镜的电量在短短30分钟内便从100%急剧下降至58%。
也就是说,要使AI眼镜实现全天候、长时间的使用,必须解决功耗控制和连接稳定性这两个关键性难题。此外,项目团队发现眼镜摄像头的清晰度直接影响AI的识别能力。一旦题目模糊、反光或拍摄角度不当,即使是最先进的模型也只能在不完全的信息上进行推理,这将直接反映在答题的稳定性上。
值得注意的是,这次测试带来的反思不仅限于技术层面。当没有任何特殊照顾的情况下,AI眼镜依然能够快速且稳定地完成从读题到理解再到作答的整个流程,这反而引出了一个更值得关注的问题——
当教学评估的焦点仅仅局限于是否能交出一份“标准答案”时,恰恰落入了AI最擅长并且最稳定的能力范围之内。
正因如此,基于知识点掌握和标准解题路径的教学评估模式,在如今这个被各种“学习机”包围的时代,显得愈发力不从心。
AI技术的崛起,传统教学评估是否依旧有效?
或许大家都注意到一个颇为有趣的现象:从小学到大学,考试在不断地验证同一件事情,那就是我们是否记住了老师所讲的内容,并且能否按照标准步骤逐步解决问题。
在过去的很长一段时间内,这种评估方式确实有效。因为在记忆、计算和逐步推导的能力上,人与人之间存在明显差异。一些人能够牢牢记住知识,并且反应迅速,而另一些人则可能漏掉步骤或计算错误。
因此,成绩单上的数字确实能够反映一个人在学习上的相当大部分表现。然而,问题的关键在于,当AI在这些评估维度上也展现出快速、稳定且几乎无误的能力时,情况便变得复杂起来。
例如,一位创业者Eddy Xu通过改装Meta智能眼镜,开发出一套能够在国际象棋比赛中实时显示最佳解法的设备,这使得选手几乎无需思考便能稳定获胜。
AI眼镜与教育评估的未来挑战
在这个科技迅速发展的时代,AI眼镜展现出了一种独特的优势,它不仅不会感到紧张或疲惫,甚至在比赛中也能保持高度稳定。用一个词来形容,就是“稳”。
这一现象与乐奇Rokid眼镜在考试中的表现有着相似的逻辑:只要考试题目规则明确且评价标准单一,AI便能顺畅地完成从阅读题目到理解、推理再到作答的整个流程。
即便是在没有纸笔的情况下,它依然能在极其结构化的考试中持续获得高分。
这样的情况不仅仅发生在个体层面。
例如,英国雷丁大学的一项研究显示,当研究人员将AI生成的答卷与普通考试题目混合时,有多达94%的试卷成功“混水摸鱼”,而这些AI的平均得分甚至超过了真实学生的成绩……(这真是让人震惊)
这种局面让人感到有些尴尬——不仅无法超越人类,连AI也难以匹敌:

在让人惊讶的同时,一个原本不那么尖锐的问题也被提出——
当AI或者机器在标准化作答方面超越人类时,基于笔试的评估体系到底在衡量什么呢?
回顾教育培养的初衷,我们会发现许多重要能力实际上并不适合通过“一张试卷”这种方式来评估。
——比如提出优质问题的能力。
——在信息不足时进行判断的能力。
——在多种方案中进行选择的能力。
——以及理解现实情境、体会他人立场的能力。
这些能力的核心在于学习过程、思考路径和决策的质量,而标准答案只是其中微小的一部分。
这些能力长期以来难以通过传统笔试所捕捉,且往往被系统性忽视,然而它们恰恰是AI最难以替代、且能有效区分学生真实素养的关键所在。
从结果导向转向对推理过程、探究经历、跨学科整合与创造性解题能力的整体评估,将是AI眼镜进入考试后,给现有教育评估体系带来的真正挑战。
重新审视评估重点:从“交答案”到“交思路”
教育心理学家加德纳在其著作《Frames of Mind》中提到,人类至少具备八种不同类型的智能——
包括语言能力、逻辑数学能力、空间能力、音乐才能、人际交往能力、自我反思能力、身体运动能力和自然观察能力。
从这个角度看,人类的能力本身是一种高度多维的结构,而我们熟知的教育评估体系,长期以来仅捕捉到其中极其狭隘的一部分。

因此,能够解释为何一些在标准化测试中表现平平的学生,却能在现实生活中展现出更强的创造力、合作能力以及解决复杂问题的能力。
毕竟,单一的考试成绩更多反映的是学生在“标准化环境”中的表现,而在真实情境下的综合素质却难以显现……
正因如此,如何评估创新能力、批判性思维和复杂问题解决的能力,已成为教育评估体系中不得不面对的现实挑战。
目前,不同方向的评估尝试已经开始出现——
最近,纽约大学Stern商学院的教授Panos Ipeirotis推出了一种基于AI的口试评估方式,学生不仅需要提交作业,还需现场阐述自己的决策依据和思路发展,通过对话展示其理解与推理的过程。
在这套机制中,AI首先充当考官进行追问,再参与后续的评估环节。
Claude、Gemini和ChatGPT会对口试的录音进行独立评分,然后交叉审查并修正结果,以判断学生是否真正理解了问题,并揭示教学中的共性盲点:
标题:教学评估的新思路:关注理解而非单一结果
这种做法或许不算是特别针对AI,但确实在教学评估的焦点上向理解本身转移了一些。
类似的趋势并非个别现象,《华盛顿邮报》曾报道,目前一些国外高校已开始引入口试和展示型作业等形式,目的在于让学生的思考过程更加显而易见。
因此,当装载着GPT-5.2的乐奇AI眼镜步入考场并取得优异成绩时,AI是否真的“战胜”了学生似乎并不再那么重要。
这更像是一场独特却清晰的显影实验,让一个长期存在却鲜有重视的问题浮出水面:
传统的教学评估过于依赖最终成绩,却难以全面描绘整个学习过程。
虽然分数是有其价值的,但它所能传递的信息却在逐渐减少。理解是否真正达成、思维是否连贯、判断是否经过深思熟虑,这些关键环节,依旧被简化为一个单一的结果,难以被细致区分和辨识。
在这一点上,单纯将技术排斥在外,实际上已经难以回应核心问题。(而且也未必能真正阻挡…)
更现实的挑战在于,如何引导学生利用AI进行信息整理、方案推演和假设验证,将注意力集中在判断、理解和选择这些无法被“外包”的环节上。
当工具能够稳定地提取信息并给出标准答案时,课堂与考试是否还能有效区分不同层次的思考,正摆在了我们面前。
本文源自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。


AI眼镜的出现真是颠覆了传统教育,短短30分钟就能超越大部分学生,这让人对未来的评估方式产生了疑虑。教育界需要认真思考应对之策。