|
今天聊的这个话题,可能给当前鼓吹智能作业批改的热潮泼上了一盆冷水——当我们认为大模型能“看清”学生手写作业是大模型理解的前提不存在的时候,我们还能相信来自智能批改的反馈吗? ![]() 这个问题其实一直困扰着我,即便目前大模型对于手写文字识别已经用上了图像理解模型或是OCR智能矫正模型,但在实际教学实践中,特别是尝试运用各类智能批阅工具对学生作文进行识别分析中,大模型对于手写识别的能力仍旧是一个盲盒——我们不知道AI究竟是“识别”了全部文字,还是只是根据大概理解或抓取的关键词“重构”了学生作业? 这里,胖胖老师就简单选取了大家常用的六个通用大模型(豆包、Qwen、讯飞星火、DeepSeek、MiniMax、WPS AI),来对25份随机的学生手写作文进行识别度测试,测试包含文字识别率、标点识别率、段落识别率、虚构性文本占比(占识别文字总量占比),记录最佳、最糟和平均值。 测试图为标准作文三栏纸,300PPI高清扫描图片,书写字迹整体属于中等及以上,主观感受如下: ![]() 为了公平起见,我们的提示词是统一的:请识别图片中的文字。 以下是测试结果表格 ![]() 仅从上述的表格数据,我们就能发现三个事实: 一是主流大模型在文本识别率上没有达到95%的; 二是所有大模型在文字识别中都存在着虚构性文本的情况,“美化”学生的作答; 三是当文字、标点、段落三者识别率的误差叠加,很有可能对于学生作业书写识别判定就会存在指数级的误差。 当然今天的测试仅仅是个个例,但其却让我们必须正视这样的事实:当前的大模型其实不能完全读懂孩子们的手写作业,存在“美化”他们书写内容的“幻觉”。 这里需要说明的是,我们选用的大模型中,豆包和Qwen是闭源的多模态大模型,其识别之中自带对文本的再次分析,因而相对识别度较高。 ![]() 同样是闭源模型的星火大模型也做的相对更好,其能对文本进行错别字校对,根据上下文语境补充识别错误的字。 ![]() MiniMax则是调用了视觉模型,不过效果差强人意。 ![]() DeepSeek更是令人大跌眼镜,开启“深度思考”不仅识别度大幅降低,虚构度直线上升,而即便不开启“深度思考”,其识别率依旧在主流模型中处于垫底位置,从其思考过程可见一斑。 ![]() 最后WPS AI的识别是会员功能,但段落识别特别是对三栏文本的段落识别是绝对灾难,需要较大幅度调整。 ![]() 做个小结,目前AI在手写文字识别上的问题是智能作业辅助分析的痛点,依旧存在。不知道大家对此有什么好的建议吗?欢迎给我留言 |
|
|