分享

大学成绩要求正态分布合理吗?

 pgl147258 2014-01-14

【徐腾飞的回答(198票)】:

我们学校也有这个规定,但我从来不管他

我一直认为这是不合理的

概率论的知识告诉我们,自然界许多现象是满足正态分布的。学生的智力水平,包括学习能力,实际动手能力可能也是呈正态分布。

但是不要忘记,教育是有人工干预的行为,不是自然的分布。如果经过教育的学生还是和自然一样的分布,那我们的教育有什么作用呢教育是要让学习成绩不是随机事件

举一个最简单的例子,

如果某个班某次成绩是按照正态分布的,老师通过给成绩差的学生补习进行人工干预,把成绩提起来;而成绩优秀的学生,还是只能考90多分,不可能突破100;其他学生成绩我们假设基本不变。这一次人工干预后,还是正态分布不?

另外,中心极限定理的前提是什么?足够多的样本吧。一个班20-30个学生的小班,这种小样本的统计,各种怪模怪样的概率分布模型都是有可能做出来的。

正如@胡然 所言,教育的人工干预降低了成绩的随机性,再结合上小样本的统计偏差;考试成绩完全没必要按照正态方式来描述。

其实,利用数理统计的知识,我们可以用来做很多事情,例如:评价不同班级的学生。

一门课程上看:有的老师打分高,有的老师打分低;选课程不一样,分数可能不一样,例如我们学校选桥梁专业课比选其他专业课的分数可能要低。

最后大家要一起参加保研排名,这时候才是充分发挥概率统计作用的时候。

我们统计每个教学班成绩的概率分布形态(未必就是正态的),给出每个学生在概率分布形态中的位置,根据这个位置来拉通评价不同教学班学生的成绩。

【ZenjoYao的回答(48票)】:

要求成绩正态分布是一种“治标不治本”的行为,无法从根本上完善教育评价系统。但相比于没有限制地给分,它有可取之处

很多国内学校都为此进行过讨论,甚至很多国外学校也存在这种强制成绩分布的情况例如:Curve给分,99是A,98就只能拿B了。

这个问题在浙江大学也曾引起过激烈的讨论,以下是浙江大学教务处老师为此事做出的解释:

大学成绩要求正态分布合理吗?

浙江大学对于成绩分布的政策如下:“浙江大学对于成绩分布的政策如下:“对于全校公选课及大类课程,严格执行分数段比率人数限制,如90分以上不大于20%、80分以下不少于30%。但对于专业课程,没有给分限制。

这个政策,我认为是利大于弊的。

我将从三个方面叙述我持如此看法的原因:

1.要求成绩正态分布能否从根本上完善学生评价系统?

对于这个问题,我的回答是:不可以

首先,我需要对我说的“正态分布”做以下说明:本文讨论及在实际教学评价中所用的“正态分布”概念,并不是理论上的正态分布,而是呈现一种“两头小,中间大”的分布趋势。虽然概率论使用严格正态分布,但是往往在一门课程的考量上,样本数太小,所以我们只是说分数应该服从一种趋势。

其次,强迫成绩正态分布只是一种“治标不治本”的方法。一般而言,一个好的考核标准,往往能够使得学生成绩趋向于正态分布(如高考)。但是,反过来说不一定正确,即分数服从正态分布的评价系统,并不一定是一个好的考核方式。举个最极端的例子,我并不批阅期末考卷,而为了正态分布来给分。

2.这种对于成绩的限制是否有现实意义?

对于这件事情的争论主要集中在这个问题上。在我看来,总体而言,这种成绩限制利大于弊。

首先,成绩没有限制会造成一些教学问题。在通识课给分没有限制的时候,很多人都会去选择自己并不感兴趣但给分“厚道”的课。这种情况下,评教时的“好”老师,并不完全是有师德,善于教书育人的老师。而那些抱着“功利心”选课的学生,也往往会因为有更好的成绩,所以可以享受更多的资源。在限制分数分布后,这种情况的确是有所缓解

其次,许多人认为方式不合理是因为限定区间给分并不是正态分布。这种说法我认为是不十分合理的,因为我大可以让老师无论给何种分数都能提交,然后在系统后台强制转换成正态分布。而给定区间的好处在于,它虽然限定80分与90分以上人数的比例,但仍然给老师打79分和89分的权力

再而,据我所知,专业课并没有对于成绩的限制。这也充分给予了专业课老师对于学生评定的自由

不过,这种限定区间给分却也有意的“拉低”了成绩,但有没有想过能用它“拉高”成绩呢?我也认为,有些老师存在故意给高成绩,但有一些老师也会故意给低成绩。它在给定90分以上人数不高于20%的同时,能不能也限制90分以上的人数不低于一个比例呢?

3.其他的一些看法。

如何评价一个人是一个非常复杂的课题,而且将人评为三六九等本身就不合理。但资源有限,总会存在一种选拔方式。但是至今仍没有一种充分合理、公平的选拔方式。

不应该在这些小节上忘记教育的初衷,成绩只是一种有相关性的评估方式。

有些事情存在很多弊端而为人诟病。但当我们想不出一个更好的方法,当它可以给不公平里带来一些更公平,我们又何乐而不为呢

【徐惟能的回答(13票)】:

各位知友已经回答得很好了,我谈几点这个问题对于经济学类课程的观点。

我认为对于这个问题,高校应当把选择权下放到任课老师(或者课程的教研组,下同)身上,因为只有任课老师最清楚某一门课程的组织架构、形式、难度以及相应合理的评分体系。具体来说,对于不同的年级、学位层次、不同功能的课程应当区分对待。对于有些低年级的基础课程,它本身属于对于专业知识的铺垫,完全可以视作是“达标型”的考核,比如本科生的财务会计基础课,只要学生理解并且达到了相应的知识层次,会做会计分录,会做简单的分析,完全就应该给A,而不应该盲目地让分数服从正态分布,同样道理的还有比如本科生的微观和宏观经济学基础课。

而像有些专业课,认知和理解的层次会有明显的区分度,而且有时候甚至于很难给出“满分”的课程,那么这种课程就应当进行curve,比如高年级本科生带有Project的计量经济学的课程,学生的成绩中包含着paper、project等无法做到“尽善尽美”的任务,那么根据整个班级学生的情况进行适当的curve是合理的。类似的还有研究生阶段带有案例分析的课程也是同理。

总之,在评分的问题上,高校不能图省事就搞一刀切,而任课老师也应有足够的责任心去科学地制定评分标准,并且公正、合理地对学生进行评分。另外,即便是curve的评分系统,任课老师也应该权衡整个班级学生的情况对cutoffs做适当调整,比如一个大家都很努力的班级和一个大多数人都草草了事完成作业的班级,他们的成绩分布应当是不一样的。

【知乎用户的回答(13票)】:

之前的答案吐槽太多,没啥干活,所以更新一下,想看吐槽的请跳到分割线:

1, 先说结论:

这个问题本身是一个本末倒置的问题。成绩正太分布是正常的事。不过国内教育评价系统太过操蛋,导致出来个成绩不正太,于是学校管理层非要强行拉个curve出来,以显示自己的教学是符合科学规律的。对此,我只能竖起我坚强不屈的中指。如果问题是“大学要求每个老师改进课程的评价标准,使得学生成绩呈现自然的纺锤形分布是否合理”,那么答案显然是YES。

2, 下面简单来说说为啥国内大学成绩不正太的:

首先更正个错误:@徐腾飞,Central Limit Theorem是说平均值的分布趋向于正太,而不是说整体分布趋向于正太。另外,N=30 的时候就可以使用CLT了,这个是约定俗成的。而且,国内很多课程都不只是30个人吧。

言归正传,为什么成绩应该正太呢?基本的原理是大家智力水平,用功水平,能力水平大约都是正太分布的,所以最后的成绩也应该是正太的(去看高考的成绩分布就知道了)。但是等一下,这里面有个隐含的逻辑:也就是成绩要反应智力水平,用功水平,能力水平。关于这一点表示无力吐槽。

还有一点,国内大学的考试嘛,简单题的比例太高,使得均值很高。均值要是很高的话你自然画出来的curve就不好看啦。原因很简单,因为成绩<100呀。你均值太高,左右肯定没法对称咯。

大学成绩要求正态分布合理吗?

按照我下面提供我们学校Faculty of Science的curve的来计算:mean大概是65,sigma大概是20,那么超过95的只有2.3%,就没有什么问题;如果某学校mean是85,那么如果sigma=15,则必须得有15.6%的人大于100分才能让整个curve看起来对称......

那你说我sigma小点好不好嘛。sigma小就意味着成绩扎堆呀。所以才有了上面有些同学抱怨的:“99的拿A,98的拿B”。

3,下面离题说另外一个问题:也就是为什么我们需要多样性的评价:

还是举个栗子:

假设有两个学校A,B:

  • A学校评价系统是100%期末;

  • B学校评价是10%作业,15%期中,25%Project,50% 期末;

假设小P同学同时上两所学校,那么他的的成绩分布是什么样的呢?

A的话很直接,

大学成绩要求正态分布合理吗?

大学成绩要求正态分布合理吗?

就是小P同学的真实水平,

大学成绩要求正态分布合理吗?

是标准差。

B的话略微复杂一点,我们先做一些假设:

  1. A,B两所学校的评价标准都可以反映小P的真实能力,i.e.,

    大学成绩要求正态分布合理吗?

  2. 小P同学在作业,考试,Project方面能力是平均的;而且小P同学在作业,考试,Project方面失误的概率也是平均的。意味着:
  3. 大学成绩要求正态分布合理吗?

    ;

    大学成绩要求正态分布合理吗?

    ;

    大学成绩要求正态分布合理吗?

    ;

    大学成绩要求正态分布合理吗?

大学成绩要求正态分布合理吗?

B校的标准差比A校小40%,也就是说B更能反映小P的真实水平。

放大到整个班级来说:

每个人的成绩=真实水平+波动:

大学成绩要求正态分布合理吗?

按照前面的假设,一个班里每个人的真实水平服从正太分布:

一般认为成绩的波动是服从正太分布的:

大学成绩要求正态分布合理吗?

所以每个人的成绩

大学成绩要求正态分布合理吗?

那么我们希望看到的曲线是要尽量贴合

大学成绩要求正态分布合理吗?

,但是实际我们观察到的是从

大学成绩要求正态分布合理吗?

中抽样的曲线,因此,通过多次评价的办法,尽量降低

,就能获得关于整个班级更加真实的评价

以上推论,如有错误,请务必指出。

-----------------------------------------------------------空降成功----------------------------------------------------

国内的成绩水的一逼啊,随便拉出来一个GPA都是4,搞神马?期末一个比一个简单,水课也就算了,微积分,力学这种都TM直接拿作业当考试题,你TM逗我呢?别躲,说的就是你,上海某高校。这样的GPA申post-graduate你当人家都傻啊(Columbia招生的人原话)?

另外,国内学校真正拉curve的没有几个,说一个我知道的。上海某高校某个和国外高校合办的学院,curve是这么拉的,前1/3是A,大概一半B,剩下的C,几个D。WTFFFFFF!!!!你跟没拉有区别么?

在我们学校,curve是比较严格的。Science算是给分比较仁慈的,curve大概是17%A(包括A+,A,A-),36%B,剩下的C和D。Fine Arts和Law 是给分最残忍的,一个学期下来整个班一个A都没有是正常情况。但是我们还是想要Curve,为什么?因为没有Curve更惨啊,Topology期中考试,最高分就17(25满分),不拉curve,我们玩儿蛋去?

所以当我们一个学期拼死拼活搞个3.7转头看到内陆一片边dota边爆4的你觉得得是神马心情?难道不就是内陆在五道口拼死拼活念3年拿个金融硕士转头看到香港一片一年制Master of Finance瞬间鲜血吐出大喊一声“妖怪,快显出你的真身”的心情?

But that's not the point. The point is:Curve 不是拉出来的,Curve 本来就存在,只不过内陆不正常的评价方式,导致了Curve拉的乱七八糟的。正常的evaluation过程:assignment+project(or presentation or paper or debate, etc.)+quiz+midterm+Final,这样一套下来出来的成绩分布是满稳定的,然根据均值划Curve就比较正常。上面有人说“99的A,98的拿B,这个不正常”。这跟curve有屁关系啊,你该问你这个卷子怎么出的。要是A和B的分界在98,那TM得多少人满分啊?考个屁。

【知乎用户的回答(7票)】:

这真是一个太值得吐槽的问题了。

毫无疑问,我上本科的时候,学校里也是这种情况,导致教务处和一线业务教师互相埋怨扯皮。

我们专业的一些专业课通过率通常不到50%,像混凝土结构原理,结构抗震设计,根本不可能把成绩弄成正态分布。

教务处毫无疑问地要来找任课老师的麻烦,我们老师是这样回答教务处的:学生都没有按正态分布听课看书做作业复习,凭什么我的分数要正态分布!

后来补考时,挂科的人里面依然有80%的人没过,教务处更无语了,因为补考没有平日分,卷面要考满60才给过,更难了。

【知乎用户的回答(4票)】:

显然不合理嘛。肯定是概率论没及格的人想出来的规定。

就是这样

【徐然的回答(1票)】:

我老板的给分方法是,所有人给分之后run一下聚类算法,然后第一个cluster的给A,第二个cluster的给A-。。。于是有一年全班只有一个A。

【CHENFAN的回答(1票)】:

这个问题很大,首先,不合理

题目中要求大学考试成绩正态分布,在实务上,这违反了大多数测量专业认可的,负偏态,即高于百分制50分组人数多,为比较合理的原则。

理论上,无论分数解释侧重常模参照解释还是标准参照解释,分值和能力的高相关性都是最高要求。一个理想的测验,希望分数分布与考生被测潜在特质高低完全一致。换言之,考生能力分布是影响成绩分布的核心条件之一。从这个意义上,一件测量工具不能完全为测量结果分布特征负责。你把一百个小学生和一百个数学家放在一起考数学无论用啥卷子也都是是拉不出正态曲线的。

题主所说大学考试结果的要求,无非是希望1. 分数有个较宽的分布,2. 在人群能力较为随机的假设情况下,正态分布暗示测量过程较为合理。最后的目的:保证测量的效度。但是其实正态分布无法保证希望2,比如,一门专业课,老师用加权性别转换后的考生身高来给分,会很正态,但无效。用这一指标为核心指标评价试卷质量和教学质量是不合适的。

1999版教育与心理测量标准提出分数解释这一概念,同时把效度概念改成了“(证明考试有效的)证据支持分数使用结果的程度”,关于效度话题太大了,无法展开,有兴趣的可以参考《Educational Measurement》4th。我想大学的教育管理者应该更加注重的,是两大核心效度来源:教学内容,以及合格标准的设定过程(假设后者包括了试卷设计的证据),而不是分数分布曲线这样的易观察但效度证据能力偏弱的指标。

专业吐槽结束。最后,一个操作性理由,国内绝大多数大学分数汇报采用原始分百分制,六十分合格,参照标准不明,不可能事先构建常模的考试体系,这样的体系中构建可预见的正态分布是极为困难的事,事实上迫使评卷人人为地把分数打出正态分布来,这是对结果的一次扭曲,与其如此,不如直接要求淘汰率更好。

【知乎用户的回答(1票)】:

上面关于浙大的回答说的非常好了,正态分布是有一定必要的,但是我觉得应该仅限于那些老师主观能动性比较强的课,如果是微积分、大物这种科目的话就完全没有必要。

另外还有一个问题就是,现在浙大有低分区域的正态分布,但是又规定重修对外也不能覆盖原成绩,这可能会让一部分学生在求职、出国中不利;比如按照最严格的GPA算法,81分是B,79分就是C,实际上79分的人仅仅是因为正态分布而被拉低了分数,其实也有不公平的成分

【吕朝阳的回答(5票)】:

首先根据这个题目来回答,学生的总体成绩以正态分布来核算,是否合理?

不合理。这个问题,用统计知识的几个答案都涉及到了,正态分布的前提是要服从大数定律和中心极限定理。对于教学来说,很多课学生人数并不足够多,正态分布的前提假设不成立。

但是讨论的很多答案,集中在,学生成绩是否需要根据一定分布进行处理?

我认为,必须需要。正态分布可能不能进行统计分析,但小样本并不是没有统计方法(比如 student t distribution),表现后尾特征等等。

// 首先声明一点,从我观察发现,不同学科分数本身分布之间是不一样的。我依据的观察和分析仅针对工科(广一点,考试衡量以计算和客观理论为主的学科)。

对于英联邦的教育体系,比如英国,还有@Sheffield Wang提到的香港的学校,老师在分数打出来之后,系里或者学校里会对学生的成绩在进行re-scale,他们用的那种分布方法我并不了解,但是他们经过这样处理后,学生和老师都可以理解。我个人认为,并不只是是否科学问题的问题,但结果更加公平。表面上看,得分高的学生因为成绩下降受到了影响,其实不然。

在教育评价体系里,一个很重要的问题是GPA inflation。美国的学校很多学校已经不做re-scale,由老师自己把握分寸和比例,而美国近30年来,GPA的整体趋势也在逐渐提高。是否是因为现在的学生学习能力一定更强了?并不一定。很有可能使学生更加适应考试了,也可能是老师个人的主观原因,等等。比如,美国的研究生院会对学生的本科成绩作出要求,很多学生因为一个A的问题和老师争的脸红脖子粗的不在少数。不少老师都是善意的(中美老师都是),给学生的整体成绩的心理标准也在不断提高。

GPA inflation的一个严重后果就是,现有教育体制下的区分度的效力会下降。比如,某门课的试卷会处于其他课程分数的压力,而变得逐渐简单。进而导致,突击考试的学生和认真学习基础的学生难以区分。还有比如,选课制下学生倾向于选择简单分数高的课。等等问题。

GPA inflation的问题可能我们体会不明显,但与之类似的degree inflation我们应该都有体会。本质是一样的。原来的本科,硕士,以及博士含金量贬值,这也是对高等教育体制下精英者学术奋斗的一种打击。而在学校里,GPA inflation会对认真学习的同学造成打击,转而投向浮躁的突击方式学习。

对学生成绩重新按分布处理的核心在于,用那种分布,分别取哪些参数数值,以及在不同体系下,分数如何转换的问题。这也是对自己教育体系严格与否的一种衡量。这种重新计算并不只在于把高分拉低,同样,如果考试难度增加,低分也会被拉高,学生成绩被区分开来,这样的衡量显然更有意义。

------------------------------------------------------------------------------------------------------------------------

下面说一点自己经历。我在国内985学校学习过,在英国的顶尖的工科学校也学习过。我可以比较两种截然不同的评价体系。在国内,考试不算难,突击可以应付,90分以下就不是理想的成绩。自己犯点小错误,可能学的再好,反映出来也只是中等水平。从学生心理角度出发,如果三个月的学习和两周学习的回报是一样的,为什么要去做前者?在英国,大家都是顶尖的学生,所有人学习都很刻苦努力,考试难度非常大,但是回到分数上来,只有不超过20%的人可能拿到70分以上(对,只有70分,满分100分,70以上都是优秀)。在这种刺激下,学生整体的学习都是很刻苦努力的,会促进学生自身进步的,而且最后实力的区分也基本让大家心服口服。如果让我评价谁更好,对于我个人来说,后者显著胜出。

现在回想一下国内的大学教育的评价体系,和国外的相比较,你会想:

到底什么样的教育是公平的?

什么样的教育是让人心怀感激的?

我自己的答案是:

一个让努力的人有同等的回报,让投机的人无机可乘的教育是公平的。

一个让我从教育中受益匪浅,获得知识和能力的回报,而不是虚无的评价指标,是让我感激的。

【知乎用户的回答(1票)】:

大学成绩要求正态分布是合理的!合理的!合理的!

在茫茫多的反对声中,我只能用这种方法强调自己的观点了。

很多人把这个问题的重点放到了正态分布是否准确公正地反映了个人成绩这点上面,其实,这个思考方向是与大学成绩的真正意义不相符合的,思考方向已经偏了。

大学成绩的目的,并不是准确公正地反映出一个人的真实水平,而是给出一个排名。大学成绩关心的不是一个人水平到底有多高(能力的绝对值),而是专注于描述一个人在人群中的排名有多少(能力的相对值)。

一个人的真实成绩,是无法用分数反映出来的。比如小北同学在北大的2013年度的高数考试中拿到了90分,那么是否可以说小北在2012年度的高数考试中也会拿90分?或者说小贝在清华的高数考试中也会拿90分?答案显然是否定的。考题难易程度不一样,同样一个人的分数可能会有很大的波动。

然后小北同学去找工作,简历上写高数成绩90分。竞争对手是另一所高校的小南,小南的高数成绩95分。但小南参加的那次高数考试题目很简单,全系一半人都上90分了,全系的高数成绩小南只排三十多名。而小北的高数成绩全系第一。你说人事会觉得谁的数学能力更强?没有经过分布处理的分数对于参照这个分数的人来说没有任何参考价值。

我们关心的并不是分数具体是多少,而是这个这个人在人群中是一个什么排位。能反映出这个排位的打分方式就是合理的打分方式。

如果所有的院校都对学生的成绩进行正态分布处理,当我们看到一个人的成绩是90分以上时,就能马上知道这个人在该院校中的大致排名如何,再结合该院校的学生与其他院校相比的平均水平,不论这个人出生校如何,毕业时间如何,参加的考试难易水平如何,都能对他做出一个比较公正的评价。

大学成绩不是一个绝对值,而是一个相对值,因为相对值才有参考意义。而正太分布修正,就是让这个相对值更加符合人群的分布概率。目前来看,没有一种办法能更公正地反映一个人在人群中的相对水平了。

当然,在此之前会通过一个及格线来过滤掉没资格参与正太分布评价的人。这不是本话题讨论的内容,不赘述了。

【廖洲艺的回答(0票)】:

我们学校是先定一个标准:一般93以上A,90以上A-,87以上B+,以此类推. 工科放宽一点,85以上A-,90以上A。只要全班平均分不低(比如80以上),老师一般会按照这个标准来;如果考试太难了(理工科经常出现平均分三四十的情况),老师就会按正态分布给等级,有时候75也可以有A。

所以,在美国正态分布这种东西只是照顾考试太难的情况,全班都考得好的时候不用担心因正态分布而让九十多分还拿B。

个人认为不分青红皂白地curve是极端不合理的。同样的老师,同样的内容,因为有不同的助教和学生,成绩的差异还是很明显的。我曾经上过一门流体力学的课,之后两度改同个老师同个课程的卷子,事实证明虽然作业和考试难度差不多,我们那一届的平均分高很多,因为有一个讲课超级无敌好的助教(有条例有耐心深入浅出而且还很萌!)于是大家学习效果也好了

【仝明的回答(0票)】:

正态分布这种东西不是事后呈现的么,还能事前硬性要求啊,就知道教师们的领导是啥脑子了。

【杨沫的回答(0票)】:

教学管理行政化的典型例子,我能想像到的唯一好处就是教务处的人少了好多麻烦,不必另建一套评价体系来评价夸专业甚至跨院系的差别。对于一张出的很好的卷子,可能原始成绩就是服从正态分布的,干预的意义不大。对于一张完全没有区分度的卷子(比如开卷的思想政治课和某些专业课),字写得丑的就呵呵了。

【鲁任君的回答(0票)】:

不合理。有上课认真的学生,有考前突击的学生,也许他们各自能呈正太分布,但总体就不是了。好吧.我瞎说的

【知乎用户的回答(0票)】:

我们每门课的成绩只看相对排名,不看绝对正确率,90以上不超过15%。人人都是国内名校各专业第一第二保送进来的学霸,好多又想读phd,所以就比较凶残了。课难,作业多,考试多,最苦逼的是其他学霸又在自习了,而你还在刷知乎!(惊恐表情)

但这样确实可以把每个人的潜力给逼出来。当然,我们在控制恶性竞争方面效果很好,同学关系总体还不错。这一点如果做不到的话,还不如不要求分布。

原文地址:知乎

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多