明知泄题风险,为什么标准化考试仍在重复使用旧题?

 

研发一套真题到底需要多长时间?多少成本?没我们想象的那么简单...附:6月香港放出了新考位...

这个话题,不得不再次提到SAT


没错,看标题就知道,今天又是一场关于ACT/SAT的讨论。不过,今天不撕逼...经历了无数SAT泄题新闻、连ACT也传出存在泄题可能后,我们来探讨一个正经的话题:为什么明知道试题的重复使用会带来更高的泄题漏题风险,标准化考试还会重复使用试卷?

这个问题,我们从一个关于SAT的最新消息开始说起...

昨天起,陆续有SAT考生收到CollegeBoard的来信,要求6月4日考试的同学签署一份保密协议
大致内容:

为了确保考生是为了正当理由(申请大学,申请奖学金,申请其他项目等等),我们已经更新了考试安全策略。请于2016年4月19日下午5:00前,填写确认函,否则将视为取消考试。

根据目前的反馈,只有部分6月考试的同学收到了CB的来信。不过目前的猜测是CB正在分批发送邮件,因为有些在同一个考场考试的同学都收到了邮件。
 
从2014年10月以来,CB在亚洲的考试分数有6次延迟发生,并且取消了两次考试。另外,除了CB公开承认的“安全事故”之外,从2013下半年到现在,在考试之前试题材料在网上流传的情况,至少出现了8次

再综合之前3月份北美考试之前的突然转考大龄考生事件来说,CB终于开始有了该有的安全责任心,想把考试的公平性尽量做到最大。

但是,这些举措的作用到底能有多大?

举个简单的栗子,转考大龄考生有用的话,为什么今年3月5日北美考试一结束,真题就在网上流传开来?

大龄考生的攻破点很简单,投机的培训机构的老师没办法去考试,就不能雇学生去考试、背下整个考题吗?

另外,CB还声称为了防止中国的作弊现象,取消了自己在中国的一个行政分支。。。
这些看似大动干戈的行为无非是走走过场,无非是给CB自己、给各位单纯的考生以一针安慰剂,对于防泄题的考试公正性维护止于隔靴搔痒。

可见,CB要想平衡考试的信度、效度及公正性,这条路仍然任重道远。我们绝不否认道德约束的力量,但鉴于投机的培训机构的“空前盛况”,这绝不是简单的一纸协议就能解决的事情。

毕竟道德约束有用的话,还要监狱干嘛?

而问题的根源,主要还是在于旧题的循环利用

路透社深度调查SAT作弊事件,CB回应无能...

路透社前不久发布的一篇文章里表达了对SAT考题在海外安全性的担忧,其中揭示:

一份CB内部机密PPT文件显示:CB官方在2013年六月取消了韩国的SAT考试之后,就已经有内部文件报告了试题泄漏的情况。当时有4次考试题目被一个没有名字的“中国网站”泄漏。

即便已经确认了试题泄漏,CB还是让这些被泄漏的试题,出现在了新一学年的SAT考试中。并且没有采取任何措施来规范中国这个最大的市场。



而即便是话说到了如此程度,对于新SAT是否会沿用旧题的问题上,CB的回应仍然是:

美国大学理事会向路透社表示,他们还没有立刻停止将用于美国的试题在海外循环使用的计划。新版SAT仍然会延续重复使用试题的措施。

不只是SAT,我们再来看看托福...

在托福考试加场中,因为是加场,ETS不会花成本(80万美金一套)去出一套新题,所以加场至今都是重复老题,概率是100%。

2013年的5次加场重复的是大陆和北美全套试题,而2014年的4次加场全部重复当年大陆考过的全套试题,2015年5月16日和24日加场考的是2014年3-5月的大陆全套试题,2015年9月17日重复的是2015年上半年的两套考题的拼盘...

为什么会这样?

研发一套真题到底有多难?下面我们来看看:

CB开发一套考题过程非常繁琐,关键步骤就有12个:



据知情人士称,仅仅开发一版SAT考试,就有可能耗时长达30个月以及花费大约100万美元

ACT考试题目编制来看,为保证考试的信誉度和有效性,ACT真题的核定精益求精,一份完整的试卷也是要经过12到工序来回考量才被采用。

试题编写(Item and Prompt Writing)

ACT考试邀请全美各地高中和大学的教师参与编写考试试题(而不是由一个试题编写小组来承担),ACT的工作人员会给试题编写者提供有关试题内容,认知技能水平,试题形式等方面的编写规范,并定期开展交流研讨活动。ACT考试特别强调考试试题要能够反映全美的文化多样性,也要求试题编写者,能代表广泛多样的文化背景。他们来自于不同种族,不同人种,从而可以编写出反映多种视角的试题。

试题修订、评阅(Item Editing and Review)及试测

ACT考试的工作人员及ACT聘请的专家小组会对每一道试题进行审议。主要审查试题的内容是否科学准确,是否符合试题规范,对不同社会群体的描述是否公平,尤其是要避免涉及对某些社会群体不熟悉的内容。另外,语言的使用要防止出现性别歧视的倾向。ACT科学家与专家小组一起开会,在一些能够代表总体的样本考生中进行试测,以了解这些试题的难度水平是否适宜,以及是否能正确地发挥测量功能。试测合格的试题被纳入ACT题库。

试卷编制(Test Construction)

首先,从ACT考试题库中,根据ACT的试题结构抽取出规定数量的试题,编制成一份试卷(One Form)的初稿。然后要针对试卷初稿的内容与公平性进行评阅和小组讨论。只有试卷的各部分及总体效果均符合ACT编制的最高标准与规范,并且确保了所有各套试卷在总体难度上基本对等,具可比性,各套试卷才可以在全美及世界范围内正式地投入使用。

最后,在考试实施之后,立刻要对试卷开展统计学评价:一是试题分析评价(Item Analysis Review),主要是评估各道试题是否如预期地那样正确地发挥的测量功能;二是试题功能差异评价(Differential Item Functioning Review),主要评估各道试题在不同考生群体中功能运作得是否有差异。经过这样的统计学分析,发现存有潜在的偏见或歧视嫌疑的试题。如果在进一步的仔细审议中确认存在问题,ACT会采取适当的行动,确保因此受到影响的学生最终得到一个正确而公平的分数。

面对一年7次/6次考试,北美考区和亚洲考区,成本始终是一个问题...

这里所说的泄题最大的漏洞在于重复使用旧题,并不是说完全使用新题就可以杜绝这个问题,比如时差问题也会造成同一次考试不同考区的题目泄露。

不过,说到底时差问题也是一种另类的”重复“,理想化的方法是,亚洲考区不同国家采取不同的试卷...

另外,重复使用考试材料的有一个标准化考试的科学原理支撑:美国大学委员会必须确保一项考试的不同版本之间在分数上具有可比性,而在海外重复使用之前在美国执行过的材料有助于实现这一点。

新技术条件下新SAT的命题的推测

(原谅小编木有找到ACT的在这方面的资料)

综合文章前部分,CB一套全新的SAT命题过程的12个步骤里,有一半是审核评估。这也印证了CB力求标考科学原理的追求,尽量做到可靠性、无偏见。往深了想,这些可靠性、无偏见性其实依托的是很多套历经考验,数据完善的考题。

可汗学院的练习题,也许可以满足这部分的需求。通过可汗学院的丰富题库,CB或许可以从中获得大量用户的免费测试,以此改善命题流程,降低命题成本,快速获取大量可用题目,丰富题库。(这个让小编想到了ACT的官方在线备考系统..)

这也未尝不是一个加速题库更新的好办法。

希望新技术和新系统的出现,可以最大限度的抑制屡禁不绝的作弊现象,给中国考生一个公平展现自己实力的机会。

最后,今天小编成功的刷出了6月香港新考位哦~



LST LAU TAK PRIMARY SCHOOLHKEAA

香港乐善堂刘德学校

考试中心代码(Test Center Code):865640

地址:新界将军澳宝林邨

祝小天使们周末愉快,考位觉得合适的话请迅速下手~


    关注 ACT考试指南


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册