【超独家】揭秘ETS阅卷的“幕后”

 

作为一名多年教授托福考试的老师而言,能够去到美国ETS的总部学习培训,就好比一个虔诚的信徒能够去到圣城朝圣一...



作为一名多年教授托福考试的老师而言,能够去到美国ETS的总部学习培训,就好比一个虔诚的信徒能够去到圣城朝圣一般。4月2日,新东方来自全国的16位教学管理者满怀期待,深入美帝,来到了ETS位于普林斯顿的老巢,一心想从这家全球考试巨无霸机构中获取真经。

获取真经? (偷题?) 你想太多了! 新东方可是一个有底线、有节操的教育机构,是一个时刻把教学放在首位的、倍受业界尊重的教育企业。本次出访真正的目的是为了参加为期一周的主题为 “Development and Design of Large Scale Assessment” 的培训,是为了让我们的教学团队能够更为深入细致地去洞察考试的动机,也让我的教学更加地有针对性,从而让我们所培训的学生能够真正达到在美国生活和学习的语言能力要求。

整个培训分别从心理测评、测试规范、测试设计及计分的有效性评估、测试内容公平性、测试分数范围界定及等值化等诸多方面的内容进行了学习和讨论。当然最值得大家关注仍然是关于ETS如何进行算分的话题。对此我将从以下几个方面来为大家进行独家揭秘。

1. ETS是全球统一阅卷么?

ETS在整个试卷的制作过程中,非常关注Fairness这样一个核心要素。而公平原则其中非常重要的一个体现就是确保全球的做题结果都是由统一的阅卷人来进行批改。尤其是ETS将托福改革成iBT之后,更是加速了利用网络进行统一阅卷评分的进程。

2. 阅卷评分人员都是ETS的官方人员么?

ETS管理着诸多考试项目,仅仅是托福项目在中国每年就有超过20万人报考,这也意味着仅是从阅卷评分这个层面就需要投入大量的人力。但是从ETS总部有限的办公区域来看,我们可以料想到它是不可能去配备那么多官方人员来阅卷的。关于这个问题,评分员能力系统项目的负责人Jennifer Geoghan女士也给出了明确的回答。

ETS的评分员并非仅限于ETS官方人员,而是面向美国本土的人员通过特定的流程进行招募的。只要是在美国本土工作的人员都可以申请成为评分员,他们不需要在ETS办公,甚至可以在家里阅卷,但是为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。申请人通过资质审核后,会先进入到线上培训环节成为一名Train rater。

当培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试,成为一名Certify rater。而在整个过程中,ETS的官方评分员充当的就是一个裁判和导师的角色,也正是利用这样的模式才确保了专业人员的高效利用,同时也确保了评分的科学性和准确性。

3. ETS仍然在使用电脑评分么?电脑评分是否会计入真实成绩?

其实电脑评分这个概念,很早就已经运用于写作考试中,这并非什么新兴产物。自从2010年1月开始,iBT的写作评分系统就进行了调整。由原来的2个评分员评分,取算术平均分作为raw score原始分,改为1个评分员和1个电脑评分系统(e-Rater)评分,取算术平均分作为原始分的方式。尽管之后也有很多出题机构也学习了这种评分方式,但是最终都因为评分效果不理想而最终放弃,这也正是很多人猜测ETS现今的考试中是否还继续使用电脑评分的原因所在。

可以说在本次ETS的培训中,几乎每一位ETS的官方人员都会不断地提及Human Scoring & Automated Scoring的概念。想必大家也能猜想到结果了,ETS对于利用电脑评分的操作是乐此不疲的,而且对于评分的结果是极度信任的。

其实来到ETS之前,我对电脑评分这件事情也是心存顾虑的,总担心这样的评分方式不够智能,会过于机械化地得出结果。但是当我们来到ETS听完专家的讲解后,我明白了ETS利用电脑评分的意义所在。一方面,我们之前对于电脑评分的认识并不够全面,总是觉得仅仅是利用一些具有纠错功能的软件来进行评分。而真正意义上的e-Rater更像是一个基于强大数据系统支持的一个运算系统,它能够将输入的文章内容和数据库里面的内容进行比照式批阅,这样就极大地增强了阅卷评分的灵活度和广泛度。

而ETS作为全球最大的测试服务机构,他有着得天独厚的优势,那就是它每年都能够积累大量的文章数据,而且能够不断进行更新迭代,这能使得他的电脑评分系统的智能化不断地提升。相比而言,其他测试机构的电脑评分系统却虚有其表,没有大量数据内核作为支持,所以自然无法得到一个理想的评分效果。

另一方面,电脑评分有着它独特的优势,那就是具备足够的客观性。它不存在阅卷的疲惫度,永远能够关注每一个评分标准,考虑到文章中的每一个细节和每一个特征;它没有情绪,所以也就不存在主观映像,对于同一篇文章永远只会给出一个不变的分数;它能对于每一篇文章所给出的分数都能给出具体的解释,这是人为评分无法做到的。

对于托福考试而言,关于语言输出部分的口语和写作两个项目都会涉及到电脑评分,而且评分结果是计入到真实成绩的。只不过算分方法并不是机械地将评分员评分和电脑评分进行求平均计算。我们其实可以更形象地把他们理解成为分工协作,联合判分。

首先,E-Rater负责Linguistic的部分,关注的是文章的逻辑、语法、用法、架构、词汇等要素,而人工负责内容和含义的理解,他们在评分目标上各有分工。其次,阅卷人和电脑是独立判分,他们彼此看不到对方的分数。当两者的分差介于动态区间值时分数有效,判分结束;当两者的分差大于动态区间值时,人工评分和电脑评分均无效,将会引入新的判分组进行重新评分。如果仍然判分无效,将会指定给ETS官方阅卷人主管直接判分,但这种情况很少出现。

以上仅仅是本次ETS之行的一个侧影,也希望能够通过这样的一些体验能够让大家对这个神秘的出题机构有进一步的了解。相信同行的老师还将从其他层面来为大家解读ETS的各项考试。当然,文章最后我们还将为新东方学员带来一项独家福利,那就是新东方将从ETS官方引进e-Rater系统,今后大家将能够更为直观地感受到口语和写作部分的评分细节,也能够依次为参照不断地提升自己的英文水平。

我想这也才是ETS和新东方真正的宗旨所在:考试并非目的而是手段,希望各位考生能够在备考的过程中,真正体会考查意图,对照提升自己的各项能力,让高分成为一个顺理成章的结果。

更多新东方2016ETS之行点击【阅读原文】


    关注 新东方托福


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册