ETS 出台反作弊新规?海量考生用了模板被判作弊?谣言止于智者!
2018 年 03 月 26 日
来源:朗播网
摘要:最近一些机构发消息说,ETS 出台了新的反作弊新规,主要是为了甄别雷同作文,考生用了模板就会被判作弊。那么这个事儿到底靠谱吗?消息从哪里来?今天,我们就来仔细剖析一下。
## 消息从哪里来?
事件起源于一些考生的反馈,说自己两次考试用了同一篇模板,结果第一次是 good,而第二次被判了 limited 。或者是由于使用了模板,小作文是 good,而独立写作是 limited 等情况。
由于反馈的人数较多,一些机构推断,是 ETS 修改了 e-rater 的评分标准,收紧了对模板的容忍度,对使用模板的作文更加严厉了。
推论到此还是比较靠谱的。毕竟,背模板并不能反映出真实的语言水平。ETS 为了能够保证考试的公平与科学性,严厉对待模板作文是很有可能的。
可是接下来,推论就开始走偏了:使用模板会被判**作弊**?这未免有些危言耸听。毕竟根据目前考生反馈的信息,大家都是因为使用模板而被判了低分,并没有人得到 hold 的结果。而且作弊甄别与评分完全是两个机制,修改 e-rater,并不影响作弊甄别的机制。否则,让 e-rater 又评分,又反作弊,简直是虐待 AI 啊。既没有官方声明,也没有足够的证据支撑,我们可以认为,**“使用模板被判作弊”完全是不靠谱的标题党**!
不过,这也反映出了一个问题:大家对于考试技术是真的不了解!那么今天我们就来科普一下!考试机构是如何反作弊的?在口语、作文评分中,阅卷老师对待模板作文又会如何处理呢?
虽然 ETS 并未公开公布甄别做法以及评分的具体流程,但目前大型考试均是标准化考试,一些做法都很相似。在此,结合本人历次参与大型国内考试经验,和大家谈谈考试常见评分与作弊甄别的方法。
## 作弊甄别的常用手段
通常情况下,我们常说的作弊可能包括两方面,一种是抄袭,另一种是泄题。所以,通过统计手段可以甄别出的是抄袭这种情况,俗称雷同答卷。
判断两个考生的答卷是否雷同,需要算出许多统计指标,这些指标有的基于选同数(选择一致的题目数量),有的是基于错同数(答错且一致的题目数量)。当这些指标达到某一临界值的时候,就判定这两个考生回答是雷同的。当然如果只靠 1 个指标就判定雷同,误判的可能性太大了,因此一般会综合参考多项指标,找出在这多项指标上均超出临界值的考生组合。
通过这样的判断方法,误判的可能性会被降低到 10<sup>-17</sup>,比中大乐透还难。
当然上面说的是客观题的甄别方法,主观题(如作文、口语、回答问题)雷同卷的甄别方法主要是通过文本间的相似程度。可是主观题的作弊甄别误判的可能性太大了,如套模板、抄题干等行为都会被检测出来。而这些行为只能说是消极或投机的答题方式,并不是实际的作弊行为。因此在学术界,主观题雷同甄别的主要困难就是**如何把这些情况排除掉**,以免误伤考生。敲黑板,划重点!研究人员们都在想方设法把这些情况摘出去,又怎么会不分青红皂白,只因你使用了模板就给你判作弊呢?
## 口语/作文阅卷中如何对待使用模板的作答?
作为一个经验丰富的阅卷员,虽然从感情上,一看到套用模板的作答,印象就不是很好,很想给低分,但是评分规则告诉我,不能这么做!要理性!
那么,以国内某大型语言考试的阅卷经验为例,介绍一些阅卷老师是怎么给模板作文打分的(满分 5 分为例):
1. 若模板内容与作文、口语话题完全无关,而且通篇除了模板,几乎没有自己的表达,那么此类文章会给 1 分。
2. 若模板内容与作文、话题完全无关,但除了模板内容外,考生加入了自己的表达,而且比例较大,那么就将模板内容视作“无效”,仅根据考生自己的回答内容来评分。
3. 若模板内容与作文、口语话题有关,那么模板内容就视为“有效”,阅卷员需要根据学生的表达水平判分,但不能给高分。也就是说如果满分为 5 分,一旦你用了模板,即使表达再好,最高也只能给你 3 分或者 2 分。
模板不仅仅包括写作框架,还包括模板例子,以及阅读题、听力题的材料。判断你是否是使用了模板,有时候并不需要机器,人工也可以做到。当参考人数特别多时,耍小聪明的考生不止一个,而是成千上万个,阅卷老师看个十几二十篇就能发现了。
## e-rater 评分变化了吗?
根据考生的反馈信息,我们猜测 ETS 已经不再宽容使用模板的行为。那么,e-rater 就是一个很好的检测工具,利用它可以更准确地识别出使用了模板的作文,甚至查出使用了哪篇模板。那么 e-rater 对于模板作文是怎么评分的?
对此,ETS 没有公布具体变化,但是我们猜测,也许是在原有评分标准的基础上增加了限制。口语、作文评分不可能采取扣分制,但 e-rater 可以根据你的回答,以及模板占总篇幅的比例来适当限制你的作文得分。
关于 e-rater 的评分机制,我们在以前的文章中曾介绍过,不清楚的同学可以去看去年 12 月 26 日发布的文章:[揭开托福写作评分幕后黑手(e-rater)的神秘面纱][http://toefl.langlib.com/preview/article/481192347]
在这里,只给大家简要介绍一下 e-rater 的评分标准:
1. 语法错误:动词时态错误、代词错误、所属格错误、漏写或错写单词、句子不完整、不断句、句子混乱、主谓不一致。
2. 用法错误:冠词错误、混淆词义、词形不正确、错误的比较级、不规范的动词或词语形式。
3. 写作规范问题:拼写、首字母大小写、数字规范、标点(缺少问号、缺少逗号、缺少句号、缺少连字符)、两个单词连写、错误的合成词、重复的词。
4. 语言风格问题:用词反复、不合适的单词或词组、太多句子以连词开头、太多短句子、太多冗余的长句子、被动语态。
5. 组织 (Organization) 和发展 (Development):可以简单理解为篇章结构
6. 词汇丰富度
7. 主题词汇的使用:判断内容是否与话题相关
其中,在第 7 项标准,主题词汇的使用中,e-rater 就是通过将考生作文与作文语料库中的文章比对来完成评分的,在这个时候,和语料库中的高分作文相似度高可能是一件好事儿。
但从最近考生的反馈来看,ETS 很可能又建立了一个用于查重的作文语料库,这个库中搜集了网络上的模板作文,以及历次考试的考生答卷。将你的作文与库中作文进行比对,一旦你的作文与多篇文章都有大面积的重复内容,那就足以说明你引用了模板。e-rater 很可能会限制你的分数上限,也就是说你即使你表达完美,无懈可击,也只能拿到 3 分或更低。
## 模板还能不能用?
模板在备考初期还是很有用的。因为英文写作十分注重论述逻辑,而大家从小接受的中文写作训练更注重语言优美。所以,在备考初期,学习模板可以帮助自己建立英文写作的一般思路。但是在后期,大家就要通过自己的表达,来建立一套自己的体系。
而考试中,就不能再使用网络上那些大热的模板,即使是你的托福老师教给你的模板也要谨慎使用,因为老师不仅只有你一个学生呀!他的模板也许已经教给了许多人,而这些学生的答卷已经被录入到了ETS 的语料库中。
那有的同学担心,如果我有一套自己的体系,那么在考试中可以重复使用吗?会不会检测出来我和自己上次考试的作文有高相似度?虽然我们没有得到 ETS 的官方消息,但我认为不会。这个高相似度,并不是大家理解的那样:两两比对只要相似度达到 0.8 或 0.9 就是高相似度。是否相似需要经过严格的假设检验,需要将误判率降到很低很低才可下结论。千万篇作文里,仅仅是因为和 1 篇作文的相似度高,就一棒子打死,这个误判率怕是要高到 50% 了吧?
同时也有同学担心,像这种常用句子 "I hold the view that""from my perspective""all in all""for example" 等等,我使用了会被判为高相似度吗?持这种想法的同学我只能告诉你:“你想多了!” 大家都知道,论文查重的时候,连续 13 个字以上相同才会被认为雷同。检测相似度是同样的道理,只不过标准可能会更宽一点,只有大篇幅,成句成段地引用模板,才会判为高相似度。
模板虽不能再使用,但大家也不用过度惊慌,弄得自己连话都不会说的。只要是自己的语言,自己的表达,在考试中都不会有问题。