ETS 出台反作弊新规？海量考生用了模板被判作弊？谣言止于智者！

2018 年 03 月 26 日来源：朗播网

摘要：最近一些机构发消息说，ETS 出台了新的反作弊新规，主要是为了甄别雷同作文，考生用了模板就会被判作弊。那么这个事儿到底靠谱吗？消息从哪里来？今天，我们就来仔细剖析一下。

## 消息从哪里来？事件起源于一些考生的反馈，说自己两次考试用了同一篇模板，结果第一次是 good，而第二次被判了 limited 。或者是由于使用了模板，小作文是 good，而独立写作是 limited 等情况。由于反馈的人数较多，一些机构推断，是 ETS 修改了 e-rater 的评分标准，收紧了对模板的容忍度，对使用模板的作文更加严厉了。推论到此还是比较靠谱的。毕竟，背模板并不能反映出真实的语言水平。ETS 为了能够保证考试的公平与科学性，严厉对待模板作文是很有可能的。可是接下来，推论就开始走偏了：使用模板会被判**作弊**？这未免有些危言耸听。毕竟根据目前考生反馈的信息，大家都是因为使用模板而被判了低分，并没有人得到 hold 的结果。而且作弊甄别与评分完全是两个机制，修改 e-rater，并不影响作弊甄别的机制。否则，让 e-rater 又评分，又反作弊，简直是虐待 AI 啊。既没有官方声明，也没有足够的证据支撑，我们可以认为，**“使用模板被判作弊”完全是不靠谱的标题党**！不过，这也反映出了一个问题：大家对于考试技术是真的不了解！那么今天我们就来科普一下！考试机构是如何反作弊的？在口语、作文评分中，阅卷老师对待模板作文又会如何处理呢？虽然 ETS 并未公开公布甄别做法以及评分的具体流程，但目前大型考试均是标准化考试，一些做法都很相似。在此，结合本人历次参与大型国内考试经验，和大家谈谈考试常见评分与作弊甄别的方法。 ## 作弊甄别的常用手段通常情况下，我们常说的作弊可能包括两方面，一种是抄袭，另一种是泄题。所以，通过统计手段可以甄别出的是抄袭这种情况，俗称雷同答卷。判断两个考生的答卷是否雷同，需要算出许多统计指标，这些指标有的基于选同数（选择一致的题目数量），有的是基于错同数（答错且一致的题目数量）。当这些指标达到某一临界值的时候，就判定这两个考生回答是雷同的。当然如果只靠 1 个指标就判定雷同，误判的可能性太大了，因此一般会综合参考多项指标，找出在这多项指标上均超出临界值的考生组合。通过这样的判断方法，误判的可能性会被降低到 10<sup>-17</sup>，比中大乐透还难。当然上面说的是客观题的甄别方法，主观题（如作文、口语、回答问题）雷同卷的甄别方法主要是通过文本间的相似程度。可是主观题的作弊甄别误判的可能性太大了，如套模板、抄题干等行为都会被检测出来。而这些行为只能说是消极或投机的答题方式，并不是实际的作弊行为。因此在学术界，主观题雷同甄别的主要困难就是**如何把这些情况排除掉**，以免误伤考生。敲黑板，划重点！研究人员们都在想方设法把这些情况摘出去，又怎么会不分青红皂白，只因你使用了模板就给你判作弊呢？ ## 口语/作文阅卷中如何对待使用模板的作答？作为一个经验丰富的阅卷员，虽然从感情上，一看到套用模板的作答，印象就不是很好，很想给低分，但是评分规则告诉我，不能这么做！要理性！那么，以国内某大型语言考试的阅卷经验为例，介绍一些阅卷老师是怎么给模板作文打分的（满分 5 分为例）： 1. 若模板内容与作文、口语话题完全无关，而且通篇除了模板，几乎没有自己的表达，那么此类文章会给 1 分。 2. 若模板内容与作文、话题完全无关，但除了模板内容外，考生加入了自己的表达，而且比例较大，那么就将模板内容视作“无效”，仅根据考生自己的回答内容来评分。 3. 若模板内容与作文、口语话题有关，那么模板内容就视为“有效”，阅卷员需要根据学生的表达水平判分，但不能给高分。也就是说如果满分为 5 分，一旦你用了模板，即使表达再好，最高也只能给你 3 分或者 2 分。模板不仅仅包括写作框架，还包括模板例子，以及阅读题、听力题的材料。判断你是否是使用了模板，有时候并不需要机器，人工也可以做到。当参考人数特别多时，耍小聪明的考生不止一个，而是成千上万个，阅卷老师看个十几二十篇就能发现了。 ## e-rater 评分变化了吗？根据考生的反馈信息，我们猜测 ETS 已经不再宽容使用模板的行为。那么，e-rater 就是一个很好的检测工具，利用它可以更准确地识别出使用了模板的作文，甚至查出使用了哪篇模板。那么 e-rater 对于模板作文是怎么评分的？对此，ETS 没有公布具体变化，但是我们猜测，也许是在原有评分标准的基础上增加了限制。口语、作文评分不可能采取扣分制，但 e-rater 可以根据你的回答，以及模板占总篇幅的比例来适当限制你的作文得分。关于 e-rater 的评分机制，我们在以前的文章中曾介绍过，不清楚的同学可以去看去年 12 月 26 日发布的文章：[揭开托福写作评分幕后黑手（e-rater）的神秘面纱][http://toefl.langlib.com/preview/article/481192347] 在这里，只给大家简要介绍一下 e-rater 的评分标准： 1. 语法错误：动词时态错误、代词错误、所属格错误、漏写或错写单词、句子不完整、不断句、句子混乱、主谓不一致。 2. 用法错误：冠词错误、混淆词义、词形不正确、错误的比较级、不规范的动词或词语形式。 3. 写作规范问题：拼写、首字母大小写、数字规范、标点（缺少问号、缺少逗号、缺少句号、缺少连字符）、两个单词连写、错误的合成词、重复的词。 4. 语言风格问题：用词反复、不合适的单词或词组、太多句子以连词开头、太多短句子、太多冗余的长句子、被动语态。 5. 组织 (Organization) 和发展 (Development)：可以简单理解为篇章结构 6. 词汇丰富度 7. 主题词汇的使用：判断内容是否与话题相关其中，在第 7 项标准，主题词汇的使用中，e-rater 就是通过将考生作文与作文语料库中的文章比对来完成评分的，在这个时候，和语料库中的高分作文相似度高可能是一件好事儿。但从最近考生的反馈来看，ETS 很可能又建立了一个用于查重的作文语料库，这个库中搜集了网络上的模板作文，以及历次考试的考生答卷。将你的作文与库中作文进行比对，一旦你的作文与多篇文章都有大面积的重复内容，那就足以说明你引用了模板。e-rater 很可能会限制你的分数上限，也就是说你即使你表达完美，无懈可击，也只能拿到 3 分或更低。 ## 模板还能不能用？模板在备考初期还是很有用的。因为英文写作十分注重论述逻辑，而大家从小接受的中文写作训练更注重语言优美。所以，在备考初期，学习模板可以帮助自己建立英文写作的一般思路。但是在后期，大家就要通过自己的表达，来建立一套自己的体系。而考试中，就不能再使用网络上那些大热的模板，即使是你的托福老师教给你的模板也要谨慎使用，因为老师不仅只有你一个学生呀！他的模板也许已经教给了许多人，而这些学生的答卷已经被录入到了ETS 的语料库中。那有的同学担心，如果我有一套自己的体系，那么在考试中可以重复使用吗？会不会检测出来我和自己上次考试的作文有高相似度？虽然我们没有得到 ETS 的官方消息，但我认为不会。这个高相似度，并不是大家理解的那样：两两比对只要相似度达到 0.8 或 0.9 就是高相似度。是否相似需要经过严格的假设检验，需要将误判率降到很低很低才可下结论。千万篇作文里，仅仅是因为和 1 篇作文的相似度高，就一棒子打死，这个误判率怕是要高到 50% 了吧？同时也有同学担心，像这种常用句子 "I hold the view that""from my perspective""all in all""for example" 等等，我使用了会被判为高相似度吗？持这种想法的同学我只能告诉你：“你想多了！” 大家都知道，论文查重的时候，连续 13 个字以上相同才会被认为雷同。检测相似度是同样的道理，只不过标准可能会更宽一点，只有大篇幅，成句成段地引用模板，才会判为高相似度。

模板虽不能再使用，但大家也不用过度惊慌，弄得自己连话都不会说的。只要是自己的语言，自己的表达，在考试中都不会有问题。

觉得有用？赞一个吧

文章关键词

权威指导

你可能感兴趣的文章

热门精选