揭开托福写作评分幕后黑手(E-Rater)的神秘面纱
2017 年 12 月 26 日
来源:朗播网
摘要:为了方便广大考生备考,朗播托福老师为考生们揭开托福写作评分幕后黑手(E-Rater)的神秘面纱,下面就给大家介绍一下。
<blockquote><p>考了这么多次的托福,你知道是谁在给你的作文评分么?机器人替代人类可不仅仅是科幻小说里才有的事情,ETS 从上世纪 90 年代就开始捣鼓这件事儿啦!现在,电子评分员 E-rater 已经在 ETS 服役了 10 多年,是不是很惊讶呢?</p>
</blockquote>
<h2>一、 认识电子评分员 E-rater</h2>
<h3>1. E-rater 是什么?</h3>
<p>E-rater 全名叫做 Electronic Essay Rater,中文名字叫做电子评分员。是由美国 ETS 开发的计算机作文自动评分系统。</p>
<p>E-rater 会提取出文章中的一些特征,通过衡量你的作文在这些特征上的表现来打分。计算机会把这些特征用作评分标准,从而判断作文的分数。所以,了解 E-rater 会提取哪些特征,就是了解评分标准,这对考生非常重要!</p>
<h3>2. E-rater 会提取哪些特征?</h3>
<p>接下来,就让我们看看 E-rater 的评分标准吧!
<br/></p>
<ol><li>
语法错误:动词时态错误、代词错误、所属格错误、漏写或错写单词、句子不完整、不断句、句子混乱、主谓不一致。 <br/></li>
<li>
用法错误:冠词错误、混淆词义、词形不正确、错误的比较级、不规范的动词或词语形式。 <br/></li>
<li>
写作规范问题:拼写、首字母大小写、数字规范、标点(缺少问号、缺少逗号、缺少句号、缺少连字符)、两个单词连写、错误的合成词、重复的词。 <br/></li>
<li>
语言风格问题:用词反复、不合适的单词或词组、太多句子以连词开头、太多短句子、太多冗余的长句子、被动语态。 <br/></li>
<li>
组织 (Organization) 和发展 (Development):可以简单理解为篇章结构 <br/></li>
<li>
词汇丰富度 <br/></li>
<li>
主题词汇的使用:判断内容是否与话题相关</li>
</ol>
<h3>3. E-rater 怎么根据这些特征给我打分?</h3>
<p>计算机就是机器,它还不能像人类一样思考,它不会欣赏我们的文章,只接受数字。所以让 E-rater 给我们的作文打分,就需要告诉它我们的作文在上面 7 项特征上的得分是多少。为了叙述方便,我们接下来把在这些特征上的得分叫做<strong>特征值</strong>。</p>
<p>那么怎么让计算机自动算出特征值呢?</p>
<h4>语法、用法、写作规范、语言风格的特征值</h4>
<p>首先 1/2/3/4 项的特征值很好算,就是数一数你的作文里有多少错误,然后根据文章的总字数求出一个错误比例。错误比例越低,你的得分就越高。</p>
<h4>篇章结构特征值</h4>
<p>E-rater 认为,一篇好文章在论证中应该包括下面 4 个成分:<strong>论点 (Thesis)、主旨 (Main Ideas)、支撑的观点 (Supporting Ideas)、总结 (Conclusion)</strong>。同时,这些成分之间不能互相矛盾,并且内容足够多,文字足够长。</p>
<p>所以在计算你的篇章结构分数时,E-rater 会得出下面 2 个特征值:</p>
<ol><li>
根据成分是否齐全,以及是否有矛盾打分,评分区间为 0 到 -8。0 分表示成分齐全并且没有矛盾。少一个成分则扣 1 分,有一处互相矛盾就再扣 1 分。</li>
<li>
求出平均段落长度。平均段落长度越长,说明文章内容越丰富,得分也会相对较高。</li>
</ol>
<h4>词汇丰富度特征值</h4>
<p>词汇的丰富度主要从 3 个方面考查: <br/>
1.不重复词语的比例,这个比例是用来衡量你的词汇水平,自然是越高越好。举个例子: <br/></p>
<blockquote><p>This essay is a long long long essay. <br/>
这句话一共有 8 词单词,其中不重复的单词只有 5 个(this,essay,is,a,long),那么不重复单词的比例就是 5/8=62.5%</p>
</blockquote>
<p>2.词汇难度水平。就是看你所用的词汇中高频词和低频词所占的比例,当然是所用低频词占比越大越好,但是应建立用法正确的基础上。 <br/></p>
<p>3.平均单词长度。一般情况下,较难的单词一定是长单词,所以如果你的平均单词长度较长,那么,在词汇丰富度这一项上的得分也会较高。</p>
<h4>主题词汇的使用特征值</h4>
<p>ETS 有一个很大的作文语料库,为了判断你写的作文内容是否和话题相关,E-rater 会把你的作文和范文进行比对,得到 2 个特征值: <br/></p>
<ol><li>
和你的文章最相似的范文的分数。也就是说,在 E-rater 评分前,ETS 会事先准备好一批已经打过分的范文,E-rater 会从这些范文里找出与你的作文内容最相似的一篇,那么这篇范文的得分就会影响你的最终得分。</li>
<li>
你的文章和最相似范文的相似度。在找到与你的文章最相似的范文之后,你们二者间的相似度也会影响最终成绩。也就是说,相似度越高,这篇范文的分数对你最终得分的影响就越大。 <br/></li>
</ol>
<h4>得出总分</h4>
<p>通过一系列的计算,E-rater 已经得到了 11 特征值,最后再进行加权求和,就可以得到 E-rater 的评分了。说得简单一点,E-rater 就是靠一个方程来给你评分的:</p>
<blockquote><p>总分=a1·语法错误率+a2·句子错误率+……+a11·范文相似度</p>
</blockquote>
<p>其中,a1,a2……a11 就是权重,但是这个权重的具体值属于商业机密,ETS 是打死都不会说的!</p>
<h2>二、 E-rater 的评分是我的最终得分吗?</h2>
<p>虽然让机器替代人类是我们的最终梦想,但是很遗憾现在的技术还达不到,机器并不是完全可靠的,所以只好采取一些折衷的办法:由 E-rater 和一名人类评分员联合打分。具体的打分流程如下所示:</p>
<ol><li>
由 E-rater 和人类评分员 X 分别对你的作文打分,得到两个得分 a1 和 a2。</li>
<li>
若 |a1-a2|<1.5,最终成绩是 a1 和 a2 的平均分。</li>
<li>
若 |a1-a2|>1.5,把你的作文交给另一位人类评分员 Y 打分,得到分数 a3</li>
<li>
此时,加入第三个评分之后,分差相差大于 1.5 的评分就会被抛弃,最终成绩是另外两个评分的平均分。</li>
</ol>
<p>除此之外,E-rater 并不是一个脾气很好的评分员,一些他不能识别的、麻烦的文章都会被E-rater 拒评!被拒评的作文,只能由人类评分员给出分数。以下四类文章会被拒评:</p>
<ol><li>
被人类评分员标记为偏题的文章</li>
<li>
字数过少的文章</li>
<li>
特别长的文章</li>
<li>
有数不清语法、用法和结构错误的文章</li>
</ol>
<p>所以根据现有的自动评分水平,大规模考试为了保险起见,计算机只是介入评分,并不能完全主导评分。但是会被拒评的文章仍在少数,对于大部分作文,计算机的评分仍会影响最终成绩。</p>
<h2>三、 怎么让 E-rater 喜欢我的作文?</h2>
<h3>1. 语言表达方面</h3>
<p>首先,机器对语法错误,以及不规范的书写错误的敏感度要远远高于人类评分员。因为人类评分员在长时间的打分后会产生疲劳,不会对你的语言斤斤计较。但机器是不会疲劳的,它会紧盯着你的小错误。所以在考生在写作的时候,一定要细心仔细。</p>
<p>因此,想要讨好 E-rater,在语言表达上要做到以下几点:</p>
<ol><li>
少犯语法错误,尤其是时态、单复数、所属格、代词、冠词等。</li>
<li>
注意断句,不要一逗到底。</li>
<li>
使用正确的比较级形式,不要出现 more better 这种低级错误。</li>
<li>
注意正确的词形变化,比如说形容词的否定形式,到底是加 in-,还是 im-,还是 un-,必须要明确,不能乱用。</li>
<li>
注意拼写、标点、大小写等写作规范。</li>
<li>
句子不能太短,要学会写长句子,但是要基于句子可读、无错误的基础上。</li>
</ol>
<h3>2. 词汇方面</h3>
<p>因为计算机会统计你文章中不重复词语的比例,这个比例当然是越高越好,所以考生就要尽可能多地使用同义词、近义词。如,提出观点时,不要只会使用 think,believe,我们可以使用:state, claim, express, declare, indicate, explain, maintain, illustrate, present, hold the view等等。</p>
<p>所以在写作练习的时候,学生要多积累同义词和近义词,多做 paraphrase,</p>
<h3>3. 篇章结构方面</h3>
<p>在篇章结构上,考生最好按照标准的五段式作文来写,即<strong>开头段+ 3 段论述段+结尾段</strong>。因为按照这种格式写,机器的识别率最高。</p>
<p>同时在 3 段论述段中,还要注意内容的质量。不要出现论点与解释互相矛盾的现象。同时三段的内容应有区分,不能太像,因为如果重复的内容过多,也会被机器识别出来。</p>
<h3>4. 不要试图投机取巧</h3>
<p>大家可能看过一些帖子教大家怎么“骗过”机器,但是这些方法是不可取的。从评分过程中可以看出,ETS 给机器评分上了双保险,第一层保险是拒评不能识别的文章,第二层保险是人类评分员的评分。所以,了解应试技巧只是一些 bonus,是加速器,但绝不是核心!千万不要本末倒置。</p>
<p>另外,随着人工智能技术的发展,机器评分技术越来越完善,投机取巧的人早晚会无路可走。</p>
<p></p>
以上就是托福写作评分的所有内容,大家接下来就是要多多体会,这样才能有所提高。如果想了解最新考试资讯,请关注朗播托福频道。