英语水平考试真题解析,我国大规模英语水平考试偏重选择题的倾向亟待纠正
英语水平考试真题解析,我国大规模英语水平考试偏重选择题的倾向亟待纠正对于正规外语教学得而言,一向存在着知识和能力如何合理兼顾的问题。处于不同的历史时期,出于具体的社会需求,人们在教学思想上总是要有一定的倾向性的。要么更重视知识,要么更重视能力。在我国,无论是哪一种外语的教学,基本上是在正规的课堂里进行的。即便有些儿童较早接触到一门外语,但他们日后将要成就的外语学习从本质上讲还是不同于第二语言环境中儿童对同一目的语的习得过程。当然,课堂教学可以给实践成分以足够的重视,甚至“练多于讲”。但是从整个语言环境看,针对已具备第一语言能力的学习者来说,外语教学仍然是要以知识为先行的。所有这些条件从根本上决定了外语教学容易偏重知识的倾向。1.外语教学中知识和能力的兼顾对于以选择题为主的客观测试方法,目前来自不同方面的批评日渐增多。尤其许多工作在教学第一线的英语教师已经意识到,当前普遍流行的标准化测试方式不利于激励广大学生获取实际的外语技能,因为它的固定的候选方案限制了学
感谢您关注“永大英语”!
孔德惠
长期以来,我国大规模英语水平考试的标准化倾向已变得越来越明显。考试的所谓标准化,主要体现在整齐划一的试题形式、以客观题为主体的试卷构成和无需人员参与阅卷的评分机制等方面。而在这些特点当中,关键的成因是:那些占试卷总量绝大部分的单元试题均为提供了选择方案、正确答案已预先设定的所谓多项选择题。此种语言测试方法于上个世纪八十年代一经传入我国,便得以迅速推广,对我国的外语考试以及其他学科的成绩评定方式都产生了深刻的影响。
作为一种间接测试手段,选择题的确能为考试过程提供独到的方便。也正因为如此,它的推广遂变得一发而不可收拾。多年来由于我国国内具有人才选拔功能的重大英语水平考试均以选择题作为主要测试模式,导致其他类型的考试,甚至各种与外语教学相关的练习也纷纷仿效,并逐渐形成了一种难以逆转的客观测试倾向。在这样一种情势当中,客观测试方式对外语教育的负面影响也得到了空前的张扬。
对于以选择题为主的客观测试方法,目前来自不同方面的批评日渐增多。尤其许多工作在教学第一线的英语教师已经意识到,当前普遍流行的标准化测试方式不利于激励广大学生获取实际的外语技能,因为它的固定的候选方案限制了学生主动思考的空间,而其特有的选择划圈的答题方式也不符合学生日后运用英语的实际。由此人们可以自然地得出这样一个结论:客观测试手段的滥用不利于素质教育的实施。这一来自于实践的认识是符合情理的,其中蕴含着朴素的哲理。
第一部分 问题的提出
客观测试倾向到底是如何干扰甚至妨碍素质教育的,这的确是一个值得探讨的问题。弄清楚这个问题,有助于我们找到有效克服客观测试不良影响的途径,更加合理地开展外语测试。本着这样一个目的,我们有必要对语言客观测试方法及其应用背景进行一下全面的剖析。
1.外语教学中知识和能力的兼顾
对于正规外语教学得而言,一向存在着知识和能力如何合理兼顾的问题。处于不同的历史时期,出于具体的社会需求,人们在教学思想上总是要有一定的倾向性的。要么更重视知识,要么更重视能力。在我国,无论是哪一种外语的教学,基本上是在正规的课堂里进行的。即便有些儿童较早接触到一门外语,但他们日后将要成就的外语学习从本质上讲还是不同于第二语言环境中儿童对同一目的语的习得过程。当然,课堂教学可以给实践成分以足够的重视,甚至“练多于讲”。但是从整个语言环境看,针对已具备第一语言能力的学习者来说,外语教学仍然是要以知识为先行的。所有这些条件从根本上决定了外语教学容易偏重知识的倾向。
由于存在上述先天的倾向性,外语教学应该有意识地加大对学习者实际运用外语能力的培养力度,以求得知识与能力之间的适度平衡。关于这一点目前我国的外语教育界已普遍给予了重视;素质教育所涉及的主要也是这个问题。但是当人们普遍关注诸如“高分低能”现象,呼吁加强学生能力培养的时候,却往往忽略了教育过程当中的一个关键环节---考试。尤其是那些实现社会对受教育者质量予以评价,从而体现社会对教育成果的认可程度的考试,即:具有筛选功能的外语水平考试,它们对外语教学行使着无形的导向作用。如果这些考试实际上还是一味地强调知识而非技能的话,那么旨在强化能力培养的素质教育只能停留在表浅的教育层面上。道理简单的很:一个受教育者若不能在以考查知识为主的水平考试中获得足够的分数,那么他的作为素质一部分的技能无法帮助他进入更高阶段的学习;一所学校无论其素质教育开展得如何,如果它的毕业生当中没有相当数量的人通过这样的考试,也难以得到社会的即刻的认可。不仅如此,承载社会价值的重大考试还在技术层面上影响教育过程。例如,高考的试题形式基本上就是高中日常教学所采用的主要练习手段。
我国倡导素质教育已多年,但效果至今不甚理想。究其根源,就是我国长期以来流行的客观测试定式。要想说明这一问题的严重性,有必要探讨一下我国的外语教育是否亟待纠正过于偏重知识的倾向。
外语教学到底应该在多大程度上偏重知识(或能力),关键取决于社会对外语人才的需求。这种需求既反映整个世界所发生的变化,也体现一个国家的发展进程。首先,外语,尤其是英语的价值及作用在世界舞台上的地位发生了质的变化。随着国际社会交往日益密切,人们对某种可以普遍使用的交际用语的需求越来越迫切。在前一个世纪的大部分时间里,世界上关于选择哪一种共同外语的讨论一直很热烈。当时人们发觉选用一门现存的语言难以达成共识。因此曾经有人建议重新启用已不再发展演变的拉丁语,更有不少人士热衷于创造所谓的“世界”语、“国际”语。当然,这些努力后来证明都是徒劳无益的。随着已经抢占了先机的英语在世界许多领域的应用范围逐渐扩大,其他曾经与英语在国际交往中作用相当的欧洲语言也渐渐地缩小了其作为外语的使用范畴。事实上,英语作为国际交流用语的地位的确立满足了各国人员之间能够更加有效交流的需要。无论是英语还是别的什么语言成为了通用外语,此局面的形成都是人们所期待出现的。
英语地位的显现在最近二十年最为显著。伴随着国家的改革开放,我们的外语教育工作者亲眼目睹了英语教学在全球范围的发展趋势。然而,我们真正切身体验到英语作为国际交流工具的重要性是在近十年。在这段时间里,我国在政治、经济、文化、旅游等社会生活领域对外交流的需要日益增强,同时基于个人事务的人员交流也在迅猛增长,能够用英语进行交际的人才派上了用场。例如,早年的外贸人员大都带翻译与外商谈判;80年代有不少年轻外语教师“下海”到外贸部门,后来逐步成为了外贸的骨干;而如今进入外贸部门工作的新人大都是在学校就练就了外贸和外语双重本领的“复合型”人才。然而遗憾的是,这一时期我国社会发展对外语人才素质的要求并没有能够撼动外语教学重知识轻能力的趋向。原来这中间有一个需求的量的问题:那些毕业后立即真正需要使用英语从事涉外工作的人员毕竟占总的受教育群体的少数。因此,我们的外语教育过于偏重知识的弊端暂且没有严重地显露出来。
上述情况相信不会延续太久。随着我国经济建设步伐的持续加快,对外交往将日益增多。加入世贸组织就是一个明确的迹象。可以预料,社会对外语人才的需求将有飞跃式的增长。因为将来的企业、机构,乃至个人,都有对外交往的可能和必要。那时我们的人才如果只记住了一些英语知识点,能在ABCD选择题面前判断一下,划个答案,是绝对不能满足实际需要的。
国家已经把教育放在优先发展的地位。这当然意味着教育要实现服务于经济与社会发展的功能,必须在战略上具备一定的前瞻性,在人才培养的具体过程中体现足够的提前量。由此而论,外语教育必须立即着手从根本上改变重知识轻能力的倾向,以便能够培养出具备足够实际外语能力的各方面人才。我们不应指望学生在校期间只注重学习大量英语知识,到日后遇到实际需要时再着重提高英语实践能力。这种理念不仅有悖于时代对教育的期待,也不符合外语能力形成的规律。
谈到这里,我们又回到了文章开头的话题:英语考试的客观测试定式。这一倾向如不修正,英语教学重知识轻能力的怪圈难以突破,因为考试在形式上代表社会需求一方行使对教育成果进行评价的功能,而在内容上现行的考试却与社会对人才的实际需求不符。
2.客观语言测试手段的由来
外语领域满眼的选择题很容易给人造成这样一个印象,好像英语测试和多项单选题是共生共存的。而事实并非如此。这里有必要回顾一下客观测试手段成为外语测试主流的发展过程。在选择题出现之前,教师对学生外语能力的考查通常采取比较直接的方式。借鉴本族语考试的方法,外语考试通常包括默写单词、造句、改写句子、翻译(句子、段落或短文)、以及写作文等等。此外还有针对外语能力要求的听写、对话等。这些传统的考试普遍具有如下特点:
(1) 语言运用的主动性。当时适于考查的内容主要是考生使用外语的情况。而对听力和阅读这两种接受性能力的单项考查还没有确定的方法。
(2) 考查方式的直接性。即在考官与考生的语样品之间没有任何屏障。这种直接性是语言考试的最自然的形式,其称谓为后来出现间接考试而获得。
(3) 考试方法的整体性。传统考试一般不将语言知识分解成具体的知识点(考查单词除外)。换句话说,考生做出的答案反映他们的整体语言能力。
(4) 成绩评定的主观性。考官对考生语言样品的评判缺乏统一的标准,故传统考试常被后人称为主观测试。
传统语言测试自然有其不足的地方。当时人们对效度(考试的合理性)和信度(考试成绩的稳定性)还没有明晰的认识,对考试的结果尚不能运用统计学的手段进行分析的评估。
将考试内容进行细化的方法在十七世纪的欧洲初见萌芽。当时由于教育的发展,儿童上学接受教育逐渐得以推行。有些儿童上学后在学习上遇到了困难,有人就认为是他们在智力上还没能达到上学的水平。测量所谓智商的作法就是哪个时期的发明。其手段就是让被试回答若干内容互不相干的单元题,测试结果则以回答对或错的试题的数量为计算依据。这种将知识分割成片断予以考查的做法后来为语言领域所借鉴和采纳,形成了独特的客观选择题。
如今流行的以多项选择题为代表的英语客观测试法是于上个世纪中期在北美逐渐形成并推广开来的。在客观试题特有的形式背后,包含着两个重要的语言测试理念:(1)考外语就是考语言难点;(2)一个题考查一个语言难点。
外语客观测试法是建立在两个重要的理论基础之上的。它们是行为主义心理学和结构主义语言学。从十九世纪末到二十世纪中叶是行为主义心理学在学术界产生巨大影响的时代。人们普遍把动物学会按人的旨意做动作和人类的学习过程统统看成是习惯形成的过程。当时最流行的就是刺激—反应理论。语言既然是人类后天形成的能力,自然被看作是一种习惯,即:经过反复的刺激—反应,其间正确的反应得到鼓励因而得以巩固,错误的反应因得不到认可而不形成习惯,一个人学会了语言。
而当一个人已经具备了母语之后,再学一门新的语言,即再形成一套新的语言体系时,已有的习惯系统会对新体系产生影响:当人们学习的外语里有与母语相似的语法规则时,掌握起来无需费力。这被认为是母语习惯的迁移。由于它有利于正确形成新的语言习惯,故称为正迁移。而那些母语中没有的规则或与之相悖的语言现象,学习者掌握起来就很吃力,并且由于母语的干扰常出现记忆和使用方面的错误,这种现象被称为负迁移。
正负迁移的假说对外语教学来说是有一定的启发意义的。对于那些由于母语与目的语不同而造成的难以掌握的语言规则,教学上应该给予格外关注,以帮助学生将其掌握;而对于那些与母语相似的规则,由于学生易于掌握,教学上就可以适当忽略。至于那些情况分别属于正、负迁移,当时以欧洲语言为基础的对比语言学已经做了非常详尽的描绘。这当然要归功于传统的结构主义语言学的发展。结构主义的宗旨就是要把语言分解成具备并体现语法规则的细小语言单位。至于有关语言作为整体所表达的意义及其规律的研究,那是后来语言学发展的事。结构主义语言学的成果集中体现在以句子成分为基本要素的语法之中。当今我们许多英语考试中的语法单元试题所体现的还是这种理念。
当时的英语测试专家意识到,外语考试如果考查那些学习者容易掌握的知识点似乎没有多大意义,不如专门考查那些因为受学习者的母语干扰或不能得到其母语习惯相助的所谓语言难点更有效力。至于这些难点是什么,借助当时的语言学研究成果和外语教学的经验是不难汇集的。
一门语言的语法规则是相对封闭的体系,因此就具体发展阶段而言,其数量和内容是相对稳定的。但这一体系与开放的语汇体系相搭配,便可产生无数的语句。于是,语言工作者编制了大量的单元试题。出于方便,这些试题多为选择题形式。它们的共同点是有一个以完整或不完整的句子为形式的题干,下设若干选择项,其中一个是正确方案,其余的为貌似可行但实为错误的所谓干扰项。被试如果做出了正确的选择,可以认为他是根据自己已经掌握的语言知识做出了正确的判断,因此认定他掌握了该项知识或规则。
这种由一个题干和四个选项构成的题型后来逐渐固定下来(尽管有些简单的考试带三个选项,有的为了增加难度而将选项设为五个),并随着美国的托福考试传播到世界各地。我国的外语教学与考试在早年自然是没有选择题的。此类试题的引入和推广发生在八十年代初改革开放之后。
3.客观测试的本质和后效作用
以选择题为代表的客观语言测试手段的出现,给外语测试领域带来一场变革,促进了现代测试学的发展。由于试题所体现的系统性、有针对性、以及可解释性,它流行伊始便受到广泛接受。当时甚至被一些人认为是最理想的外语测试手段。建立于心理测量理念上的客观测试方法的广泛运用引发人们对考试信度的兴趣,也使统计学方法得以运用于外语测试之中。如今,选择题也已成为其他一些学科的常用考试手段。
如果单纯从考试的角度来看待客观语言测试方法,其优势主要体现在以下几个方面:
(1) 选择题具有相对固定的外在格式,因此可以有效避免考生在答题时产生迷惑或误解。从施考的可行性角度来看,这就省了不少考试当中容易出现的麻烦。令人热衷的所谓标准化考试,其核心就是带选项的客观试题。
(2) 带选项的试题经考生回答之后,再现在考官面前的是代表那些答案的符号,如字母或数字等。这就无需考官对答题结果做任何主观判断,由此评分信度得以近乎绝对的保证。在人们追求考试的公平性胜过考虑其他因素的前提下,选择题的这一优势是非常令人想往的。
(3) 客观考试的答卷批阅起来不仅信度高,而且节省时间,这就降低了考试的总体成本。如今借助现代化手段,客观试卷的评分干脆用不着人的直接参与。这无疑又是人们对客观考试钟爱有加的重要原因之一。对于考生众多的考试而言,客观考试尤其能够显示其高效而准确的优势。
(4) 由于客观试题大多为针对知识点的非整体性(即所谓的分离式)单元试题,每个小题的取舍或变更都不太会影响整个考试的大局。这就为调整考试的内容和难度提供了方便,有助于保证定期重复性大规模考试的稳定性。
(5) 国外语言学界曾有过能力可分和不可分两种观点之争。对主张能力可分学派看来,选择题的有点在于:当考生回答听力或阅读试题时不必借助笔答手段,从而可以充分展示这两种被动语言能力的水平。
(6) 由于分离式客观试题以一道题考一个知识点的原则充分而系统地呈现一门语言的语法规则,因此有人认为它可以被用来帮助自学者检验自己的学习成效。尽管主观性试题也可以发挥这种功效,但是在学习者眼里还远不如客观题答案那样明确而方便。
客观语言测试手段的上述特点也许给人以相当美好的印象。其实不然。首先,由于时代的局限,客观语言测试所蕴含的理念已变得不尽合理。譬如说,后来的许多语言测试专家对“考语言就是考难点”的说法就提出了质疑。此外,选择题的单调格式本身也与丰富的语言内容显得很不协调。如果说客观语言测试方式比较适合用于大规模的、并非经常举办的、旨在考查学习者语言知识水平的常模参照考试,那么当它用于其他不适当的场合时,它的优势不但无法发挥,反而它的消极作用会得到过分的张扬。因此,尤其对于客观测试的弊端,我们必须保持清醒的头脑。概括地讲,客观语言测试方式的弊端主要体现在以下方面:
(1) 从当代社会对外语需求的角度来看,带选项客观试题的效度很差。所谓效度简单地说就是一个考试(包括其试题和测试方法)是否能够考查人们期待它考查的东西。效度是考试之所以有价值的前提。如果一个考试实际所揭示的内容或信息并不是人们本想通过该考试要了解到的,那么这个考试的成绩也就没有太大的意义了。选择题的不足主要体现在这里。如今我们用这种方式考查学生的词汇量、语法知识、阅读理解、甚至写作能力等等。但是就连我们自己心里也清楚,在答题纸上画一画圈并不是外语能力的直接反映。
现实当中确有一些外语学习者,他们答选择题时可以获得较高的分数,但是却不会用外语进行交际或完成书面表达任务。这里不能说没有客观语言测试泛滥的责任,因为多年来一直流行的选择答题法已经在青少年学习者心目中牢固扎下了根,以至于不少学习者把会判断选择项等同于掌握了一门外语。
(2) 客观题里提供的现成选项,为考生猜测答案提供了条件和方便。谁也说不清楚考试结果里到底有多大的成分是靠猜测获得的。即使利用统计学手段也只能是推断一种趋势而已。实践证明,考生在回答不上问题的时候倾向于随便划一个答案,而不是在答题纸上留一个空白。越是重大的考试这个倾向就越明显。无需赘言,此类考试的分数不能全然、准确地反映考生的实际知识水平。
假如从理论上讲每个考生都以相似的概率猜题,那么猜题本身也许不算大问题。但实际情形是:能力越强的考生,由于靠其实际能力可以答对更多的试题,猜题空间远不如能力较差的考生大。这样一来就拉近了不同能力考生在分数水平上的差距。换句话说,选项式客观测试方法无形中降低了考试的区分度,即考试将不同能力考生在分数上分摊开来的能力。那么为了保证足够的区分度,出题人只好加大每一道试题的难度。这也是为什么选择题里多难题、偏题、怪题的原因之一。
(3) 除了猜题之外,还有一种可以应付选择题的非知识性策略,这就是所谓的“排除法”,即:逐个排除最不可能是正确答案的选项从而最终选定最可能是正确选项的答题策略。当今在应试压力的驱动下,不少学校有意无意之中将“排除法”作为一项考试技巧传授给学生。或许我们可以认为排除法也是一项智能;掌握了它并不会对外语能力产生什么妨碍。但是从语言测试的功能看,排除法并不是任何有实际意义的外语考试所要考查的技能。
(4) 比起传统的考试方式,选择题的答题方式非常简单,这就为考生当中那些有作弊意图的人实现作弊提供了方便。为了防止舞弊现象的发生,考试的组织者一直在想办法完善考试程序和强化考试纪律。例如为同一个考试准备A、B两套答题卡,其区别在于每道题的选项排序不同,以避免邻座考生传递答案;也有人尝试把不同学科的考生穿插安排在一个考场里考试。但是从根本上讲,防止在选择题上作弊还是相对比较难的。
(5) 如果超出考试的视角来看待选项式客观测试手段,我们会很容易地发现它对外语教学的消极影响。在一个具体的社会系统当中,人们对考试所赋予的社会价值越大,那么考试对教育教学的影响力就越明显。关于这个问题我们将在本文的第二部分予以详细探讨。
4.有关选择题的所谓客观性的误解
带选项的试题并非全然客观。此类试题的所谓客观试性,主要是指评卷时无需阅卷人行使个人的主观判断。但这决不意味着这种试题的内容就一定是符合客观标准的。无论是涉及词汇、语法,还是阅读理解的试题,在编制过程中都可能于对错的标准方面掺入出题人主观臆断的成分。尤其是出题人按照先入为主的意念以及自己基于不同的视角而设定的所谓正确答案,有时并不一定是唯一的、无可争议的答案。
首先,编题者设计的四个方案(某中一条被认为是唯一正确的)并非人们可能想到所有方案。有些更恰当的表达方式或许受出题人的经验和主观因素制约而没有收入选择之中;同样,出题人所制定的最佳方案并不一定总是语言实际使用当中的最佳表述方式。而那些错误的选项如果不是在问题中出现,答题人也许根本想不到。对此现象工作在第一线的英语教师还是有一些相左意见的。如今把考试题拿来当练习材料使用的情况比比皆是。对英语知识尚不稳固的初级学习者来说,经常性的错误输入对他们会起到迷惑乃至误导的作用,其潜在影响不可忽视。
如果说一个干扰项由于偏离主题太远以至于显得荒唐会减低试题的难度,那么意思过于接近正确答案的干扰项却经常在讨论试题的师生当中引发争议。凡遇到这种情况,追溯其原因大都是由于出题人对选项正确与不正确的界限设定得过于微妙。而在这种微细的思辨当中编题人的主观性往往反映得比较明显。
例如在考查词汇知识的选择题当中,编题人对词语的不同理解以及使用偏好会影响他对正确答案的设定。英语的词汇本来是很丰富的,为表达同一个概念往往有不同的语汇途径。在确定了题干和正确选项之后,编题人从浩瀚的辞海之中信手拈来三个似是而非的词语供被试者辨析判断。当然,为了保证试题难度,干扰项与正确答案之间要有相当的混淆性,以增加试题区分度。为了这个目的,编题人把一些不适于使用相关语境但却与正确方案在意义上非常接近的所谓同义词拿来作干扰项。而问题往往就出在这里。由于选项之间意义过于接近,有时会出现一个方案在编题人眼里不正确但在他人眼里却可以接受的尴尬局面。
对于这样的编题理念我们简直可以用思想僵化一词来加以形容。因为在平时的教学当中,每当遇到英文作品里出现超出习惯或常规的词汇时,我们的教师常常提醒学生这是作者为达到特殊的修辞效果而对语言进行创造性使用的范例。然而当我们评价学习者语言能力的时候,却如此苛刻地墨守常规。这不能不说是我们的考试理念的悲哀。当然,我们作为非母语使用者理所当然要遵循母语使用者的言语习惯,况且考试总要有一个标准,但问题是我们不应该把语汇辨析搞到不必要的细微程度,以至于有时在母语使用者认为都讲得通的两个或更多的方案上争执得面红耳赤。这样做没有什么明显的益处,只能浪费师生的时间,限制学习者的原创精神,并且可能把外语学习引入歧途。
“客观”试题的主观性在语法知识范畴里也每每有所暴露。不过这里的主观性并不主要体现在试题的选项上面,而是在于语法试题所覆盖的语法知识成分的合理程度上。语法,顾名思义,体现语言使用规律。学习一门外语,当然有必要掌握它的规则。从实际意义上讲,这个语言当中越重要的规则,也就是那些使用频率最高的规则,学习者就越应该首先掌握好。那么,当我们考查学习者的语法知识的时候,理应首先看一看他们对这些常用规则掌握得怎么样,其次才是那些用得较少的规则。而现在的情况却不是这样。基于长期以来挥之不去的“考语言就是考难点”的思维定式,再加上不肯摈弃先天就有降低测试力度的弱点的选择题,还要实现考试的区分功能,于是我们的语法考试便一直把考查目标盯在高难度知识点上。这些高难度知识点所体现的大多是人们不经常使用或遇到的语言现象。把大多数人(包括母语使用者)不必首先掌握的语言规则拿来考查那些需要首先掌握最基本语言规则的外语学习者,这一举动本身体现的就是关于语言教育的不合情理的主观性。
当考试体系当中的不合理性反过来影响教学的时候,问题就可能更加严重。现在我们的学习者当中就不乏“纸上谈兵”者。他们能判断很难的语法题,却写不出正确的哪怕是很简单的句子。
5.当前客观测试倾向的严重程度
自上世纪80年代至今,短短二十几年的时间,以选择题为代表的客观测试方法在我国从无到有、从小到大,其现实的影响力和使用规模已远不是其他国度可以比拟的。一九七七年我国恢复高考后的第一场考试,采用的基本上是传统的试题形式。在一九八0年以后的高考中,英语试卷逐渐较多地采用了选择题。刚开始的时候选择题也是由人工批阅的。进入九十年代以后,客观题部分基本改由光电设备自动阅卷评分,主观题则由相对少量的批卷人员评卷。由于片面追求考试效率的缘故,我们对客观题的依赖似乎越来越严重,以至于高考英语试卷里的客观题比例已经达到了80%。其他大规模标准化英语考试的客观题比例也很高,基本都在70%左右。
本来,外语测试方法是多种多样的。如:朗读、背诵、复述、问答、交谈、看图说话、听写、默写、造句、改写、填充、笔答、写作、翻译、等等。这些当今仍然为世人所用的语言测试方法,每一种都有其特定的优势。当然,和选择题一样,它们也都有各自难以逾越的不足。因此不能说那一种方法就是唯一理想的外语水平检测方式。如果考虑到一项重大考试长期的、超出其自身功能的社会影响力的话,则更应该根据实际需要,照顾到多方面的合理因素,充分发挥不同测试方法的优势。那种极易在外语教学领域导致千篇一律现象的所谓标准化考试倾向,从根本上反映出我们在语言测试理念上的片面性。
这些年来,国外英语测试研究领域的理论思潮一直是在发展着的。继选项式客观试题兴起之后不久的七十年,欧洲就出现了与分离式客观测试理念截然相反的整体语言测试理论。后者认为:(1)语言的使用是整体性的,是结合具体情景的;(2)考查学习者的外语能力并不一定要针对语言难点,而应该通过检测他们预料语篇进程的能力。在新思潮的启发之下,英语测试界重新审视了传统考试方法听写的作用,建议更多地采用整体测试手段。受格式塔心理学派的影响,又推出了一种新的考试理念 — 完形填空。后来随着交际法教学的推广,九十年的英语测试领域里又出现了倡导交际法测试的各种尝试。
回顾我国二十年来英语语言测试的进展情况,颇令人寻味。自从选择题随托福考试传入我国,其合理性虽然不时受到理论界的质疑,但其权威性却始终丝毫未被动摇;国外英语测试领域前前后后的理念变化并没有能够对我们的大规模英语考试造成实质性的影响。
这里值得一提的是有关完形填空的推广情况。应该说填空题对我们来说本来就不是陌生的,所以英语的完形填空题一经传入,就很自然地为我们所接受,当然也丰富了我们的英语测试手段。不过,我们对泊来的完形填空做了两个方面的重要调整:一是不采纳原始完形填空的随机删除单词方式,而是根据出题人的意愿来删词设空;二是最终采纳了完形题配选择项的方式。尤其后一项举措反映了我们的实践智慧 — 把本来在理念上相互矛盾的两种事物:体现整体思想的完形测试和代表结构主义的分离式选项试题自然地融合为一体。而另一方面,这也反映出我们对选择题的钟爱。
对比一下我国英语测试的关注点和国外理论界近年来的热点课题,可以发现我们对外语测试所涉及的语言学方面的理论是非并不在意;我们最感兴趣的是考试的效率问题。在沉溺于选择题给考试带来的方便的同时,我们并没有对它的不足之处乃至弊端予以充分的认识和警惕。这种情况多少反映了我们在外语测试理论研究方面的盲目性。由此而产生的严重后果是,单纯追求考试效率的思维定式正在对我们一直向往并热心倡导的素质教育的实施起到严重的妨碍作用。
第二部分 客观测试倾向对素质教育的妨害
提到素质教育,自然使人想到应试教育,因为素质教育就是针对一段时间以来日益严重的应试教育问题而提出来的。但是,要克服应试教育并不是一件容易的事情。对此我们已经努力多年,但应试教育倾向仍然存在,在某些领域甚至有增无减。这一现象的确令人费解。于是在审视这一问题的时候,有人把应试教育与“应试”等同起来,进而否定考试本身。例如有的地方还做过取消考试的尝试。事实上,教学过程离不开评价;而评价的有效手段之一就是考试。因此,把考试和素质教育对立起来是缺乏根据的。
教育从来就不是一个孤立的事物;它是人类社会发展机制的一部分。仅就其为社会服务的功能而言,教育就需要社会对其做出及时的、贴切的评价。举例来说,社会对教育成果之一—受教育者的质量的评价,通常就是通过考试的形式来实现的。从这个意义上说,考试作为教育发展与社会需求之间紧密关联的重要一环,对实际的教育过程 --- 教学活动发挥着巨大的,潜移默化的导向作用,即人们常说的指挥棒作用。
如果说推行素质教育是我国当前社会发展的需要,那么联结这种需求与教育走向的相关评价手段就应该通过适当形式反映这种需求,以发挥它正确的导向作用。否则,教育的进程就可能出现偏离社会需求的盲目性。那么实质上主导我国英语教学走势的重大英语水平考试(如高考和大学四级考试)是否在发挥着有利于素质教育的导向功能呢?若依我们当前流行的客观测试定式为标准,学习者不必非要掌握外语应用技能不可;他们只要能够推敲现成的方案,用不论什么思维方法选出出题人事先设定的最佳答案就可以了。当然,针对不同范畴的知识和“能力”的客观试题在形式上可以有所不同,但它们赋予被试者的任务在本质上是一样的,那就是:判断和选择;不必主动地,创造性地使用语言。这种考试方式如果占教育评价手段的主流,它的导向作用绝不是有利于素质教育的。
1.客观测试倾向与素质教育理念的冲突
客观测试倾向对素质教育的不良后效作用并不仅仅体现于整个教育过程完成之后它所提供的反馈。事实上,在不同教育阶段的衔接环节上,不良考试的影响力是非常显著的,尤其是当这些环节受到各种社会因素制约的时候。例如在中学和大学之间,由于高等教育资源所限,想上大学的人必须经过某种形式的筛选,或者说选拔。
一般来说,这个选拔过程本身在外表上看简洁明了,甚至整齐划一。但由于它所牵涉的各种因素之间存在着深刻而复杂的关联,因此它所造成的后果有时可能是非常深远的。让我们仍然以中学和大学之间的选拔考试为例。这个人才筛选机制比较直接地涉及到下列一些因素及其相互之间的关系:
(1) 高等教育资源与社会需求之间的矛盾。中华民族有数千年重视教育的优良传统。在社会主义建设事业蓬勃发展的今天,人民群众渴望接受高等教育的热切程度与日俱增。而另一方面,由于发展程度所限,我国当前的高等教育资源还不能基本满足这一需求。这对矛盾的存在赋予了该选拔机制以更大的社会责任。
(2) 人才选拔途径。我国自1977年恢复高考制度以来,大学招生工作一直采取全国(只有个别地区除外)统一考试的形式。这种统一模式经过多年的贯彻,使大学招生考试具备了非常大的权威性和影响力。在这样的氛围当中,人们不容易接受(甚至很难想到)除了那种依据明细的分数结果把考生排列起来的常模参照考试之外的其他的人才评价方式。
(3) 教学质量。如前所述,教育的实施离不开评价机制,而在教育过程中最直接的评价对象往往就是教学。就高考环节而言,教学应该主要包括作为“教”的一方的教育机构—学校(当然包括其中的教师及其工作成果)和作为“学”的一方的受教育者—中学毕业生。由于在升学这个问题上“教”与“学”是整个矛盾体中的同一个方面,故我们暂且将其作为一个因素来看待。而且这个“教”“学”和我们通常所说的“教学”在本质上也是不矛盾的。
如果我们把教育看成是一个大系统,那么在中学和大学这两个分系统之间,由于社会资源所限,有一个中断的环节需要评价体系来衔接。从这个意义上讲,教学和测试果然是教育体系当中两个相互无法隔离开来的过程。但是这两个过程的对教育的功能不同的。教学是教育得以实施的核心手段,因此在教育体系内它理所当然应该占据主导地位。而测试则最终应该是为教学服务的,应处于辅助的地位。
然而在的各种关系相对稳固的教育大系统当中,对阶段性教学实质上起到评价作用的人才选拔考试通常具有强大的导向作用。因此考试的质量如何往往是关键性的。如果该考试是高质量的,即内容和形式都能准确反映社会对教育的期待,那么它所实现的教学与测试的关联就是正常的,和谐的,即:良好的教学通过正常的测试必将导致良好的成绩。此时无论社会资源因素如何有限,结果都是如此。因为通过教学而成就的教育是在最大限度地满足社会的需求;同时也意味着社会的教育资源正在得到有效的发挥。这当然是最理想的状况。
实际的情形当然不一定总是这样的。如果该考试在反映社会对人才的需求方面内容或形式不尽合理,那么处于被评价的一方很可能及时调整教学策略,以迎合考试;严重时可能顾不得自己所灌输的技能最终是否真正能够满足社会的需要(例如当有些地方的中考包括语音知识选择题时,初中学校只好要求学生练习这种没有多大实际价值的答题能力)。对此现象我们不能完全责备教学一方,因为由于教育资源尚不充足,受教育者必须得到评价体系的认可才能继续享用教育资源。
我们应该看到,出于自己的天职,广大教育工作者是期望能够通过亲身的努力来培养学生具备良好素质的。在教育行政部门的号召下,中学普遍做出了不尽相同的素质教育尝试。但是在涉及高考的关键问题上,大都倾向于为其让路。因为按照现今流行的选拔方式,学生如果不能在以选择题为主导的考试中获得高分,那么无论其他方面的能力如何(例如靠自己把英文句子写出来),就不能继续深造。
假如我们在继续推行非素质型考试的前提下硬性要求中学拿出一部分时间和精力来实施非应试教育,并为此目的给学校一个宽限,比如达到某一级升学率就算完成了任务。那么仍然是难以奏效的。因为教学一方所承受的压力归根到底来自于社会;这也是为什么不少高中学校热衷于把升学率和教师的切身利益挂钩的内在缘由。显然,在不改善考试质量的前提下推行素质教育,在教学一方是难以落实的。除非一所学校能够实实在在地顶住来自社会的压力,对升学本身不再理会。就像陕西官庄小学做到的那样。
第三种可能的情况是:当教育资源与社会需求之间的矛盾减低到可以忽略不计的程度,即真正大众化高等教育时期的到来。到那时,想上大学的人基本上都能在合理的时间以可行的方式进入大学学习。此时的前端教育系统会渐渐地与后面的教育系统融为一个完整的体系(就像普及十二年教育以后的初中和高中那样)。此时的介于两个阶段之间的评价机制即使质量欠佳也不再具有难以抵制的“指挥棒”作用。届时,在中学推行素质教育就容易多了。
显然,我们不能等到这一天到来之后才去顺顺当当地实施素质教育。这种态度是消极的,是国家的发展需要所不能允许的,也是教育先行的历史责任所不能容许的。事实上,即使在当前教育资源相对不足的形势下,我们也是可以推行素质教育的。在外语这一领域,关键之举就是首先打破以选择题为代表的客观语言测试定式。
2.选项式客观语言测试的自然产物:难题、偏题、怪题
长久以来,全世界范围的英语外语考试大都自觉不自觉地沿袭“考语言就是考难点”的测试理念。在我国,由于英语考试的人才选拔功能一直比较突出(包括职称晋级考试),于是通过试题难度来区分考生水平自然就成为顺理成章的趋势。如果说这一趋势确为实际所迫而难以人为逆转,那么采用什么样的方法来实施考试是可以选择的。应该指出,我们对选择题的趋从始于某种历史的随机性,后又因为过于追求考试效率而表现出一种盲目性。因为除了未能充分意识到客观测试的消极后效作用外,我们也从未对选择题作为水平考试题型的合理性提出质疑。
将选择方式用于旨在区分考生知识水平的外语考试之中,起码显露出两个难以合理弥补的缺陷。首先是选择方式本身会大大降低试题的难度。例如同样是考查学习者对一种常用动词时态的掌握情况。如果让考生根据题干的提示写出相应动词的正确形式,这道题还是有一定难度的,足以用于区分会和不会两组考生。但是如果采用选择方式,把正确方案与其他三个干扰项一道摆在考生面前由其选择,则此题难度就大大降低了,低到过多的考生都能答对而使其无法作为试题使用。一般来说,大凡常见的语言规则和现象,如让学生判断,都显得比较容易。
对于从事教育评价的人而言,这里有一个陷阱:考生能选对的答案并不一定意味着他们就掌握了该知识点。在许多情况下,现成的方案为考生提供了暗示。如果我们把能够做出正确判断和选择等同于对语言知识的掌握,当然就只好地去寻求更不容易“掌握”的知识点来考学生。由于能“考”住学生的只有那些并不常见或常用的语言现象,于是偏题就这样被大量编制出来。
偏题除了偏离常用语言,还常常体现出题人的主观性。关于这一点我们在第一部分已经谈到。这里有必要指出它的不良影响。由于偏题大多涉及语言规则之外的特殊情况,类似习题练习多了会把师生的注意力引向各式各样的“例外”上面,反而忽略了语言当中有规律的东西。再加上千篇一律的“四选一”套路,使中学生的英语学习方式带有明显的辨析之风。不少学生于是养成了每遇到一个语言现象时首先要弄明白为什么不用另外若干选择的问题。我们且不谈这种学习方法的利弊,但至少它不是把一门语言当作交际工具来学得的方式。
选择方式的另一个缺陷反映在选项之间的关系方面。一道题的区分度不是单纯靠知识点难度就可以成就的;还必须保证错误选项与正确答案之间在形式或内容上有足够的相似性,以弥补由于给考生提供现成方案而造成的试题本来难度的下降。于是,对干扰项似是而非效果的一味追求,又产生了另一类特殊试题 --- 怪题。
所谓怪题,顾名思义就是古怪刁钻的考试题。不过它们往往构思巧妙,令人爱不释手。这类题颇有点像少年儿童当中流行的脑筋急转弯。考生在判断答案时常常百思不得其解,而过后当得知正确答案后也无话可说,甚至越想越有道理,内心不禁赞叹其妙处。
就试题本身而论,此类怪题也没有什么不好的地方。但是如果不加限制,容易将英语教学引向过于知识化的倾向。不少英语语法习题句子很短,缺乏丰富的语境,实际上就将句法规则推来导去地演练。这种语言知识与实际运用能力之间还有相当大的一段距离。
怪题出现在阅读考试中也是比较常见的现象,其载体通常是推断题。首先,由于推断题的答案是出题人设定的,并没有明确的原文依据,因此难以保证避免个人认识的主观性问题。阅读实际上是作者对读者的信息交流过程的一部分。由于此种交流不同于面对面的交际,因此作者在向读者群传递信息的时候,需要预留读者之间可能存在的差异空间(读者的不同身份和认识背景决定了他们的多样性)。因此,除了纯粹的叙述和说明文体之外,大凡带有议论和抒发情感的文体,都应该容许读者在自己的认识及经验基础上对文章进行解读,可谓仁者见仁,智者见智。那么作为读者,出题人和考生是平等的身份(当然出题人比考生要高一筹)。因此当出题人设计作者并没有直接提供答案或线索的问题时一定要格外细心,不能仅仅依照自己的个人经验来推断作者意图,并据此认定唯一正确的答案。
假如推断题以开放的形式提问,允许考生自拟答案,毕竟还给他们一个表达理解的机会。但我们用的偏偏是选择题;我们要求考生必须选择反映我们理解方式的选项才能给分。这的确是不合情理的。
推断题的干扰项也非常容易出问题。如果干扰项所反映的理解方式与原文相差甚远倒也罢了(这样的题往往太简单)。但是为了增加难度,出题人将自己头脑中能够想到的似是而非的观念写出来作为干扰项使用。有时干扰项与正确答案之间只有“一念之差”(这样的试题才有难度)。可是问题也恰恰出在这里:根据其他人的理解,某个干扰也许项就是一个解释得通的合理答案。一些质量欠佳阅读理解题经常引起师生对规定答案的争论,其根源就在这里。
3.练习题选项化导致教和学相脱节
对于我国绝大多数在校中学生来说,外语学习的主要途径是学校的常规教学活动。由于语言既是一套知识体系同时又包括多项技能,要掌握它就必须经历卓有成效的复习巩固和实践操练,因此外语教学过程当中的练习环节就显得尤为重要。
一般来说,练习环节包括师生在课堂上开展的多种活动和课后学生要完成的作业。学校根据教学需要而定期安排的阶段性复习和测验往往也起到练习巩固的功用。至于练习的内容,当然应该与教学实际相关联;练习所采纳的方法则应当以内容为根据,不拘形式,讲求实效。总之,实施练习的目的就是为了帮助学生对已经学过的知识予以思辨和再认识,并力图创造性地加以运用,藉此不断巩固知识,积累技能,逐步达到对语言的融会贯通。由此可见,练习环节和教学内容应该是和谐统一的。
但是目前在我国的中学英语教学体系当中却存在着一种异化的倾向,那就是练习环节越来越脱离教学实际,越来越明显地向高考体系靠拢。应该明确指出的是,这种不正常趋势对包括培养学生外语实际运用能力在内的素质教育来说是非常不利的。这一问题应该引起广大外语教育工作者的高度重视。
一些年来,单纯追求考试结果的应试心态驱使教学部门将目标考试所采用的客观试题形式盲目照搬到练习体系之中,以为采用这种表面上极具针对性的训练手段便可以帮助学生获取理想的考试分数。这实际上是教学理念的误区。这个误区的集中表现就是把考试(包括考试所采纳的方式)与日常的教学和练习环节混淆起来。不少地方甚至把考试和练习干脆等同起来。
事实上,把选项式客观语言测试手段照搬到英语教学的练习当中是盲目的。因为从测试机制上讲,选项式客观测试属于间接测试行为。其间接性在于考试过程中有一个转换机制,即:考生并不直接向考官展示自己的语言知识或技能,而是选择一个已经提供好的可以代表自己意愿的方案,并以某种符号将其标示出来。如前所述,此方法的目的主要是为了做到在考试的阅卷评分阶段无需阅卷人做出主观的判断,由此保证对所有试卷按统一的标准进行评价,以充分体现语言测试的客观性和公平性。作为考试手段,此法尚有优势;但当其用于教学,则尽显其害。
道理很简单:借鉴客观测试方式的选项式“练习”题在教和学之间形成一道完全不必要的人为障碍。本来,教师对学生学习情况的了解应该是越直接越好。例如在批改由学生自己写出答案的作业时,教师可以比较直接地了解学生掌握知识的情况。而通过批阅选择题教师却无法了解到这样的信息。
可以说,教师利用多项选择题来配合教学实际上是绕了一个没有必要的大弯子。例如要考查学生掌握某个动词时态的情况,我们完全可以提供动词原形,让学生根据句子的语境写出动词的适当形式。可是我们偏偏不这样做,非要提供四个选项不可,让学生划A、B、C、D来表达自己的判断,然后教师再根据划圈的字母来了解学生的答题情况。
在实际的教学过程当中,教师只知道学生对哪个选择题答得对或错显然是不够的,因为答案中隐藏着许多未知的情况。当然,教师在习题课上还要讲解试题,届时也可以通过学生的表现来了解一些情况。不过他们毕竟已经失去了在阅卷时就可以直接了解自己学生的机会。令人遗憾的是对这种事倍功半的做法我们很少提出质疑。
教学脱节现象也表现教学和练习的内容方面。目前许多学校为配合教学而使用的练习材料,包括单元训练、阶段性复习、测验,乃至一些课后补充作业,大多选自现成的应试辅导书。由于这种辅导书一般是依据《教学大纲》的总体规划编写的,并不与实际教学有直接的关联(有些甚至仅仅围绕历年考试当中出现的知识点),因此过多使用这样的材料就会造成练习环节与教学内容之间貌合神离。教学和练习的脱节显然破坏了正常的教育规律,同时也会在一些师生当中造成思想混乱,使本该认真对待的课程教学遭到冷落。
为了把教学搞好,英语课教师本应该结合教学进展情况编制出专门给自己学生使用的测验题。当然,现在提出这样要求似乎不太现实。在一项调查中不少教师在回答“为何做练习时首选选择题”这个问题时,他们的回答是:节省时间。事实上,编制出像样的选择题是相当费力耗时的。那些教师之所以认为省时间,是因为套用的是现成的习题集。由此可见练习环节与教学实际相差有多么远。
当人们大量采用选择题作为练习方式的时候,很少注意到它作为帮助学习者巩固所学知识的手段,其效率是多么的低下。有些学校甚至从高中一年级开始就往练习中导入高考题型,同时加入历年高考涉及到的知识点。由于不少知识点学生还没有学过,所以他们在做练习时出错率很高,并且常常是一错再错。事实证明,靠做选择题来促使学生掌握新知识是得不偿失的。在学生通过正规的教学活动学会一项新知识之前,习题中的干扰项已经向他们提示了多种错误的信息。
此外,学生通过做选择题来练就语言,不仅知识基础不牢固,也不利于培养语言的使用能力和创新能力。不少学生学了多年英语,也能在大型考试中得到不错的分数,但是离开了选择题甚至不知如何下手回答问题。
总之,练习环节与教学实际相脱节从根本上讲违反了教育规律,不利于培养学生创造性运用英语的能力。从长远的观点看,此趋势若不纠正将不利于我国基础阶段英语教学的健康发展。
4.无助于净化考试风气
如果说考试方法不当容易引发作弊,也许大家的认识难以趋同;但是如果说考试使用选择题则易于作弊,却是不争的事实。自选项式客观语言测试法面世后不久,西方就有学者意识到它的这一薄弱之处。的确,代表正确答案的A、B、C、D符号是很容易传递的。例如:最早有人通过打手势传递信号;考场内外传递符号比起其他类型考试也来得方便;随着通讯技术的多样化,在选择题上作弊变得既方便又更具隐蔽性。近几年在国内发生的几起作弊案(用传呼机、手机等)已暴露出这方面问题的复杂性。
为了防止舞弊的发生,施考一方一直在动脑筋,图良策。例如设置A、B卷:把内容完全一样的试卷按两种不同方式排列各题的选项顺序,形成两套在答题卡上无法对照的方案;考试时把选项排序不同的两样试卷发给相邻的考生。诸如此类的办法总能克服一些具体问题,但终究无法有效弥补选择题先天在反作弊方面的弱点。
当然,作弊本是错误的行为。把作弊这种不良行为与本来无辜的考试方法联系起来多少容易使人感到有些牵强。但是如果把考试作为一个系统来看待,那么考试方法自然是这个系统中的要素之一。因此,在克服考试舞弊现象方面,考试方法也是有其不可推卸的责任。换言之,考试方法在避免作弊的任务当中是可以有所作为的。
关于考试舞弊的问题,人们最容易看到的是舞弊对考试成绩准确性的破坏。这当然是严重的问题。但考试舞弊现象对教育的消极影响和对社会风气的毒化作用,是更应该引起我们关注并警惕的。确实,每当有考试舞弊的丑闻诉诸报端,都会在关心祖国社会主义精神文明建设的广大人民心中留下难以抹去的阴影。
在克服考试作弊的问题上我们也常说要既治标又治本。不过关于如何治本的问题,人们自然有不同的想法。我们认为在根治考试作弊这个问题上,治本并不只是意味着如何提高考生群体的道德修养和诚信素质,以使其在考试时自觉遵守考试纪律;治本应该是多方的努力。其中措施之一是改善考试方法中不科学的因素。既然客观(符号答案)试题易于抄袭,我们就应该考虑改善考试方式的问题。例如把适量的考试题改成由学生直接回答,情况就会有所缓解。
教育的职责是为社会培养未来的有用人才。在教育的过程当中通过杜绝舞弊来逐渐培养学生的良好道德情操和诚实守信的公民意识,这无疑是素质教育的一项非常重要的任务。
5.客观测试所反映的片面人文理念
无论是传统意义上的考生“客观”答题然后由考官“主观”评卷,还是后来发明的考官“主观”设置候选方案、考生经过判断做出选择之后再由机器“客观”评卷,反正这个过程里的“主观”性是无法逃避的。然而,人们宁可把主观性放在哪一个环节上,却反映了不同的人文理念。
如果追求考试的表面公正性,既分数的可信度,我们就采用第二种“主观设题客观评卷”的外语测试方式。这样做一方面限制了考生答题多样化的麻烦,也排除了评分过程中人的因素的参与。此外,由于客观分离式试卷考点明确,题量较大,可以产生足以区分考生水平的不同分数,因此比较适合用在选拔不同层次人才的水平考试中。但是此种考试方法如果用得过多过泛,会造成不良影响。在我国的具体条件下,这种不良影响已经得到了证实,那就是本文旨在提醒大家关注的客观语言测试给素质教育带来的妨害。
至于第一种所谓的主观考试方式,其强弱之项几乎恰与客观考试相反。但是如果我们能够适当地接受评分过程中人为判断因素的合法性,其它问题似乎都可迎刃而解。其实在客观考试方法传入我国之前,我们对人为评卷的方式是完全自然地接受的,并且积累了许多可以引以为自豪的经验。可是近些年来我们却越来越依赖机器。不过,在这个变化过程当中我们并不是十分清醒的。以至于如今当我们发现自己已深陷其中时,想要自拔却感到如此艰难。
但是我们现在必须重新审视这个问题,并采取改弦更张的措施。这样做的一个理由是:为了推动素质教育,我们必须通过缩减客观试题的使用量来改善外语考试对教学的良好杠杆作用。而另一个理由就是:通过增加测试过程中人的因素的参与来体现以人为本的时代精神,这也是促进精神文明建设的需要。
我们必须认识到,在教育及其相关评价(即考试)这个问题上,学生是主体,因为他们毕竟是我们办教育的根本和目的所在。至于如何评价他们的水平(实施考试),我们必须要顾及他们爱教育的最终效果:高分低能是我们都不想看到的。通过前面的讨论,我们已经可以得出一个比较直观的结论:过于依靠机器来评分的考试终究不利于素质教育。
如果说不过分依靠机器来评分的考试不会不利于素质教育,那么在现实条件下适当增加人的因素在评分机制中的作用,这样做行得通么?为了回答这个问题,不妨让我们暂时跳出英语考试的圈子,设想另一种有象征意义的考试过程:在评价艺术人才的考试中,一个方案是先请大师设计几种方案然后让弟子们品评;品评的与大师原意一致的就算正确,可以得分。这就相当于目前流行的客观英语测试方式。另一个方案是大师让徒弟们自己动手制作作品,然后由大师来品评。这第二种情况就好比所谓的主观测试。回到英语考试的话题上,我们有什么理由不相信大师(考官)判断弟子(考生)作品优劣的能力呢?在外语考试中刻意排除人的评判行为,其合理性其实并不是像它外表给人的印象那么显著。
假如人们担心大师在评判弟子作品时由于社会不良因素的干扰难以保持公正,那么我们可以请两位以上的大师来品评,或者在品评时不让大师知道作品出自何人之手。这些措施并不新,也不难,都是我们已经成功运用了的。如果大家在情感上可以接受这些大师的参与,那么还有一个具体的问题需要解决:可行性,包括考试的费用和效率。
考试可行性的确是一个无法逃避的问题。这就需要社会及大众将相对费钱的考试给素质教育可能带来的好处(至少不给素质教育带来害处)与省钱省力的考试给素质教育已经带来的危害进行权衡之后做出明智的选择。
第三部分 纠正客观测试倾向的几点建议和措施
到此我们对外语教育素质问题的讨论还是在最基本层面上的,涉及的只是外语学习者最起码的能够用外语进行有实质意义的交际的能力。事实上,外语素质远不止这些,它还应包括创造性使用语言的能力、利用周围资源再学习和再提高的能力、利用外语增进其他领域认知学习的能力,等等。然而,无论处于那个水平的外语学习者,如果只会判断和选择,却不能用外语与人进行面对面交流或通过书面语来表达自己的意愿,那么其他方面的素质也就无从谈起。
我们必须看到现阶段在我国,大规模考试正强有力地引导着基础乃至高等教育的走向。这是不争的事实,是不依人的意志为转移的现实规律。而在这样一种情势下,以选择题为代表的客观测试倾向正在潜移默化地误导广大英语学习者的学习进程,窒息他们创造性使用语言的欲望。对此如果我们继续听之任之,后果将是非常消极的。打一个比喻,当前流行的千篇一律的选项式英语试题颇有些类似我国古代文坛上曾经风行过的“八股文”。关于“八股文”,《中国大百科全书》有一段描述令人回味:
明清两代,八股文是几乎所有官私学校的必修课。从童试到乡试、会试都要用它。不会写八股文,就无法通过科举考试,就难以得官。而八股文的唯一用途,即在于应付科举,此外毫无实用价值。不论公私文书、文史著作,记事、抒情、说理,都无法采用八股形式。因而人们把它比作敲门砖,中试之后,就弃之不顾。其弊病是十分明显的。明清时期许多有识之士,均对八股文深恶痛绝。它最后终于被废弃,是历史的必然。
在现代,“八股文”这个称谓也曾经被用来讽刺不切实际的形式主义文风。结合现实外语考试当中的一些现象,不难使人联想到所谓的客观测试手段与“八股文”之间的相似之处。它给对于中国建设事业有重大现实意义的外语教育所造成的干扰必须及时予以纠正。
1.摆脱外国考试的影响,建立符合我国国情和发展的外语评价体系
在英语测试方面,我们必须首先克服盲目照搬国外考试的倾向。二十年多年来,以托福为代表的客观测试方式一直严重影响着我们的各类英语考试。这其中一个重要的原因是客观测试方式的高效性。然而在追求考试效率的同时,我们却很少考虑考试的目的与功能。而目的与功能的合理实现正是考试效度真实含义。例如一张现成的试卷,在它用于具体的考试境况之前是没有任何效度可言的;所谓效度是指它为实现一个目的而发挥其功能的令人满意的程度。由此而论,把一种考试或考试方法奉为万能的理念是幼稚的。事实上,目前在我国流行的国外英语考试都有其符合各自既定利益的明确的目。
首先让我们看一下托福考试。它自舶来之初就是为选拔赴美留学人员这一目的服务的。托福考试的显著特点有三:(1)以客观试题为主,这样可以在较短时间内批阅大批量考生的试卷。(2)题量大,以产生较高信度的成绩。利用此方式可以从中方便地遴选出少数处于高分段的候选人,而对低分段的考生则不予顾及。(3)托福作为国际性考试,无法派考官到现场面试。被录取者语言水平的保证主要借助于试题的高难度和学术性。例如词汇部分考查大都是非日常词语。考生不经过刻苦准备是难以获得高分的。
美国的大学虽然依据托福成绩录取了外国学生,但这些外国学生进入美国大学之后,都将和当地学生一样通过必修的写作课程及其考试才算符合要求;没有足够的英文写作功底,其他课程也是难以通过的。由于托福体系可以满足美国大学的需要,所以一直沿有至今。近年来由于英语作为交际工具功能的特点越来越明显,托福考试只重笔试不含口试的弊端已有所暴露。因此有关机构正在筹划不同的改革方案。不过,有一点是肯定的:托福考试并不是美国国内流行的考试。由此可见其明确的目的性。
在许多方面都与美国托福考试不尽相同的雅思考试是由英国方面举办,主要为英联邦国家认可的国际性英语考试。雅思考试也不像托福考试那样采取多年不变的形式;这些年来该考试机构已经根据形势需要对考试作过多次调整。就连IELTS的称谓也是1993年确定下来的。雅思考试是一个更重视语言能力的考试,因此在听力、词汇、阅读、写作等方面都显现出较大的灵活性,而且还包括口试。雅思考试的功用可以从它的分数评定方式看出端倪:它的成绩为分级式(属于标准参照模式),中等成绩适用于筛选移民,高分段适用于选拔前往英语国家的留学人员。
雅思考试也采纳一些多项选择题,但并未形成主导手段。而且选择题的采用主要是根据考试的具体问题而设,决不像托福那样千篇一律。其实,多项选择题在英国国内是不受欢迎的(1990年英国中学教师协会曾明确拒决在考试中使用该题型)。但雅思考试博采众长的风格使它具有很大的灵活性和适应性。例如大多数外国学生进入英国大学学习之前一般要经过一个课程前语言班培训。而该语言课程的结业考试基本上还是采用雅思考试的方式。由此可见该考试符合本国实际需求的显著特性。
纵观我国的英语考试发展进程,可以说我们在自主性方面还有所欠缺。加入世贸组织之后,我国的教育市场将进一步对外开放。当众多风格迥异的外语教育思潮及体系汇聚于我国的外语教育领域时,如果我们尚不具备体现自己评价理念的测试体系,那将是很被动的。考试在评价教育成果、选拔人才、以及抢占教育市场(包括吸引海外留学生)等等方面,其作用都是关键性的。应该意识到,国外的考试机构多年来一直采取扩大宣传、增设考点、推出新的考试品种等手段千方百计地扩大他们在我国的影响。这里值得一提的是,外国考试机构在我国推出新的考试,并不意味着创立全新的语言测试理论和方法,而是根据市场需求,对已有的可行的方法及内容作重新的调整和组合。换句话说,通过这种途径,外国考试机构得以完善他们的测试体系,籍此争取争夺海外市场。
如果在此种形势下我国国内的大型英语权威性考试没有自己特色的话,那么我们受国外考试牵制的局面会愈加严重。因此,确立符合我国自身特点和发展需求的英语测试体系已显得十分必要。当然,我们作为教育市场的主人,不必采纳外国考试机构不断推出考试品种的作法。但是我们必须不断地完善考试内容和方法以增进考试的合理性。就我国当前大规模英语外语考试的情况而言,当务之急是解决考试方法的科学性问题。
要解决考试方法的科学性问题,并不是说要发明新的测试理论或独创新的考试方法,而是说要更加合理地运用目前可行的语言测试手段,使之更好地满足实际的需求。如前所述,考试本身就是一个矛盾体;任何一种考试方法的使用都从不同的角度、以特有的方式、在不同的程度上反映着对具体矛盾的解决方案。这些矛盾主要体现在以下几各方面:
主观/客观。即:考试结果是否可以客观评分;
直接/间接。即:是否需要考生以真实的方式展示自己的知识或能力;
整体/分离。即:将语言材料作为整体来考查还是将语言分割成互不相干的片段;
母语/外语。即:是利用还是排除母语的关联,如翻译题就利用了母语的作用;
标准/常模。即:考试的功能是将考生按能力分成若干等级还是按不同得分数而将考生排列起来;
后效作用。即:是否注重考试对外语教学的影响。
适用于英语考试的方法本来是丰富多彩的,其中有一些看上去相互之间似乎截然对立。这些不同的考试方法产生于不同的测试理论发展时期,带有那个时期的烙印。但是和教学理论发展大不相同的是:于某一时期产生的测试方法并不会因为新理论时期的到来而被全然否定或弃之不用。情况之所以如此,就是因为这些考试方法都各有其优势和弊端;没有哪一种方法只有优点而没有缺点。这一事实也恰好说明了根据不同情况和需要合理使用不同考试方法的重要性,因为这样做可以达到扬长避短的良好实效。如果一个考试在方法的运用上带有严重的倾向性,那么此种方法的弊端也可能得到过分张扬,而其他方法的优势却得不到应有的发挥。这正是我们要改变客观考试倾向的理由之一。
2.改善现有外语考试使之适应素质教育的途径
1.增加笔答题,弱化选择题的效应。
针对我国大型外语考试的选项化倾向,有必要大幅度增加笔答题的比例。在这个问题上有一点是需要首先说明的:增加笔答题并不意味着增加考试的主观性,减低其客观性。无论何种考试,较高的评分客观性都是人们努力追求的,因为它体现的是考试的公正性。然而多年来对选项试题的依赖使人们很容易将考试的客观性等同于以选择题为代表的所谓客观语言测试手段:似乎强调客观评分,就必须使用多项选择题。这是思想僵化的表现。
外语考试采用笔答方式也是可以达到较高客观性的。例如针对英语动语形式的考试,如果一道题的答案只有一个,那么无论是让学生判断选择,还是让他们亲自写出答案,其客观性终究是一致的;后者完全能够保证成绩的评价信度(甚至可以达到更高的成绩信度,因为考生答卷时没有猜测的成分)。即使是阅读理解考试,如果在设计问题时能够对答案限定得严格一些,也是可以保证较高评分信度的。当然,这样做意味着要用人来取代机器,因此评卷速度会降下来;用更多的人来评卷虽然可以解决时间的问题,但却要增加阅卷成本。然而为了保证外语教育的健康发展,宁可多花点钱来达到推动素质教育实施的效果终究还是值得的。
2.适当减少选择题的分数权重。
目前的英语考试里当然包括一部分笔答题。那么在减少选择题分数权重的同时增加这部分试题的分数权重也不失为一种权宜之计。控制分数权重实际上是我们都很熟悉的方法,例如在当今英语考试当中由于人们有意淡化语言规则而重视语义,于是减低所谓语法题的分值,而给涉及语言理解的试题以较高的分值。但是从考试的主、客观倾向性来看,这样的分值变化没有实质上的意义。可以考虑适当增加笔答题,如作文的分值。这对英语教学能够产生一些良好的影响。
3.增设语言应用类试题。
多年来随着客观语言测试倾向日趋严重,外语考试当中曾经广为使用的语言应用类试题变得越来越少;相反,考试当中却充斥着在实际生活当中根本就派不上用场的“四选一”选择题(前面已经提到此种考题的“类八股”属性)。事实上,语言应用类试题从形式上讲本来是很丰富的,不仅仅限于作文题。例如:听写、造句、改写、概括、回答问题、翻译句子或短文,等等。尤其是翻译题,它是体现学习者语言能力的可靠指标,也反映着语言使用的真实性。但由于涉及阅卷效率问题,许多考试已将其弃之不用了。
4.增设口语考试。
当前我国现行的大规模外语考试亟待增设口试。1977年我国恢复高考之后,大学外语专业的入学考试就开设了口试。后来随着英语教学在绝大多数中学的普及,英语口试便逐渐取消了。从技术层面上讲,取消口试也许不再会过大地影响新生录取质量。但是从考试的后效作用来看,保留并适当扩大口试范围还是有相当大的积极意义的。口试可以有多种方法。考虑到可行性方面的缘故,也不一定必须有考官到场。目前国内英语专业四级考试试行的将考生的语言录在磁带上集中予以评价的方法可以斟酌推广;现代网络技术也可能提供这方面的便利。不管怎么说,现在的可利用资源(包括考试所需的外语考官)都大大地优于过去。因此没有理由不努力改善我们的外语考试。
3.适应国情发展,降低外语考试的区分度
所谓区分度是指一项考试(包括考试中具体的考试方法和考题)能够将应试者按水平高低的不同在一个分数段上平摊开来的能力。由此可见,区分度是衡量旨在选拔人才的水平考试的一项重要指标。我国的高考是典型的人才选拔考试,考生的外语水平通过成绩分数体现出来。这些分数在一个共同的尺度上分布开来,供诸多属于不同类别和层次的高等院校在录取学生时作为权威性的参照。
考试的区分度虽然如此重要,但并不能简单地说一个考试的区分度越高越好。凡事都有一个合理性的问题。对于像高考这样的大规模考试,它的区分度应该以恰好能够满足录取参照的需要为宜。太高或太低都是不利的。当然,与考试区分度相关的因素很多,它们之间的关系也十分复杂。这里我们主要关注的是考试对素质教育的成效问题。
考试的区分度主要通过两个途径来实现。一是构成试卷的单元试题普遍具有较强的将高分考生和低分考生区分开来的力度,即:在答对该题的考生当中高分段考生多而低分段考生少。其计算方法为:求得高分组和低分组考生当中分别答对该题的人数之比。
考试区分度还取决于成绩的信度。所谓信度是指考生获得成绩的稳定性。为了获得较高的稳定性,必须增加构成考试的单元试题的数量。这就好比在射箭比赛当中,要想区分若干实力相当的运动员的水平,若让他们每人只射一箭恐怕是远远不够的。那么就让他们多射几箭,然后通过“环”数决定名次。
我国高考的区分度是靠这两种方法的共同作用来实现的,即:不仅题量大,而且比较难。从总体上看,高考区分度历年来呈逐渐上升趋势。如果单独从利用考试录取学生的角度来看这个问题,当然区分度越高越好,因为这意味着考生成绩分布得比较稀松,录取时择优的依据更为显著。但如果把区分度与实际需要予以权衡,就不一定越高越好。在我国,高中升大学的压力一直是存在的。但是近三年来全国大学普遍扩大招生,应该说压力已经有所缓解。在此形势之下,大学入学考试的区分度也应该相应地有所调整。如果仍然居高不下,则未能做到与时俱进。
当然,居高不下的区分度对大学录取工作本身没有妨碍;相反,它仍然使录取工作更加容易。但是,如果这个考试先天具有不利于素质教育的一面(由于它的选择题倾向),推行它是不得以而为之,那么就应该及时降低它的区分度,削减其旨在区分考生的选择性客观试题,以尽量减低这种考试的不良影响。
过于尖锐的高考区分度不仅继续对考前的高中外语教学发挥不利于素质教育的导向作用,而且对教育链条的后一个环节 - 大学低年级教育也会产生不必要的不良效应。这里我们仅从微观的角度,以一所学校某专业一次录取的学生为例:在过去录取人数较少的情况下,新生当中最高分与最低分之间的差距(统计学上称之为全距)相对较小。如今,在入学考试区分度不变的情况下,由于录取人数较以往增多,新生群体的分数全距当然也随之增加。事实上从可行性的角度来讲,新生之间在录取分数上的差距不宜过大。这里有一个公众的可接受性问题。分数在我国多年来被认为是体现考试公平性的唯一指标。在这种意识尚未发生根本性动摇的时候,如果新生群体的分数全距过大,那么其中靠高分得以入学的学生自然会在心理上产生不平衡感。为避免这一现象的出现,关键是要适当降低高考的区分度。
对此人们可能持有不同看法,认为虽然招生人数增加了,但高考的选拔功能不能弱化,因为高中毕业生进什么样的大学也是需要考试来区分的。事实上这个问题的解决向来不是单纯依靠高考试的区分度;再者说我们毕竟不可能做到每一个学生都获得一个与他人不同的分数。我们这里提到的降低区分度问题是个相对的概念,是指在招生扩大之后为保持以往的区分效果而降低区分度。即使我们做到了这一点,也不过只是回到了以前的“合理”水平。现在的问题是高考区分度应该降下来却没有降下来。
事实上,形势正朝着有利于降低高考区分度的方向发展。除了招生得以显著扩大之外,近些年来已经出现了其他一些重要变化,例如:3 X方案的出台、各别地方自主出题考试、试行春季补招、外语小语种推荐等等。这些措施实际上已经打破了全国高考大一统的局面。尤其是今年少数高校被授权在5%的范围内可以自主招生的政策,更是从根本上超越了全国统一考试的限界。这些措施虽然都在试验之中,但是它们所反映的趋势已相当明显,即:高等教育正在从精英模式向大众化模式发展。为了适应这一积极趋势,适当降低高考的区分度势在必行。这样做并不仅仅在于改善考试区分度本身,也更有利于素质教育的开展,属于一举两得的双赢举措,是体现教育前瞻性的必然选择。
结束语
产生于上世纪六十年代的选项式客观语言测试方法,其理念就是考查语言难点。在考查语言难点的功能方面,选项式客观试题有两个别特别属性决定着它必然向侧重知识的方向倾斜。首先,既然选项给考生提供了暗示,那么为了达到既定的难度标准,试题所考查的知识项目必须更难一些才能奏效。其次是选择试题可能被胡乱猜测的概率。后者使由一定数量单元试题构成的试卷的总区分度相应降低。为了弥补区分度的损失,只好加大各试题的难度。上述两个特性都使得选项试题在保证一定区分度的条件下将考核目标定位在难度较大的语言知识点上,而不是定位在那些最需要优先掌握的基本知识点上。
这种强调语言知识的倾向,在一门外语不太有机会作为交际工具使用的情况下是可以存在下去的。但是当这门外语的交际价值大于研究价值时,人们必将把注意力转向这门语言作为实际交际工具的价值上面来。上个世纪六十年代的英语和当前新世纪的英语在作为全球共用外语方面的价值已无法相提并论,如今社会对广大英语人才的实际能力远比对他们所记住的语言知识更重视。这些道理足以应该迫使我们意识到我国英语教学的实际需求,并从素质教育的切实需要出发,修正和改善那些有影响力的大规模英语考试。为此目的,我们必须首先打破一些误区和禁锢,达成以下共识:
(1)选项式客观试题并非外语考试的唯一手段或主流手段;
(2)逐渐扩大或增设主动性考试社会是可以接受的;
(3)考试的区分度应该随着大众化教育时代的日渐临近而主动下调;
(4)在社会资源力所能及的情况下可以加大对考试的投入,以增加考试的人文因素。
我国当前正处于难得的发展机遇期。全面提高全民族的科学文化水平是教育战线今后一个时期内的重要战略任务。对于外语教育领域来说,为了完成服务于祖国建设事业的重任,推行素质教育势在必行。为此,我们广大外语工作者应该以党中央倡导的与时俱进的态度和对历史的责任感,及时有效地调整我国的外语水平评价体系,使之更好地引导外语教学向更加健康的方向发展。
(本文首次发表在《基础教育外语教学研究》2003年第9、10期和2004年第4期)