再次谈英语教学与测试改革——桂诗春教授访谈录(两会谈英语教学)

感谢您关注“永大英语”！

再次谈英语教学与测试改革

——桂诗春教授访谈录

包天仁

　　包天仁教授（以下简称“包”）：桂老师，前年我曾经来广东看望您，采访您。当时我们谈了许多有关语言学的问题，也谈到了考试，也就是语言测试的问题。现在是一年多之后，形势也有了很大变化。大家对考试的问题谈论得越来越多，并且很多媒体都开设栏目讨论考试。不管懂还是不懂，甚至一些外行的人，也发表了很多议论。有些人说，考试造成了题海、应试教育，使素质教育“变味儿”了，特别是最近出现的高考的错题，四、六级考试的泄题还有考研等各类考试枪手横行的这些情况。所以就有人提出来干脆取消考试。但是见什么不好就要取消什么，这种做法过于偏激了。试想四、六级考试、高考每年有几百万人参加，要解决问题，应该是找到问题的根源，研究、解决。这种不研究问题的弊病在哪儿，不研究怎么去改进、怎么去完善，只把一切毛病放在考试本身上去的看法是不科学的。这就造成一种混乱：一方面大家大搞题海，大搞训练，搞标准化、选择题，学生和教师都疲惫不堪，叫苦连天；一方面就要求直接取消，下放考试，造成整个社会的舆论混乱。这是目前的考试形势。

　　桂诗春教授（以下简称“桂”）：大学英语四、六级考试也在被大家议论呢。

　　包：是，四、六级考试的泄题和枪手问题，现在被炒得很凶。

　　桂：四、六级考试有传言说作文题漏题了，其实是一个学生搞的小把戏。他是考完了之后把作文题目贴在网上，但是把时间故意提前几天，造成好像是还没考的时候，作文题目就被公开了的假象。

　　包：现在国内是这种情况，而国外却是在加强考试。例如美国，布什总统颁布教改法令，从小学三年级开始全面进行考试，主要的课程年年都要考。其中规定得特别细。西方国家，比如英国，也一直都在坚持进行国家统一考试，从小学到中学各个年级都考。而且是强制性的，ｎａｔｉｏｎａｌｃｏｍｐｕｌｓｏｒｙｅｘａｍｉｎａｔｉｏｎｓ，还有ｏｐｔｉｏｎａｌ性质的，也就是每隔一年进行一次考试，是一种国家考试。以此看来国外现在很强调考试，而我们国内考试却处于一种混乱状态。现在国外一些大规模考试已经侵入、占领了中国考试市场，影响着中国的基础教育、高等教育。各个学科都有这种问题。从二十年前的托福考试（ＴＯＥＦＬ）被引入中国，造成中国考试几十年来都沿袭了托福模式。现在，另有雅思考试（ＩＥＬＴＳ），以及英国剑桥大学考试中心推行的其它各类考试，还有其它国家的各种考试等等。只从外语学科来看，中国考试这个大市场的很大份额已经被国外占领，他们是处于霸主的地位。我们自己的考试有长期抄袭国外考试的倾向。实际上这种状况也牵涉到了我们国家的教育发展以及教育主权的问题。面临这种情况，国家外研中心《基础教育外语教学研究》杂志，准备在明年开设一个专门针对考试的访谈，利用１２期杂志重点研讨ｅｘａｍｉｎａｔｉｏｎ和ｔｅｓｔ。

　　我们两人在上次访谈中曾经谈到，实际上，中国人都在关注考试，也离不开考试。但是我国现行考试所采用的模式还是令人担忧的。国家基础教育实验中心外语教育研究中心已经开过两次全国性的研讨会议，专门研讨我国外语测试，尤其是中考和高考。第一届是在江苏扬州，第二届是在河南郑州。第三届会议准备２００５年３月份在北京召开。因为大家不能只是执行考试而对它不进行研究，它是一个避不开的话题。研究考试怎么考，研究应试与教学的关系。不研究就难以打破应试教育的怪圈，难以施行素质教育。因此，我这次来的主要目的还是想在外语测试方面向您讨教。您的许多研究成果的资料，我一直放在办公桌上，一直在看，在研究。我觉得您在十几年前做的一些研究，提出的一些理念，是现在一些人都还没体会到的。从某种程度上来讲，现在的一些做法甚至有些落后于您当时的研究。我也一直订阅很多国外有关测试方面的期刊，但是我认为国外的一些研究与中国的实际还是有距离。有些理念可以学习、借鉴，可以用来参考，研究一种中西结合的模式。我们的考试也有着悠久的历史。传统还是有很多好的内容是不能丢弃的。中国大规模的考试从一千三百多年前的隋朝的时候就开始有了。

　　桂：那是科举考试。科举以前也经历了很长一段时间，选拔的方法与考试的办法交替在使用。两种方法都是同一个目的，当时的目的比较狭窄，为的是选拔文官。政府找官员，最早是推荐选拔。最早的推荐，搞了很多年，为什么搞不下去呢？因为不要考试不等于不要选拔人才，每一个国家都要选拔的。选拔不是推荐就是考试，一旦取消了考试，用别的方法来代替，马上就发现别的方法还不如考试。也许那个方法，“走后门”的更多，规矩更容易受到破坏。选拔人才的标准更难掌握。靠推荐，在那么大的范围内是难以选拔人才的。

　　包：您说的对，考试就是一种选拔人才的方法，需要公正、公平。

　　桂：通过考试选拔人才之所以存在这么多问题，我想来想去，觉得现在最核心的问题就是中国人口太多。竞争太激烈。所以在这种情况下，大家得到的机会很难均等。以前毛主席说过，凡是有人群的地方，就有“左、中、右”。我们现在不说“左、中、右”，但都有上、中、下。如果要挑选人才，自然要挑好的人才。进学校读书要挑好的学生，国家公务员要挑好的公务员，十个里挑一个，为什么呢？十个都用不更好？但中国人太多了，不可能十个都录取，就只能十个里取一个。哪一个能被录取呢？当然就得有一种办法来评估这些人。

　　包：对，所以考试是很必要的。

　　桂：不用考试的话，就是推荐，我认为只有这两种办法。现在面临一种情况，我举个例子。要在若干个人中挑选一个人来做国家公务员，或者是一个公司聘请人才，应聘的人很多，这就只能通过选拔来确定，这是不可避免的。去争去闹是没有什么结果的。因为中国人口多，又不能禁止人口增长。基数越大，人口增长率越高。人口多，机会就少，就要选拔。无论用什么办法都要去选，考试是一种正规的方法。如果要参与竞争，水平不够，却又要得到这个机会，有人就会想办法作弊。这在我们国家是一种普遍现象。无论是在北京还是广州，街头上都有贴着“办证”字样的纸片，后面是一个电话号码。这是什么意思？外国人不懂，但是中国人一看心里就明白。中国社会文化中，办证就是搞假证明。办证可以办毕业证、驾驶证，以及各种学校的各种学历的证书都可以办。因为通过正规的途径无法得到，就从非正规的途径来取得，来参与竞争，获取某一个机会。有一年，我看到一个报道说深圳某个地方一查证书，假的很多。实际上是同样的道理。要竞争，要获得某一个职务，一个机会，用正规的办法不行，就用非正规的办法。

　　包：尽管这样，考试仍然是避免不了的。考试难免有这种不良现象，难免有一些不足的地方。但是不能因此而取消考试。而是要看怎样做能够完善考试，怎样从考试的组织上、考试制度、考试目的、考试命题、应试以及考试的卷子的使用上，把它做好些。

　　桂：最根本的办法还不是完善考试，因为考试无论怎么完善，竞争还是很激烈，机会还是很少，总会有人去对付考试，这是不可避免的。科举时代里面对付科举，也是各种办法都用尽了。为什么呢？因为总是有人得不到机会，又很想得到这个机会，那就用各种方法投机取巧。最根本的就是要解决我们中国的社会问题，那么多的人口，大家都能生存，都有工作做，才能民安。人多，这些问题最难解决。这个问题不解决，其它的也不好进行。

　　包：这个问题现在解决不了，所以还需要考试。

　　桂：所以现在不能这样，不能因为有办假证有作弊，就取消学校；不能因为有假的驾驶证，就取消驾驶证，驾照就不用考了。同样的道理，所以现在做考试的人也好，做考试研究的人也好，还是要正视这个问题，正确对待考试。

　　不管改不改，都要考虑我们的对象不是十个人，而是十万人、百万人都面临着这样的问题。这种形式，如果人少的情况下，当然可以做。这些机制，无论是说选拔也好，考试也好，都是鼓励学生参与。河北的物理学何院士（何祚庥）也曾经谈到，这种应变能力是必须有的，不能一概否定。最近何院士有一个新的观点。他赞成杨振宁的观点，认为中国科学这么不发达，是由于《易经》的影响，是由于《易经》的思维束缚了大家。

　　包：我们只有归纳没有演绎。我也同意这个观点。

　　桂：这是杨振宁教授在北大做报告的时候提出来的。有些题是猜出来的，那么这种猜的能力在语言里面是否需要？加拿大有一个机构专门调查研究外语学的好的一些人，研究他们共同有哪些素质。他们找出了七、八个特点，其中有一个特点就是能够猜ｇｕｅｓｓ。现在语言学里面也有看法，认为这种猜不是乱猜，是结合语境来进行的，也是一种基本的能力，基本的素质。所以，有很多东西不能片面来讲。一说猜，不言而喻就是不好的。而在这个范畴，猜就是好的。

　　包：在语言交流能力中就有一个能力叫ｄｉｓｃｏｕｒｓｅｃｏｍｐｅｔｅｎｃｅ。

　　桂：当然也有人认为猜不好。

　　包：我认为四选一的猜和您谈到的这个猜是不太一样的。英语考试中不是四选一的题型也能猜。例如，阅读时候文章能不能读懂也需要猜，回答问题也需要猜。猜是非常重要的。猜是一种假设，根据线索ｃｌｕｅｓ，根据上下文ｃｏｎｔｅｘｔ，然后根据你能看懂的东西，去推测。以学生有限的词汇量，不猜是很难做到的。所以，ｇｕｅｓｓｉｎｇａｂｉｌｉｔｙ也是一种语言学习能力。我们也叫ｉｎｄｕｃｔｉｖｅｌｅａｒｎｉｎｇａｂｉｌｉｔｙ。

　　桂：这里猜测是需要的，我们某些题是不是靠猜就能有好的成绩，就是我们现在给他一套题，他不懂靠猜就能猜出好的分数来，这是不行的。

　　包：对，这是不可能的。

　　桂：他能猜出几道是可能，但不可能都猜出来，猜出高分就更不可能了。

　　包：但是桂老，选择题同猜还是不一样的。我同意您的观点，但是我认为选择题四选一的东西对学生们还是有害的。特别是现在各种考试，平常的考试都用这种形式来训练学生，这是不科学的。考试题型不能百分之百全设成选择题，平时训练也不能老是选择题，还是要注重语言的听说读写译能力。语言的ｐｒａｃｔｉｃｅ，不能把平常的练习、测验、成绩测试都设成选择题，都设成综合的模拟高考那样，这是不行的。我认为这是很严重的错误。这种题海战术现在是愈演愈烈了。

　　您的本意是对的，理论也是对的，但现在大家ｍｉｓｕｎｄｅｒｓｔａｎｄ，具体在做的都误解了。认为考什么就练什么，就教什么。怎么考，平时就怎么练，考试是什么样的题型，平时就练什么样的题型。这种做法太不科学了。因为我也是老师出身，我对这个也是有看法的。

　　桂：社会上许多学校都是对付考试。在应付考试的诸多问题中，写作题同样也是大问题。现在大家对付写作题的办法更呆板，很多人都是寻思这个作文怎么备考，然后抓敏感话题，无非是用尽一切办法，让学生不是通过正常的方法而是通过非正常的方法来获得更高的分数。不管怎么考，不管是什么形式，只要考试的权重还是这么重的话，社会、学校、老师就要用尽一切办法训练学生，不是通过提高知识能力的掌握，而是通过投机取巧的办法而获得高的分数。大家都奔那个分数，不管怎么改，不管什么题型，大家总归还是要去对付的。这个是相互制约的问题，归根到底是这个社会的问题，不是考试的方法好坏的问题。社会这个样子，总是来应付。当然改是可以的。但是改了，第一年是好的，第二年、第三年就不好了。

　　包：桂老，我要问的是，这样应付考试，因为不只是一门课，还有别的课程，您认为这样通过大量的题海训练，就肯定会提高考试的成绩吗？

　　桂：提高的是应试的能力，应试的临场能力。不是真的外语语言能力的提高。

　　包：对，而真正考试需要的还是外语语言能力，这是不变的能力，有了语言能力，就可以应“万变”，怎么考都可以获得好成绩的。

　　桂：有的建议是，要解决考试的根本问题，就是社会权重的问题。根本问题是不能够一考定终身，不是花很多工夫去对付考试。

　　包：您指的是其它考试，或平时成绩都看，其它的表现都要包含在对学生的评价中。

　　桂：英国都这样改，有平时的综合成绩，因为一次考试的成绩是不准确的。不管用多好的题型，不管怎么改，考试总归是有误差，都不能克服的。没有办法，所以要减低它的误差，那就是多次考试的综合。有人提出这个概念ｃｏｎｔｉｎｕｉｎｇｔｅｓｔｓ，ｃｏｎｔｉｎｕｉｎｇｅｘａｍｉｎａｔｉｏｎ，而且在教育的时候已经开始了。所以这个连续考试跟计算机考试与计算机教育结合在一起，和平时的训练联系在一起，把平时的成绩都记录下来。最后，对平时所有的成绩来进行一个评估。而不是说就只进行一次考试，也不是说考试改革得多好，就能解决问题。

　　包：您说的是考试制度的问题。

　　桂：最后这个问题，现在不从考试制度、社会制度这种根本问题出发去考虑，而单纯的从考试题型上改革，这不能解决根本的问题，只能解决一部分问题，不是根本的办法。因为考试的权重还在，考试误差还在。不管怎么改，总归是有，所以这些问题不解决，制度问题不解决，最后那种改革就不是很正确了。

　　包：我与您的观点不太一样。您说的这个是非常客观的。社会本身决定了需求考试本身，这是很难解决的矛盾，是很客观的问题。但是我认为现在的考试，高考以及四、六级考试可以改。我与四、六级考试委员会以及其他人也辩论好几年了。这些考试一直存在问题，但也总是不改革。考试应该有所变化，与时俱进。我认为是要稳中求变，总要有些变化。从设计的题型、分值、内容，还是太呆板。还有作文，就一个命题作文，很容易被人猜到。可以考虑设计两个作文，可以有应用文，可以有看图、图表作文，把分数分散一下。还有选择题的分值可以减少一些，选择题不要设太多，有些题，例如完形填空、改错可以少用或不用选择题。

　　桂：对，完全可以不用选择题的。但是有一个问题，谁来批卷。

　　包：那样也可以批卷，用不了多长时间。

　　桂：但是有几百万的卷子，怎么办呢？

　　包：几百万的卷子也是可以批的。因为批卷是分散开来批，不是集中批的。

　　桂：分散了以后老师就多了。现在之所以用机器，就是因为需要省时省力。如果主观试题太多就很难运作。我刚开始也说了，大规模考试跟我们平时考试不一样，整个过程是很难的。比如，我也提过这个建议，四、六级考试总共有多少种作文的方法，五、六种，把这几种统统都写进考试大纲里，哪一年用哪种方法不说。他们说，他们也这样做了，但大规模考试就有问题了，平常考试没有的。这几种方法考出的分数是不是等值的。用看图作文考出的分数跟用命题作文考出的分数，和用出上一段续写下一段的形式考出的分数，都是不一样的。以作文为例，英国也有人研究过的ｃｏｍｐａｒａｂｉｌｉｔｙ，可比较的研究，用两个方法来考，考出的结果是不一样的。英国就碰到了这个问题。因为英国的考试还是不统一的。英国中部、南部、北部都各有一个考试，南部的一个考试与北部、中部的这个考试方法不一样的话，分数不一样。他们花了很多人力专门研究这个ｃｏｍｐａｒａｂｉｌｉｔｙ。同样的道理，用不同的方法考，今年用这种，明年用那种，考试的人本身心里没底，用这个方法考与用那个考出的分数是否等值。学生也会提出问题，也会质疑，原来是用这种方法考，改了一个方法考，考出的结果是不是不一样呢？为什么那个方法考的时候可以得这些分，这个方法得不了那么多分。

　　这个问题需要做很多的系统的研究的。做这样一个研究，要找同一批学生，时间上不能相差太大，用不同的方法来考。今天写这个作文用半小时，明天些另外一个用半小时。可以把得出的结果算一算，看是不是一样的。因为都是同样的人考的，没有改变，一天时间内，也不会有什么变化，不会有什么提高。同一批学生在同一个时期内写两段，不是为了报一报成绩，看看写的这两段是不是一样的水平。必须要写出这个数据出来。如果是一致的，那就说明这两个方法可以交叉的使用，如果不一致，那要考虑用什么样的模型转换。用了这个方法以后，要用一个什么样的模型转换到另外一个方法上去。总归是要提出这个问题的，以此类推。今天用这个选择题来考，明天不用选择题考，这两种方法考出来的分数一样吗？一定要回答这个问题，不回答的话，随意的改，就会出大问题的。因为大规模考试的分数都是要经过等值处理的。保持分数每一次的值可以相等的，可以比较。没有这样的就不是大规模考试。再举个例子，一年１２个月都可以考托福，如果你的水平不变，这个月考两次托福，或者二月、三月各考一次，应该是相差不多的，因为考试是一样的，只是实际内容是不一样的，也就是不一样的题目。如果学生水平都差不多，考出来的结果却不一样，那就说明考试的题目有问题。要做这样的研究就得找学生来考不一样的题目，考了之后，分数是不是一样呢？或者是不一样，有一个模型把这个转过去。没有做这个研究，改什么呢？大规模考试都出这样的问题。大规模考试每年考一次或者两次，怎么样让每次考的分数都一样呢？所以，主张改革的必须拿出办法证明改了比不改好。而且呢，改了以后出来的分数可以转换的。有这样一个模型去做，不然就做不了。

　　包：桂老，我一直坚持的看法是必须要考试，但题型、内容上要有一些变化。

　　桂：对于这个，我没有不同的意见。

　　包：但是我认为这种四选一的题型还是过多，过量了。

　　桂：这是一个枝节问题。我们谁也不会赞同，无论是五选一、六选一或者是把所有的选项都列在后面，又怎么样？是不是好一点？也不一定。这个问题不是一个核心问题。我的观点是这样，可以要，可以不要。要害问题不是四选一改成五选一或者是改为主观题就可以解决的。

　　包：我的观点不是把选择题全部改掉，我是想把它减少。

　　桂：那个可以讨论，没有问题。

　　包：我认为选择题太多，就造成了三个大问题。一是考试成绩实际上“水分”太大，学生们没有多少真实的能力，也就是说，考试的信度不够；二是对教学的反拨作用不好，造成复习和应试的题海，是不好的应试教育，造成社会上造假成风；三是考生易抄袭，枪手、泄题也容易成为社会问题。

　　桂：如果选择题少了就产生这样一个问题。这个题就没有作用了。选择题９９道，原则上就做不到，不能够全用。我们是有一个公式去推算的。不要都可以，但是不能够说越少越好，如果太少了也不行。我们需要一个公式来推算，要得出多少为宜，保证这个区分度。一套题里要有９９道，是不可能的。

　　包：那您觉得１００分里面应该有多少选择题？

　　桂：选择题应该是要很多的，要少了就没有作用了，不用就比用好了。这有个区分度在这里。我这里也有一个这样的公式，不是说可以随意来的。公式中有个说明：区分值是０．３，国际上规定用来区分的，如果选择题太少了就没有意义了。所以，我们高考也在用。如果中文、外语考试中用的选择题量过少，用了不如不用，用了起不了多大的作用。

　　包：我的观点同您一致。要么就多用，要么就不用。像托福考试，它考的面特别大，有难有易，题量大，但分值的数量不一样。

　　桂：对，题量很大，猜对一道题也没有什么作用。如果就只有两道题，猜对一道就有很大作用了。

　　包：但是现在不是这样。现在高考英语科试题中选择题占百分之七十七，一般学生都能猜对三十到四十左右，这种猜的机率太高了。　　

　　桂：占多少比例是另外一回事。比如考两个试卷，一个试卷全是选择题，一个全是主观题，但是总评分的时候选择题只占３０％，主观题占７０％。哪个权重你可以调整的。但是准备的选择题是要保证必须占多少比例，占多了没用。

　　包：现在高考的选择题数量占得很大。

　　桂：语文是越来越少了，有也等于没有。

　　包：语文是占２０—３０％的。

　　桂：这意思就是说考不考都行的。我的意思也不是非要说，要搞，还是要搞一点的。

　　包：这样一来主要是批卷比较方便，而考试的面也大一些。

　　桂：它们这个选择题的特点是覆盖面比较大，题量大。所以要蒙的话，也不行，蒙了这个，蒙不了那个。如果覆盖面太小的话，就不行。

　　包：考查那种孤立性的知识可以。

　　桂：对，比如这种ｉｓｏｌａｔｅｄ历史的知识可以。要是考历史，写的很多废话，而要考查的是历史知识，批卷的人一眼就能看出来。写的废话也是白写的，批卷人都是按知识点给分，就能看出来考生掌握了多少。

　　包：但是选择题有许多大毛病，需要治疗。其中一个是考生容易抄袭。

　　桂：抄袭，这个问题也是。但是有规定考试的时候，考生一个人一个座位，而且前后左右相隔超过一米。

　　包：还有漏题的问题。

　　桂：这些都是管理上的问题，是可以解决的。每个考生座位都相隔超过一米，第二，每个考生所发的试卷，选择题的顺序都不一样，十份卷子，每份都不一样。比如：第一排发的第一道题，到了第二排这个题可能已经变成了第十道题，这样按顺序发考卷。距离大，互相也看不到。即使看到了，也不一定对，因为题的顺序不一样。所以选择题的这个问题不是选择题本身的问题，而是管理的问题。

　　包：这个选择题答案简单，就是Ａ、Ｂ、Ｃ、Ｄ，抄袭起来很容易。

　　桂：这个就是管理的问题。他要抄袭，可考题的顺序不一样，也不知道对不对。

　　包：但是大规模考试中，管理一定会有漏洞的。

　　桂：所以呢，意识上要分清楚，这个不是选择题本身的问题，而是管理的问题。

　　包：所以我个人坚持认为，选择题的导向不是太好。而往往平常的教学也是以考试为导向，所以在这几个问题，我认为还是要适当控制选择题的。

　　桂：可以。但是控制选择题，你就要回答我刚才提出的问题，控制选择题就产生了题目本身的问题。这样就不如降低它的赋分比例，题目还是考那么多，但是分值只占总分的３０％。题量还是那么大，出１００道题，不是一道题一分。可以让分值降低，就算选择题都猜对，也知识占总分的３０％，可是题量还是那么大。

　　包：但是我有一个问题，选择题题量很多，考生平时做练习的时候总是做选择题，这样的话，也肯定不好。您也是一直反对这样的。

　　桂：占多少比例是一个问题。语文考试中不就改了？题量上，选择题是占６０％，主观题占４０％，但分数比重上选择题占４０％，主观题占６０％。这样倒过来了，我是以六四为例来说的。

　　包：那也行。

　　桂：从客观上来讲，选择题的题量不能少。

　　包：现在的问题是下面的老师、学生、家长还体会不到专家学者认为的这一点。他们就认为选择题多了，就应该拼命做选择题，这样就造成了很大的弊端。

　　桂：在这个问题上还有一个研究。一个美国的学者，他的研究获得了２００２年的诺贝尔奖。他研究的是ｕｎｃｅｒｔａｉｎｊｕｄｇｍｅｎｔ不确定的判断。他现在Ｑｕｅｅｎｓｔｏｎ大学。他的研究发现人们在不确切的情况下做的判断有很多误差，也有很多的心理活动。他做了很多年研究，从上个世纪８０年代开始，到２００２年才获奖。他出的书也比较早，我这里也有好几本他的书，研究的是在不确定、没有把握的情况下做判断。这有很多情况，包括现在我们说的如何对付考试，当然他的研究中没有谈到考试。他研究主要是在经济中，还有当医生对病人的病情做判断，分析了很多有趣的现象。我们现在也正在开展一个项目进行研究。

　　包：你们的项目研究的是什么？

　　桂：研究包括老师在处理考试的时候，感到ｕｎｃｅｒｔａｉｎ的时候，他们用些什么策略。这些策略究竟有没有效，去发现他们对付的办法跟我们的考试是否一样。

　　包：但是我觉得考试老是一种模式，不与时俱进也不行。

　　桂：这个跟与时俱进没有太大关系，那是另外一回事。比如说，老师把所有的题目按语法、如介词、动词等全部分析出来，中学老师把我们考试所有的语法点全部都排列出来，然后就猜，这一点去年、前年考过什么了，今年可不一定会考了。这一点去年前年都没考过，今年就有可能会考。这是种应付考试的方法，是他们的一种策略。而我们出题的人其实根本都没有想到，去年前年哪个语法是考过的，今年又该考哪些语法点，想出不来这些。我们出题都不是这样想的，也不能这样想，出题不是这样子出的。但是他们都是这样来对付考试，对付考试的办法很多，但不是我们出题人能想到的，我们出题的人不是说把往年出的题都保存起来，看往年出过什么东西，今年又出什么东西。这个里面其实是错综复杂的。我们出题抽样，就像现在买彩票一样，这个号被抽到以后，又被放回去，所有的号也都是有同等的机会被抽到。所有都是不可预测的，到底是１２３、３２１、１３２还是别的，很难说。

　　包：您说这种应试的技巧，有的时候有没有用？

　　桂：我们在出题目的时候是在要考的东西里面抽样，也可能抽到去年考过的，也可能抽到去年、前年都没有考过的。题目的考点都是随机抽出来的，不能够那样排列出来分析的。

　　包：我们现在说试题本身。现在高考的英语考试和别的考试从前年开始，就有十几个省自己考。有的学者也讲过，不是说谁都能出题，考试如果大家都各自出题的话，出现很大的浪费，也会增加学生更多的负担，也影响考试选拔的质量。我还是认为国家考试还是应该由国家操作的。

　　桂：你知道这个出台的背景吗？

　　包：我知道一点，但不理解。

　　桂：我是知道一点。就是前两年，碰到说高考漏题的问题。因为高考影响很大，当时中央就派人晚上守在那里，商量高考影响面这么大，漏题了怎么办。后来就索性让各省自己出题了。

　　包：那怎么行呢？

　　桂：各省自己出题以后，波及面更大了，出了问题影响更不好。这完全是从最高的角度来处理，从政治的角度出发。考试都从这个角度出发了，而完全不是改不改的问题，是要预防题目漏了以后出现的各种问题，为了预防这种情况出现，所以把出题下放到各个省去，让各个省自己出题。现在广东省出题要我们去给审题。广东省用的办法走的是二十年前的老路，把所有出题的人都封闭起来，一直到考试完了才能出来。让我审题，我说今年还这样做吗？他们说因为中央下的指示要防止漏题，那只有这样做，没有别的办法。既然要把我关起来，我就说我不干，我不审题。

　　包：现在的高考题，您还看吗？

　　桂：我不看，什么都不看，一点也不介入。

　　包：考试完了也不看吗？

　　桂：对，也不看，什么都不看。

　　包：现在提到这个考试，考能力不考知识的问题。

　　桂：我现在这个什么都不管，什么都不看。无论公开不公开我都说，我现在退出考试，不介入考试的任何东西。因为考试现在很多问题不是考试本身的问题，是我们无法驾驭的，也做不了。所以一些东西你认为对了，你也能做。但考试的问题有的是政治性的，不是业务问题。业务的问题可以考虑，可以实验，都是可以做的。但是在某个场合上，驾驭的不是这些问题。而且与学术无关，那我还研究什么？

　　包：１９９７年，教育部就指示我们国家基础教育实验中心外语教育研究中心，从两个方面进行研究。一个是科研方面，一个是评价、测验的问题。需要很多经验、实践，需要很多的意见和建议。所以我们一直在做，确实做了很长时间。考试作为热点问题，我觉得很难把握。

　　桂：作为一个方向的话，你们不妨摸索一下。不是多次考试，反复考试来决定一个学生，这不光是喊口号，这是要做的。英国已经改了，英国类似我们高考的考试已经把平时成绩放进去了。

　　包：有的国家甚至高考都不考。

　　桂：美国从来都是不考虑学业成绩。

　　包：您说的是考试制度。

　　桂：对，研究的ｌａｔｅｎｔｃａｐａｃｉｔｙ，考的是你的潜力。进大学读书，考ＧＲＥ都是考的这个。英国中学的考试现在把分数算在里面了，至于怎么算，它有一套方法，不是说那么简单的算进去的。

　　包：对，属于那种学习能力的考试。其实关于测试的改革不是那么简单的，是需要研究的。

　　桂：所以如果要改，要把考试算在里面谈考试。

　　包：应该是任重而道远的。

　　桂：只是一个制度问题，考试本身很大程度是个制度问题。

　　包：我们现在面临几个问题，一个是考试本身，一个是考试本身制度问题，一个是应试的方法。

　　桂：我的观点是，我先不谈考试，不谈制度，什么都不谈，哪个考试方法最好，最简单，我就用那种方法来考。先跟老师说，让他根据他平时教学中的情况给学生排队，哪个最好，哪个第二，先排出来，然后把它这个情况与考试的情况来计算一个相关数据。如果考出来谁最好与老师排队的情况相关率百分之九十几，基本差不多。一个从老师平时教的情况了解来看，一个则是从考试结果来看，如果两个都差不多，那么这个方法也就能考查出学生的水平，但我的方法很简单。可是如果我这个方法拿到社会上去，被大家来对付，一下子就不行了，就不相关了。这个不是考试方法不对的问题，是社会来对付，把水都搞浑了。这个办法本来挺好，可拿到社会上一两年之后就不好了。这怪谁呢？所以要搞考试，研究哪个考试方法好，可以的，可以去研究。但是在大规模考试中能不能有一样的效果，那是另外一回事了。往往是有另外的一些东西在干扰。

　　包：桂老，我对您一直是很崇敬的。您现在７５岁，还边研究边教外语，思维方式、做事方式跟其他人都不是太一样。但是我对您纳闷的一点是，您是比较早的接触应用语言学的，您的好多的看法也与此有关。您是从解放前就开始搞，那么后来怎么对语言教学也有兴趣呢？

　　桂：我以前不是搞这个的。我以前主要是教文学，后来才改了教语言学。

　　包：语言学是非常枯燥的，您是怎么想到教语言学呢？

　　桂：语言学是上个世纪６０年代中叶后慢慢发展起来的，刚好７０年代我们到英国去，那个时候正好英国在推行这个语言学，而我们中国却是一片空白。文学那个也是政治性的东西多一点。

　　包：语言学这方面您还是科班性质的，在英国式里面，搞得比较早的。比张正东老师他们还要早一些。

　　桂：他们是从另外一个角度，也就是中学师范这方面开始的。按道理他们也应该搞这个应用语言学的。

　　包：我读了您关于语言学方面的书，也从中找到了很多问题的答案，与一些人谈论的语言教学也不太一样。您是从语言的本质出发，谈论的如何更有效的学习语言，我觉得这是特别理性的。不是说完全从经验主义的角度出发，这样很科学。

　　桂：我的意思是要用实验的方法去解决问题。而不是去争论，用嘴巴讲来讲去有什么用呢。包括听说还有阅读怎么进行，通过做实验，结果是什么好就是什么好，不能光靠脑袋想，嘴巴说。要讲说的话，一百年前都已经在讲要重视听说的，１８８０年欧洲的外语改革运动就是提倡搞听说。

　　包：对，不是说强化就能强化得了。

　　桂：的确是这样，讲了一百多年现在还说这个，必然有些道理在其中。只靠嘴巴讲，再讲一百年也还是这个样子。所以不行，还是要做实验的。

　　包：但是现在您要知道，您可能是比较超脱了，而有的人则是受到某些集团或利益的诱惑，所以说的话不是在讲道理。

　　桂：好多出版社都从功利出发。

　　包：考试有ｍｉｓｕｓｅ，ｏｖｅｒｕｓｅ的问题，即使用不当和过度使用，而现在好多教学方面掩盖了这些问题。现在大家都在学，但效率还是很差。不好，我个人认为，现在中国外语教学是个大问题，需要解决。现在有很多理论上的问题需要澄清，或者是已经澄清了，但是社会上还是要那样做，或者有的是故意还要那样搞。特别是现在这个二语习得理论。

　　桂：有的人是根本没有学过语言学，或者是学得不够，结果弄出很多问题。

　　包：比如二语习得理论，现在很多人把中国的外语教学变成了输出型教学，一开始就是大量的输出，就是表演，就是使用，输入的东西太少，这是不科学的。

　　桂：是传媒把它炒大了，越炒越凶。传媒这样做也完全是为了利益，是利欲熏心的一种心态。

　　包：但是我现在一直在琢磨，桂老师，这种东西不仅是别人炒的。因为我也是搞传媒的，搞报纸、杂志，也还是要抓一些热点来研讨。我现在想谈的是，对于这些热点，怎么样才能有个冷静的、理智的思考。我们到底要怎么办。比如说考试问题，不能说炒完之后就能不考，也不能全叫外国人考我们。中国的考试怎么办？现在，您看国内外的外语考试，国际上著名的考试两大家，一个是美国的ＥＴＳ，一个是英国的ＵＣＬＥＳ——剑桥大学考试委员会，基本所有国家的考试，他们都占很大一部分，其中包括中国的考试市场。中国现在影响比较大的，一个是高考，一个是四、六级考试，一个是研究生考试，一个是中考。虽然他们未介入，但他们的理念和方法对我们影响不小。另外，还包括大型的全国性的竞赛、测试，也都是考试。这些考试我们不看别的，只看英语。现在普遍感觉有点雷同，基本都是按从前ＥＴＳ的托福考试的模式来的。所以我觉得这是个问题。因为中、高考与四、六级考试的目的不一样，内容也不一样，为什么都弄得那样雷同呢？另外，国外的ＥＴＳ、托福考试也在改了，我们不能还沿袭人家旧的、过时的东西。还有雅思考试，它考试的目的和我们也不太一样。雅思考试和托福考试是考生为了到英国或其它西方国家留学，而进行的语言能力的考查，作用不同，目的也不一样。

　　桂：它这种考试作用，传媒没有办法大肆炒作它。没有人说不要托福，没有人说不要雅思。为什么？有人要出国学习，出国去学习，英国、美国等国家的学校都要求这个考试。哪怕把它骂得一塌糊涂，也还是要去考。因为有这个需要。高考也是同样的道理。你可以把高考骂得一文不值，但是高考，如果是跟选拔有关，也还是要去参加的。老师和学生都是这样的。而四、六级同样也是这个道理，为什么呢？因为毕业后，去找工作，没有这个证书的话，对获得工作的机会来说会有影响。有这个证书，筹码就多一点。所以就要考这个。如果没有任何压力，没有任何要求，那就没有人去考这个了。美国的托福为什么考的人少了呢？因为在“９·１１”以后，美国限制了中国人、亚洲人去美国读书，签证少了，机会少了。马上就没有多少人去考托福了。英国呢，教育的机构很少，希望外国留学生去了，能够多挣些钱。英国就拼命地拉学生去英国、去澳洲念书。所以雅思就火了。因为有需要到国外去读书，所以才参加这个考试。但是考试的好坏，人们是不管的。

　　包：我现在想跟您谈的是考试这个本身。英语考试到底有哪些类型？现在对学生来讲就是考试。作为评价，ｅｖａｌｕａｔｉｏｎ，ａｓｓｅｓｓｍｅｎｔ，ｅｘａｍｉｎａｔｉｏｎ是有区别的。

　　桂：实际上人们是把这三个概念混淆了。这是大规模的考试、面向公众的考试和课堂上的考试的区别。刚才说的关于测试的理论，它是一种输入的手段。它都是在课堂上为达到老师的目的，去了解学生的学习情况，学生参加考试，他们的知识都是来自于课堂输入。

　　包：ｃｌａｓｓｒｏｏｍｔｅｓｔｓ实际上是一种平时的形成性的评价。

　　桂：因为那个是按老师的需要来进行的。为的是了解学生掌握知识的情况，老师教了之后，学生懂了没有，需要知道。所以，老师想办法来了解。我们没有一种选拔性的模式或者叫考试。我们现在考试的权重那么大，炒作的那么厉害，是因为老师在训练学生的时候就在针对大规模的选拔性的考试，竞争性的考试。

　　包：现在就是这种阶段性的检测，大纲内容的检测变成了应付大规模考试的模拟性的训练。这实际上也是混淆了它们的区别。这样做，就把正常的教学评价，变成了应试的教育。

　　桂：考试的情况是不一样的。但是我们站在客观的角度来看的话，都有好处。现在这种大规模的考试是一年内都有重复来考的。跟老师在课堂上需要的什么时候来考学生，这是不同的。我们面向的不是一部分学生，我们面向的是一个很大的整体，一个ｐｏｐｕｌａｔｉｏｎ，而且有一个选拔性的，能够得多少分可以评为优，或者说，高考需要考多少分才可以进全国的重点大学，总归是有一个规模的。

　　包：考试的目的就是这样，有个选拔性的目标。

　　桂：对，有个目标。如果现在不考，到北大去念书。北大也总要想个办法了解，哪些人可以要，哪些人不要。不要考试也可以，它自己也要搞一个检验的东西。如果十几万人去考，对北大来说，十几万人怎么挑？

　　包：这种选拔性的考试每年搞一次、两次就够了。关键是现在出现了两个问题。一个问题就是现在这个考试被人误用了，或者是被错用了。现在平时这种阶段性的测验，正常的教学当中的检测也被当成训练过程以达到最终参加大规模考试取得好成绩。这样就使得大量的题海泛滥，过早的做这些的ｍｏｃｋ的训练，过早的做那些综合的模拟训练。这种情况，教育部考试中心的领导曾经讲过，高考的题型是考试的题型，是为选拔人的，不是平常训练的题型。平时老师用高考题型训练，弄出题海来了，练出规律了。学生还没有掌握语言，高考就不可能达到目的了。现在问题，一个是大家搞错了，被误导了，把大规模的选拔性的考试弄成了平时的训练了。第二个问题，就是选拔性的考试本身往往是没有与时俱进。高考多少年来也不改，四、六级考试多少年来也不改，没有什么大的变化，题型上也没有与时俱进。实际上，国外的托福、雅思也有在改。我们却没有什么变化，造成一种模式，年年都是这种题型，大家都很好去ｃｏｐｙ，去模仿。现在社会上还到处泛滥。还有一种情况就是，所谓的标准化的选择题型，太多了。单项选择、多项选择，后边的阅读理解、完形填空都是选择，这样的四选一，往往很容易使学生们费了很大的劲，错了很多，还学不到语言，进了题海的误区。这两个问题，一个是误用了，一个是考试本身不与时俱进。

　　桂：这些是问题，但是问题还有。我刚才也谈了，就是还有另一个方面。大规模的考试，参加的人都很多，怎么去选拔人，也有个问题。有人说要了解一个学生外语学得怎么样，给他半个小时，与学生谈，就坐在那里聊，就可以了解到这个的外语水平怎么样。澳大利亚有一个考试就是这样做的。它就设计的这样的考试，考纲设计的就是一个包括录音、书面材料，然后给半小时时间，坐下来跟考生聊。听说读写什么都考，半个小时就都考出来了，很简单，也能够得到一个很好的结果。可是如果有几百万考生，怎么考？没有办法。如果说用这个办法，几百万考生要三天内考完，起码要几十万个考官，而且还有一个问题，考一个学生是半个小时，一天不间断的考，能考多少个学生。另外一个，几十万个考官，每个人的标准是不一样的，也不行。所以，这个方法很好。但如果人多起来的话，就不行。大规模的考试这个办法不好，哪个好？有人说，最好的办法就是作文。可是大规模考试的批卷也成了问题。批改作文每个人的标准也不一样。这个作文分数差别是最大的。几十年前，北京师范大学已经做了一个实验了。把一篇作文发给全国各地去改，改了之后的分数，从几分到十几分的都有。我们高考是总分相加，划线划在一个分数段上，比如６００分的上线，５９９的就不能上线。所以这个作文相差的好几分，不也是很冤枉的吗？这样选拔了，也不见得公平。所以大规模的考试，必然会遇到一些问题，是小规模考试所遇不到的。比方说，它要维持考试本身的标准，要保证这个考试的信度，总要有个办法。如果没有这个办法，离开了大规模考试的这个角度来谈，你看怎样做呢？这个有点空谈，但总之就是，再好的题型如果不能操作就没有意义了。

　　包：考试对于信度、效度、可操作性都要考虑到。有的时候信度很好，但是无法操作，有的可能效度比较差。这几方面是否有些矛盾？不可能完全辨证统一。但是我觉得，现在这种大规模的考试，如中考、高考，四、六级考试中，我觉得还是逐渐应该解决选择题过多的问题。

　　桂：我都承认这些观点。但是怎么保证去操作，这是个问题。最好的一个办法，我刚才也谈到的，一个考官与一个考生谈半个小时。这肯定是好的，但操作不了。我们提问题同样很多。但操作起来，要从大规模的考试框架来。一个考试，几百万人的大规模就是一个框架，离开这个框架来谈改革，哪个考试能行？

　　包：桂老师，我有两个看法，一个就是我认为应该做一些改革，不能够老是用同样的模式。所谓标准化，不见得就是国际型的。标准化指的是通用的标准，可衡量的、测量的标准。并不是指一味的四选一、三选一，还可以有别的方法。

　　桂：你讲的这些都可以。

　　包：对，但我们往往不用别的。

　　桂：问题就在这里。哪怕题型是最好的，要是考试权重太大，这个考试总归最后是不尽人意的。

　　包：题型总归是要有点变化。

　　桂：考试题型变了是变了，变了之后，也有人来应付，而且就应付那些变化了。有时候，题型变了之后，还有人要求中一种变化。变来变去，最后又回到了原来那套。比如说考试有四种，第一种，第二种，过两年用第三种，过两年用第四种，再过两年又用回第一种。我这里是举个例子。几年下来总在那里转圈，所以没有办法，如果我们中国考试权重这个问题不解决，用什么办法来考试？美国考试没有这么重，美国的每个社区都有社区大学，社区大学与其他大学都是挂钩的，就不存在考试进大学那么一个大转折。自然不用对付考试。就算有机会读了一个名牌大学，比如哈佛大学，不毕业也可以挣钱。中国不能这样，学校里都要考试。机会不同。我们中国读书的机会少，大家都非得要进大学读书才行。读书机会少的话，竞争就大了。

　　包：您说这个是必然的。

　　桂：但根本问题就要多办学校，要给很多人找个工作做。国家不解决这个，考试的问题也不行。

　　包：桂老，这个问题是几十年里客观存在的。

　　桂：问题就出在这个客观存在上，考虑各项的改革。

　　包：客观存在这么多，考试是否需要，必须拿考试作为尺子来衡量。它有一个指挥棒。但是有一个问题。下面在应付考试，在组织考试，设计考试的时候还是应该要改的。所谓“魔高一尺，道高一丈。”无论如何都是要改的，如果不改，一直是一种模式不变的话，肯定是不行的。这方面一定要去尝试，不去尝试也不行的。

　　桂：这个没有说不改。但是我们要有一个前提，改了以后是不是比改以前好，要这么来考虑，不能说改就改。

　　包：我也同意您这观点，不是说改革就是正确的，改革一定就是好的。

　　桂：对，如果知道这么改了以后比不改好，那就改。如果改了以后比不改还差，何必要改呢？

　　包：所以这就是我们为什么要开研讨会来研究考试，我们是提供平台让大家来沟通一下。

　　桂：这几十年来，我自己认为，我是改革派。但是我搞了几十年后回过头来看，与我所提倡的保守主义还是有某些特点的，有的还是优点。为什么？英国的保守主义也就是这个样子，不乱来，反正改革就是好，不改就是坏。你要证明了改了比不改好，我就改，也许他不是这么最早提出来这个意思，但是要说明这点，所以要改的话，必须要做实验。不能够不研究就改。要用一种题型代替它。以前美国也这么做，做了若干年的实验以后，证明这个办法确实比那个好，再改。

　　我们提出来这个方法，是一定要改，都是没有实验，所以没有办法证明改了以后比不改要好。而如果改了以后不比不改好的话，何必要改？现在如果能证明一个题型比这个题型好，或者说方法，都可以试验。试验以后拿出证据来，然后我们就改。不能说没有做试验就改，改了以后就不知道了。从科学的态度来说，我就不知道改一定比不改要好。

　　包：但是现在，社会上还是在搞应试教育，还是在大搞考试。而考试出的问题也比较多。社会也需要考试，但是好多人不是理性的冷思考、研究这个热点问题，从科学的角度，怎么看这个考试，怎么改这个考试，怎么完善这个考试，或者是怎么使现在这个考试少出问题。现在大家不是这样。大家谈论的问题是，要么就是搞题海，要么就是取消考试。这两种都是在走极端。我个人还是同意您的看法，必须要搞实验、搞研究，研究的时间虽然长，但对考试改革是要慎重的，不能随便乱来。

　　桂：还有一个就是我们目前考试里面存在的问题，要想好的办法来代替它，这也是肯定的。取代它应该是要比原来那个要好。如果不比原来的好，就不能取代。

　　包：不是要取代，而是要改革。

　　桂：总归是这样。

包：桂老，感谢您解答了我心中一直存在的许多有关考试方面的疑惑。谢谢。

（本文首次发表在《基础教育外语教学研究》2005年第1期）