周文叶｜教师评价：评什么和怎么评

您所在的位置：网站首页 › 如何评论老师的教学 › 周文叶｜教师评价：评什么和怎么评

周文叶｜教师评价：评什么和怎么评

2024-07-07 07:09| 来源: 网络整理| 查看: 265

李·舒尔曼是斯坦福大学教育学院教授、卡内基教学促进基金会前任会长、美国教育研究协会前任会长，在这些岗位上他有力地推动了美国教师评价的改革与发展。借着在斯坦福大学教育学院访学的机会，笔者针对教师评价这一问题对舒尔曼教授进行了访谈。在访谈前，笔者梳理了美国教师评价的相关研究成果以及我国当前教师评价的相关文献，且与edTPA研发团队就NBCTs和edTPA的发展进行了交流，在此基础上形成了访谈提纲。现将访谈内容整理如下，希望对我国教师评价的研究与实践有所启示。

评价教学情境中的实践智慧

周：中国当前非常重视教师队伍建设，教师评价则是确保和提升教师队伍质量的一个非常重要的途径。您带领您的团队在20世纪80年代就开展了教师评价项目的研究，形成了一系列研究成果，对美国的教师教育产生了深远的影响。其中，您在《教师评价的两难问题》［3］中强调，讨论教师评价问题不应该从评价方法的探讨开始，方法是第二位的问题，我们应该首先讨论什么是好的教学，即我们希望被评价的构念（construct）。您能否展开来说一说，我们希望被评价的这个“构念”？

舒尔曼：教师评价必须认识并理解，我们评价的是身处特定情境中的教师。举个例子，如果你对一个优秀的高中历史教师说，现在你去教中小学生数学吧，他可能会表现得非常糟糕。这不仅仅是方法，还是知识、经验的问题。这就是我所说的实践智慧。教学与100米跑不一样，一个在奥林匹克运动会上跑得很快的人，在任何地方都能跑得很快。教学却受制于多方面的条件，如内容、文化、情境和经验等等。我们在评价教师的同时，也在评价这些条件，所以我们不应该问谁是优秀的教师，而应当问谁在何种情况下是出色的教师。当我们在评价中获得教师在某种情况下表现优秀的证据时，我们就能尝试预测教师在其他类似情况下同样也能表现得优秀。但是我们无法评价普遍情况，只能从特定情况预测其他情况。就像外科医生，可能在某种条件下、在某些手术上，称得上是优秀的外科医生，但情况一旦不同，也许就不能称其为优秀。情况、情境、条件非常重要。

对于教师评价来说，我们必须强调优秀的什么教师，而不仅仅是优秀的教师。如优秀的数学教师，必须拥有丰富的数学知识；必须了解哪些数学知识是学生难以理解的，其中哪些对低段学生而言是困难的，哪些对高段学生而言是困难的，哪些对害怕数学且学习困难的学生而言是困难的，哪些对热爱数学且取得一定成功的学生来说是困难的；必须了解哪些概念很难让学生可视化地理解，这些概念中哪些可以通过图表或直接的经验帮助学生理解，哪些只能从理论上和形式上去解读。除此之外，当学生出错时，优秀的数学教师必须知道学生出错的原因，即学生头脑中发生了什么以致造成了错误。如果我是一个优秀的历史教师，让我去教数学，当学生出错时，我往往无法解释学生犯错的原因。因为我没有足够的经验，也无法很好地理解数学教学。因此，所有这些特性都是非常重要的。

周：的确是，任何教学都发生在特定的情境中。同时，在讨论教学这个概念时，您还多次指出，我们要形成一个具有内在连贯性的教学概念。［4］［5］［6］那么，什么是“内在连贯性”？

舒尔曼：首先，我们应该区分“内在连贯性”（coherent）和“一贯性”（consistent）。“一贯性”，意味着重复地以同样的方式做同样的事情。“内在连贯性”更为重要的是，即使做不同的事情，教师也清楚地知道他们正在做什么，在不同的情境中有所变化的原因。如果我是教师，有时候对小孩子非常严格，有时候允许学生做他们想做的事情，旁人会因此说我教学糟糕，反复无常，学生们也会因此不知所措。但我的问题是，教师在这方面进行更多的控制，而在那方面提供更多的自由的原因是什么，教师判断这么做的背后意义是什么。“内在连贯性”关注他们如何在各自的实践中做出有意义的变化。判断教师是否做到内在连贯性的一个方法就是要求他们说明做了什么并且解释这么做的原因。另外，我们发现，如果教师向学生做出解释，则有助于学生明白教师的期望。比如，教师说：“好的，今天你们可以做任何想做的事情。但是你们不要以为我变了，我这么做有很多的目的。昨天我想确认你们是否了解了数学规则，今天我想知道你们有多少种不同的方式能将规则应用到周围的世界。为此，你们可以玩耍，发挥创造力，还可以发出一些噪音，但是所有人都应该遵守纪律。”这就是“内在连贯性”。

周：因此，在您的研究中，是否提供了一个“内在连贯性”的教学框架？

舒尔曼：不是框架。我认为促使内在连贯性，要求教师以良好的教育意识解释他在做什么以及这么做的原因。这往往取决于所教学科和教学对象。如，当我观察优秀的中小学数学教师教学生分数时，我喜欢观察这样的片段：教师问学生，1/4大还是1/2大？1/4的大象大还是1/2的老鼠大？既然1/4比1/2小，为什么1/4的大象比1/2的老鼠大？使其内在连贯的是，分数本身没有意义，分数总是某种事物的一部分。1/4的房间大还是1/2的勺子大，也是同样的道理。学生一旦理解背后内在连贯的概念——所有的分数都是某种事物的一部分，他们就知道了数字是真实世界中的数字，我们要在真实世界中应用数学。再举个“除法”的例子，如果你有40名学生，要带他们去马戏团，每一辆巴士能载10名学生，需要多少辆巴士？答案是4辆。但是如果你有35名学生，每一辆巴士能载10名学生，需要多少辆巴士？很多学生会回答3.5辆。但是真实世界中哪里有1/2的车呢，你仍然需要4辆车。因此，内在连贯性在数学中是变化的，并没有单一的标准。内在连贯性有不同的形式，我们要在不同情境中寻求内在连贯性。正如我们先前所说，把某物放在某种情境下，看答案是否适用于这个新情境，然后做出判断。

周：前面您提到了外科医生。那么，评价教师与评价外科医生、工程师、建筑师等有何区别和共同点呢？

舒尔曼：区别在于领域不同。但所有的领域，无论是工程师还是教师，评价都必须涉及三个方面。一是思维习惯，即思考。思考什么，如何思考，如何思考从未见过的东西。二是实践习惯，即如何去做。如，一个外科医生必须知道如何做手术，同样，教师也必须知道如何去做。三是我们必须补充说明的，除了教师需要知道什么、能够做什么之外，教师还应以合乎道德、伦理、原则的方式去做，即公正公平、诚实善良，富有同情心和耐心。我称其为“情感习惯”。每一种职业，教学、医学、护理学、工程，都需要思维、实践、情感，即头、手和心。

周：您说得太好了，我们要特别关注“以合乎道德、伦理的方式去做”。中国也历来非常重视教师的道德品质，在各类教师考核与评奖中，都将有关教师道德品质的内容放在首位。您认为教师道德品质的核心要素是什么？

舒尔曼：这个问题很难。

周：是的。我们很重视教师的道德品质，但是这方面研究却很少。

舒尔曼：正如我刚才所说，出色的教学取决于文化环境，取决于情境。与思维习惯和实践习惯相比，价值更加因情境而异。比如说，教师尊重学生和学生尊重教师的方式会因文化而异，教师和学生应该采取何种方式对待彼此，我认为这是一个非常重要的问题，是在每个教师培养项目中都应当和教师、学生开诚布公地谈论的事情。我们应当坐下来和学生一起聊聊。当你回到上海，应该和那些选择教师教育课程的学生坐下来谈谈：“什么是怀揣善良之心去教学，即什么是以令人钦佩的价值观和道德标准去教学？你希望老师如何对待你？哪些是你欣赏的方式，哪些是你讨厌的方式？他们对待你的方式是否就是他们互相对待彼此的方式，你又从中学到了什么？”这些话题常常是被隐藏起来的，我们应该将它们搬到台面上来谈论。

运用教师成长档案袋评价

周：您前面谈到，教师评价包括思维、实践、情感，那么如何评价教师的思维、实践和情感呢？

舒尔曼：好的评价，无论以何种方式开展，都涉及这三个方面。其中，最容易评价的是实践，其次是思维。评价知识容易，评价智慧却很难。最难评价的是情感，是价值。这是孔子最看重的，也是中国哲学所强调的品质的重要性所在。当我们以某种方式评价教师时，我们不容许教师善思、善行但品质恶劣。为了道德的发展，我们不能容许这样。我们必须对这三方面都保持警觉。教师评价是困难的，教师教育是困难的，但是我们必须去做。大多数情况下，评价情感的唯一办法就是观察教师的教。观察他们如何与学生交流，如何与其他老师交流，观察他们是否在做的同时带着尊重、耐心和理解。我们如何教导教师？我们不能仅仅说“好的，你是公平的，你品质好、价值观端正”，我们必须展示耐心、理解以及公正，必须以身作则。榜样是非常重要的。可这很难测量，很难判断。

周：在美国，在您的研究中，在您的教师评价项目中，是如何评价教师道德品质的？

舒尔曼：我们在这方面做得非常糟糕。我认为，在很多情况下，学生和家长是教师道德品质最佳的评价者。因为学生知道教师对他们是否友好、是否公平。家长经常能从孩子回家时的抱怨中了解教师的道德品质。举例来说，在医学中，要了解一个医生对待病人是否有耐心，我们必须询问病人“下次你会找这个医生看病吗”“这个医生是否认真听你讲话”等等问题。对于教师的道德品质，你肯定不能仅仅通过书面测试去判断。这方面我们做得不好，在教师道德表现这方面仍有很大的探索空间。如今，在一些领域，接收教师进入培训项目之前，要求教师提供有关道德或价值观方面的证据，如前同事对他们价值观的判断，又如如何与人相处。如果没有人表示这是一个很好的人，这是一个公正的人，这是一个我和我孩子信任的人，教师将不被允许进入项目。你和我都知道，有些人我们永远不希望他们成为教师，因为他们与人交往的方式令人难以接受。但是，我们在这方面做得并不好。

周：您在文章中还提到，我们必须评价教师在教学中思考了什么，如何思考，为什么这样思考。对这些内容进行评价同样很困难，我们为什么要强调它们，又该怎么去评？

舒尔曼：这就是我们研究教师评价，从纸笔测验转而关注成长档案袋的原因。我们想获得更多的信息，想有更好的机会去探索教师为什么这么做以及他们如何反应。教学困难是因为教师在教学时，学生会呈现不同的反应。有些学生理解，有些不理解，有些理解了并大呼“我有一个更好的想法”，有些选择保持沉默。我不知道如何用纸笔测验去评价教师面对这种情况时的行为。但是假如我能通过录像看到他们的教学，或者看录像的同时去问教师当时是怎么做怎么说的，我就能从中知道他们如何思考以及当时的感想。这就是我们转而关注成长档案袋的原因。成长档案袋捕捉到了实践。实践是一扇窗户，通过这扇窗户，我们不仅能看到教师的“手”，还能知道他们的思考和感受。有时候直接看录像就能知道，有时候你不得不问教师，你当时为什么这么做，你怎么想的，学生感觉怎么样，有多少学生集中注意力了，你又是如何判断的。回答这些问题的唯一方式就是观察教师的实践。当我们使用成长档案袋，这些问题就都迎刃而解了。这是一场革命，旁人会觉得是一场灾难，说：“你疯了，你无法做出可靠的判断，得到精确的分数！”但是他们错了，我们可以的。

周：您强调观察教师的实践，提倡教师成长档案袋和教师表现性评价。我认为在中国也需要提倡发展教师表现性评价和教师成长档案袋。您能介绍一下教师表现性评价和教师成长档案袋的核心吗？

舒尔曼：当然可以。首先，我认为这非常重要，即未来教师进入教师教育项目的同时，教师评价方法就应该以某种形式展开。这样，师范生们才有机会熟悉评价方法，以平常心待之。这就是我们提倡并希望其同步进行的原因。只要同步推进，师范生们就能开始发展自己的成长档案袋，他们慢慢习以为常，开始录制自己的教学并进行观察。换言之，他们应该熟悉评价和被评价的经验。否则，实习教师们会发现这个领域里的许多东西都是全然陌生的。因此，假设你在教师教育项目开始时就使用成长档案袋，它同样取决于你进入的课程。而且，我们可以严肃地说，成长档案袋是由我们称之为“条目”（entry）的，你所记录的东西组成的。比如，我们有两个项目，它们都使用了成长档案袋，但其中包含的东西却是不同的，分别反映了对“何为重要”的不同判断，这很好。所以，在一些项目最开始时，学习写文章、做教研或许非常重要。还有一些人说，我们不希望我们的教师成为研究者，而是希望他们对每个孩子进行案例研究。不同的项目有不同的侧重点，这是完全合理的。所以，当你决定将哪些材料放入档案袋时，判断就随之开始了。美国的一些地方正在开展这样的项目——让学生学习如何对教师的教学进行反馈，这些反馈同时成为教师成长档案袋的一部分。我对采用学生的反馈作为评价过程的一部分很感兴趣。

周：对此您怎么看？

舒尔曼：我认为非常有希望。如果我们需要判断两家位置相邻且都烹饪罗宋汤的餐厅里哪一家更好，我们问谁？问顾客，问吃饭的人。虽然我们有评价者，他们或是美食专栏的记者，或是来自烹饪学校，又或是专业评审人员，但仅仅询问专业意见，不参考顾客意见的评价，这难道不荒唐吗？如果学生没有接受过判断教师教学的训练，我可能并不信任他们。但是，如果我花时间帮学生学习如何评价教学质量并对教师做出反馈，为什么不能像我们相信顾客对食物的评价一样，将学生反馈作为一个有效来源呢？

周：但是美国教师候选人表现性评价（edTPA）、美国全国委员会资格教师（NBCTs）认证为什么不这么做呢？

舒尔曼：因为我们目前着手的事务非常复杂，精力有限。其他地方正在尝试做学生反馈的实验。我能想象，未来不久，edTPA和委员会可能会将其纳入，因为事情总是不断变化的。美国的大学，学生在课程结束时会填写表格，学生对教学的评价常常用来评价教授。

周：这在高等教育中是常态，但在基础教育很少实施。

舒尔曼：是的。可为什么对19岁的学生而言是常态，对15岁的学生而言就不是？难道学生在4年里就会变得更加聪明吗？我预测，在不久的将来，我们将学习获得学生反馈的方法。那现在我要怎么做呢？我会让学生尽早开始向教师提供形成性反馈。基于形成性评价，教师分析学生的反馈，改善自己的教学，或者采用不同的方法进行教学，然后得到更多的学生反馈，这样就形成了一种新型的成长档案袋。教师对学生反馈的回应体现了教师应对的灵活性。

人们关注的另一件事是家长评价。我不知道中国的情况如何，但美国的家长会相互交流，“我的孩子在舒尔曼的班上有糟糕的经历，不要让你的孩子去舒尔曼老师的班级，让他们去温迪老师的班级”。家长有一定的权利选择教师，家长对教师是有一定了解的。孩子经常会说，哪个老师比较吝啬，哪个老师不公平。我不知道中国的家长是否可以选择教师，美国有些州的家长虽然不可以，但是他们会通过校长施加影响，“我认为我的孩子跟着这个老师，而不是那个老师，会表现得更好”。我的小儿子丹尼，在他13岁学代数的时候（那时候大概八年级）成绩非常糟糕，但原先他的数学成绩一直很好。于是，朱迪和我对他说：“你的数学有很大的问题。”他说：“我的老师非常糟糕，他讲课不清楚，他认为我理解了，当我举手提问时，他经常忽视我，我就不想尝试了。”后来，我们找老师交流，老师说丹尼不具备数学头脑，抱怨他们俩相处的情况，认为不是他的原因，而是丹尼的原因，他提出让丹尼转到另外一个数学老师的班级。我跟他说：“或许是因为他无法跟你相处，才讨厌数学。我相信你是对的，让他去其他班，如果他失败了，就证明你是对的。”他说：“好吧，如果你这样想的话。”然后，我们转到了另一位老师所在的班级。结果，丹尼在学期末取得了非常好的数学成绩，拿到了A等。现在，丹尼已经顺利从大学数学系毕业，是一名计算机科学家。他学数学并不笨。

用实践智慧进行专业判断

周：教师表现性评价和档案袋评价的确有其自身的优势，但是我们如何看待这些评价的客观性呢？

舒尔曼：我认为我们必须时刻牢记，最重要的评价原则是小心任何你能精确测量的东西，因为你能精确测量的东西往往不是最重要的。如，对于英语老师，我们可以很精确地测量他们的英语词汇量，但是不能精确地评价教师把语言作为一种生活的交流方式教给学生而不是直接让学生记忆单词表的教学方式。在医学上，我们可以教学生所有骨骼的名字，但是这样就能使学生成为一个优秀的外科医生吗？所以，对极其重要的事情的评价永远需要人的判断。数字不会评价，你所看到的数字只是分数。你必须依据这些数字做出判断，判断教学质量。没有你，数字本身是不能做出判断的。

周：那么，又该如何确保其有效性呢？

舒尔曼：我们不能用确定的方式去做所有重要的事情。比如说，男女双方如何确信对方爱自己，我们如何判断他们心意相连？有时候他们自己也会判断错误。当外科医生做手术时，他们会做出判断。如果想要寻求绝对的有效性和确定性，我们不应当在教育领域。专业判断是知识、技能以及经验的结合，同时还需要谦逊。换言之，我相信那些人，他们不仅会做判断，而且会说“我不一定完全正确，但这是我最好的判断。”现在我想看看结果如何，因为我想知道从中能学到什么。评价不是为了惩罚，不是为了给一个A、B、C或D的等级，而是为了促进学习，这就是评价之所以重要的原因。这样，当你再次做出判断时，才会变得更加明智。你必须坦率，而不是用防御的态度去观察发生了什么，这就是教师必须保持谦逊的原因。你不能总是去确保你是正确的。不发现自己的错误，你就不会变得更加聪明。

周：我们是否可以说，目前尚没有客观且精确的工具来评价教师？

舒尔曼：更客观、更精确的工具就能带来客观的评价吗？不是的。但是，用更客观、更精确的方式与用非常草率、毫无章法的方式行事，二者是不同的。一位伟大的经济学家曾提到，有人问他：“既然你曾说过没有绝对正确的计算，为什么你还如此担心计算的精确度？”他是这么回答的：“达到绝对精确是不可能的，就像医院的手术室也不可能绝对干净，但这并不意味着可以在垃圾堆上做手术。”即便你知道永远不能做到完全客观或者完全精确，但你必须努力追求更客观、更精确。这两者不是前后矛盾的，实际上，这就是“内在连贯性”的理念。

周：我明白了，那么，哪种类型的评价任务能更客观、更准确地评价教师呢？

舒尔曼：举个例子，假设有一个绘画比赛，或者我们要给画估价，其中三幅分别是不同作家的得意之作。我问评价者，哪一幅画最好，因为我们要为学校选择一幅专业画作。其中一个选择方式是看各画作呈现的艺术水平，但这不是唯一的准则，我们还会参考其他的准则。为了做出最佳的判断，首先，我不会只相信一个人的判断，我需要一个评审小组。找到一个评审小组并不容易，有时候只有一个评审人员也可以。但是作为一个研究者，我希望有2—4个评审人员。他们需要在零交谈的情况下做出判断，我们试图记录他们各自给出不同名次的原因。然后，他们告诉其他人自己的判断并互相讨论做出判断的原因。可能你选择的第一名，我认为是第二名。这个时候，你给出你的理由，我听了以后会说：“哇，这是一个很好的原因，我没有想到，你的解释改变了我关注的维度。”所以，交流能互相影响，使人变得更加聪明。如果时间允许，我会说：“好吧，我们看看其他三幅画，看我们是否达成了一致的意见。”如果你问我，从某种绝对意义上，这客观吗？不，这的确不客观。但这就是主体间性，它结合了多人的主观判断，多人的共同判断更接近客观性，更合理，更有内在连贯性。

因此，我相信，如果我想要发展一个人的判断力，我的首要策略是让他与其他人一起判断，互相学习。有趣之处在于，这样做几次以后，如果我现在必须独自一人做出判断，那么，无论是判断画作或是判断教师，我都会变得不一样，因为我现在能听到朱迪的声音，听到自己的声音，听到那些比我自己的判断更为智慧的声音。如今，我真的认为，这就是我的信念：我们能从相互学习中获得更多的智慧。举个例子，比如奥运会的滑冰和体操项目，有4—5个裁判，尽管客观上不能做出最为精确的判断，但是如果你结合多个裁判的判断，去掉一个最高分和一个最低分，获得的判断也会接近客观。我相信教学也一样。所以，这就是我趋近有效判断的理论。但是，他们的判断通常只是判断，和用尺子测量一张纸的长度有所不同，它判断的是事物的质量而非数量。

周：谁拥有判断的能力，谁应当成为优秀的教师评价者？

舒尔曼：研究教师且教学经验丰富的人。还不够。这个人应该本身也是教学出色的优秀教师，这是非常重要的。我想说的是，我更相信那些有过“观察教师”经验的人，他们观察教师的变化，然后分析并讨论。他们可能研究了很多教师的录像，观察并讨论“这是好的教学吗”。我认为好的教学是什么，不对？那你认为它是什么，我们来辩一辩。优秀的评价者必须是教学或者思考教学的学者，经常观察教学，分析它、讨论它，而且不仅仅观察教学过程，还要观察教学效果——学生如何反应，专注还是感到无聊，兴奋还是害怕。所以，我要说的是，一个优秀的教师或教育者应当花大量时间通过录像去观察新教师如何学习教学，观察教学丰富的教师如何教得好。假如我们要举行一场绘画比赛，你问我谁有资格判断哪一幅画最好，那我会说，首先我会选择有大量观察绘画经验的人，然后进行争论和讨论。因为这不是理论的活动，而是实践的智慧。但是你知道，经验的积累需要时间。我们试图抛出一个问题：为什么有些人能成为伟大的棋手？答案是他们下了大量的棋。也有一些非常年轻的伟大的棋手，他们大量地阅读、研究、思考书中给出的案例，这种行为与看教学视频一样。总之，除此之外，别无他法。如今，一些人会看大量的教学视频，但仅仅停留在“看”，这样的做法并不聪明。我们应该边观察边讨论，边观察边争论，边观察边比较。

周：您在文章中指出，教师评价不能仅限于四种形式的效度，我们应当关注结果效度。什么是结果效度，为什么要关注结果效度？

舒尔曼：通常，你使用的测验类型会影响学生的学和教师的教。教师教了，学生就会通过测试。有时候，测验的类型会导致师生以糟糕的方式进行教和学。如，对学生而言，最重要的学习方法之一是互相学习。对教师而言，最重要的学习方法之一也是互相学习，看对方的教学视频，观察彼此的课堂，评价彼此的成长档案袋。当我第一次使用成长档案袋时，我受到了批评，人们告诉我教师的一些欺骗行为，他们不相信成长档案袋，也不相信我。他们认为测验应该单独进行，可成长档案袋却是教师在互相帮助的情况下完成的。我提醒道：“教师独立工作重要，还是专业同事之间的互相协作学习更重要？”他们反驳说：“这样做的话，评价的准确性会下降。”我便强调：“你想要优秀的教师还是精确的评价？”这就是我所说的结果效度。如果教师能共同协作、互相学习，我准备牺牲一定的精确性，我认为这比知道每个教师各自的分数更重要。这是结果效度的一个例子。有人说：“我一直使用多项选择题，因为它能提供一个更精确的分数。我不使用表现性评价，因为人们必须做出判断。”我提醒他，“表现”是你想让学生学什么，实际上你并不想让学生学会如何做多项选择题，你希望的是学生学会如何表现。因此，我们使用表现性评价，因为就教学质量而言，它的结果更佳。

参考文献：

转自 | 全球教育展望

编辑丨周利

审核丨羊子轶

声明：此文系转载，仅作为分享用。如内容在版权上存在争议，请与我们联系。返回搜狐，查看更多

【本文地址】

周文叶｜教师评价：评什么和怎么评

周文叶｜教师评价：评什么和怎么评

今日新闻

推荐新闻