《社会认知：洞悉人心的科学》第4章假设检验、共变关系检测和反事实思维

本章将讨论有关我们理解和体验社会世界的方式中至关重要的几个判断任务。我们的很多社会知识都是在检验关于社会世界的假设过程中积累起来的，例如，这是个值得信赖的人吗？我会喜欢这个社会活动吗？我是否受到了公平的对待？我们也通过评估属性与事件的共变关系来获取知识，例如，图书馆管理员是不是特别害羞？儿童吃完糖果后，会不会变得多动？在本章中，我回顾了一些表明人们进行推理任务的能力是有限的证据。在对自己和他人的属性作出结论时，我们所使用的检验假设和评估共变关系的策略会产生系统偏差，使我们发现事实上并不存在的共变关系，阻碍我们发现真实的共变关系。我也会讨论使假设检验和共变关系的评估产生偏差，以及影响其准确性的一些因素。我还会解释为什么人们对社会事件的判断这么容易出错。

我们理解和体验事件的方式，不仅受到我们对已发生事件信念的影响，还会受到我们对将来可能发生的事件的预期的影响。有时，我们可能会为了使事情的结果变得更好而苦恼，例如“若是……，那该多好啊！”。有时，我们会感到非常的幸运，因为事情没有变得像想象的那么糟。我还会综述在不同情境下我们持有的、让我们产生反事实想法的一些原则，同时揭示它们会影响我们对事件的评估和对事件的情绪反应。

假设检验

回想一个你熟悉的单身女士。假定我的朋友弗兰克想找一个女朋友。他喜欢性格外向的、友善的、容易相处的和大方的女士。你认为他会喜欢你的朋友吗？她的性格外向吗？

你会怎样回答这个问题？当你想判定她是不是性格外向时，你想到了哪些关于她的信息？一种策略是提取有关她的所有信息，回忆所有可能表明她性格外向的证据，如友善的行为、与陌生人讲话等等；同时回忆所有可能表明她性格不外向的证据，如害羞、回避社会交往等等。综合这些信息，你能够对她的性格是否外向做出客观的评价。但是，事实上我们通常不会平衡地搜寻两方面的证据，而是倾向于收集某一方面的证据。在判断自己的朋友是否性格外向时，大多数人只会寻找她外向表现方面的证据来判断她是否性格外向，而不会同样努力地寻找她性格内向方面的证据，证明她是内向性格的人。

证实策略

Klayman 和 Ha（1987）将这种片面的假设检验的方法称为证实策略（positioetest strategy）。当你采用这种策略时，你会通过寻找与假设相符的事例来检验假设。当判定你的朋友是否性格外向时，你会寻找她性格外向的证据。如果你能找到这种证据，你就得出假设被证实（她确实是性格外向）的结论。如果你找不到这种证据，你会得出假设不成立的结论。当证据非常清楚时，这种策略是非常有效的。举例来说，如果你朋友的行为表现一贯外向或一贯内向，那么片面搜索证据也无关紧要，因为更平衡的搜索也将得出相同的结果。但是，如果相关的证据是混杂不清的，证实策略则可能误导你的评估。例如，你的朋友在某些场合表现得外向，在其他场合却比较害羞，仅仅查找她性格外向的行为事例，会使你误判她比实际情况更加外向。在这种情况下，证实策略会误导你，让你的假设得到证实。

人们评估自己的假设时，无论是从记忆中搜索已经存在的知识，还是从外部世界搜索与假设相关的新证据时，都是采用证实策略来验证假设。证实策略在社会领域里的应用，特别容易导致假设得到证实的错误，原因有两个：一是人们的社会行为在不同的情境下是不同的，二是我们关于他人的信息是混杂的，可以同时支持两个对立的假设。

验证关于他人的假设

有偏记忆的搜索　面对我们熟悉的人，我们常常会产生新的疑问：我的熟人会是一个好的室友吗？我的孩子在附近的学校里能够健康成长吗？我的兄弟会成为优秀的律师吗？Marke Snyder和Nancy Cantor（1979）着手研究人们在检验针对熟人的假设时，是否会采用片面的搜索策略——在记忆中寻找信息，即搜寻那些符合假设的记忆信息。为此，他们首先给被试提供一些关于简的混杂信息。被试阅读简一个星期内的生活概况，其中描述她在某些场合表现出外向性格，而在另外一些场合表现得性格内向。例如，她在博士的办公室里与人热情交谈，而在工作休息的时间里却不愿意与别人一起聊天；她在慢跑时和陌生人交谈，而在超市里却表现得很害羞。两天后，被试回到实验室，要求被试完成假设检验的任务：要求一半被试判定简是否适合做房地产经纪人（尽管指导语中没有明确的说明，但人们一般认为从事此项工作的人需要具备典型的外向性格）；要求另一半被试判定简是否适合做图书管理员（一般认为从事此项工作的人需要具备内向性格）。

实验要求被试认为简适合做房地产经纪人或图书馆管理员时列出相关的事实证据。从表4.1上两行可以看出，被试确实采用了证实策略，那些认为简适合做房地产经纪人的被试，提取简性格中外向的事实证据（4.03）多于性格内向的事实证据（1.28）；而那些认为简适合从事图书管理员工作的被试，提取她内向性格的事实证据（2.56）多于外向性格的事实证据（1.00）。这种情况就好像被试问自己“我知道简的哪些特点适合做这份工作？”而不是问“我知道简的哪些特点与此是不一致的？”。

更为重要的是，有偏向性地提取有关简的一些事实证据必然导致假设得到验证的结果。如表4.1下面两行数据显示，那些要求检验简是否适合从事房地产经纪人这份工作的被试认为，相比图书管理员，她更适合成为一名房地产经纪人。与此相反，那些要求检验简是否适合从事图书管理员工作的被试认为，相比房地产经纪人，她将更适合成为一名图书管理员。当我们手头上有关于一个人的混合信息，而又热衷于关于此人的片面假设，必然导致我们对自己的假设更有信心。

表4.1　被试回忆有关简性格外向、内向的事实数以及对她从事两种工作适宜性的评价分数

有偏证据的搜索　我们经常对刚刚认识的、不熟悉的人进行片面假设检验。这可能是源于先前的预期（艾略特的老师说他很聪明，真是这样吗？）、刻板印象（律师一般都是好斗的，这个律师好斗吗？），或者我们的目标（我想雇佣一个热情、细心的保姆，我正在面试的这个人热情、细心吗？），当我们为评估关于他人的这类假设而搜集我们需要的证据时，我们会依赖证实策略，因为人们的行为在任何一个人格维度上都很少一致，通常会导致假设得到证实的错误。Mark Snyder和William Swann等人的一系列研究表明，这种偏差确实存在。

在一项研究中，研究者要求被试评估等候在另一个房间内的陌生人的人格特征（Snyder & Swann，1978）。发给其中一半被试一份典型的外向性格特征清单，其中包括开朗、有信心和热情等特征，要求他们判断那个陌生人的行为和经历是否符合外向性格特征。发给另一半被试一份典型的内向性格特征清单，其中包括害羞、文静和退避等特征，要求他们判断那个陌生人的行为和经历是否符合内向性格特征。然后，发给每个被试一张包含26个问题的表格，要求他们从中选择12个问题提问，以确定此人是否具备某种性格特征。备选问题清单中包括两种片面问题：11个问题旨在询问某人的性格是否外向的一些行为事例（例如，“如果你想活跃聚会的气氛，你会怎么做？”“如果你想认识一些新朋友，你会选择哪些场合？”）；11个问题旨在询问某人的性格是否内向的一些行为事例（例如，“你希望自己在哪些场合下可以更加开朗？”“有哪些原因使你难以向别人敞开心扉？”），剩下的4个问题是中性的问题（例如，“你的职业目标是什么？”）。

被试喜欢选择那些与他们要检验的假设相符的问题。当被试想评估此人的性格是否外向时，选择的评估性格外向的问题比评估性格内向的问题多；而当想评估此人是否内向时，与前面所述的选择恰恰相反，他们选择评估性格内向的问题多于评估性格外向的问题。简而言之，被试对问题的选择偏好，反映出他们采用了证实策略。

如果向别人提出这些有偏向性的问题，结果会如何呢？Snyder和Swann推论，如果提出的问题中大部分是评估性格外向的问题，将会给回答者很多的机会展现其性格外向的一面，却留下很少的机会让其表现性格内向的另一面。结果，回答者可能传达了一个性格外向的自我形象。同样地，如果那些提出的问题中大部分是评估性格内向的问题，回答者会表现得更加内向。这些推论得到了后续研究的证实，后续研究与初始研究的方法相同，唯一不同的是问题选择之后，将这些问题向另一名被试（回答者）提问，研究者对提问过程进行录音，只保留回答者的回答（磁带中的问题被剔除）。对此项研究一无所知的一组评判者听这些磁带，评定每个回答者的性格外向性等级（Snyder & Swann，1978）。

与初始研究结果一致，被试偏好那些和他们要检验的假设相符的问题。此外，这些片面问题限定了回答者向别人传达的印象。与那些要评估其性格是否内向的评价者相比，那些要评估其性格是否外向的评价者，提出了更多检验性格外向的问题，使回答者表现得更为性格外向。即便是另外的一些评判者，在没有听到回答者被问的问题，只听到回答者的回答时，对回答者性格的评定也是外向。可见，评价者采用证实策略时，他们收集片面的证据，进而证实他们的假设。推而广之，当我尝试判断你是否开朗、害羞、自信时，我采用的证实策略能够限制你的反应方式，从而有利于证实我对你的假设。

上述结论受到了Trope和Bassok（1982，1983）的质疑，他们指出在Synder和Swann的研究中，被试没有机会提问那些可以真正揭示某人性格是否外向的诊断性问题。他们认为，当某人被提问时，例如，“如果你想活跃聚会的气氛，你会怎么做？”。他实际上是被迫像性格外向的人那样做出反应，他展示内向的唯一方法是否定该问题的假定（我并不经常活跃聚会的气氛），然而出于礼貌，否定别人提出的问题是非常困难的。因此，这样的问题不能真正区分性格外向和性格内向。Trope和Bassok认为，如果让人有机会问那些诊断性问题，人们可能采用诊断性策略，也就是说，不管他们的假设是否成立，他们都会选择最具有区分度的诊断性问题。

在一项检验这种看法的研究中，Trope和Bassok（1983）重复了Snyder 和Swann最初的研究，但他们使用诊断性问题代替原来的问题（例如，“你喜欢热闹的聚会吗？”“你因为害羞而回避社会交往吗？”）。他们操纵了问题的诊断度，一些问题对性格内向或性格外向有很好的诊断度，例如前面列举的两个问题，也有一些问题的诊断度较差（例如，“你说话的声音大吗？”）。研究结果表明，被试十分依赖诊断性策略：比起低诊断度的问题，被试更喜欢高诊断度的问题；而且，诊断度的大小是被试选择问题的最重要的决定因素。被试宁愿选择不符合他们假设的高诊断度问题，也不选低诊断度的、符合他们假设的问题。例如，被试检验某人的性格是否外向时，喜欢选择“你因为害羞而回避社会交际吗？”这种具有高诊断度但不符合他们假设的问题；而不太喜欢“你说话的声音大吗？”这种低诊断度、符合他们假设的问题。

但是，被试在采用诊断性策略的同时，也采用证实策略：他们喜欢问与他们的假设相符的问题。其他研究也发现，被试更加偏爱诊断性问题，在一定程度上也喜欢与其假设相符的问题（Devine，Hirt，& Gehrke，1990；Skov & Sherman，1986；Trope & Bassok，1982）。如果要求被试在两个具有同等诊断度的诊断性问题之间进行选择，一个问题符合他们的假设，另外一个问题不符合他们的假设；此时问题的诊断性就不起作用，被试依靠证实策略。例如，当要求被试判断某人的性格是否外向时，他们更喜欢问那些“外向性问题”，而不是具有同等诊断度的“内向性问题”（Devine，Hirt，& Gherke，1990）。当允许被试自己构建问题时，他们同样运用证实策略：他们倾向于问别人一些符合他们假设的性格特征的问题；而不问那些与他们假设相反的性格特征的问题。被问者倾向于肯定地回答这些片面问题（可能由于他们自己也采用证实策略来构建答案），结果导致假设得到证实（Zuckerman et al.，1995）。

可见，我们不是因为依赖证实策略，从而忽略问题的诊断度这个重要信息；我们的确尝试提出各种可能的重要问题。然而，在我们收集证据来检验假设时，我们依赖证实策略，这将会导致我们的判断偏差。关于我们“自我”的判断，甚至也会受到证实策略的影响，接下来我们讨论这个问题。

验证关于自己的假设

你自信吗？友善吗？快乐吗？你赞成减税吗？提高学费呢？福利改革呢？你觉得你会喜欢独木舟漂流吗？参加高中同学聚会呢？听哲学讲座呢？日常生活中，我们经常需要回答这类关于我们自身的问题。有时，我们可能已经有了一个预先存储的大致的答案（非常自信可能是你的“自我意象”的核心）。但是，通常我们需要根据我们的行为、想法和感受马上构建答案。在这些情况下，如果我们依靠证实策略，我们就会选择性地搜索与问题相符的信息，来回答那些片面问题。当我问你是否自信时，你从头脑中提取的可能是关于你自信的证据；而当我问你是否不自信时，你从头脑中提取的可能是关于你缺乏自信的证据。这种对自我知识的片面搜索可能影响一个人的自我观念；由于受可得性启发法的影响，刚刚回忆过自己自信事件的人们，可能认为他们比实际上的自我更加自信。因此，与被问及是否“不自信”的人们相比，被问及是否“自信”的人们，认为自己更加自信。

为了确定自我观念是否只是简单地受到片面问题影响，Kunda及其同事向学生提出了一些问题（Kunda et al.，1993）。在一项研究中，一半被试回答“你的生活是否快乐”这个问题，要求被试写出他们脑海里出现的过去的想法、情感和行为。另一半被试回答“你的生活是否不快乐”，也要求被试将他们想到的过去的想法、情感和行为写出来。被试回答问题时，采用的是证实策略：与那些被问及是否“不快乐”的被试相比，那些被问及是否“快乐”的被试写出了更多的快乐的想法和更少的不快乐的想法。而且，这一策略导致假设得到证实：与那些被问及是否“不快乐”的被试相比，那些被问及是否“快乐”的被试，认为自己的生活更加快乐。那些被问及是否“快乐”的被试中，有4%的人认为自己不快乐（即在评定量表中给出中等以下的消极评定）；而那些被问及是否“不快乐”的被试中，有19%的人认为自己不快乐。

后续研究结果表明，只有在关于自我的“知识库”是混杂的，可以同时支持两个相互对立的假设的情况下，关于自我的片面问题才会导致假设得到证实。当人们的知识库相当一致时，例如，问题是针对自我的相当一致的某个方面，或个体的社会行为相当一致，假设证实的偏差就得以消除。在这些情况下，片面问题如何提问对自我观念没有影响（Kunda et al.，1993）。片面问题引起自我观念的偏差，是由于在不一致的自我记忆信息和信念中片面检索信息造成的。

这些研究的发现，对于我们如何设计调查研究、解释研究结果都有非常重要的意义。当你看到一个采用片面问题进行的调查，例如，“你支持某项政策吗”，你应该意识到，这个调查很可能高估了这项政策的公众支持率。相反的问题“你反对某项政策吗”，很可能低估了同一政策的支持率。

人们也应该意识到，在对自己的态度、信念和特质进行评定时，可能也受到自己或他人所提出的片面问题的影响。在选择自己的某种偏好之前，最好问问自己，我是否也有相反的偏好。像这样考虑相反情形的假设，可以更加平衡地搜索相关的信念，从而做出更能代表自己真实态度的选择（Lord，Lepper，& Preston，1984）。

选择与否决

假设你在陪审团工作，陪审团的任务是审理一宗复杂的离婚案件。你需要判定孩子的监护权归父母双方的哪一方所有。你可能会问自己两个问题，父母双方中的哪一方应该获得监护权？哪一方不能获得监护权？有人可能认为这两个问题是一样的，毕竟，当你把监护权判给了某一方，同时你必须否决另一方的抚养请求。然而，问题的方向会影响你的审判结果。Eldar Shafir推测，当父母双方中某一方的某些方面优于另一方，而在其他方面不如另一方的时候，问题的方向会影响判决的结果。例如，下面这对父母（Shafir，1993，p.549）：

父母中的一方（A）：中等的收入水平

中等的健康水平

中等的工作时间

与孩子的关系较好

社会生活相对稳定

父母中的另一方（B）：较高收入水平

与孩子的关系非常密切

社会生活极其活跃

经常出差

有点健康问题

在上述情况下，有很多理由将孩子的监护权判给B：B的收入比A高；与孩子的关系也比A要密切。但是，也有一些理由认为B不适合做监护人：B经常出差，而且有些健康问题。

如果你采用证实策略来做出判定，那么，当你问“谁应该获得监护权”时，我们将主要关注那些让父母双方中的一方优于另一方的信息。B在多个方面优于A，因此我们应该将监护权判给B。但是，当你问“谁不应该获得监护权”时，我们将主要关注那些让父母双方中的一方比另一方差的信息。B在多个方面比A差，因此不能将监护权判给B。这在Shafir的研究中得到证实，被问“谁应该获得监护权”的被试，多数选择B；被问“谁不应该获得监护权”的被试，多数选择B！

Shafir的这项研究和其他类似的研究都表明，当我们在选择胜利者时（“谁应该获得奖金？”、“谁应该被研究生院录取？”、“谁应该当选为政府官员？”），我们喜欢选择那些复杂的、有明显的优点和弱点的人，而不是没有明显优点与缺点的普通人；因为我们有更多的理由选择那些优点与缺点都明显的复杂人物。但是，当我们淘汰失败者时（“从获奖候选人名单中删除谁？”、“研究生院拒绝录取谁？”、“从政府官员候选人名单中淘汰谁？”），我们喜欢淘汰那些有明显的优点和弱点的复杂人，而不是优点与缺点都不明显的普通人；因为我们有更多的理由否决那些复杂的人。一个选择委员会通过选择最佳的候选人而得出的候选人名单，与另一个选择委员会通过否决最差的候选人而得出的候选人名单，有很大的差异。

申请者和入选人数的比例，部分地决定了人们采用哪种策略。如果我们的任务是选择很少的申请者，录取比例非常低（如，100个申请者竞争1或2个职位），我们注意的焦点是发现申请者的弱点和拒绝他们的理由。但是，如果我们的任务是选择与录用很多申请者，录取比例非常高（如，100个申请者竞争50个职位），我们注意的焦点不再是拒绝申请者的理由，而是发现申请者的长处和选择他们的理由（Ross & Ellard，1986）。结果，在只提供少数职位这种激烈竞争的情境中，我们倾向于低估申请者的能力；而在一个竞争不太激烈的情境中，对申请人能力的评价会偏高。

与陌生人相比，对于我们非常熟悉的人，我们的认识更加复杂和详细。因此，与陌生人相比，我们有更多的理由选择熟人，也有更多的理由否决熟人。这也许可以解释，为什么在某些场合，我的儿子赞美我是世界上最好的妈妈；而在不快乐的情境下，他谴责我是世界上最坏的妈妈……

预言的原因分析

回想一个你刚认识不久、不太熟悉的人。在未来的几个月里，你觉得你至少会和他一起去看一次电影吗？或者，你会绕道而行，避开他吗？在回答这些问题之前，先花点时间思考你这样做或不这样做的原因？有人可能认为，思考会与他一起去看电影的原因，可以增加自己预言的准确性。实际上结论是否定的。

当分析预言的原因时，人们可能依靠证实策略，从而将注意集中在做出这种行为的理由上。即便你不是特别喜欢那个人，你也会想出一些和他一起去看电影的理由。结果，你会认为你确实有理由同他一起看电影。为了检验这些观点，Wilson和LaFleur（1995）设计了一项研究，他们要求大学女生联谊会的成员针对一个新认识的成员做出类似的预言，预测在下学期她们对待新成员的可能行为。同时，还要求其中一半的被试，在做出预言之前，列出这样做或不这样做的理由。该学期结束后，Wilson和LaFleur记录了被试针对那个新成员的实际行为的报告。这可以帮助研究者分析被试预言的准确性。

要求被试分析他们预期行为的理由，使得他们高估了预期行为的可能性。这表明，采用证实策略，使他们倾向于思考做出这些行为的原因；而且，他们的预言基于这种有偏差的思考之上。然而，原因分析对他们的实际行为并没有影响。因为原因分析只会增加我们对某种行为出现可能性的预期，而不会改变某种行为实际出现的可能性；所以，原因分析的结果实际上降低了预言的准确性。在以下两种情况下，进行原因分析都会降低预言的准确性：一种情况是，没有这样的原因分析，人们能够做出较为准确的预言；另一种情况是，人们已经高估了行为产生的可能性。当然，如果人们在开始时低估了行为出现的可能性，原因分析可以增加对行为出现概率的估计，从而提高预测的准确性。

我们通常认为仔细思考可以增加我们推理的准确性。上述研究的结论与我们的直觉相反，仔细思考有时弊大于利。当我们仔细思考问题，并且采用启发法策略（如证实策略），仔细思考会增加“偏差”（参见Tetlock & Boettger，1989；参见第3章的相关讨论）。

至此，我们已经讨论了如何针对单一属性进行的假设检验，如“简性格内向吗？”“我会和她一起去看电影吗？”。接下来我们将探讨，如何检验复杂的假设——涉及两个相互联系或相关的变量的假设。

共变关系的检测

电脑黑客缺乏人际交往技巧吗？优秀的科学家会是优秀的老师吗？在家里不听话的孩子，在学校也会调皮捣蛋吗？你和你最好的朋友对电影的评价一致吗？这些问题都涉及两个变量的共变关系。在我们的日常生活中，经常需要分析类似的共变关系。为了理解我们的社会环境，我们必须确定团体成员与行为之间的共变关系、两种情境下行为之间的共变关系、两个人的观点之间的共变关系等。由于我们很多的社会知识都是基于对这些共变关系的认识，因此确定共变关系的能力非常重要。在某些情境中，我们可以很准确地评估共变关系；但是在评估共变关系时，我们也会经常陷入困境，结果经常对社会环境形成误解。

利用2×2表格评估共变关系

假设你想探讨教授与心不在焉之间的联系或共变关系。教授是不是特别容易心不在焉？为了收集必需的信息，假设我漫步在大学校园里，观察行人，区分哪些是教授，哪些不是；同时记录他们是否心不在焉。数据见表4.2。请你留心分析一下表中的数据，基于这些信息，是否可以认为教授特别地心不在焉吗？

表4.2　假设的数据

怎样来回答这个问题呢？为了判定教授与心不在焉之间是否有联系，我们必须知道心不在焉的教授与没有心不在焉的教授的比例（600:400，也就是3:2），是否显著地高于非教授的同一比例（300:200，也就是3:2）。然而，此例中两者的比例相同，因此教授和心不在焉之间没有关系。

然而，很多人没有注意到表格中的4个单元格之间的数据是相关的。相反，人们倾向于只关注这些单元格的一两个。很多人只关注“是—是”单元格的数据，即标定为A的单元格（在本例中代表心不在焉的教授人数；Smelsund，1963；Jenkins & Ward，1965）。仍以表4.2的假设数据为例，由于单元格A的人数最多，只关注单元格A的数据可能会受到误导，使人们相信教授特别容易心不在焉。另一个经常采用的策略是，比较单元格A和单元格B（比较心不在焉教授的人数和没有心不在焉教授的人数），由于心不在焉的教授人数比没有心不在焉教授的人数多，因此，这个策略也会误导人们，使其看到并不存在的共变关系，以为教授特别容易心不在焉。很少有人意识到表4.2中的4个单元格的数据是相关的（综述参见Klayman & Ha，1987）。

人们只关注“是—是”单元格数据的这种倾向，可以看做人们采用证实策略的例子。当判定教授是否心不在焉时，我们搜集支持这一假设的事例，即心不在焉的教授。比较单元格A和单元格B的这种倾向，同样可以看做采用证实策略的例子，我们搜集符合这一假设的案例——所有教授中出现心不在焉的人数（单元格A），或者没有出现的人数（单元格B）（Klayman & Ha，1987）。

有些人争辩说，占星术真的很灵，这就是我经常遇到的发现错误的共变关系的事例。迷信占星术的人们经常以少数几例“星位”准确预测了事件，从而相信占星术。这种只关注单元格A中数值的做法不够好。要准确确定这种共变关系，还需要知道占星术预言将会发生、但没有发生的事件的数量（单元格B），即便这样还不够。还需要知道星位没有预言但发生了的事件的数量（单元格C），以及星位没有预言过，也从未发生过的事件的数量（单元格D）（Nisbett & Ross，1980）。

相较而言，通过列联表评定共变关系要简单得多，而通过在几个月的时间里遇到的教授与其他人群是否心不在焉，来评价教授是否特别心不在焉，这要难得多。而将数据整理到2×2表格中，可以避免根据很长一段时间内发生的许多事件评定共变关系，避免受到错误记忆和错误编码的干扰。在这种相对简单的任务中我们尚且遇到困难，这对于我们在更加复杂的自然观察中探讨共变关系不是个好兆头。人们或许会说，他们对2×2表格数据的推理没有经验，他们在其他熟悉的推理任务中会表现得很好。其实，情况并非如此。像接下来要讨论的一样，人们对更自然的共变关系的探测同样会遇到困难。结果是，我们通常会发现实际上并不存在的相关关系，却不能发现实际存在的相关关系。

虚假相关

很多医生和患者都相信，关节疼痛受天气状况的影响。然而科学研究却没有发现它们之间的联系。Redelmeier和Tversky（1996）认为是错误的共变关系探测导致人们产生这种观念，人们可能看到事实上并不存在的“虚假相关”（illusory correlation）。为了检验这种可能性，他们在15个月内，跟踪研究18位关节炎患者，每月两次记录病人和医生报告的疼痛和不适感的程度，同时记录对应时间段当地的天气情况，包括大气压力、气温和湿度。几乎所有的病人都深信关节疼痛程度和天气状况高度相关。然而，当研究者将病人报告的疼痛程度和当时的天气情况进行相关分析时，并没有发现显著的相关，平均相关值趋近于零。

证实策略可能导致了这种虚假相关。如果我们的先入之见使我们期待某种相关关系的出现，那么我们会特别注意那些反映这种相关关系的事例。关节炎患者会特别注意伴有关节疼痛加剧的天气变化，不太注意那些关节疼痛加剧而天气没有变化或者天气变化而关节疼痛没有加剧的事例。结果，当关节炎患者评定天气变化和关节疼痛程度之间的相关关系时，那些证实这种相关关系存在的事例较多且容易提取，这就对相关关系的估计造成不利影响。

在Loren Chapman和Jean Chapman（1967，1969）的一系列研究中，对于因先入之见和期望而导致人们看到实际数据中并不存在的虚假相关的情况做了更严密的检验。他们着手研究的问题是，尽管很多研究结果表明投射测验不能有效地测量人格特征，为什么临床心理学家继续使用和相信投射测验（例如，画人测验）。Chapman和Chapman认为，可能是临床医生使用投射测验的经验，使他们“看到”了病人对于测验的反应和病人的症状之间的虚假相关。他们的研究证实，这种虚假相关的知觉是由先前的期望引起的，即使数据分析结果证实这种相关关系并不存在，他们依然认为这种虚假相关的确存在。

一系列研究将注意投向非常流行的罗夏墨迹测验，这种测验向被试呈现一些由墨迹形成的图案卡片，要求被试回答在每张卡片上看到了什么？Chapman和Chapman针对这种测验开展了一系列研究。他们研究人们如何评价同性恋与罗夏墨迹测验的特定反应之间的相关关系。这是一个非常有趣的研究课题，因为先前的罗夏墨迹测验研究发现两个经过证实是可靠的但是与直觉相反的相关关系：同性恋比异性恋更容易在某一张卡片上看到恐怖的怪物，也更容易在另外一张卡片上看到似人又似动物的双观图。同时，很多凭直觉看来两者应该有相关关系，实际上两者之间并不存在相关关系。与直觉相反，同性恋者与异性恋者相比，他们并没有更多地看到与肛门、女性衣服有关的内容，或者看到不男不女的人。

Chapman和Chapman首先研究发现，临床医生关于投射测验的经验，使他们对这种基于高度直觉却不稳定的相关深信不疑。他们的研究也发现，缺乏有关经验的学生也持有同样的观念，因此，临床医生的这些观念可能是根植于广泛的、文化的假设，而不是基于其单纯的临床经验。Chapman和Chapman开始研究人们是否在一系列数据中“看到”事实上并不存在，但是在直觉上却非常吸引人的相关关系。为此，他们向被试呈现一组罗夏墨迹测验卡片，每张卡片同时附有某人对该卡片的反应，以及描述他本人特征的两句话。对卡片的反应中，某些反应表现出真实可靠却与直觉相反的同性恋特征（例如，一个双臂缩短的巨人）；某些反应表现出与直觉相符却并不真实可靠的同性恋特征（例如，一件有花边的女式紧身内衣）；某些反应是中性的（例如，一张西班牙地图）。对个人特征的描述中，某些个人特征的描述与这些反应相关，表明此人是同性恋；某些描述则没有涉及性取向。构建这些数据的时候，反应类型和个人特征描述类型之间没有相关关系（自述为同性恋的人对卡片的反应，与其他人的反应没有差别）。

向被试逐张快速呈现卡片，要求他们评估反应类型和个人性格描述之间的关系。被试报告发现，某些在直觉上很像是同性恋者的反应与同性恋之间有相关，但是，事实上对观测的数据分析并没有发现这种相关关系。在后续研究中，研究者故意安排这种直觉反应和同性恋倾向之间呈负相关；这就是说，人们认为同性恋者应该与某些反应相联系，实际上，异性恋者做出这类反应比同性恋者还多。即使实验这样安排，也没有降低虚假相关的数值。被试认为同性恋和某种特定反应之间应该存在相关关系的先入之见，导致他们发现观察的数据中存在这种相关，实际上，数据中并没有这种相关。更为严重的是，两者之间实际上是负相关关系，而他们却发现了正相关关系。

以上研究结果警示我们，任何基于个人经验，而非科学调查得出的相关关系都是值得怀疑的。就像临床医生和学生可以发现测验反应与诊断之间并不存在的相关关系一样，管理者可能发现员工的种族或性别与工作表现之间并不存在的相关关系；丈夫可能发现妻子的情绪与生理周期之间并不存在的相关关系；家长和老师可能发现儿童糖类摄入量与问题行为之间并不存在的相关关系；大学生可能发现伙伴的专业与其个性之间并不存在的相关关系。我们从过去的经验习得的许多知识经验，与其说是对客观现实的反映，不如说是反映了我们关于这些客观现实的先入之见。某些虚假相关导致的不良后果可能不太严重，但是某些虚假的相关，可能导致不公平的社会政策出台，或者导致个人做出一些不恰当的决定。

通过虚假相关所形成的刻板印象

媒体报道的超级明星很少，非洲裔美国人也相对较少。像比尔·科斯比（美国著名喜剧演员——译者注）或奥普拉·温弗瑞（美国“脱口秀女王”——译者注）这样的非洲裔美国超级明星更是屈指可数。David Hamilton等人认为我们可能会额外注意那些稀少的、特别的人物。因此，与白人明星相比，黑人明星的可记忆性程度更高，而且在评定种族和明星之间的关系时，人们更容易想到黑人明星。因此，我们可能会认为美国黑人更容易成为媒体的超级明星，事实上，黑人超级明星在黑人中所占的比例与白人超级明星在白人中所占的比例没有差异。换句话说，我们“看到”了一个虚假的相关。

更一般地说，我们容易高估人群中属于少数群体成员身上发生的罕见行为的频率。当某个群体和某种行为都罕见时，它们共同出现（例如，群体中的一个成员出现了这种行为）的情况更为罕见。这种特别的群体更易被发现且更易被记住，因此，导致群体成员与那种行为之间产生虚假相关。

为了检验这种想法，Hamilton和Gifford（1976）把被试分成两个组，其中一个组是大组，叫A组；另一个组是小组，叫B组。被试依次阅读39个人的信息，这些信息包括个体所属组别和此人的所作所为（例如，布鲁斯，B组成员，为了成为政治候选人做过义工；乔，A组成员，他喜欢对别人冷嘲热讽，这一点让人非常不舒服）。A组的人数是B组人数的两倍；积极行为出现的频率是消极行为出现频率的两倍多。组别和行为的积极性之间不存在相关关系，两组的积极行为和消极行为的比例相同。尽管实际上没有相关关系，研究者还是预测被试会发现虚假的相关。B组的成员少，他们所做的消极行为也少，因此消极行为是少见的、特别的行为，所以研究人员预期这种少见的行为更易被记住，最终让被试形成对B组成员的不良印象。

研究结果证实了这一假设：被试发现了组别和行为积极性之间的虚假相关，而且高估了B组（人数较少组）成员做出罕见消极行为的频率（相反，他们对A组的消极行为的估计相对准确）。最终的结果是，他们认为B组比A组更加消极。换句话说，被试对B组成员形成了实验数据并不支持的相对负面的刻板印象。

后续的研究用相同的范式，证明了这种虚假相关的确是由于稀少的、特别的个体吸引了人们的注意力，让人难以忘记（参见Hamilton & Sherman，1994）。一项研究提供了极好的证据。在这项研究中，被试花很多时间分析与检查那些描述特别事件的句子，即描述少数群体成员所做的罕见行为的句子，而在其他类型句子上所花的时间都不长。这表明他们特别关注那些特别的事件。此外，对特殊个体组和普通个体组的不同关注程度，影响到每组中出现不同类型行为的频率的估计，从而影响到对各组的喜爱程度（Stroessner，Hamilton，& Mackie，1992；不同的情绪状态导致不同的结果，这与当前探讨的问题联系不大）。人们对发生的特别事件容易额外注意，也会影响该事件的可记忆性。在另外一项研究中，被试记住特别行为的比例明显高于其他行为（Hamilton，Dugan，& Trolier，1985）。我们特别关注少数群体表现出的罕见行为，并且容易记住它们；这种现象可以解释我们为什么认为少数群体更多地表现出罕见的行为。

考虑一下对少数群体刻板印象的研究的意义。消极行为出现的频率相对较低，少数群体成员做出这种罕见的消极行为将会特别引人注目、令人难忘。因此，该群体常常被误认为特别容易做出消极行为，尽管事实上不是这样。Hamilton及其同事的研究表明，即使不存在预先的期望，由于人们对少数群体所做的罕见行为特别关注，因此容易对少数群体形成消极的刻板印象。而预先存在的消极期望，理所当然会加剧这一现象。例如，如果我们认为某个少数群体特别容易做出犯罪行为，我们会特别注意这一群体中的罪犯，这不只是因为他们很特别，还因为他们可以证实我们的假设。结果，我们可能为我们的消极刻板印象找到实际不存在的支持。

以上我们集中探讨了消极刻板印象，因为它们尤其令人烦恼不堪。请注意，同样的过程也可以形成没有根据的积极刻板印象。罕见的积极行为就像罕见的消极行为一样，对我们的判断也能产生不当的影响（Hamilton & Gifford，1976）。

没有检测到实际上存在的相关

事先的期望和先入之见会导致人们发现实际上并不存在的虚假相关（Crocker，1981；Nisbett & Ross，1980）。但是，缺乏先入之见时，人们有时不能发现意料之外的、却真实存在的相关关系。Loren Chapman和Jean Chapman（1969）构建了一组数据，使同性恋倾向与一些违反直觉但确实能表明同性恋倾向的某些迹象之间存在相关关系。结果验证了上述观点，被试没能发现这种意料之外的相关关系。Jennings、 Amabile和Ross（1982）的研究也得出了类似的结果。他们构建了几组数据，代表两组变量之间客观存在的不同的相关关系，每组数据包含10次观察（例如，10个不同身高的男人拿着不同长度的拐杖；10组配对的数据）。要求被试仔细分析每组观察数据之后，判断这两个变量之间关系的强度（例如，男人身高和拐杖的长度）。由于研究中的变量都是任意选取的，被试不可能具备变量之间有相关关系的先入为主的概念，因此本研究可以检验人们在简单的数据组中探测“意外”相关关系的能力。

被试能够发现非常强的相关关系（r = 0.80及以上），他们估计的相关值也很高。但是，他们将比较强的相关（r = 0.70）估计为中度相关，而且经常不能发现中度相关（r = 0.20~0.40），对中度相关的估计值趋近于0。正如Jennings等人指出的那样，我们所处的社会环境中，很多重要的、真实事件之间的相关程度为中度相关或者低度相关。例如，人格特质和行为的相关值很少超过中度相关水平（Mischel，1968）。人们从简单而且单纯的数据中都无法发现中度相关，可以推论，人们也无法发现现实生活中那些意料之外的相关关系。

共变关系检测的准确性

尽管前文论述了我们在评定共变关系时所遇到的困难，但我们仍然有能力对某些日常相关关系做出相当准确的评定。在讨论人们的统计推理时，我谈到人们在自己熟悉的领域里，对易于编码的事件采用的是统计推理的方法（Nisbett et al.，1983；参见第3章）。熟悉的领域、易于编码的事件同样有助于对共变关系的探测，Richard Nisbett和我的一系列研究发现，当数据很好编码，而我们对这些数据又非常熟悉时，我们对相关关系的估计十分准确（Kunda & Nisbett，1986）。

有几项研究将人们在几个熟悉度和可编码程度不同的领域中对相关的估计与这些领域的实际相关进行比较。第一项研究考察熟悉度不同时，人们进行评估时的一致性程度。这些评估易于编码，例如，简告诉我说，她喜欢汤姆，对象明确（一个人的评价）；这个评价非常容易计分，也容易与我对汤姆的评价进行比较。研究者假设，在这种易于编码的领域中，对该领域的熟悉度越高，人们对共变关系的评估也越准确。

人们在熟悉的领域中评估共变关系的准确性非常高；我们对别人的人格特质的评定就属于这样一个熟悉的领域。人们花费很长的时间来讨论别人，所以在评价别人的人格特质时，人们彼此非常熟悉自己的观点和别人的观点在多大程度上一致。我们要求妇女联谊会的成员相互评价彼此的一些人格特质，例如可爱、聪明、害羞等，然后计算任意两个人在每种人格特质上的平均相关值。同时要求其他被试估计这些相关值的大小。

图4.1描述了成员之间实际的一致性程度（用实线表示）和被试估计的一致性程度（用虚线表示）。从图中可以看出，被试对易于编码的、自己熟悉领域中的共变关系的评价是非常准确的。例如，在评价自己熟识的人是否健谈时，与评价其是否可爱相比，人们的一致性程度更高。

图 4.1　任意两个个体之间人格特质的实际的和估计的一致性程度

大学生对心理学家资助哪些研究项目，以及学术期刊录用哪些稿件的评估不够准确，他们对这些领域不熟悉（即使是专业的心理学家对此也不是很熟悉，其评估的准确性也并不高）。总之，这些研究结果表明，人们对不熟悉的相关关系的评估可能不够准确，而对非常熟悉的相关关系的评估可能比较准确。

然而，就像在第3章中讨论的那样，熟悉性这个因素只有在数据可以编码的情况下才能起作用。一些熟悉的行为较难编码，像学术水平和运动技能这些反映能力状况的行为，都是我们非常熟悉的且易于编码（编码单位可能是一次测验和一场比赛），而且容易计分；相反，有些熟悉的行为，例如社会行为，却难以编码。社会行为的构成单元比较复杂、模糊，社会行为本身也经常难以解读。如果可编码程度促进了相关关系评估的准确性，那么人们对能力领域相关关系的估计比对人格特质领域相关关系的估计要准确得多。

在一项验证以上假设的研究中，研究者要求被试评估人们在不同社会情境中行为的一致性。被评估的能力和人格特质各有两种：拼写能力和打篮球能力，诚实和友善（Kunda & Nisbett，1986）。换言之，他们需要评估两种情境下人们行为之间的关系。参与者对于自己熟悉的、易于编码的领域的判断十分准确；但是对自己熟悉却难以编码的人格领域却难以正确评估，他们大大高估了两种社会情境下社会行为的一致性。这些研究表明，我们远远高估了人们行为的一致性。结果，我们经常会惊奇地发现，在某种社会情境下表现得非常友善、诚实或能力不足的人，却在另一种社会情境中表现得非常不同。我们不能准确地探测社会领域中的相关关系，这方面的详细内容将在第10章进行探讨。

基于解释的判断

关于假设检验和共变探测的大多数研究都间接或直接地假定，我们是通过收集多个独立的数据，例如，内向或外向行为的事例，群体成员中发生消极行为的事例等，通过将这些事例（数据）累加或平均，通过评估其相对频率，或者应用这些事例的容易程度，得出我们的最终判断。我们的很多判断确实是按照这种方式进行的，但是也有很多判断过程需要进行更加复杂的因果推理。这些判断的实例包括：陪审员判定被告是否有罪，医学专家评估一种新的疾病理论，外交专家评估中东地区和平稳定的可能性，以及你对自己目前浪漫爱情结果的估计。类似这些判断都需要进行详细的因果分析，而且需要我们运用各种不同的证据、它们的相互关系及其可能的结果等广泛的社会知识或常识。在第2章讨论概念时，我就提到过很多概念中都蕴涵着因果知识（Murphy & Medin，1985）。

陪审团判决的故事模型

试想一下著名的加州审判，名人O.J.辛普森被指控谋杀自己的前妻。你认为辛普森是否有罪？如果你一直关注审判的进展，并且对此案形成了自己的看法，你可能就不仅仅只通过比较那些证明他有罪的证据和证明他无罪的证据的数量，来判断他是否有罪。你很可能在两种理由之间做出选择，或者说在不同的故事之间进行选择，即选择那个可以解释和赋予所有相关证据意义的故事。一个故事是由起诉方提出的，认为辛普森有罪。这个故事包含以下信息：他有杀人动机，曾经虐待过妻子，有作案的时间，在他家后院发现沾有受害人鲜血的手套。另一个故事是由辩护方提出来的，认为辛普森是无辜的，作为一名黑人，他是被种族歧视的警察陷害的。这个故事包含以下信息：某名警察有种族歧视行为的记录，警察机关是腐败的、无能的，那双沾有鲜血的手套与辛普森手掌大小不合。所有的证据在两个故事中都有着不同的含义。例如，那双沾血的手套可能是辛普森从犯罪现场回来掉在后院的，也可能是腐败的警察有意放在后院的。追踪审判过程的人们，需要判断哪个故事能够更好地解释当前证据，他们对证据的理解和组织无疑会受到先前所赞同的故事的影响。Nancy Pennington和Reid Hastie开展了一系列卓有成效的研究，研究表明不同的故事模型对审判结果有重大影响（Pennington & Hastie，1986，1988，1992）。

在Nancy Pennington和Reid Hastie研究的第一阶段，让被试从陪审员的角度观看一次审判的全过程，他们会自发构建关于审判案件的一个故事（Pennington & Hastie，1986）。要求被试口头报告他们是如何做出判定的，而不要求被试列出那些不相关的证据。但是，被试详细描述了他们认为发生了什么。一个典型的故事包括事件发生的逻辑顺序（例如，被告的女友要求被害人载她一程。被告非常生气，一刀捅向被害人）。被试经常推断其心理状态（例如，被告非常嫉妒），这在审判过程中从来没有直接提到过，但它有助于人们理解发生的事件；相反，他们常常不提那些审判中提到的证据，因为它们与自己构建的故事无关。做出不同判决的被试，他们构建的故事完全不同，事件的因果关系顺序也不同（什么导致了什么，为什么）。

这些最初的研究表明，陪审员通过构建故事理解证据的意义，最终做出判决。当然，被试也有可能是通过其他认知过程先做出判决，然后再构建故事，证明其判决是正确的。以下一系列实验研究排除了这种可能性。Pennington和Hastie（1992）推测，如果可以操纵辩护故事和起诉故事的构建难易程度（基于同样的证据），来影响人们的判决，这样就可以说明人们的确是在构建故事的基础上作出判决的。

所有被试阅读关于谋杀案的同样的审讯材料，但是这些证据的顺序是不同的，使得构建辩护故事和起诉故事的难易程度不同。当有关证据是按照故事的顺序，即按照因果和时间顺序呈现时，故事构建起来比较容易。例如，先呈现谋杀发生之前的相关事件，然后呈现打斗、杀死对方的证据，最后呈现逮捕和尸体解剖的证据。当证据的呈现按照混乱的顺序，而不是按照事件的原始发生的顺序呈现时，故事构建起来比较困难。例如，从打斗的证据，到伤口的情况，再到打斗发生前一天的相关事件。

所有的被试按照不同的顺序阅读同样的证据材料。一种情况中，起诉的相关证据是按照“故事”顺序呈现的，因此起诉故事比较容易构建；辩护的相关证据是按照混乱的顺序呈现的，因此辩护故事的构建比较困难。另一种情况中，辩护的相关证据是按照“故事”顺序呈现的；起诉的相关证据是按照混乱的顺序呈现的。研究结果表明，证据呈现顺序的操纵，对判决结果有显著的影响。当起诉故事容易构建，而辩护故事难以构建时，78%的被试做出被告人有罪的判决。但是，当辩护故事容易构建，而起诉故事难以构建时，只有31%的被试做出了被告人有罪的判决。在另外两种实验条件下，两种故事同样容易构建，或者两种故事同样难以构建，结果是大约有一半的被试做出被告人有罪的判决。这一研究结果令人感到不安，仅仅改变证据呈现的顺序，而不改变证据的内容，就会使被告人被判有罪的可能性增加到原来的两倍以上。

很明显，我们并非仅仅将独立的证据累加在一起就可以做出判决；而是通过构建故事来做出判决，所以那些影响故事构建的因素都会影响我们的判决。

解释的连贯性

故事模型的相关研究表明，当对事实有两种不同的解释时，我们会选择能将所有证据更好地联系在一起的那个解释，也就是，选择能够为所有相关证据提供连贯一致解释的那个故事。但是，我们要如何确定哪种解释具有最好的连贯性呢？科学哲学家Paul Thagard提出了解释的连贯性理论，清楚地说明了决定解释连贯性的原则（Thagard，1989）。

设想你要解释你的女朋友利萨为什么在吃晚餐的时候对你大喊大叫。你要在两种假设中作出选择，一种可能是利萨不再喜欢你了；另外一种可能是利萨那天工作不顺心。这两个假设都可以很好地解释利萨对你做出的行为。但是相比之下你可能会更加倾向于其中的某个假设——可以很好地解释其他关于利萨的信息。设想利萨非常疲惫，而且你听到她在电话里向她妈妈喊叫。利萨“工作不顺心”的假设比利萨 “不再喜欢你”的假设能够更好地解释这两种行为。利萨 “工作不顺心”的假设解释了更多的证据，似乎更加真实。一般而言，我们偏爱那些解释范围更广的假设。如果你认为利萨对你大喊大叫是因为她不再喜欢你了，你可能仍要对“利萨非常疲惫”和“利萨曾在电话里向她妈妈喊叫”做出额外的解释。利萨 “工作不顺心”假设可以直接解释利萨所有相关的行为。一般来说，我们偏爱那些简明的假设，只需要很少的额外假设就可以解释所有事实。

现在假设你知道，由于利萨的几个同事被解雇了，因此她最近几周工作特别努力。这解释了利萨工作不顺心的假设，使这一假设更加真实可信。一般而言，我们偏爱那些能够被其他信息解释的假设。利萨工作不顺心的假设变得更加真实可信的同时，她不再喜欢你的假设变得更加不可信。一般来说，我们是通过比较来评估几个竞争性的假设，一种假设的可能性增加，另一种假设的可能性就会降低。

总之，我们对一种假设的信心会随着假设的解释范围、简明性，以及假设能为其他信息所解释的程度的增加而升高。我们对一种假设更有信心的同时，对其他竞争假设的信心就会丧失。

Thagard（1989）编制了一个计算机程序，程序体现了这些以及另外几个附加的解释连贯性原则，并结合运用这些原则来评估几个竞争假设的连贯性。这个程序成功模拟了一系列不同的判断过程，从科学家对几个竞争的科学理论的偏爱到陪审员对起诉或辩护故事的偏爱。研究发现计算机程序偏爱的解释与科学家和陪审员偏爱的解释一样，这表明，该理论为人类判断过程提供了一种可能的模型。

Steven Read 和 Amy Marcus-Newhall（1993）在上述研究基础上，进一步发现人们同样采用这些连贯性原则来解释社会行为。Steven Read 和 Amy MarcusNewhall建构了一些包含个体许多事实的脚本，例如，他的行为、想法、愿望和社会环境，要求被试评价为这些事实所提供的几种解释。在不同的研究中，几个竞争性的解释在以下方面有所不同：可以解释的事实的数量、需要额外假设的数量和它们自身是否可以被解释。研究结果表明，被试偏爱那些更有解释力、更简明以及自身能够被解释的解释。此外，他们对竞争性假设的评估是具有比较性的：一种解释连贯性的增加，会导致另外一种解释可能性的降低。更重要的是，Thagard编制的计算机程序模拟了根据解释连贯性做出判断的过程，其结果与参与实验的被试的选择结果一样。计算机对经验结果的成功模拟支持这种想法，即计算机程序使用的那些解释的连贯性原则，我们人类也一样使用。

人们如何解释社会行为，这个问题始终为社会心理学所关注。很多关于归因的研究将研究重点放在人们如何在行为的两个竞争解释之间做出选择的问题上，行为的产生是行为者潜在的人格因素造成的，还是环境因素造成的？（综述参见Jones，1990，另外参见第9章）有关解释连贯性方面的研究，为人们在不同情境下选择哪种竞争的解释提供了指导方针（Read & Miller，1993；Thagard，1989）。解释连贯性的研究也提出了一些历来为归因学家所忽略的重要问题：我们如何在几种竞争的人格特质解释之间做出选择（乔纳森微笑是因为他很友善，还是因为他很世故）；我们又如何在几种竞争的情境性解释之间做出选择（埃莉的不良行为是由于坏朋友的影响，还是因为她的父母对她漠不关心）。

Pennington 和Hastie（1986）所做的研究，即陪审员的判决基于故事模型及其解释的连贯性，有非常明显的应用价值。连贯性原则可以帮助陪审员确定哪个故事看起来最可信。其他的研究表明，就像我们构建一个精细的故事来解释被告的行为一样，我们同样可能在其他情境中对我们遇到的个体构建故事或个人模型（Park，Dekay，& Kraus，1994）。你可能构建一个精妙的故事，来解释一个朋友的婚姻为什么破裂了？你的一个熟人为什么不能保住其铁饭碗？为什么你五年级的老师一直不喜欢你？对于同一个人或同一件事，不同的人构建的模型是不同的，特别是在他们对社会环境的本质持有不同看法的情况下。解释的连贯性原则可以用来确定人们偏爱哪个“个人模型”。

至此，我们已经讨论了人们如何确定和判断其过去和现在的事实。接下来将探讨与真实事实相反的“反事实现象”。

反事实思维

犹太人有一种传统的祈祷仪式，在重大意外事故、严重疾病、战争和其他危及生命事件中幸存后，感恩上帝赐予他们重生。为什么那些刚刚经历不幸，或者仍然经受疾病和痛苦折磨的人们，仍然心存感激和庆幸自己免于更悲惨的命运呢？幸免于难，我们会觉得自己的运气很好，因为我们很容易想到同一事件会有更加悲惨的结果。我们必然认为，如果事情稍微有些改变，我们可能已经死了。相反，如果事情的结果的确非常悲惨，我们就会有一种想法萦绕心头，那让人备受折磨，这种想法就是，灾难本应很容易就可以避免的。很多事件使我们产生这种反事实结果，就是与实际结果相反的、可能发生的、可以发生的、本应发生而最终没有发生的结果。对某一事件产生的反应中出现了反事实，会影响我们对事件的理解和情感反应。

事件常态

某些反事实比其他反事实容易想象（Kahneman & Tversky，1982）。例如，你在一台“老虎机”上玩了半个小时，没有中奖，白白浪费了几美元。别人在你刚刚玩过的老虎机上，第一局就中了一万美元的头奖。你会比当时没有中奖的其他人更为沮丧和失望，因为你更容易想象，只要多投一个硬币自己就会中头奖……

《社会认知：洞悉人心的科学》第4章 假设检验、共变关系检测和反事实思维