05 May 閱讀時間 27 分鐘

人的判斷缺陷到了什麼程度？ | 深度解讀《雜訊》

小楊最近想替公司買一份保險。

那天早上，他把公司的資料重新檢查了一遍。員工人數、營收、過往事故、倉庫位置、風險暴露，所有欄位都填得整整齊齊。最後，他把同一份檔案寄給同一家保險公司的兩位核保人員。

他想像中的流程很單純。

同一份資料，進到同一家公司，經過同一套規則，最後出來的價格就算有差，也不該差太遠。就像拿同一把鑰匙去開同一扇門，不會早上能打開，下午就忽然卡住。

結果回信進來時，他愣了一下。

第一位核保人員認為，這份保險應該收 10 萬。第二位核保人員認為，應該收 15 萬。

小楊盯著螢幕看了幾秒，他覺得這家公司真不可靠。

因為在他眼中，這根本是在抽籤。

抽中 A，命運是一個價格。抽中 B，命運是另一個價格。

本應該受過相同訓練，遵循相同規章的專業人士，給出了截然不同的兩個價格。

爲什麽？

這個星期解讀的是《雜訊：人類判斷的缺陷》，英文原書是 Noise: A Flaw in Human Judgment。

作者是丹尼爾．康納曼（Daniel Kahneman）、奧利維．席波尼（Olivier Sibony）與凱斯．桑思汀（Cass R. Sunstein）。

康納曼是《快思慢想》的作者，也是行為經濟學中最重要的人物之一，我們 4THINK 的讀者應該對他很熟悉；

桑思汀，是《推力》的共同作者之一；而席波尼，則長期研究策略決策。

這個作者陣容，提出了一個在《快思慢想》之上的理論框架，提供了一個更高的視角。

《快思慢想》説的是人類個體的各種心理偏誤，每一個偏誤單獨展開來講，這本書充分的證明了人類的理性有許多不足之處，人類的判斷充斥許多偏見和偏誤。如果你還沒看過《快思慢想》，我建議你在繼續閲讀之前，不妨先閲讀我寫過的解讀文章《人的理性脆弱到了什麼程度？》。

而今天解讀的這本《雜訊》，説的是當各種人、各種偏見偏誤交織在一起的情況下，我們應該怎麽做出判斷。

比如，在用一個醫院裏，今天遇到的醫師比較保守，明天遇到的醫師可能會比較激進；在同一個法庭裏，這位法官量刑較重，那位法官量刑較輕，儘管大家遵循的是同一套法律。

單看一個案例，這些判斷都像是「某個人的專業意見」。但把很多案例放在一起看，就會發現一件事情：

我們所處的社會系統，並沒有我們想像中那樣穩定，種瓜得瓜。而是充滿了人爲的，看不見的不確定性，

充滿了雜訊。

我們再看一個比喻，就能更好地理解雜訊。

想象浴室裡有一台體重計。

你早上刷牙前站上去，螢幕顯示 60 公斤。過了一分鐘，他再站一次，還是 60 公斤。第三次也是 60 公斤。你也知道自己的體重的確是 60 公斤。那麽這台體重計就是穩定的。

但如果你每次站上去都顯示 62 公斤，那麽我們就可以說這台體重計有偏誤，它穩定的高估了你的重量。

但如果你連續站上去三次，而數字分別是 60、62、65 公斤，那問題就不同了。它不是固定偏高或偏低，而是每次都晃。

那麽你猜，一般上人類的判斷比較像哪一種情況呢？

答案是最後一種情況，人類的判斷通常不是穩定客觀的準確，也不是固定偏高或偏低，而是時而偏高時而偏低，每次都晃。

如果回到小楊的保險例子，那兩位核保人員其實就像是兩台體重計，我們以爲他們能像機械那般精準測量，但兩台體重計有各自的偏誤，一個偏高一個偏低，一個開價 15 萬，一個開價 10 萬。

我們可以再設想，如果不是小楊親自去和核保人員談，而是讓公司的員工去談，那麽針對同一家公司、一樣的資料，這兩個核保人員最終又會各自給出不一樣的價格，可能一個開價 13 萬，一個開價 11 萬。

也就是説，人類個體的判斷系統本身就已經不穩定了，但如果我們站在系統的角度看，系統之内不同人的判斷差異又更大。

每個人都在拿著各自長短不一的尺在測量，測量的時候手還不能自主的一直在晃，然後每個人都信誓旦旦的說他的測量是準確的。

而這，就是我們所處的現實世界。

測量雜訊

你可能會想到一些反例，比如，數學老師改考卷，那麽他們給出的分數應該是極爲接近的，1+1 就是等於 2，無論換多少個數學老師去改，答案寫 2 就一定對。

是的，而這意味著現實情況的確還要再複雜一些，不是所有的領域或系統都有同等的雜訊，而是不同的系統有不同程度的雜訊。

那麽，怎樣的系統擁有最多的雜訊呢？

康納曼等人在書籍裡指出，雜訊比較常出現在醫療、法律、公共衛生、經濟預測、食安、鑑識科學、保釋、兒童保護、策略、績效評估與人才選拔等領域。

而這些領域都有一個共同點：它們都依賴人的專業判斷，但這些問題又無法像數學題那樣百分百依賴客觀計算。

而只要是人的專業判斷，那就會留下主觀的空間。這個主觀的空間若沒有被設計好，就會變成雜訊的入口。

書裡還提到了一個方法，叫做「雜訊審查」（noise audit），這個方法能測量一個公司，或一個系統之内，到底有多大的雜訊。

方法很直接，就是把同樣的案例交給多位專業判斷者，要求他們獨立判斷，再計算結果差異有多大。

大家的判斷差異有多大，就説明系統内的雜訊有多大。

這看起來簡單，但它很少被實行，無論是在醫院、法庭、政府。

原因也不難理解。因爲這就像把倉庫裡的燈打開，燈沒亮以前，大家都可以相信角落很乾淨；燈一亮，灰塵就不能再靠想像遮住。

大部分組織不太想知道自己有多不一致。

它們寧願相信專業人士之間差不多，流程之間差不多，部門之間差不多。因為一旦測量了，大家就得面對一個尷尬的問題：

原來我們引以爲傲的公平的制度，井井有條的辦事流程，其實内裏充滿了隨機、運氣的成分。

不過，也還是有些人願意打開倉庫裏的燈的，

我們一開始提到的保險例子，其實源自書中的一個真實案例：

有一家大型保險公司曾對内部做過「雜訊審查」，想看看員工們的判斷差距有多大。

他們選來了 48 位核保人員，要求他們評估同樣的一份風險資料。

公司高層原本預期，不同核保人員之間大概會有 10% 左右的差距，但最后結果發現，核保人員之間中位數差距竟然達到 55%。

而且請注意，這 55% 是中位數差距，事實上超過一半的案例裏，這個差距還要更大一些。

另外要注意的是，雜訊不會像很多人以為的那樣被「平均抵消」。

例如，當保費被高估，公司就可能失去客戶；如果保費被低估，公司就可能承接了賠錢風險。

這在統計表格上看，高估和低估似乎能互相抵消，但在現實裡，它們就是兩次不同的錯誤。

就像一家餐廳，昨天把湯煮到鹹得喝不下，今天又把湯煮到淡得像白水。

老闆不能說，兩天平均下來味道剛剛好，他只能承認，他犯了兩次錯誤。

錯誤不會因為方向相反，然後在思想上平均一下，就自動變成正確。

那麽，如果我們換個更聰明的方法，去獲得平均值呢？

你可能有聽説過，James Surowiecki 在《群眾的智慧》裡提到的這個例子：

金融學教授 Jack Treynor 曾在課堂上做過一個簡單實驗。

他拿出一個裝滿糖豆的罐子，讓 56 位學生各自猜裡面有多少顆糖豆。

罐子裡實際上有 850 顆糖豆。學生們的答案有高有低，有些人猜得很離譜，有些人離正確答案很近。

但把所有答案平均之後，群體答案是 871。

也就是說，整個班級平均下來，只比正確答案多了 21 顆。更有趣的是，56 位學生裡，只有一個人的答案比群體平均更接近正確答案。

現在，回到前面的保險公司案例，如果我們結合那群核保人員的報價並取一個平均，那是不是就能獲得穩定、靠譜的報價呢？

答案是肯定的。但這裏有一個許多人會忽略的「陷阱」。

那就是，當人們組織起一個團隊時，人與人之間的互動，就會讓判斷多了一種「社會影響」。

例如，第一個開口報價的人，會讓這個報價變成錨點；位階最高的人，會改變房間裡的氣氛；語氣最篤定的人，會讓其他人懷疑自己是不是想太多。

這時候，大家看似是在交換意見，但其實常常只是在尋找共識。

最終，在大家的討論之下，共識不會是理性得出的一個平均值，而是會向某個極端靠攏。

大家或許各自退一步，也可能迫於無奈完全讓步，讓那個未必最優的報價勝出。

這正是康納曼等人在書裡談到「社會影響雜訊」時，最值得注意的地方。

群體判斷本來有機會變準，是因為每個人的錯誤方向不一樣，平均之後，個別誤差會被沖淡。

原本有十把不同的尺，至少還能互相校正。結果一開會，九把尺都開始向其中一把尺靠攏。

這就不是雜訊被平均掉，而是雜訊被群體放大了。

所以，如果要透過「群體判斷」來獲得最優判斷，這的確是可行的，

關鍵是要讓每個個體獨立的，互不影響的得出自己的判斷，然後再取平均。

三種雜訊

好了，到目前爲止，我想你應該對「雜訊」這個概念有了一個大致的輪廓，我們知道「雜訊」説的是各種人、各種偏見偏誤充斥在系統之中。

在書中，康納曼等人將這統稱爲「系統雜訊」（System Noise）。

而如果我們走進系統雜訊，仔細觀察系統内部又有什麽不同類型的「雜訊」時，我們會發現它們可以被分成三類：

水準雜訊（Level Noise）、模式雜訊（Stable Pattern Noise）和情景雜訊（Occasion Noise）。

1. 水準雜訊（Level Noise）

水準雜訊説的是，個體的基本判斷偏向。

我説個我們上學時都會遇到的例子，你就能明白。

上學的時候，大家很容易察覺學校裏哪個老師比較嚴，哪個老師比較寬。

陳老師如果看到小明在上課時交談，10次裏9次會視而不見，只有一次作出懲罰，這裏我們可以説，陳老師對這件事的判斷水準比較寬。

張老師如果看到小明在上課時交談，10次裏9次會選擇懲罰，只有一次視而不見，這裏我們可以説，張老師對這件事的判斷水準比較嚴。

又比如，書裏有大量數據指出，就算是公認訓練有素的，被社會要求絕對公平的職業，如法官，也會因爲個體差異不同，而表現出判斷水準的偏差。

這些研究發現，有些法官普遍就是會量刑較重，有些法官普遍量刑較輕。

當你單看張法官的一次量刑，他的量刑水準未必明顯。

但如果你看了張法官一百次量刑，再與其他法官對比，差異就會浮出來，你就能知道張法官的量刑水準偏高還是偏低。

2. 模式雜訊（Stable Pattern Noise）

模式雜訊在台版翻譯爲型態雜訊，但我覺得模式雜訊翻譯得比較貼切，所以這裏用模式雜訊。

要瞭解模式雜訊，我們需要借助另外一個比喻。

你知道，每個人對食物的偏好都不同，小陳喜歡每一道菜都加辣，只要那道菜能讓他吃辣，他就會給出好評；而小張也一樣，小張也愛辣，只要有辣他就給出好評。

這時我們可以説，小陳和小張對食物的判斷水準都是偏要辣，而且從這個維度看來判斷水準相差不多。

但是，喜歡辣的小陳卻有一個特例，那就是吃宮保鷄丁的話，他只喜歡吃甜而無辣的宮保鷄丁，原因是他媽媽從來都是這樣做這道菜的，對於有辣的宮保鷄丁，小陳會給出差評。

而小張則認爲宮保鷄丁，理所當然的要有辣。

這裏，小陳例外的對宮保鷄丁作出水準以外的判斷，就叫做「模式雜訊」。

用回書中關於法官的研究來說，法官們的量刑不單只會出現「誰整體比較嚴，誰整體比較寬」的水準雜訊差異。

有些法官平均上未必特別嚴，但碰到某一類案件時，就會穩定地變嚴；有些法官平均上未必特別寬，但碰到某一類被告時，就會穩定地變寬。

例如，有的法官可能對毒品案件特別嚴，有的法官可能對白領犯罪特別嚴。

有的法官看見年輕被告，會認為應該給他一次重新開始的機會。另一位法官卻可能認為，正因為他還年輕，所以更要用重刑讓他記住教訓。

這時候，問題就不只是「抽到嚴格法官，還是寬鬆法官」。

問題變成：這個案件的特徵，剛好撞上了哪一位法官心裡的哪一條判斷模式？

模式雜訊是比較隱蔽的，它不像水準雜訊那樣容易在統計上看出來，因為平均值會把很多細節磨平。

而很多時候，它只是個體的經驗、價值觀、過去創傷和成功記憶混在一起，變成了一套個體自己也難以意識到的評分表。

3. 情景雜訊（Occasion Noise）

第三種，是情景雜訊。

如果說水準雜訊是「這個人平常比較愛辣」，模式雜訊是「這個人遇到某一道菜時會有固定例外」，那情景雜訊說的就是：

同一個人，面對同一道菜，在不同情景下，也可能給出不同評價。

例如，小陳平常愛吃辣，但如果那天他剛感冒，喉嚨痛，胃也不舒服，平常喜歡的辣味就可能變得刺口。

又或者，他那天剛運動完，餓得很厲害，那碗原本只算普通的麵，突然變得特別好吃。

菜沒有變，變的是吃菜的人當下的狀態。

這就是情景雜訊。簡單來説，就是因應個體當下所處的環境、情境的不同，個體做出的判斷會有所不同。

關於這點，最常被引用的是關於法官與午餐的研究。

2011 年，PNAS 的一項研究。

他們追蹤由法官參與的以色列假釋委員會，一千多個假釋決定。

他們發現，每次用餐休息之後，法官的裁決就會變得比較寬；而越接近下一次用餐休息，法官的裁決就會比較嚴。

也就是説，法官們肚子越餓，下的裁決就越嚴格；吃飽了之後，裁決的寬容度又有所回升。

不過，這個研究後來也曾被質疑，質疑者認為，案件排序可能不是隨機的，所以不宜把它簡化成「法官吃飽就比較仁慈」。

但無論如何，這研究仍然給出了一個有用的提醒：

在司法程序裏，審案順序、休息時間、疲勞程度這些看似邊緣的安排，都可能成為干擾判斷的情景雜訊。

在我看來，水準雜訊和模式雜訊，至少還能被包裝成「我的標準」或「我的經驗」，就算不夠客觀理性，但畢竟它們屬於我的一部分。

但情景雜訊卻提醒著：

原來我以為很莊重的判斷，也可能被睡眠、飢餓、天氣、上一場會議、剛收到的一封訊息改變。

我曾在《情景影響力》這篇文章做過更詳細的探討，如果你有興趣可以看看。

好了，理解了這三類雜訊之後，我們已經知道，這個世界充滿了人爲的決策雜訊。

所以接下來的問題自然是：

如何消除雜訊？

決策保健：不是更聰明，而是更乾淨

當你的手處理過垃圾，你的手骯髒了，你知道手上一定沾滿了細菌。

這時，你不需要拿出顯微鏡去研究手上有什麽類型細菌，然後針對性處理。

你只需要按照正常的做法，去用肥皂洗手、消毒，這樣的一個簡單有效的流程，就能讓手變得乾净、保持乾净。

決策也是如此。

你不需要每一次都先問：「這次是哪一種偏誤弄歪了我的判斷？」

你只需要一個簡單有效的流程，就能讓決策和判斷重回理性。

康納曼等人把這個流程起名為「中介評估議定書」（Mediating Assessments Protocol, MAP）。

好吧，説這是個流程簡單——其實也並不簡單，畢竟有六個步驟那麽多，而且這名字一看就知道步驟繁瑣。

這裏爲了便於你理解，我們不妨用一個故事闡述這個流程，然後你再看步驟列表就會清晰很多：

在一間會議室裏，五個人，在討論要不要錄取一位叫小明的工程師。

面試剛結束，小明走出去，門還沒完全關上，坐在主位的陳經理就先開口了：

「我覺得他可以，思路清晰，態度也好。」

他語氣很篤定，然後掃了一圈。

坐在角落的小強其實還有遲疑。

小明的履歷漂亮，說話也流暢，但有個舊公司的專案細節他沒問清楚。那個細節有點怪，他想再追問。

但陳經理已經說了。

而且陳經理在公司做了十二年，小強才進來兩年。

而且旁邊的同事已經在輕輕點頭了。

所以小強沒有說什麼。他也點了頭。

五個人，用了二十分鐘，達成了「共識」。

小明後來在試用期出了問題。

那個小強沒問出口的細節，最後真的是一個洞。

他回想起那場會議，有點悶，但說不清楚悶的是什麼。不是陳經理的錯，也不是他太懦弱。是那個房間的空氣，在陳經理開口的那一刻，就已經定型了。

一個人說了「好」，其他人就不再真的在想了，他們開始想怎麼說服自己這是「好的」。

結果看起來是共識，但其實更像是陳經理的個人判斷。

那麽有沒有辦法，讓五個人各自心裡的判斷，都真的被客觀考慮到？

辦法是有的，但不是讓陳經理邀請「大家來說說看」，而是在大家開口之前，就先決定好流程。

假設時光倒流，同樣那間會議室，同樣五個人，同樣的小明剛走出去。

唯一的不同是，陳經理看過了《雜訊》這本書。

所以這一次，陳經理先說的不是結論。他說：

「我們把這次面試分幾塊來看：技術底子、溝通能力、過去的實際產出、還有跟團隊的合不合。

每個人先自己想，然後寫下來，不要討論、不要給一個整體感覺。」

就這一句，改變了接下來的走向。

人腦有個麻煩的習慣，叫月暈效應（Halo Effect）：覺得一個人整體不錯，就開始覺得他每一塊都不錯。

小明說話流暢，你就覺得他技術底子穩；眼神直接，你就覺得他做事靠譜。但其實兩者未必有因果關係。

所以不先抛出一個整體評價，而是評價的維度拆開，才能強迫大腦仔細思考。

「你說技術底子好，有什麼具體的東西撐著嗎？那個說不清楚的專案，到底怎麼了？」

評估每一塊的時候，還要擴大視野，和歷史數據進行比較，而不只是憑感覺去看小明這個人。

陳經理問了問部門主管：

「過去錄取的人裡，做得好的有什麼共同點？這個職缺，遇到類似背景的人，結果怎樣？」

一旦開始用案件之外的數據去考量，就會發現小明好像欠缺了東西。

但是，陳經理不打算把這説出來，因爲判斷是會感染的，而大家還在紙上寫著自己的思考。

寫完了各自的判斷，討論終於開始了。陳經理又强調，我們一個維度一個維度地討論，不要說整體結論。

討論完了每個維度后，小李迫不及待地問：

「現在我們有結論了嗎？」

小李似乎心中有了自己的結論。

但陳經理沒有讓小李發表，而是讓大家靜靜地，把第二次的判斷寫下來。

第一次寫，是爲了在任何人開口之前，把各自真實的想法先記下來。

拆開討論，是爲了讓大家互補彼此沒看到的角落。

第二次寫，是爲了讓每個人聽完之後，有機會自己再判斷一次，無論該不該都好，關鍵是要讓每個個體自己想清楚，而不是因為他人說了什麼。

這時，我們可以説，五個人的各自判斷，才真的都進來了。

前面的步驟走完，陳經理才問最後一個問題：

「整體你怎麼看？」

結論還是要做的，關鍵是不能夠在想清楚之前、理性思考之前，就倉促的給出結論。

但現在不一樣了，大家都有充分的時間去思考了、想清楚了，也討論了，修改了判斷。

這時再讓直覺去概括先前的所思所想，這時的「整體感覺」，才會足夠公正。

這時的判斷，才值得被信任。

好了，故事説完，其實拆開這個流程，就是六個步驟：

把評估拆開為多個維度，不給整體感覺，以防止月暈效應
每個維度的評估，都盡量引入數據或經驗，以防止見樹不見林
要求各自寫下評估，不允許討論，以防止「社會影響」
各自寫完第一次評估后，可以開始互動討論，但要逐個維度的評估，以防止以偏概全
完成了討論后，每人各自寫下第二次評估
完成了以上步驟后，可以透過直覺，給出一個概括了大家綜合判斷的結論

這才是群體智慧的奧妙之處。

智慧并不會無故的出現在會議室裏，不是很多人坐在一起智慧就自然湧現。

而是要完美整合各自的不完美判斷，而這卻能得出一個最優的判斷。

我獨自闖蕩（充滿雜訊的）世界

到這裡，可能你還會有一個疑問：

這本書是不是主要給法官、醫師、公司主管、保險公司和政府看的？

《雜訊》確實很適合組織閱讀，因為組織的雜訊成本巨大。

但我認為，它也提供了個體認識這個世界，一個非常重要的概念。

就好像以前的人不知道細菌的存在，那就算想照顧衛生也無從下手。

而認識雜訊這個概念，仿佛讓我們看到了以前無法看見的，處於社會各處的無形大手。

對於我們個人來説，我們無法消除社會中的各種雜訊，但我們希望把雜訊對我們的生活影響降到最低。

而對此，我總結出了一個決策心法。

對，一個心法就夠了，太複雜反而記不了。

這個心法就是：

增加思考的次數，最好把每次思考記錄下來。

一個人走進醫院，醫師看了他的影像報告，告訴他沒事；

他換到另一家醫院，另外醫師看著同一份報告，可能會告訴他必須立刻動手術。

如果你在面臨著一些，會極大左右人生方向的決定，那多問幾個相關專家意見，再綜合考慮他們的判斷，你才會得出接近最好的選擇。

而多問幾個專家的意見，這本質上就是增加思考的次數，降低你倉促給出判斷結論的風險。

對於你自己一天之內的判斷，也可以這麽做。

早上精神好時，你可能會覺得某個計畫值得做；晚上疲倦時，又覺得自己根本不該開始。

剛收到讚美時，覺得人生方向很清楚；剛被批評時，又覺得整個人都不行。週一雄心勃勃，週五只想放棄。

這些變化有時反映新資訊，大多數時候只是你自然產生的思維雜訊。

但是，如果每次你想下判斷的時候，你先做幾次延遲，把每次的衝動都記錄下來的話，

你就自然而然地得到了一個，屬於不同的自己的獨立判斷，也會多出幾個分析事情的維度。

所以，主動增加寫下思考的次數吧。

每一次寫下思考，你就等於停住了思緒的隨機游走。

每一次寫下思考，你就容易發現之前被忽略的信號。

最後再重看思考，直覺才會引領你做出最佳的決定。

本文是《每週讀懂一本書+》的限時免費文章。

如果你喜歡這種書籍深度解讀，可以先加入等候名單；正式推出時，我會把首次訂閱折扣寄給名單上的讀者。

注：若以上按鈕沒反應，請點擊這裏