人的判斷缺陷到了什麼程度? | 深度解讀《雜訊》
小楊最近想替公司買一份保險。
那天早上,他把公司的資料重新檢查了一遍。員工人數、營收、過往事故、倉庫位置、風險暴露,所有欄位都填得整整齊齊。最後,他把同一份檔案寄給同一家保險公司的兩位核保人員。
他想像中的流程很單純。
同一份資料,進到同一家公司,經過同一套規則,最後出來的價格就算有差,也不該差太遠。就像拿同一把鑰匙去開同一扇門,不會早上能打開,下午就忽然卡住。
結果回信進來時,他愣了一下。
第一位核保人員認為,這份保險應該收 10 萬。第二位核保人員認為,應該收 15 萬。
小楊盯著螢幕看了幾秒,他覺得這家公司真不可靠。
因為在他眼中,這根本是在抽籤。
抽中 A,命運是一個價格。抽中 B,命運是另一個價格。
本應該受過相同訓練,遵循相同規章的專業人士,給出了截然不同的兩個價格。
爲什麽?
這個星期解讀的是《雜訊:人類判斷的缺陷》,英文原書是 Noise: A Flaw in Human Judgment。
作者是丹尼爾.康納曼(Daniel Kahneman)、奧利維.席波尼(Olivier Sibony)與凱斯.桑思汀(Cass R. Sunstein)。
康納曼是《快思慢想》的作者,也是行為經濟學中最重要的人物之一,我們 4THINK 的讀者應該對他很熟悉;
桑思汀,是《推力》的共同作者之一;而席波尼,則長期研究策略決策。
這個作者陣容,提出了一個在《快思慢想》之上的理論框架,提供了一個更高的視角。
《快思慢想》説的是人類個體的各種心理偏誤,每一個偏誤單獨展開來講,這本書充分的證明了人類的理性有許多不足之處,人類的判斷充斥許多偏見和偏誤。如果你還沒看過《快思慢想》,我建議你在繼續閲讀之前,不妨先閲讀我寫過的解讀文章《人的理性脆弱到了什麼程度?》。
而今天解讀的這本《雜訊》,説的是當各種人、各種偏見偏誤交織在一起的情況下,我們應該怎麽做出判斷。
比如,在用一個醫院裏,今天遇到的醫師比較保守,明天遇到的醫師可能會比較激進;在同一個法庭裏,這位法官量刑較重,那位法官量刑較輕,儘管大家遵循的是同一套法律。
單看一個案例,這些判斷都像是「某個人的專業意見」。但把很多案例放在一起看,就會發現一件事情:
我們所處的社會系統,並沒有我們想像中那樣穩定,種瓜得瓜。而是充滿了人爲的,看不見的不確定性,
充滿了雜訊。
我們再看一個比喻,就能更好地理解雜訊。
想象浴室裡有一台體重計。
你早上刷牙前站上去,螢幕顯示 60 公斤。過了一分鐘,他再站一次,還是 60 公斤。第三次也是 60 公斤。你也知道自己的體重的確是 60 公斤。那麽這台體重計就是穩定的。
但如果你每次站上去都顯示 62 公斤,那麽我們就可以說這台體重計有偏誤,它穩定的高估了你的重量。
但如果你連續站上去三次,而數字分別是 60、62、65 公斤,那問題就不同了。它不是固定偏高或偏低,而是每次都晃。
那麽你猜,一般上人類的判斷比較像哪一種情況呢?
答案是最後一種情況,人類的判斷通常不是穩定客觀的準確,也不是固定偏高或偏低,而是時而偏高時而偏低,每次都晃。
如果回到小楊的保險例子,那兩位核保人員其實就像是兩台體重計,我們以爲他們能像機械那般精準測量,但兩台體重計有各自的偏誤,一個偏高一個偏低,一個開價 15 萬,一個開價 10 萬。
我們可以再設想,如果不是小楊親自去和核保人員談,而是讓公司的員工去談,那麽針對同一家公司、一樣的資料,這兩個核保人員最終又會各自給出不一樣的價格,可能一個開價 13 萬, 一個開價 11 萬。
也就是説,人類個體的判斷系統本身就已經不穩定了,但如果我們站在系統的角度看,系統之内不同人的判斷差異又更大。
每個人都在拿著各自長短不一的尺在測量,測量的時候手還不能自主的一直在晃,然後每個人都信誓旦旦的說他的測量是準確的。
而這,就是我們所處的現實世界。
測量雜訊
你可能會想到一些反例,比如,數學老師改考卷,那麽他們給出的分數應該是極爲接近的,1+1 就是等於 2,無論換多少個數學老師去改,答案寫 2 就一定對。
是的,而這意味著現實情況的確還要再複雜一些,不是所有的領域或系統都有同等的雜訊,而是不同的系統有不同程度的雜訊。
那麽,怎樣的系統擁有最多的雜訊呢?
康納曼等人在書籍裡指出,雜訊比較常出現在醫療、法律、公共衛生、經濟預測、食安、鑑識科學、保釋、兒童保護、策略、績效評估與人才選拔等領域。
而這些領域都有一個共同點:它們都依賴人的專業判斷,但這些問題又無法像數學題那樣百分百依賴客觀計算。
而只要是人的專業判斷,那就會留下主觀的空間。這個主觀的空間若沒有被設計好,就會變成雜訊的入口。
書裡還提到了一個方法,叫做「雜訊審查」(noise audit),這個方法能測量一個公司,或一個系統之内,到底有多大的雜訊。
方法很直接,就是把同樣的案例交給多位專業判斷者,要求他們獨立判斷,再計算結果差異有多大。
大家的判斷差異有多大,就説明系統内的雜訊有多大。
這看起來簡單,但它很少被實行,無論是在醫院、法庭、政府。
原因也不難理解。因爲這就像把倉庫裡的燈打開,燈沒亮以前,大家都可以相信角落很乾淨;燈一亮,灰塵就不能再靠想像遮住。
大部分組織不太想知道自己有多不一致。
它們寧願相信專業人士之間差不多,流程之間差不多,部門之間差不多。因為一旦測量了,大家就得面對一個尷尬的問題:
原來我們引以爲傲的公平的制度,井井有條的辦事流程,其實内裏充滿了隨機、運氣的成分。
不過,也還是有些人願意打開倉庫裏的燈的,
我們一開始提到的保險例子,其實源自書中的一個真實案例:
有一家大型保險公司曾對内部做過「雜訊審查」,想看看員工們的判斷差距有多大。
他們選來了 48 位核保人員,要求他們評估同樣的一份風險資料。
公司高層原本預期,不同核保人員之間大概會有 10% 左右的差距,但最后結果發現,核保人員之間中位數差距竟然達到 55%。
而且請注意,這 55% 是中位數差距,事實上超過一半的案例裏,這個差距還要更大一些。
另外要注意的是,雜訊不會像很多人以為的那樣被「平均抵消」。
例如,當保費被高估,公司就可能失去客戶;如果保費被低估,公司就可能承接了賠錢風險。
這在統計表格上看,高估和低估似乎能互相抵消,但在現實裡,它們就是兩次不同的錯誤。
就像一家餐廳,昨天把湯煮到鹹得喝不下,今天又把湯煮到淡得像白水。
老闆不能說,兩天平均下來味道剛剛好,他只能承認,他犯了兩次錯誤。
錯誤不會因為方向相反,然後在思想上平均一下,就自動變成正確。
那麽,如果我們換個更聰明的方法,去獲得平均值呢?
你可能有聽説過,James Surowiecki 在《群眾的智慧》裡提到的這個例子:
金融學教授 Jack Treynor 曾在課堂上做過一個簡單實驗。
他拿出一個裝滿糖豆的罐子,讓 56 位學生各自猜裡面有多少顆糖豆。
罐子裡實際上有 850 顆糖豆。學生們的答案有高有低,有些人猜得很離譜,有些人離正確答案很近。
但把所有答案平均之後,群體答案是 871。
也就是說,整個班級平均下來,只比正確答案多了 21 顆。更有趣的是,56 位學生裡,只有一個人的答案比群體平均更接近正確答案。
現在,回到前面的保險公司案例,如果我們結合那群核保人員的報價並取一個平均,那是不是就能獲得穩定、靠譜的報價呢?
答案是肯定的。但這裏有一個許多人會忽略的「陷阱」。
那就是,當人們組織起一個團隊時,人與人之間的互動,就會讓判斷多了一種「社會影響」。
例如,第一個開口報價的人,會讓這個報價變成錨點;位階最高的人,會改變房間裡的氣氛;語氣最篤定的人,會讓其他人懷疑自己是不是想太多。
這時候,大家看似是在交換意見,但其實常常只是在尋找共識。
最終,在大家的討論之下,共識不會是理性得出的一個平均值,而是會向某個極端靠攏。
大家或許各自退一步,也可能迫於無奈完全讓步,讓那個未必最優的報價勝出。
這正是康納曼等人在書裡談到「社會影響雜訊」時,最值得注意的地方。
群體判斷本來有機會變準,是因為每個人的錯誤方向不一樣,平均之後,個別誤差會被沖淡。
原本有十把不同的尺,至少還能互相校正。結果一開會,九把尺都開始向其中一把尺靠攏。
這就不是雜訊被平均掉,而是雜訊被群體放大了。
所以,如果要透過「群體判斷」來獲得最優判斷,這的確是可行的,
關鍵是要讓每個個體獨立的,互不影響的得出自己的判斷,然後再取平均。
三種雜訊
好了,到目前爲止,我想你應該對「雜訊」這個概念有了一個大致的輪廓,我們知道「雜訊」説的是各種人、各種偏見偏誤充斥在系統之中。
在書中,康納曼等人將這統稱爲「系統雜訊」(System Noise)。
而如果我們走進系統雜訊,仔細觀察系統内部又有什麽不同類型的「雜訊」時,我們會發現它們可以被分成三類:
水準雜訊(Level Noise)、模式雜訊(Stable Pattern Noise)和情景雜訊(Occasion Noise)。
1. 水準雜訊(Level Noise)
水準雜訊説的是,個體的基本判斷偏向。
我説個我們上學時都會遇到的例子,你就能明白。
上學的時候,大家很容易察覺學校裏哪個老師比較嚴,哪個老師比較寬。
陳老師如果看到小明在上課時交談,10次裏9次會視而不見,只有一次作出懲罰,這裏我們可以説,陳老師對這件事的判斷水準比較寬。
張老師如果看到小明在上課時交談,10次裏9次會選擇懲罰,只有一次視而不見,這裏我們可以説,張老師對這件事的判斷水準比較嚴。
又比如,書裏有大量數據指出,就算是公認訓練有素的,被社會要求絕對公平的職業,如法官,也會因爲個體差異不同,而表現出判斷水準的偏差。
這些研究發現,有些法官普遍就是會量刑較重,有些法官普遍量刑較輕。
當你單看張法官的一次量刑,他的量刑水準未必明顯。
但如果你看了張法官一百次量刑,再與其他法官對比,差異就會浮出來,你就能知道張法官的量刑水準偏高還是偏低。
2. 模式雜訊(Stable Pattern Noise)
模式雜訊在台版翻譯爲型態雜訊,但我覺得模式雜訊翻譯得比較貼切,所以這裏用模式雜訊。
要瞭解模式雜訊,我們需要借助另外一個比喻。
你知道,每個人對食物的偏好都不同,小陳喜歡每一道菜都加辣,只要那道菜能讓他吃辣,他就會給出好評;而小張也一樣,小張也愛辣,只要有辣他就給出好評。
這時我們可以説,小陳和小張對食物的判斷水準都是偏要辣,而且從這個維度看來判斷水準相差不多。
但是,喜歡辣的小陳卻有一個特例,那就是吃宮保鷄丁的話,他只喜歡吃甜而無辣的宮保鷄丁,原因是他媽媽從來都是這樣做這道菜的,對於有辣的宮保鷄丁,小陳會給出差評。
而小張則認爲宮保鷄丁,理所當然的要有辣。
這裏,小陳例外的對宮保鷄丁作出水準以外的判斷,就叫做「模式雜訊」。
用回書中關於法官的研究來說,法官們的量刑不單只會出現「誰整體比較嚴,誰整體比較寬」的水準雜訊差異。
有些法官平均上未必特別嚴,但碰到某一類案件時,就會穩定地變嚴;有些法官平均上未必特別寬,但碰到某一類被告時,就會穩定地變寬。
例如,有的法官可能對毒品案件特別嚴,有的法官可能對白領犯罪特別嚴。
有的法官看見年輕被告,會認為應該給他一次重新開始的機會。另一位法官卻可能認為,正因為他還年輕,所以更要用重刑讓他記住教訓。
這時候,問題就不只是「抽到嚴格法官,還是寬鬆法官」。
問題變成:這個案件的特徵,剛好撞上了哪一位法官心裡的哪一條判斷模式?
模式雜訊是比較隱蔽的,它不像水準雜訊那樣容易在統計上看出來,因為平均值會把很多細節磨平。
而很多時候,它只是個體的經驗、價值觀、過去創傷和成功記憶混在一起,變成了一套個體自己也難以意識到的評分表。
3. 情景雜訊(Occasion Noise)
第三種,是情景雜訊。
如果說水準雜訊是「這個人平常比較愛辣」,模式雜訊是「這個人遇到某一道菜時會有固定例外」,那情景雜訊說的就是:
同一個人,面對同一道菜,在不同情景下,也可能給出不同評價。
例如,小陳平常愛吃辣,但如果那天他剛感冒,喉嚨痛,胃也不舒服,平常喜歡的辣味就可能變得刺口。
又或者,他那天剛運動完,餓得很厲害,那碗原本只算普通的麵,突然變得特別好吃。
菜沒有變,變的是吃菜的人當下的狀態。
這就是情景雜訊。簡單來説,就是因應個體當下所處的環境、情境的不同,個體做出的判斷會有所不同。
關於這點,最常被引用的是關於法官與午餐的研究。
2011 年,PNAS 的一項研究。
他們追蹤由法官參與的以色列假釋委員會,一千多個假釋決定。
他們發現,每次用餐休息之後,法官的裁決就會變得比較寬;而越接近下一次用餐休息,法官的裁決就會比較嚴。
也就是説,法官們肚子越餓,下的裁決就越嚴格;吃飽了之後,裁決的寬容度又有所回升。
不過,這個研究後來也曾被質疑,質疑者認為,案件排序可能不是隨機的,所以不宜把它簡化成「法官吃飽就比較仁慈」。
但無論如何,這研究仍然給出了一個有用的提醒:
在司法程序裏,審案順序、休息時間、疲勞程度這些看似邊緣的安排,都可能成為干擾判斷的情景雜訊。
在我看來,水準雜訊和模式雜訊,至少還能被包裝成「我的標準」或「我的經驗」,就算不夠客觀理性,但畢竟它們屬於我的一部分。
但情景雜訊卻提醒著:
原來我以為很莊重的判斷,也可能被睡眠、飢餓、天氣、上一場會議、剛收到的一封訊息改變。
我曾在《情景影響力》這篇文章做過更詳細的探討,如果你有興趣可以看看。
好了,理解了這三類雜訊之後,我們已經知道,這個世界充滿了人爲的決策雜訊。
所以接下來的問題自然是:
如何消除雜訊?
決策保健:不是更聰明,而是更乾淨
當你的手處理過垃圾,你的手骯髒了,你知道手上一定沾滿了細菌。
這時,你不需要拿出顯微鏡去研究手上有什麽類型細菌,然後針對性處理。
你只需要按照正常的做法,去用肥皂洗手、消毒,這樣的一個簡單有效的流程,就能讓手變得乾净、保持乾净。
決策也是如此。
你不需要每一次都先問:「這次是哪一種偏誤弄歪了我的判斷?」
你只需要一個簡單有效的流程,就能讓決策和判斷重回理性。
康納曼等人把這個流程起名為「中介評估議定書」(Mediating Assessments Protocol, MAP)。
好吧,説這是個流程簡單——其實也並不簡單,畢竟有六個步驟那麽多,而且這名字一看就知道步驟繁瑣。
這裏爲了便於你理解,我們不妨用一個故事闡述這個流程,然後你再看步驟列表就會清晰很多:
在一間會議室裏,五個人,在討論要不要錄取一位叫小明的工程師。
面試剛結束,小明走出去,門還沒完全關上,坐在主位的陳經理就先開口了:
「我覺得他可以,思路清晰,態度也好。」
他語氣很篤定,然後掃了一圈。
坐在角落的小強其實還有遲疑。
小明的履歷漂亮,說話也流暢,但有個舊公司的專案細節他沒問清楚。那個細節有點怪,他想再追問。
但陳經理已經說了。
而且陳經理在公司做了十二年,小強才進來兩年。
而且旁邊的同事已經在輕輕點頭了。
所以小強沒有說什麼。他也點了頭。
五個人,用了二十分鐘,達成了「共識」。
小明後來在試用期出了問題。
那個小強沒問出口的細節,最後真的是一個洞。
他回想起那場會議,有點悶,但說不清楚悶的是什麼。不是陳經理的錯,也不是他太懦弱。是那個房間的空氣,在陳經理開口的那一刻,就已經定型了。
一個人說了「好」,其他人就不再真的在想了,他們開始想怎麼說服自己這是「好的」。
結果看起來是共識,但其實更像是陳經理的個人判斷。
那麽有沒有辦法,讓五個人各自心裡的判斷,都真的被客觀考慮到?
辦法是有的,但不是讓陳經理邀請「大家來說說看」,而是在大家開口之前,就先決定好流程。
假設時光倒流,同樣那間會議室,同樣五個人,同樣的小明剛走出去。
唯一的不同是,陳經理看過了《雜訊》這本書。
所以這一次,陳經理先說的不是結論。他說:
「我們把這次面試分幾塊來看:技術底子、溝通能力、過去的實際產出、還有跟團隊的合不合。
每個人先自己想,然後寫下來,不要討論、不要給一個整體感覺。」
就這一句,改變了接下來的走向。
人腦有個麻煩的習慣,叫月暈效應(Halo Effect):覺得一個人整體不錯,就開始覺得他每一塊都不錯。
小明說話流暢,你就覺得他技術底子穩;眼神直接,你就覺得他做事靠譜。但其實兩者未必有因果關係。
所以不先抛出一個整體評價,而是評價的維度拆開,才能強迫大腦仔細思考。
「你說技術底子好,有什麼具體的東西撐著嗎?那個說不清楚的專案,到底怎麼了?」
評估每一塊的時候,還要擴大視野,和歷史數據進行比較,而不只是憑感覺去看小明這個人。
陳經理問了問部門主管:
「過去錄取的人裡,做得好的有什麼共同點?這個職缺,遇到類似背景的人,結果怎樣?」
一旦開始用案件之外的數據去考量,就會發現小明好像欠缺了東西。
但是,陳經理不打算把這説出來,因爲判斷是會感染的,而大家還在紙上寫著自己的思考。
寫完了各自的判斷,討論終於開始了。陳經理又强調,我們一個維度一個維度地討論,不要說整體結論。
討論完了每個維度后,小李迫不及待地問:
「現在我們有結論了嗎?」
小李似乎心中有了自己的結論。
但陳經理沒有讓小李發表,而是讓大家靜靜地,把第二次的判斷寫下來。
第一次寫,是爲了在任何人開口之前,把各自真實的想法先記下來。
拆開討論,是爲了讓大家互補彼此沒看到的角落。
第二次寫,是爲了讓每個人聽完之後,有機會自己再判斷一次,無論該不該都好,關鍵是要讓每個個體自己想清楚,而不是因為他人說了什麼。
這時,我們可以説,五個人的各自判斷,才真的都進來了。
前面的步驟走完,陳經理才問最後一個問題:
「整體你怎麼看?」
結論還是要做的,關鍵是不能夠在想清楚之前、理性思考之前,就倉促的給出結論。
但現在不一樣了,大家都有充分的時間去思考了、想清楚了,也討論了,修改了判斷。
這時再讓直覺去概括先前的所思所想,這時的「整體感覺」,才會足夠公正。
這時的判斷,才值得被信任。
好了,故事説完,其實拆開這個流程,就是六個步驟:
- 把評估拆開為多個維度,不給整體感覺,以防止月暈效應
- 每個維度的評估,都盡量引入數據或經驗,以防止見樹不見林
- 要求各自寫下評估,不允許討論,以防止「社會影響」
- 各自寫完第一次評估后,可以開始互動討論,但要逐個維度的評估,以防止以偏概全
- 完成了討論后,每人各自寫下第二次評估
- 完成了以上步驟后,可以透過直覺,給出一個概括了大家綜合判斷的結論
這才是群體智慧的奧妙之處。
智慧并不會無故的出現在會議室裏,不是很多人坐在一起智慧就自然湧現。
而是要完美整合各自的不完美判斷,而這卻能得出一個最優的判斷。
我獨自闖蕩(充滿雜訊的)世界
到這裡,可能你還會有一個疑問:
這本書是不是主要給法官、醫師、公司主管、保險公司和政府看的?
《雜訊》確實很適合組織閱讀,因為組織的雜訊成本巨大。
但我認為,它也提供了個體認識這個世界,一個非常重要的概念。
就好像以前的人不知道細菌的存在,那就算想照顧衛生也無從下手。
而認識雜訊這個概念,仿佛讓我們看到了以前無法看見的,處於社會各處的無形大手。
對於我們個人來説,我們無法消除社會中的各種雜訊,但我們希望把雜訊對我們的生活影響降到最低。
而對此,我總結出了一個決策心法。
對,一個心法就夠了,太複雜反而記不了。
這個心法就是:
增加思考的次數,最好把每次思考記錄下來。
一個人走進醫院,醫師看了他的影像報告,告訴他沒事;
他換到另一家醫院,另外醫師看著同一份報告,可能會告訴他必須立刻動手術。
如果你在面臨著一些,會極大左右人生方向的決定,那多問幾個相關專家意見,再綜合考慮他們的判斷,你才會得出接近最好的選擇。
而多問幾個專家的意見,這本質上就是增加思考的次數,降低你倉促給出判斷結論的風險。
對於你自己一天之內的判斷,也可以這麽做。
早上精神好時,你可能會覺得某個計畫值得做;晚上疲倦時,又覺得自己根本不該開始。
剛收到讚美時,覺得人生方向很清楚;剛被批評時,又覺得整個人都不行。週一雄心勃勃,週五只想放棄。
這些變化有時反映新資訊,大多數時候只是你自然產生的思維雜訊。
但是,如果每次你想下判斷的時候,你先做幾次延遲,把每次的衝動都記錄下來的話,
你就自然而然地得到了一個,屬於不同的自己的獨立判斷,也會多出幾個分析事情的維度。
所以,主動增加寫下思考的次數吧。
每一次寫下思考,你就等於停住了思緒的隨機游走。
每一次寫下思考,你就容易發現之前被忽略的信號。
最後再重看思考,直覺才會引領你做出最佳的決定。
本文是《每週讀懂一本書+》的限時免費文章。
如果你喜歡這種書籍深度解讀,可以先加入等候名單;正式推出時,我會把首次訂閱折扣寄給名單上的讀者。
注:若以上按鈕沒反應,請點擊這裏