主觀判斷的不確定風險: 準確 vs 精確 (Subjective Judgement under Uncertainty)

作者：Snow Hill 高山雪 6月 25, 2022

在不確定性情況下，機率應該怎樣判斷？

我在＜Subjective Probability Estimation＞一文已寫過就主觀機率，如何 optimise 優化、calibrate 校正、mindful of hypothesis 警惕假設、error budget 預留錯誤空間、quantify verbal expression of probability 量化人們的語言上的真正機率、clarify 澄清機率。

資訊不確性風險

Smithson (2015) 為決策上的不確定性 (Uncertainty) 列出兩大源頭：(1) Ambiguity 意見模糊；(2) Conflict 意見衝突。

Ambiguity 意見模糊是，來自同一個 continuum 的質性意見，或一些可能的結果。Ambiguity is a type of uncertainty from one message。

Ambiguity 是用 variance 來形容。
舉例：同一個人在不同時間的意見或判斷差異，可用連續型機率分佈 Continuous distribution ，即 Variance，來形容他的判斷分佈。

Conflict 意見衝突是，來自多個 sources 的不同的結果。Conflict is a type of uncertainty from multiple messages。

Conflict 是有多元後果的隱含意義 (variability of outcomes)。
舉例：不同人在同一時間或不同時間的意見或判斷差異。
跟據 J. Nathan Matias (2017) 引述 Daniel Kahneman 指出，由於這個不同人的判斷差異，而得出的後果差異 (Variability of outcome)，可以用以下公式比較各人的判斷差異：

而不確定性 uncertainty 若同時來自 Ambiguity 和 Conflict 時，便是 combined uncertainty 結合不確定性。

Smithson (2015) 認為有兩類資訊能造成以上的 Ambiguity 和 Conflict 的資訊不確性風險：

Described information：判斷者用自己語言來表達不確性風險、發生不同後果的機率 (Verbal expression of uncertainties, typically the probabilities of relevant events or outcomes)。
Experience information：基於判斷者的自己樣本（即：他們自己的經驗）來作主觀判斷不同後果的發生機率 (Judge outcomes from an environment and build up their own assessments of event or outcome probabilities on the basis of their samples)。

所以，一些 described information 是很容易造成 Ambiguity 的情況，因為語言的理解在不同人身上有不同意義。

Best Estimates Model (最佳估算模型)

Smithson (2015) 提出在 Ambiguity 情況及以 Described information 判斷下，用 Mid-point model 來找出 best estimate。假設各個 interval 為相同機率＜Principle of Insufficient Reason＞，在總範圍 range 的 mid-point 中間點就是 Best estimate。

而在主觀判斷下的主觀機率，一般是取決於判斷者自己本身的風險規避度 (risk aversiveness)。

高於這個 mid-point 就是較樂觀的機率；

低於這個 mid-point 就是較悲觀的機率。

決策者的風險規避度高，估計主觀機率便低於這個 mid-point 。

我認為，如果在 Conflict 情況，在同一事件上，估算（或意見）是來自不同源頭、人仕、傳媒、親人、同事、鄰居的話，決策者亦可以綜合所有估算，而設下估計機率的 upper bound 和 lower bound，亦是一個範圍 range，而 mid-point 就是 Best estimate。用樂觀的機率及悲觀的機率，來計算樂觀及悲觀的後果。這也是一個 range of outcomes。

若然沒有一個 range 只有一個 mean 平均值和 standard deviation (SD) 的話，便把 mean 當為 mid-point，計算我們的 range (at 95% confidence limit)：

Range (at 95% confidence limit) = mean ± 2 × SD Eq (1)

Accuracy and Informativeness (機率判斷準繩度和資訊度)

我在＜Subjective Probability Estimation＞巳說過，不同人對同一字詞的理解可能不一樣。例如，「很可能 (very likely)」，若不量化，大家對「很可能」的預測機率理解有不同詮釋。這是很多不準確判斷而引致錯誤決策的原因之一，miscommunication。所以，我們要確保在溝通上，預測表達者跟接收者對預測機率的理解是一致的。

Accuracy

在校正過程 (Calibration accuracy) 中，Yaniv and Foster (1997) 提出用已知的基本機率 (Base rate) 或先前機率 (Prior probability) 作為標準 (Normative standard)，來衡量人們主觀機率判斷的準繩度，亦是一個可以用於量化判斷的指標。

絕對錯誤 (Absolute error) 就是人們的最佳估算 (Best estimate) 減去標準 (Normative standard)：

Absolute Error = Best Estimate - Normative Standard Eq (2)

where Best Estimate is subjective probability; Normative Standard is known prior or known base rate

得出的 Absolute error 愈低，即主觀機率判斷的準繩度愈高。相反， Absolute error 愈高，準繩度愈低。

Precision (or Informativeness)

在＜貝氏定理 (8): 資訊質素的影響 (Prior Informativeness)＞文章我巳提及，一般情況下，假設連續機率分佈為常態分佈 Normal Distribution。

當 Variance 的數值愈小，那個峰會愈窄，數值頻率分佈範圍愈窄，於是資訊度愈高，即愈可信 (Informative)，也就是愈精確 (Precise)。

相反，當 Variance 的數值愈大，那個峰會愈濶，數值頻率分佈範圍愈寬，資訊度愈低，愈不精確 (Imprecise)，稱之為 Weakly informative。

若那個分佈是超濶且扁平，即是資訊模糊 (Diffuse)，資訊可信度極低。

換句話說，我們可以用人們估計的數據範圍，大概可以形容那個峰的寬度。最大數值減去最小數值，就是那個範圍 (Range)，亦稱「估算間距 (Interval Estimate)」。那個範圍 (Range) 愈窄，代表那個峰會愈窄，資訊度愈高，即愈可信 (Informative)，也就是愈精確 (Precise)。

簡單公式：

Interval Estimate = Maximum Value - Minimum Value Eq (3)

表達的方式是：Range = Best Estimate ± Interval Estimate

Confidence Interval

又或，用 Confidence Interval 來計算 Interval Estimate。例如，在 95% confidence limit, 用所有 N 個估計數值，再用 t-value at 95% confidence limit (2-tailed)，用 Eq (4) 計算那個 range。這樣計算出來的 range 又稱 "the width of confidence interval"。

例子 1：

估計在 1987 年，聯合國有多少成員國？

五位歷史系A 班大學生給出以下答案：

120，128，133，137，140

N = 5， t-value (𝝂=4) at 95% confidence limit (2-tailed) = 2.776，mean = 131.6，SD = 7.893，用 Eq (4) 計算的 range (the width of confidence interval) 是界乎 121.8 及 141.4 之間。

Range = 141.4 - 121.8 = 19.6

這個 range 跟只用 Eq (3) 計算 Interval estimate 是 20 (see below)，只是相差 0.4 (2%)。

Interval Estimate = 140 - 120 = 20

所以說，用 confidence interval 計出的 range 跟只用 Interval estimate 的 range，答案是相若。筆者個人較喜歡用 confidence interval，原因是它有統計學上的意義。

錯誤相對精確度的比率 (Error-to-Precision ratio)

Yaniv and Foster (1997) 提議用絕對錯誤 (absolute error) 相對精確度 (precision) 的比率 (Error-to-Precision ratio) 來評定預測者的判斷準確度。如此一來，判斷的準確度可以量化為包含了主觀機率判斷的準繩度 (Accuracy) 及精確度 (Precision)的一個比率。

他們把絕對錯誤 (Absolute error) 和數據間距 (Interval) 的比率定義為 Error-to-Precision ratio。

公式如下：

i.e.,

例子 2：跟例子 1 的問題一樣。

五位來自歷史系A 班大學生給出的答案範圍：120 - 140
另外五位來自歷史系B 班大學生給出的答案範圍：130 - 132

問題：哪一班學生的估算較準確？

答案：

在 1987 年，真實的聯合國成員國數目為 157 個。即是：兩班學生的估算範圍，都不能包含真實數目。

A 班大學生：

Interval Estimate = 140 - 120 = 20

Best Estimate (i.e. mid-point) = 130

Absolute error = 130 - 157 = -27

A 班學生得出的 Error-to-Precision ratio 是 1.35。

B 班大學生：

Interval Estimate = 132 - 130 = 2

Best Estimate (i.e. mid-point) = 131

Absolute error = 131 - 157 = -26

B 班學生得出的 Error-to-Precision ratio 是 13，是A 班學生的 10 倍。也就是說，B 班學生較不準確。這似乎跟上面說的 Informativeness 有所矛盾。

遺憾的是，range 不是愈窄，資訊可信度愈高，愈 informative。這個 range (Interval estimate) 必須要包含真實數值才算得上 informative。

雖然兩班學生的估算範圍，都不能包含真實數目，但 B 班學生的 range 是A 班學生的 range 的少 10 倍，分母細了 10 倍，那麼比率當然會被拉高 10 倍，凸顯了 B 班學生的不準確性。

這也說明，這個比率也不是愈低愈好，即使這可能代表預測者的判斷錯誤低，但也可能是因為間距太寬所致。所以，Yaniv and Foster (1997) 只建議把這個比率用作比較之用。

若比率等於 1，代表預測者對錯誤及間距有著相同指數 (same order of magnitude)，即：同等重視程度。

一個高的比率 (e.g. 等於 2)，代表預測者給出一個較窄的間距，亦即：較重視資訊度（精確度, Precision）。

在 Yaniv and Foster (1997) 的三個研究問題中，保持問題及受試者的知識程度一致，結果是：受試者的 Error-to-Precision ratio 一般是界乎 0.5 至 1.5 之間。

Accuracy-Informativeness Trade-off Model

我們當然期望預測者可以給出，一個既準繩又精確的預測及判斷，亦即：那個範圍 (Range) 窄，絕對錯誤低。但在不確定情況下，這是不可能的。

預測者在溝通表達上，只能作出取捨 (trade-off)。Yaniv and Foster (1997) 認為在預測上，判斷者要在間距及錯誤之間，必須作出取捨。他們說，在不確定情況下，預測者不可能給出一個佷寬的間距 (Interval estimate) 的同時，又能估計準確（即 Absolute error 很少），他們稱之為: 「Accuracy-Informativeness Trade-off Model」。

因為，基於以上 Eq (5)，在 mid-point (即 Best Estimate）不變下，當擴大間距 (Interval)， Error-to-Precision ratio 便會變小；而縮小間距 (Interval)， Error-to-Precision ratio 便會變大。

這個 Model 中的取捨 trade-off 的考慮，就是：預測者不能因為要有高 accuracy 的估計，而作出一個過於廣濶的間距。當然，寬濶的間距是較容易包含正確的後果 (True value) 在內，而正確的後果又距離 mid-point (即 Best estimate) 很近，那便可以壓低 Error-to-Precision ratio。可是，廣濶的間距本身便是 weakly informative (or diffuse)，亦即，資訊本身就變成不可信（或極不可信），你不可能為了減少絕對錯誤而採用不可信的資訊，例如：無限擴大間距至零至一億，這就是這個模型中所謂取捨的重點。雖然理論上，你的確可以給出一個超廣濶的間距，來包含正確值，但就實際溝通上，你正在毀滅自己的預測可信度。

Yaniv and Foster (1997) 總結，當人真的要在間距及錯誤之間取捨時，人們一般傾向給出一個較窄的合理間距，也不願給出一個較準確的預測。原因是，其他人會以你給出的預測間距來評定你的預測是否可信，回饋是即時的。可是，預測是否真的準確，是需要較長時間等候事件真正發生才能證實。所以，多數人寧願犧牲準確度，也要給出一個 highly informative estimate 的預測，即是以較窄的間距，較 precise 的方式表達自己的預測。

"Judges may gain (or lose) social reputation for providing good (poor) forecasts..... The 'timing' of the rewards highlights the need of informativeness. Rewards for being informative are immediate, ... Rewards for being accurate are typically delayed to a later point in time when the relevant feedbacks become available and the forecast's accuracy can be assessed." Yaniv and Foster (1997)

"In providing interval estimate, judges must sacrifice accuracy in order to communicate sufficiently informative (precise) estimates." Yaniv and Foster (1997)

總結

在這兩篇學述文章中，我學到的是，在評估某預測者的預測可信度時，必須花長時間，憑 Absolute error in Eq (2) 來衡量他人的預測，不要只看他的預測間距。對自己，這是一個很好的校正指標 (calibration parameter)。

在某時間點上，要表達自己的預測，可以用 Range in Eq (1)，Confidence Interval in Eq (4)，或用間距 (Interval estimate) in Eq (3)，當中的 Confidence interval，作為 width of interval 是有統計意義。當意見在同一方向時，可用 mid-point model 作為 Best Estimate。

當看間距 (Interval estimate) 時，要看它是否夠 informative，即分佈是否夠窄來衡量，參考＜貝氏定理 (8): 資訊質素的影響 (Prior Informativeness)＞。但要注意，若用的間距 (Interval estimate) 過窄而錯過了真實數值，或距離真實數值太多太遠，這樣的間距也不算得上是資訊可信 (informative)。

這個正正就是我在 <Never Fully Trust Experts or Guru> 一文所說：「不要完全相信專家」的原因，特別是，在該領域待了很久、有經驗、又受到萬人景仰的所謂「專家」。原因：

這些專家因為覺得自己的知識比其他人多、高、濶，而十分有自信地給出他們的預測，又不解釋自己判斷或預測的基礎。

因為要表現自信，他們給出的預測間距 (Interval estimate) 當然亦較窄，從而表示自己的預測是精確的、是 informative 的。

也因為他們對自己的預測有信心，他們甚少去檢視相反意見的理據，更不會質疑自己的判斷或預測，遑論校正 (calibration) 了。

就如我所說，縱使間距 (Interval estimate) 有多窄，若距離真實數值太遠的話，根本就只是 Noise。看！各地股市都有他們的出現！我自己會把這些「專家」的判斷和預測預設為雜訊 (Noise)。他們的特徵是「有自信」。

人類在判斷上之所以有很多偏誤 (Bias) 都因為雜訊 (Noise)，Daniel Kahneman 在這方面的研究有很重大貢獻，我會再寫文章探討。

而那個 Error-to-Precision ratio，我認為是沒有參考價值。因為比率數值小，不代表預測者的判斷錯誤低，反而可能因為間距太寬所致。若想分析預測可信度時，這個比率亳無用處，反之誤導性強，我不建議使用。亦可能因為這個原因，這個比率自 1997 年 Yaniv and Foster 提出後，至今 2022年的 25 年間，一直在決策科學上沒有被廣泛採用，也沒有被提及。

Related Topics

Subjective Probability Estimation

Principle of Insufficient Reason

貝氏定理 (8): 資訊質素的影響 (Prior Informativeness)

Never Fully Trust Experts or Guru

References

Michael Smithson, Probability judgements under ambiguity and conflict, Frontiers in Psychology, 6, Article 674, 2015, Open accessed: https://doi.org/10.3389/fpsyg.2015.00674.

I. Yaniv and D. P. Foster, Precision and accuracy of judgmental estimation, Journal of Behavioral Decision Making, 10, (1), 21-32, 1997.

t-table, available from: https://www.sjsu.edu/faculty/gerstman/StatPrimer/t-table.pdf

J. Nathan Matias, Bias and Noise: Daniel Kahneman on Errors in Decision Making, Medium, Oct 18 2017. Available from: https://natematias.medium.com/bias-and-noise-daniel-kahneman-onerrors-in-decision-making-6bc844ff5194

=======================

免責聲明
本網頁屬個人網誌，一切言論純屬個人意見及經驗分享。本人無法保證在本網誌所提供的資料有關內容的真確性和完整性，包括但不限於任何錯誤、誤差、遺漏、或侵權性質、誹謗性質或虛假性質的信息或任何其他可導致冒犯或在其他方面引致發生任何追索或投訴的資料或遺漏，而導致之任何損失或損害，本人概不承擔任何有關法律責任。

搜尋此網誌

The Price of Wisdom - 高山雪 Snow Hill

主觀判斷的不確定風險: 準確 vs 精確 (Subjective Judgement under Uncertainty)

資訊不確性風險

Best Estimates Model (最佳估算模型)

Accuracy and Informativeness (機率判斷準繩度和資訊度)

Accuracy

Precision (or Informativeness)

Confidence Interval

例子 1：

估計在 1987 年，聯合國有多少成員國？

錯誤相對精確度的比率 (Error-to-Precision ratio)

例子 2：跟例子 1 的問題一樣。

問題：哪一班學生的估算較準確？

答案：

A 班大學生：

B 班大學生：

Accuracy-Informativeness Trade-off Model

總結

References

留言

發佈留言

熱門文章

有一派投資叫「動能投資」

展望理論 Prospect Theory (1): 價值函數 (Value Function)

風險決策的兩個理論: 期望值 & 期望效用

我的書架 | 思考的框架 (2b): 機率思考 - 肥尾曲線 (Fat-tailed Distribution)

展望理論 Prospect Theory (2): 機率加權函數 (Probability Weighting Function)

電影筆記 | First Do No Harm - (1) 故事描述

貝氏定理 (1): 理論 (Bayesian Theorem)

機率思維 | 大數法則, ⼩數定律, 賭徒謬誤, 墨菲定律

期望投資回報: 計算方法

成熟也有指標 (Emotional Maturity)