貝氏定理 (8): 資訊質素的影響 (Prior Informativeness)

在 <貝氏定理 (7): 事後機率分布最大概似估計法 (Maximum a Posteriori Estimation, MAP)> 中,我已經介紹過如果是 continuous distribution 的話是怎樣找到 Posterior Probability。


以下的 Figure 1 是剪輯自 van de Schoot et. al. ( (2021) 的論文,總結了貝氏更新的詳盡運作原理。

  • 首先是基於一些已知的背景知識,來建立一個事前機率分布 (Prior Probability Distribution)。
  • 然後,成立假設、搜集數據和證據、設定計算模型 (Mathematical Model(s)),再計算似然涵數 (Likelihood Function)。
  • 再基於Prior Probability Distribution 和 Likelihood Function,計算 Posterior Probability Distribution as a function of the specified Prior Probability Distribution and Likelihood Function。
  • 再用 Maximum Likelihood Estimation (MLE) 的方法,在 Posterior Probability Distribution 計算 Maximum a Posteriori (MAP)
  • 再以 MAP 來推理,計算 Bayes Factor 和敏感分析 (Sensitivity Analysis)。 

Figure 1. Details of Bayesian operation workflow, where the figure shows discrete probabilities:  P(𝚹): 事前機率 Prior Probability; P(y |𝚹): 似然 likelihood; P(𝚹 | y) : 事後機率 Posterior Probability; y : 資訊或數據。 (van de Schoot et. al., 2021) <https://www.nature.com/articles/s43586-021-00017-2>


Prior Probability 可以以不同的機率分布的形式呈現,e.g. Normal, Uniform, Poisson, Bernoulli, Binominal Distributions。

例如,Normal distribution 是以 mean(平均值,𝛍) 和 variance(變異值= ),即:N(𝛍,s²),來形容這個常態分布。

  • Variance 的數值愈小,那個峰會愈窄,數值頻率分布範圍愈窄,即是資訊愈可信* (Informative) = 愈精確
  • 相反,Variance 的數值愈大,那個峰會愈濶,數值頻率分布範圍愈廣,即是資訊愈模糊 (Diffuse),可信性愈低。

這裡的可信度 (Informative) 是指資訊的精確度 (Precision) 非準確度 (Accuracy)

縱使是連續分布 (continuous distributions),在共軌分布情況 (conjugate distributions) 下(即在 known families of conjugate distributions),計算是:在巳知的 Likelihood, 如果 Prior 是 Normal distribution,計算出來的 Posterior 也是屬於 Normal distribution。

在做決策時,我們要思考兩樣資訊:(1)Prior Probability 事前(先驗)機率;(2)似然涵數 Likelihood function在 <貝氏定理 (2): 應用例子> 一文中,我已指出過 Prior Probability (即:Base Rate) 的重要性。除非是沒有事前機率、數據、資訊的情形,否則 Prior Probability 比 Likelihood 更為重要。忽略了 Prior Probability 便很容易得出一個不確及不正確的結果 (Posterior)。Prior Probability 的影響有多大,就視乎可取得的事前資訊的質素如何。


資訊質素的影響 (Prior Informativeness): 

Prior Probability 事前機率(先驗機率)

van de Schoot et. al. (2021) 把 Prior Probability Distributions 的可信性 (degree of certainty) [基於主觀判斷的 informativeness (資訊質量)] 來進行分類,可分為三類:

  • Diffuse:模糊的資訊。這類 Prior 資訊是最好形容一些完全不確定、沒有歷史數據、或樣本數量過少的情況。資訊的可信度低 (low degree of certainty)。
  • Weakly Informative:可信性弱的資訊。這類 Prior 資訊是沒有 Informative 的那麼可信,但又不如 Diffuse 的不可信。
  • Informative: 最可信的資訊。這類 Prior 資訊是最集中,Variance 的數值小,數值頻率分布範圍窄,所以資訊最可信 (high degree of certainty)。

下面 Figure 2 展現了在相同 Likelihood Function 下, Posterior Probability Density Function 的分布怎樣受不同 Prior 的資訊質素影響。

Figure 2. Posterior probability distribution is a function of prior probability distribution and likelihood function in Bayesian update (van de Schoot et. al., 2021). <https://www.nature.com/articles/s43586-021-00017-2>


從 Figure 2 可看到:

(1) 在不同事前資訊質素 Prior Informativeness 的影響下,Posterior 對 Prior 和 Likelihood 會有不同程度的依賴。

  • Diffuse Priors:這裡的 Prior 是十分模糊,事後機率分布 Posterior 是受 Likelihood Function 分布的高度影響。這類的 Posterior 有時會是不精確、不可信的。
  • Weakly Informative Priors: 這裡有兩個: N(0, 25) 和 N(6, 25) ;不同平均值,相同 Variance。
    • 這兩個 Priors 的分布都很濶,Variance 值很大 (= 25),分別只是平均值不同,N(0, 25) 的平均值在 0;N(6, 25) 的平均值在 6。這類的 Priors 計出的 Posterior 會受到 Prior 與 Likelihood 共同影響,被 Likelihood 影響的程度是低於 Diffuse Priors
    • 在 N(0, 25) Prior 計出的 Posterior 看似比 N(6, 25) Prior 的 Posterior 較受 Prior 影響,其實是因為 N(0, 25) Prior 分布和 Likelihood Function 的平均值都是一致在 0,所以計算出的 Posterior 分布的平均值也是在 0。這個推論出來的 Posterior 是較 N(6, 25) 為精確。Prior 和 Likelihood 的一致性可以釋出較精確的推論。
    • 相反,N(6, 25)  Prior 比 Likelihood 的分布較潤,它們的分布差別大(平均值和 Variance 也有很大分別),Posterior 的分布會被 Likelihood 主宰。所以,當  Prior 和 Likelihood 差別很大時,應檢查資訊、數據本身有否不妥?是否用錯模型?等等。
    • 在 Weakly Informative Priors 的情況下,Likelihood 就扮演重要角色。

  • Informative Priors:這裡也有兩個: N(2.5, 5) 和 N(2.5, 0.2); 相同平均值,不同 Variance。
    • N(2.5, 5) 的 Prior 的分布是較 N(2.5, 0.2) 分散,所以可以看到 Prior N(2.5, 5) 計算出來的 Posterior  的分布是在 Prior 和 Likelihood 之間。
    • 而 N(2.5, 0.2) 的 Prior  的分布是較集中,Variance 值很少,只有 0.2,所以其精確性很高。計算出來的 Posterior  的分布是高度向其 Prior 靠攏。
    • 這兩個 Informative Priors 得出的 Posteriors 的分別在於 Variance 值。 N(2.5, 0.2) 的 Posterior 的 Variance 比起 N(2.5, 5) 的 Posterior 的 Variance 較少,那個 Peak 較窄,即 N(2.5, 0.2) Prior 推論出來的 Posterior 是較精確 (precise),它的 Posterior 分布極依賴 其 Prior 的分布。換言之,推論是取決於這個資訊質素最高,最 informative 的 Prior。
  • Informative vs Weakly Informative Priors:
  • 這裡有兩個比較: N(2.5, 5) vs N(0, 25) ;和 N(2.5, 0.2) vs N(0, 25)
    • N(2.5, 5) vs N(0, 25):即使 N(0, 25) 較為分散而 N(2.5, 5) 較為集中,但因為 N(0, 25) 與 Likelihood function 的平均值一致,計算出來的 Posterior 分布也合理地一致。而 N(2.5, 5) 的 Posterior 就是受 Prior 及 Likelihood 影響。
    • N(2.5, 0.2) vs N(0, 25):N(2.5, 0.2)  的峰很窄且高,比起 N(0, 25) 的資訊質素較優質。所以,N(2.5, 0.2) 得出的 Posterior 是較 N(0, 25) 的 Posterior 更靠向 Prior,或更被 Prior 影響。

(2) 當事前資訊模糊到一個程度,例如:牽涉幅度範圍過寬,甚少相關性,甚至幾乎沒有意義的資訊(如:雜訊 noise),這些 Priors 便是 Diffuse Priors計算出來的 Posteriors 會極受 Likelihood Function 影響,與 Diffuse Priors 本身沒有關係。這時便應以 Bayes Factor 或 Likelihood 來思考

這跟我在 <貝氏定理 (3): 貝氏因子 (Bayes Factor): 你的證據夠強嗎?> 文章內引用 Assaf and Tsionas (2018) 的說法一致:「當沒有 Prior odds 或 Base Rate 等資料時, Prior odds 會被假定為 "1",那麼 Bayes Factor 便可以直接當成 Posterior odds」 。


結語

在用貝氏定理估計和預測之前,我們應該先檢查 Prior Probability Distribution 的資訊質素(可信性),因為 Posterior Probability Distribution 是很大程度決定於事前機率分布。

  • 尤其在樣本數量少的情況,而且 Weakly Informative Priors貝氏定理得出的結果有可能會錯
  • Prior 和 Likelihood 的分布十分不同時,有可能是因為用錯模型、遺漏重要數據、數據有缺陷或偏差
  • 在不確定性時,事前機率分布便是 Diffuse Prior。當然可以用 Principle of Insufficient Reason 來假設做 Prior Probability。但這只是個 initial assumption,一定要隨著資訊出現而不斷進行貝氏更新。

其次,我們應該尋找一些資訊質素高的事前機率 Priors 來計算,避免使用 Diffuse Priors,就是篩走雜訊 (noise)。記住,質素高的資訊才是我們的訊號,就如 N(2.5, 0.2) Prior 一般,Variance 值很小。即是:訊號出現的時間、範圍也較窄它不會經常且頻繁地出現,但跟結果相關性高,這些便是我們要尋找的訊號。

貝氏更新的特點是:Garbage in, garbage out。所以,我們應該:

  1. 關注事前機率,不要被誤導而導致 Base rate fallacy;
  2. 小心看清所使用的事前資訊的質素;
  3. 最後要進行 Sensitivity Analysis,改變少許 Prior 內的參數來測試對 Posterior 的改變,選擇對 Posterior 有最強影響的參數來計算。



貝氏定理的相關文章:

我的書架 | 思考的框架 (2a): 機率思考 - 貝氏思維 (Bayesian Thinking)

貝氏定理 (1): 理論 (Bayesian Theorem)

貝氏定理 (2): 應用例子

貝氏定理 (3): 貝氏因子 (Bayes Factor): 你的證據夠強嗎? 

貝氏定理 (4): 貝氏規則的可能性機率 (Likelihood in Bayes Rule)

貝氏定理 (5): 貝氏更新 (Bayesian Updating)

貝氏定理 (6): 貝氏網絡 (Bayesian Network)

貝氏定理 (7): 事後機率分布最大概似估計法 (Maximum a Posteriori, MAP)

不確定情況的主觀判斷: 準確 vs 精確 (Subjective Judgement under Uncertainty)

 

 

Reference

Rens van de Schoot, Sarah Depaoli, Ruth King, Bianca Kramer, Kaspar Märtens, Mahlet G. Tadesse, Marina Vannucci, Andrew Gelman, Duco Veen, Joukje Willemsen, and Christopher Yau, Bayesian statistics and modelling, Nature Reviews: Method Primers, (2021) 1:1. Available from: https://www.nature.com/articles/s43586-021-00017-2 (Open Access).


 =======================

免責聲明
本網頁屬個人網誌,一切言論純屬個人意見及經驗分享。本人無法保證在本網誌所提供的資料有關內容的真確性和完整性,包括但不限於任何錯誤、誤差、遺漏、或侵權性質、誹謗性質或虛假性質的信息或任何其他可導致冒犯或在其他方面引致發生任何追索或投訴的資料或遺漏,而導致之任何損失或損害,本人概不承擔任何有關法律責任。



版權聲明
本網誌的所有資料、圖像與相片、文本屬本人所有專屬財產,均受知識產權法例及權利(包括但不限於保護版權的法例)所保障。根據此法例及權利,任何未經授權使用的資料均屬侵權行為。在未經本人明確同意授權下,本網誌資料、圖像與相片、文本之全部或部份均不可被使用、複印、改編、修改、發表、儲存或以其他方式複製分發、發佈或向公眾提供、銷售、傳送該等版權作品作任何用途。

 © Copyright 2021 高山雪 Snow Hill. All rights reserved.

 

留言

熱門文章

有一派投資叫「動能投資」

展望理論 Prospect Theory (1): 價值函數 (Value Function)

風險決策的兩個理論: 期望值 & 期望效用

展望理論 Prospect Theory (2): 機率加權函數 (Probability Weighting Function)

電影筆記 | First Do No Harm - (1) 故事描述

期望投資回報: 計算方法

成熟也有指標 (Emotional Maturity)

機率思維 | 大數法則, ⼩數定律, 賭徒謬誤, 墨菲定律