Andy's Gamma

極端斯坦的灰度測試

引言

《黑天鵝》中,塔勒布第一次用平均斯坦和極端斯坦這對概念,來解釋爲何很多傳統的統計模型和科學方法,難以適用於金融市場和財富分配的場景。簡單來説,在平均斯坦世界,極端的個體對平均值的影響有限,而在極端斯坦,極端個體對平均值可以造成巨大衝擊。比如人的身高,在隨機的100人的樣本中,即使加入姚明這種極端個體,也不會對平均值造成太大影響,所以身高領域是典型的平均斯坦。但如果考慮財富領域,在同樣隨機的100人樣本中,一旦加入馬雲這樣極端值,就會嚴重影響平均值,所以財富領域則是典型的極端斯坦。但在這個世界上,很多事情都不是非黑即白,大部分領域恐怕都只是偏向某一邊而已。出於定量分析的偏執,本文嘗試引入一個統計量“極端灰度”,為平均斯坦到極端斯坦的譜系,給出一個類似在酸堿度的pH值的定量描述。由於沒有做任何文獻查閲,不確定是否大概率 已經有相關的學術討論,如果有同行發現相關内容,歡迎來信交流。

一些啓發性的例子

先討論最極端的例子,絕對平均和絕對極端。絕對平均的樣本就是每個樣本的值都一樣,方差為0,“極端灰度”應該是0。而另外一個極端場景是絕對壟斷,全部的份額由一個個體擁有,這種情況下的“極端灰度”應該是接近于1的。這裏要補充説明一下就是,“極端灰度”的描述場景是分配,所以每個樣本的值都必須是大於等於0的。還有一點想補充的是,爲何是接近1,而不是等於1。因爲這個壟斷還要看是在多大的樣本中壟斷,在10人中壟斷和在1000人中壟斷也是有所區別的,類似村裏的首富和全世界的首富地位也有所區別。在更大的樣本中能壟斷,就應該更接近與1。

然後回到上面講到的兩個典型領域,身高和財富。這兩個領域都是統計學研究的重點,研究已經非常詳細了。在非常大的樣本當中,身高的統計分佈基本服從正態分佈(因爲身高不能有負數,邏輯潔癖的我認爲應該用對數正態分佈,但實際應用層面來説差別不大),而財富的分佈基本可以用冪分佈(也稱爲柏里圖分佈,Pareto distribution)來近似描述。從灰度上說,正太分佈的“極端灰度”應該偏向於0,而冪分佈的“極端灰度"應該偏向於1。

灰度測試

經過一些簡單的探索,我決定用樣本的纍計分佈函數(Cumulative Distribution Function,簡稱CDF)和兩個極端情況的差異來描述“極端灰度”。把函數壓縮成數值,最簡單的辦法就是做差積分。直觀的理解就是,用一個樣本CDF曲綫和(0,0)到(1,1)的直綫構成的面積的兩倍(把上限變成1)。這樣就能讓上面四個啓發性的例子非常完美地處在一個遞增的順序當中,下圖是一個簡單圖示。

cdfs

更準確的描述是,先統計樣本的數量n和總和S,每個樣本除以S(歸一化)然後從小到大排序,得到(X1,X2,,Xn). 然後“極端灰度”G可以根據公式計算:

G=2ni=1n(i/nk=1iXk)

下表給出一個簡單的計算例子:(極端灰度是25%,灰度貢獻的平均值*2)

原始數據 歸一數據 纍計占比 目標占比 灰度貢獻
1 10% 10% 25% 15%
2 20% 30% 50% 20%
3 30% 60% 75% 15%
4 40% 100% 100% 0%

順便可以參考的數據,我用均值5.1,標準差0.1的對數正態分佈來擬合身高,抽取1000個樣本的極端灰度值大約是5.6%。用冪分佈(α=1.16,大致符合八二定律)擬合財富分佈,同樣用1000個樣本得到的極端灰度值大約是65.2%。大家有興趣的話可以用這兩個參考值來對比你感興趣的數據樣本,或者改變一下參數,試試看不同極端灰度代表的樣本分佈有什麽不同。

#Pareto #平均斯坦 #極端斯坦 #正態分佈 #統計