在工作和生活之中,我們總是會接觸到各種各樣的數據,而對于這些數據的真假,我們卻難以辨別,那么有沒有什么方法可以讓我們迅速對一組數據的真假作出判斷呢?有的,那就是“本福特定律”。
當我們拿到一組數據的時候,這組數據之中的每一個數字都存在著一個首位,舉例而言,對于1534這個數字來說,首位就是1;對于345這個數字來說,首位就是3。首位就是一個數字的第一數位。現在我們來思考一個問題,不同的數字出現在首位的概率是否一樣呢?又是多少呢?乍一看這個問題,我們很快便能夠給出答案,那就是任何數字出現在首位的概率都是一樣的,而且是1/9。因為能夠出現在首位的數字一共有9個,分別為1、2、3、4、5、6、7、8、9,所以每個數字出現的概率自然應該是1/9。但事實卻并不是這樣。
早在1881年的時候,一個名為紐康的天文學家就發現,在一組數據之中,不同數字出現在首位的概率是不相同的,而在將近60年之后,另一個名為“本福特”的物理學家也發現了相同的規律,所以這一規律就被稱之為“本福特定律”。
根據本福特定律,1作為首位數字出現的概率是最高的,大約達到了30%。真的是這樣嗎?你可以親自選取一些數據來進行驗證,比如某一年世界各國的GDP數據、世界上所有國家的國土面積數據,又或者你可以數一數我最近發表的50篇文章的評論數數據,你會驚奇地發現首位為1的出現概率真的是接近30%的。那么這到底是為什么呢?除了1以外,2、3、4、5、6在首位出現的概率也可以計算出來嗎?當然是可以的。
本福特定律是有一個計算公式的,即為P(N)=lg((N+1)/N),這里的P(N)就代表了數字N在首位出現的概率。
我們首先將1代入這個公式,就得到了P(1)=lg2=30.1%,所以1在首位出現的概率就是30.1%。再將2代入公式,就得到了P(2)=lg3/2=17.6%,所以2在首位出現的概率就是17.6%。將3代入公式,就得到P(3)=lg4/3=12.5%,所以3在首位出現的概率就是12.5%。
后面的數字就不一一計算了,直接給出結果:4的概率是9.7%、5的概率是7.9%、6的概率是6.7%、7的概率是5.8%、8的概率是5.1%、9的概率是4.6%。從最后的結果可知,越大的數字出現在首位的概率就越小。有了這個規律,當我們拿到一組數據的時候,就可以根據這組數據首位數字的分布規律來對這組數據的真假有一個基本的判斷。
比如某個投資顧問在向你極力推薦他們的投資產品,并拿出了過往10年的月度收益數據時,你就可以通過本福特定律來對這組數據的真假有一個初步的判斷,如果數據明顯違背本福特定律,那么你有必要通過其它的方式來對這個數據做進一步的核實。
本福特定律可以應用于任何地方嗎?當然不。本福特定律的應用要滿足兩個基本條件,第一必須是非人為規律的數據,比如一個班級的期末考試成績數據就不行,因為分數是人為規定的,我們人為地將100分設定為滿分,自然就不能滿足本福特定律,否則如果一個班中30%的人都考了10多分,可就麻煩了。第二是數據的跨度必須要大。比如我文章的評論數,很多文章只有2、3個評論,也有些文章有三五十個評論,還有一些有數百評論,數據跨度非常大,這就可以應用本福特定律。如果是一個學校各個班級的人數數據就不行,因為跨度太小,每個班都是四五十人,當然不行了。
那么為什么會出現本福特定律呢?不同數字出現在首位的概率為什么會不一樣呢?
首先我們要確認一點,那就是本福特定律迄今為止并不是一個公認的定律,也并沒有一個公認的證明,所以你可以去反駁它,也可以去尋找它背后的內在原理,但是不同數字出現在首位的概率不一樣,這是一件很正常的事。
舉個例子來說吧,10如果想要變為20,那么需要增長100%,而90要想變為100,只需要增長10%,而在一組數據之中,增長相同百分比所需的時間是相同的,首位9變成1,要比1變成2容易得多,所以1的出現概率自然比2大。當然,這只是對本福特定律的一種探討,并不是公認的證明。歡迎大家從不同的角度來說一說你所理解的本福特定律。