「我們需要更少的研究,更好的研究,以及出於正確原因而完成的研究。放棄用發表論文的數量作為衡量能力的標準是一個開始。」
- Doug Altman (1994)326Please respect copyright.PENANAw2TACROuVc
326Please respect copyright.PENANADgKsuix56v
326Please respect copyright.PENANA5GyvNWKcy8
在統計學上,有樣叫P值 (P-value) 。P值是衡量觀察到的差異可能只是隨機發生的概率。P值越低,說明觀察到的差異的統計意義越大。一般認為P≦0.05具有統計學意義。
326Please respect copyright.PENANAZF0gSPaVId
326Please respect copyright.PENANAkCNe5ehd3x
326Please respect copyright.PENANAFzFn9cQwwf
在學術界,讓數據滿足發布所需的標準是很常見的事情。幾十年來,它一直是主流做法,部分原因是研究人員對常見的統計方法缺乏了解。現在很多統計學家對於這種P值的濫用和誤用進行了苛刻的批評。因此出現了一個新詞: P值篡改 (P-hacking),亦有人叫它為數據挖泥 (Data- dredging) 。研究人員不斷重複地折磨數據,直到獲得具有統計意義的顯著結果,最終結果很可能是一個虛假發現。
326Please respect copyright.PENANArDhotoxZ2l
一些統計學家認為這種方法學錯誤是一種科學欺詐,美國統計協會American Statistical Association (ASA)在其道德準則中對此予以警告。
326Please respect copyright.PENANALAjVrIH8qI
主權財富基金阿布扎比投資局 (ADIA)量化研究及開發全球主管Marcos Lopez de Prado更指出大多數金融學的發現都是錯誤,因為P值篡改。
326Please respect copyright.PENANAXmyMs85kLR
ASA發布了有關統計意義和P值的聲明,並提出正確使用和解釋P值的六項原則。該聲明的六項原則,其中有許多是針對P值的誤解和誤用。六項原則分別是:
326Please respect copyright.PENANAzOkuX7gsX4
1. P值可以表明數據與特定統計模型的不相容性。
2. P值並不能衡量所研究的假設為真實的概率,也不能衡量僅由隨機機會產生該數據的概率。
3. 科學結論和商業或者政策決定不應該僅僅基於一個P值是否通過特定閾值。
4. 正確的推斷需要充分的報告和透明度。
5. P值或者統計學顯著性不能衡量一個效應的大小,也不能衡量一個結果的重要性。
6. P值本身無法良好地衡量關於一個模型或一個假設的證據。
326Please respect copyright.PENANATUAZ2qtfby
為了證明P值篡改對科學研究的危害性,請想像現在有一個擲硬幣實驗,研究人員想知道擲硬幣出正面的概率。現實生活中,我們當然知道概率理應是50%。但如果研究人員刻意為了證明擲硬幣出正面的概率是100%,他們可以進行多次實驗。
326Please respect copyright.PENANApn6YHUKyAB
一般研究考慮到中心極限定理(Central Limit Theorem) ,會需要至少30個統計樣本,確保有足夠準確的均值和偏差估計,以高斯近似實驗結果分佈,令置信區間 (Confidence interval) 更容易計算。
326Please respect copyright.PENANAmYrkf54BiR
擲30次硬幣,成功證明擲硬幣一定出正面的概率則為0.5的30次方,約是九億次運算,便會出現這一個可能組合。這個出現概率看似很小,但現時強大的電腦運算能力可以在很短時間運算天文數字般的組合,加上不斷重複地折磨數據的做法,令P值篡改出現概率更高,研究員更容易以及不道德地成功證明擲硬幣是一定出正面。
326Please respect copyright.PENANAdeX7kb05hA
以下是P值篡改的真實例子:
326Please respect copyright.PENANAVo2TAufr6e
在2015年,科學記者 John Bohannon和他的合作者故意把這項研究目的設定為產生虛假的相關性,向人們證明巧克力有助於減肥。為了證明巧克力有助於減肥,他們試圖衡量測試者是否因每天吃一塊巧克力棒而影響體重、膽固醇、睡眠質量和血液蛋白水平等多個因素發生變化。
326Please respect copyright.PENANAi4swfpmjZR
在這研究中,他們只研究了15個人。但是這個實驗的巧妙之處就是選擇性表述 (Cherry picking)。在少數統計樣本中加入許多變量,使發現偶然相關性變得更加容易。
326Please respect copyright.PENANALDC0vP5UHa
可能此刻你可能還是不明白。簡言之,其實只要對少數人進行大量測試,幾乎可以保證獲得具有統計學意義的結果。John Bohannon和他的合作者的研究目的就是想獲得至少一項具有統計學意義的結果。
326Please respect copyright.PENANALuL8SfV3wW
如果將測試結果視為彩票。每個人都有很小的機會得到巨大回報,我們可以在成千上萬的彩票買家中,選擇一個中獎故事並出售給媒體。只要購買的彩票越多,得到一個中獎故事的可能性就越大。
326Please respect copyright.PENANAgIS6AjR1Xl
傳統的統計學顯著性臨界值為0.05,這意味著您的結果是隨機波動的概率只有5%。彩票越多,得到誤報的機會就越大。
326Please respect copyright.PENANA6eUlH2gErX
在剛提及的巧克力實驗中,John Bohannon和他的合作者使用了18個變量。
326Please respect copyright.PENANAz7NXwkeBXO
P = 1-(1-0.05)^18
326Please respect copyright.PENANAKMIGOompsH
P=0.602785
326Please respect copyright.PENANA3BJfwqBZVE
因此他們有60%的機會獲得P值低於0.05的結果。因此,只要進行的實驗次數堆積如山,對他們有利。當然,大多數科學家都是誠實,但會在不知不覺中做到這一點。
326Please respect copyright.PENANANvdC748Oha
另外,媒體為了捕捉更多讀者眼球,以及現時互聯網快速的資訊傳播速度,亦加劇P值篡改的危害性。
326Please respect copyright.PENANAGyhOxzHlUm
以下是公眾新聞文章的真實標題,由North Central College的Jon Mueller心理學教授收集。我們可以觀察偶然相關性導致虛假發現的荒謬程度。你亦可能有看過這些新聞文章。
326Please respect copyright.PENANAElqMIQXN5i
- -吃魚可預防犯罪
- -“洗手”標誌僅對女性有效
- -過早的主動性接觸導致了犯罪的生活
- -便秘可能會導致帕金森氏症
- -啤酒價格上漲“降低”淋病率
- -電子遊戲「增加侵略性」
- -癌症藥物幫助癱瘓的小鼠行走
- -吃甜食,長壽
- -研究將電視與青少年性活動聯繫起來
- -吃披薩“削減癌症風險”
- -研究發現政治偏見影響大腦活動
- -研究表明,戴頭盔會使騎自行車的人處於危險之中
- -音樂課可改善孩子的大腦發育和記憶力:學習
- -聰明的孩子更有可能成為素食主義者
- -閱讀減肥文章可能不健康
- -做家務可減少患乳腺癌的風險
- -具有視頻遊戲技能的外科醫生在模擬手術技能課程中表現更好
- -研究表明,肥胖女孩上大學的可能性較小
- -老年人牙齒脫落與精神障礙有關
- -身高影響人們對生活質量的看法
- -社交孤立可能會對智力產生負面影響
- -連續,頻繁地觀看電視會導致行為問題
- -母親的飲食習慣可以幫助確定孩子的性別:研究
- -母乳喂養的孩子發現更聰明
- -吃多脂魚可降低癡呆症的風險
- -性別歧視是有回報的:研究顯示,擁有傳統女性觀點的男性比沒有男性觀點的男-性收入更高
- -房間裡的風扇似乎減少了嬰兒死亡的風險
- -美聯儲表示,對地獄的恐懼可能會刺激經濟
- 326Please respect copyright.PENANATJLCHf55x1
當然,有一些例子你可能不認同為P值篡改,例如: 最後一項由美聯儲Frank A. Schmid跟Kevin L. Kliesen在2004年進行的研究–「對地獄的恐懼可能會刺激經濟」。的確無法證明該結論一定是錯誤,但可以探討其合理性。
326Please respect copyright.PENANAR08G1DV7wP
在這研究中,研究員利用了外部經濟學家的工作,他們對35個國家 (包括美國、歐洲國家、日本、印度和土耳其)進行了研究,發現在大多數人口相信地獄的國家,腐敗似乎更少,生活水平更高。例如,根據2003年聯合國人類發展報告和1990-1993年世界價值調查,美國71%的人口相信地獄,該國擁有世界上最高的人均收入。愛爾蘭在收入方面不落後於美國,同樣對世界更加健康充滿恐懼,有53%的人口承認地獄的存在。
326Please respect copyright.PENANAA36QwMJNNL
因此,Frank A. Schmid跟Kevin L. Kliesen認為宗教是會刺激經濟。但他們卻沒有懷疑其結論的合理性。例如:會否有「辛普森的悖論」 (Yule-Simpson's paradox)的存在。
326Please respect copyright.PENANAWmx89eeEZZ
「辛普森的悖論」是一種統計現象。由於有辛普森悖論的存在,觀察性研究是很難得到有關因果關係的結論。
326Please respect copyright.PENANAUvy3ie8X1R
假設現在有兩家醫院的病患死亡率資料,如下表,可以看到 A 醫院的的死亡率為15%,而 B 醫院的死亡率為則為12.5%。
326Please respect copyright.PENANA1F2XuFjXJv
326Please respect copyright.PENANAkIyZTLJUjL
326Please respect copyright.PENANAZJP6wKdJNI
大多數的人很容易會認為 B 醫院的的醫療水平較高,A醫院的病患比較容易死亡的結論。
326Please respect copyright.PENANAXiLSxPBWYe
但是這時候如果告訴你 A 醫院是頂尖的醫院,而 B 醫院則是一般小醫院的話。大家是不是覺得這個結論可能不太合理,因為跟上述的數據的結果有出入?
326Please respect copyright.PENANA34pCDHFAfr
數據其實並沒有問題,而是我們忽略了潛藏在資料中的潛在因素 。
326Please respect copyright.PENANA0vDLneCXYl
如果把剛剛的數據按照「輕微嚴重程度」做細分,此時我們可以發現 A 醫院在不論治療重症或是治療輕症病人時都有較低的死亡率。
326Please respect copyright.PENANA84m93XHMAz
326Please respect copyright.PENANAsWGTPxTVXw
這矛盾現象被稱為「辛普森的悖論」。
326Please respect copyright.PENANACqhVczSgT9
用上述醫院的例子來解釋原因,A 醫院無疑是較好的醫院,但背後理由是由於 A 醫院是頂尖的醫院,因此病情較為嚴重的患者會優先到 A 醫院就診。而重症患者的死亡率本來就高於輕症患者,進而拉高了 A 醫院的整體死亡率。於是當不考慮病患的病情而只單單看整體的死亡率時,會誤以為 B 醫院的醫療水平較高。
326Please respect copyright.PENANAmlujQv8w3p
這裏多列出一個例子。例子是一個很經典的問題:吸煙是否導致肺癌?
326Please respect copyright.PENANAkA1hT5x8rO
即使我們發現吸煙與肺癌正相關,也不能斷言「吸煙導致肺癌」。這是因為可能存在一些不可見的因素。例如: 某些基因可能使得人更容易吸煙,同時容易得肺癌; 存在這樣基因的人即使不吸煙,也會同樣得肺癌。此時,吸煙和肺癌之間有相關性,卻沒有因果作用。當然,我個人認為兩者的確存在因果關係。
326Please respect copyright.PENANAslKMM80BmS
這裏多列出一個例子:
326Please respect copyright.PENANAOeCYIWKkSl
我們知道放射性物質對人體的健康有很大的傷害,但是鈾礦的工人平均壽命卻不比正常人短。這是流行病學中有名的「健康工人效應」(Healthy worker effect)。這樣似乎是在說在鈾礦工作對健康沒有影響。但事實上,鈾礦的工人通常都是身強力壯的人,不在鈾礦工作壽命會更長。此時,是否在鈾礦工作與壽命沒有相關性,但是放射性物質對人的健康是有因果作用的。
326Please respect copyright.PENANAKrxc7sHYf9
因此,現在你應該可以理解為何Frank A. Schmid跟Kevin L. Kliesen的研究結論「對地獄的恐懼可能會刺激經濟」有機會是錯誤,因為這證明過程可能有不可見的因素,導致宗教因素和經濟增長之間有相關性,卻沒有因果作用。有宗教信仰的人口可能有較低犯罪率,令到投資者可能更樂意投資該國家,令該國家有更高經濟增長。因此,低犯罪率有可能才是經濟增長的因素。
326Please respect copyright.PENANA7p43WK1fb0
在醫學領域,亦同樣有P值篡改的問題。AllTrials Campaign創始人Ben Goldacre是一位流行病學家。Ben Goldacre在他的著作《偽科學》重點討論了醫學研究員如何通過無知或欺騙的不良科學方法來操縱證據。
326Please respect copyright.PENANAqRKBHMhqVT
報紙頭條上宣稱紅酒會降低患乳腺癌的風險。這項研究結論是源自從葡萄皮中提取的一種化學物質進行抗藥性研究。這種化學物質與培養皿中的癌細胞對抗。在這種情況下,這研究方法沒有任何意義,因為事實上葡萄酒中的酒精含量本質上會增加您患癌症的風險。
326Please respect copyright.PENANAxxmCM3avCX
另一項研究表明,食用橄欖油和蔬菜的人的皮膚皺紋減少了。這篇論文是正確的,即食用橄欖油和蔬菜的人皺紋較少,但他們更富有,受過更好的教育,減少了體力勞動,減少了吸煙跟飲酒。這些其他因素與減少皺紋有關。這意味這項研究的數據中有選擇偏見 (Selection bias)。
326Please respect copyright.PENANAj1bapklyTT
最後一個醫學例子是,當舊的抗精神病藥物產權到期時,例如: 理思必妥 (Risperidone),製藥公司都可以自己生產這些藥物。
326Please respect copyright.PENANApOz2KTIf22
為了設法證明他們生產的藥比理思必妥有更少副作用,他們拿藥和一天八毫克大劑量的理思必妥做比較。最終,藥商贊助的實驗比那些獨立出資的實驗,得到陽性結果機率高出四倍,因為把藥物的劑量開這麼高,它的副作用當然比新的藥物還要多。
326Please respect copyright.PENANAGqwOqekzK0
但是,即使製藥公司的試驗做得很正確,兩個藥物的劑量一樣,亦有方法可以讓藥商鑽漏洞。
326Please respect copyright.PENANAxPaNYBX1XL
因為負面不利的數據在實驗進行中可以被製藥公司隱藏起來,而醫生和病人都不知情。當要衡量一款藥物的有效性,我們需要所有研究數據。 Ben Goldacre討論他給病人開過的一種Reboxetine抗抑鬱藥片,發現該藥75%的實驗結果都沒有公佈過。至今,大約有一半抗憂鬱藥物的實驗結果仍未公佈。
326Please respect copyright.PENANANzrrLj0oRL
幸運地,現時一些國家意識到這不良科學研究方式的危害性。以美國為例,美國食品藥品監督管理局 (FDA) 會審查藥商的實驗室、動物和人體臨床測試的實驗結果,判斷它們是否安全且有效。
326Please respect copyright.PENANARVMYK9uhTd
提到這麼多金融以外領域的目的,是為了展示P值篡改問題的泛濫性。當然,我們不是懷疑論者,不會說地心重力跟物體下跌之間可能有不可見的因素。但如果當研究結論似乎不太合理,我們就要懷疑其合理性。那麼現在你應該可以理解P值篡改這個概念,以及學會正確判斷研究結論。
326Please respect copyright.PENANACnDyceecu6
326Please respect copyright.PENANAbdl39bY7DR
最後以John P. A. Ioannidis (2005)的研究文章"Why Most Published Research Findings Are False"的內容,簡單總結正確的研究方式:
326Please respect copyright.PENANAvNvrsOYHgu
「越來越多的人擔心,目前公佈的大多數研究結果都是虛假的。
326Please respect copyright.PENANAMFn5o0Uwiu
一項研究主張為真的可能性可能取決於
326Please respect copyright.PENANAOMROrQRe2p
- 研究力度跟偏差
- 關於同一問題的其他研究數量
- 以及重要的是,每個科學領域所探究的關係中真與假的比例。
326Please respect copyright.PENANAZmE31eQnig
在這個框架下,當一個領域中進行的研究較少時;當效應值較小時;當測試關係的數量較多且預選較少時;當設計、定義、結果和分析模式有較大的靈活性時;當財務和其他利益和偏見較多時;當一個科學領域有更多的團隊參與追逐統計學意義時,一個研究結果真實的可能性較小。
326Please respect copyright.PENANAEizz5fvhXP
模擬結果表明,對於大多數研究設計和環境來說,研究主張是假的可能性比真的可能性更大。此外,對於當前的許多科學領域來說,聲稱的研究結果往往可能只是對普遍偏見的準確衡量。」
326Please respect copyright.PENANAfeAr8mgI82
效應值是一個統計學概念。它用來衡量兩個變量之間關係的強度。衡量效應值通常用以下三種方法來衡量:
326Please respect copyright.PENANA4aAXJGEtLd
- 1. 標準化平均差 (Standardized mean difference)
- 2. 奇數比 ( Odd ratio)
- 3. 相關係數 (Correlation coefficient)
326Please respect copyright.PENANAPB6IT9Lrc6
常用的相關係數就是效應值的其中一個例子。
326Please respect copyright.PENANAgHqYDejcFT
雖然在醫學藥物領域,有類似美國食品藥品監督管理局在把守。但是,在金融領域卻沒有監督機構對金融產品是否有P值篡改問題進行審查。
326Please respect copyright.PENANAVvZPT8GtrX
在量化金融範疇,P值篡改的問題則更為嚴重,因為每個人都把這項金融研究目的設定為尋找至少一個可以成功賺錢或者具高夏普比率 (Sharpe Ratio) 的金融特徵。這亦是對沖基金唯一要存在的理由。
326Please respect copyright.PENANAvZlVBDCaNN
另外,金融領域有別其他領域,大家只有一組一模一樣的歷史數據,我們無法好像其他領域尋找更多數據去檢驗假設。以醫學領域為例,製藥公司可以找更多測試者測試新藥物。或者以材料學為例,當研究員使用電腦演算法,找到一種新材料,他可以在實驗室嘗試合成該材料,檢驗假設。但是在金融研究領域,人們則無法這樣做。
326Please respect copyright.PENANAR9VNBtOQiL
Marcos Lopez de Prado跟David H. Bailey (2018) 提出「虛假策略定理」 ("False Strategy Theorem") 。該定理指出,未知數量的歷史回測得到的最佳結果數量是無窮。只要進行足夠的試驗,就可以產生高夏普比率。由於人們可以很容易地使用電腦來探索策略中的許多不同變量,而只選擇最佳變量,導致很容易找到看起來好像可以賺錢的金融特徵。但這些變量只不過是虛假發現,這是多重測試下選擇偏向的結果。
326Please respect copyright.PENANApq6azuwffw
326Please respect copyright.PENANAJzs2A3Guxj
上圖展示了X軸中實驗次數跟Y軸中得到虛假發現概率的關係。
326Please respect copyright.PENANAk6X11O3s9P
著名的眾包投資對沖基金Quantopian的研究員Dr. Thomas Wiecki、Andrew Campbell 、Justin Lent跟Dr. Jessica Stauth (2019) 亦有實驗證據,能夠證明「虛假策略定理」。
326Please respect copyright.PENANAlincu8rF27
他們使用了在Quantopian平台上開發和經過濾的888個算法交易策略的獨特數據集,那些數據集的樣本外數據 (Out-of-sample) 至少有6至12個月。那些在Quantopian平台上開發的交易算法在2010年至2015年進行了回測。
326Please respect copyright.PENANAPux54IJbCY
他們發現單項指標的回測表現與樣本外數據的相關度非常弱,反映回測測試對未來性能的預測信息很少。他們研究了回測過度擬合 (Backtesting Overfitting) 的普遍性和影響。他們發現一般報告的回測評估指標,例如: 夏普比率,在預測樣本外的表現幾乎沒有價值,單項指標的回測表現與樣本外數據的相關度非常弱,反映回測測試對未來性能的預測信息很少。
326Please respect copyright.PENANAJXPj75pGET
他們同樣發現了過度擬合的證據— 對策略的回測次數愈多,回測和樣本外表現之間的差異就越大。
326Please respect copyright.PENANAgXDhd334Jf
然而,他們發現非線性機器學習分類器 (Non-linear machine learning classifiers) 有較好的表現,其樣本外(Out-of sample)表現確實可以預測將來表現。這解決方法稍後將會被提及。
326Please respect copyright.PENANAMtI2YZylaE
實驗進行數量跟虛假發現出現概率有相關性不令人感意外,因為在很久以前,Family-wise Error Rate (FWER)便被提出。
326Please respect copyright.PENANArwZbaxMuos
在統計學中,Family-wise Error Rate是指是在一系列假設檢驗 (Hypothesis testing) 中,得出至少一個錯誤結論的概率。
326Please respect copyright.PENANATsZjwHL7Lp
FWER Formula:
326Please respect copyright.PENANAjsRNhSlpmf
FWER≤ 1 – (1 – αIT)c
326Please respect copyright.PENANAbvdfhOySbK
αIT =單個測試的的alpha水平 (往往是設定為0.05或者0.01)
c = 比較次數
326Please respect copyright.PENANAqRQePlG6oM
這裹有一個例子,假設在5%的alpha水平和一系列十項測試的情況下,FWER為:
326Please respect copyright.PENANAsaINzS12kV
FWER <= 1 - (1–0.05)^10
FWER <= 0.401
326Please respect copyright.PENANAkYazeKgUeV
這意味著得出至少一個錯誤結論的可能性剛好超過40%,考慮到僅執行了十次測試,這是非常高的。
326Please respect copyright.PENANADOoU9AzFTr
326Please respect copyright.PENANAvmNBfuHgpA
另外,樣本量愈大,過度擬合的出現概率愈小 (但一般金融研究人員會考慮所選擇的回測期是否跟當前金融市場環境大致一樣)。David H. Bailey、Jonathan Borwein、Marcos Lopez de Prado以及Qiji Jim Zhu (2014) 在美國數學學會AMS通告中,提出對於既定樣本量,可以進行回測的最大次數。
326Please respect copyright.PENANAHyv5cNjzFD
326Please respect copyright.PENANAuBAg3kffZd
一般研究人員會使用10年歷史日數據 (7年樣本內,3年樣本外),意味最多只可以進行約150次試驗,測試該交易想法。如果進行了150次試驗,最大預期IS夏普比率則為1,最大預期OOS夏普比率為0。
326Please respect copyright.PENANARzDTkTDqBM
對於10年樣本內歷史日數據,則最多可以進行約730次試驗。如果進行超過730次試驗,最大預期OOS夏普比率便會低於0,亦即是損失中。
326Please respect copyright.PENANAdzvQwpxzTY
當然,影響過度擬合不單單只有實驗次數、數據樣本這兩個因素。個人認為某些交易策略會有較高過度擬合概率。
326Please respect copyright.PENANAEP52C2LIzu
例如: 交易每星期只從美國醫療行業成份股中,抽取一個股票進行輪動交易 (Rotational trading),會比起全球宏觀交易策略有更高過度擬合可能性,即使研究員都是以歷史日數據進行研究。
326Please respect copyright.PENANAxUAlImoEjx
Christoph Molnar (2019)在其出版著作《Interpretable Machine Learning》提出機器學習的可解釋性這概念: Interpretability跟explainability。
326Please respect copyright.PENANAH9Iq6z67xa
這兩個字在中文都是指可解釋性,但在機器學習具有不同意思。
326Please respect copyright.PENANAzfVm6RyDwx
Interpretability: 從機器學習模型確定因果關係的能力。
Explainability: 了解一個節點所代表的內容及其對模型性能的重要性。
326Please respect copyright.PENANAJFBaz4ZznW
大家很容易會弄錯兩者的微妙區別,但可以這樣考慮:Interpretability是指能夠辨別出力學原理,但不一定知道為什麼。Explainability是能夠很真實地解釋正在發生的事情。
326Please respect copyright.PENANAfBZhVoLdls
- 1. 如果您在晚餐時間吃麵食過多,並且總是在睡眠方面遇到麻煩,那麼這種情況是可以interpretable的。
- 326Please respect copyright.PENANAtxgDUk6UM1
- 2. 如果2016年所有民意調查均顯示民主黨絕大機會獲勝,而共和黨候選人上任,則顯示民意調查的測驗有較低的interpretability。如果民意測驗者打算準備預測選舉結果,那麼這錯誤結果表明他們的民意調查模型可能需要更新。
- 326Please respect copyright.PENANAMHNN7eEbol
但我們一般要有足夠大小的樣本量,才可以判斷模型是否擁有高interpretability。如果樣本量太少,便無法知道模型是否只是偶然地預測錯誤。
326Please respect copyright.PENANAgQiJ8AtxqX
在一些低風險情況下,低interpretability是沒有問題。如果是電影推薦系統,那便是低風險任務。如果Google正在推薦你一些新聞消息,那亦是低風險任務。
326Please respect copyright.PENANAfyIsfvGWVz
但擁有高Interpretability往往是很重要,因為這意味開發者了解機器學習演算法的學習過程,從而知道該預測是如何進行的。在某些領域,高Interpretability是必須的,例如: 汽車自動駕駛、飛機無人駕駛、癌症預測......等領域,因為如果在這些領域預測錯誤,會造成性命損失或是重大意外發生。
326Please respect copyright.PENANAeWXHHbunyr
Amazon的機器學習團隊自 2014 年以來,就在開發用來審核應徵者履歷表的自動化系統,讓尋找合適人選更簡單。這個系統可為應徵者自動打分數。Amazon 原先的目標是要利用人工智慧系統把招聘過程盡量自動化,放入 100 個履歷表後,就自動提供 5 個最合適的人選聘用。
326Please respect copyright.PENANA2j30KKtLzk
可是, Amazon在2015 年發現這個系統有數據偏見問題。當有分析軟體開發者和其他技術職位的應徵者時,會出現性別偏見。造成這問題的主因是, Amazon 投入的訓練數據是來自過去 10 年來的聘用紀錄。Amazon將過去的被聘用人士標籤成正確。由於大部分獲聘的都是男性,整個科技行業中男性具主導地位,因此當履歷表出現「女性」一詞會扣分。
326Please respect copyright.PENANApvHGnPmuPV
雖然 Amazon 嘗試改善系統以減少數據偏見,但無法確保問題不再出現。結果 Amazon 就棄用這個實驗性系統。最後正如Nihar Shah (2018) 對路透社所說:「如何確保算法是公平、如何確保算法是真正interpretabile和explainable,仍然相距甚遠。」
326Please respect copyright.PENANAVMBIdWEGq4
金融交易策略亦需要具有高Interpretability的模型,因為這涉及到寶貴的財產,因此有必要地了解機器學習演算法的學習過程,以及了解它背後做出該決策的原因。
326Please respect copyright.PENANAq25MA4nufl
這亦關係到為何技術分析沒有預測作用。這將會在下一個章節被提及。
326Please respect copyright.PENANATDNNZYxtA1
接下來,會以QuantConnect《研究指南》為例,提出一個正確的金融研究方法。
326Please respect copyright.PENANA1gWJW59lxc
QuantConnect是一間提供免費的算法回測工具和金融數據的公司,旨在教導和啟發使用者創建高表現的算法交易策略,讓工程師可以自行設計算法交易策略。QuantConnect在2019年發布了《研究指南》,向人們介紹常見的定量研究陷阱。
326Please respect copyright.PENANAOO7llYGCep
QuantConnect建議使用者先提出一個中心假設,來製定算法交易策略。在你的研究開始時就應該制定一個假說(Hypothesis),剩下的時間則用來探索如何測試理論。如果發現自己偏離了核心理論,或者引入的代碼不是基於這個假設,就應該停下來,回到論文開發中。
326Please respect copyright.PENANAB8gLr63Mg8
提出一個中心假設有點像一門藝術,需要傑出創造力和出色的觀察能力。
326Please respect copyright.PENANA7JgZrLlfkj
最重要的是,算法假說要遵循因果關係的模式。設計者要不斷思考什麼原因導致該結果。
326Please respect copyright.PENANAXPlaKWcC7n
QuantConnect認為使用者可以從自己的經驗、直覺或媒體中考慮可能原因,尋找靈感。
326Please respect copyright.PENANAUSF8RVtx9W
請考慮以下例子:
326Please respect copyright.PENANA0K9YuYA814
326Please respect copyright.PENANAqsgsUCDx6u
326Please respect copyright.PENANAIRVwQe4gkn
金融世界有數百萬種潛在的交易策略可供探索,每種策略都可以作為交易算法的候選對象,例如: 跨市場套利 (Cross-market arbitrage)中的ADR套利,或者A股ETF跟日本東證上市的ETF進行套利。
326Please respect copyright.PENANAPV8dLsoMDd
但是在選擇要準備探索的潛在交易策略前,請根據自己的編碼能力、硬體、軟體設備和資金狀況等......,進行探索。
這是因為有些交易策略即使研發了出來,如果沒有對應準備,是可能無法獲利。
326Please respect copyright.PENANA5O0YMxgEpz
選擇策略後,QuantConnect建議使用者根據自己的編碼能力,不要花費超過8至32小時探索該策略。
326Please respect copyright.PENANAzSRIAtu6NL
另外,QuantConnect有一個研究指南顯示面板,顯示了進行回測測試的數量、使用的參數數量以及在該策略上花費的研究時間。
326Please respect copyright.PENANAewBHBqy71O
下圖是QuantConnect的研究指南顯示面板
326Please respect copyright.PENANAuVPSFJFKKu
326Please respect copyright.PENANAbGnjmyWIW6
這些衡量標準可以對研究項目的過度擬合風險進行大致估算。一般來說,當一個策略在歷史數據上的過擬合度越高時,它在真實交易中表現良好的可能性就越小。
326Please respect copyright.PENANAfwzyVWL7RO
16. AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES
https://www.amstat.org/asa/files/pdfs/p-valuestatement.pdf
326Please respect copyright.PENANArFLdDllqvF
17. 15. Stats Experts Plead: Just Say No to P-Hacking
https://undark.org/2019/03/21/statisticians-p-hacking/
326Please respect copyright.PENANARcrSKSyef7
18. I Fooled Millions Into Thinking Chocolate Helps Weight Loss. Here's How.
https://io9.gizmodo.com/i-fooled-millions-into-thinking-chocolate-helps-weight-1707251800
326Please respect copyright.PENANA8MmQBbWXRQ
19. Correlation or Causation?
http://jfmueller.faculty.noctrl.edu/100/correlation_or_causation.htm
326Please respect copyright.PENANAdlIrBLVRhZ
20. Fear of Hell Might Fire Up the Economy
326Please respect copyright.PENANA102GwnmVJ8
21. 因果推断简介之一:从 Yule-Simpson’s Paradox 讲起
https://cosx.org/2012/03/causality1-simpson-paradox/
326Please respect copyright.PENANA02tBcqQJ9x
22. About Dr Ben Goldacre
https://www.badscience.net/about-dr-ben-goldacre/
326Please respect copyright.PENANAaDmYR3gcKM
23. TED-ED "Battling Bad Science"
https://www.ted.com/talks/ben_goldacre_battling_bad_science
326Please respect copyright.PENANAsGfCInMybS
24. Is It Really 'FDA Approved?
https://www.fda.gov/consumers/consumer-updates/it-really-fda-approved
326Please respect copyright.PENANAL5cFiXEqHy
25. Why Most Published Research Findings Are False
https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124
326Please respect copyright.PENANAFBPiLarwWI
26. The False Strategy Theorem: A Financial Application of Experimental Mathematics
326Please respect copyright.PENANAzyZAMB7tbX
27. Clustered Feature Importance (Presentation Slides)
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3517595
326Please respect copyright.PENANAu17sSsCcgi
28. All that Glitters Is Not Gold: Comparing Backtest and Out-of-Sample Performance on a Large Cohort of Trading Algorithms
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2745220
326Please respect copyright.PENANACPwMHQQUeh
29. Familywise Error Rate (Alpha Inflation): Definition
https://www.statisticshowto.com/familywise-error-rate/
326Please respect copyright.PENANAxtQKM9VuhJ
30. Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2308659
326Please respect copyright.PENANAvYt6ctdu9U
31. Interpretable Machine Learning A Guide for Making Black Box Models Explainable
https://christophm.github.io/interpretable-ml-book/
326Please respect copyright.PENANAN2CLOWxOel
32. Machine Learning Explainability vs Interpretability: Two concepts that could help restore trust in AI
https://www.kdnuggets.com/2018/12/machine-learning-explainability-interpretability-ai.html
326Please respect copyright.PENANAMNZpT0tACl
33. QuantConnect "Key Concepts Research Guide"
https://www.quantconnect.com/docs/key-concepts/research-guide
ns 15.158.61.7da2