久久久久久久久久久久久久久久久久网,玩弄放荡人妇系列av在线网站,人妻伊人,午夜一区二区国产好的精华液,久久久久丫

“AI問診就是拋硬幣”,甚至漏掉67%病患,Nature都看不下去了 環(huán)球今日訊

來源:36kr時間:2023-01-17 15:03:09

“AI的一些醫(yī)療決策,實(shí)際上就是拋硬幣?!?/strong>


(資料圖片僅供參考)

哈佛醫(yī)學(xué)院的數(shù)據(jù)科學(xué)家Kun-Hsing Yu語出驚人。

他還補(bǔ)充道:

即便比賽中正確率達(dá)90%的獲獎模型,再用原數(shù)據(jù)集子集測試時,準(zhǔn)確度最多60-70%,可謂慘敗。這讓我們很驚訝。

上述科學(xué)家的觀點(diǎn)來自Nature最近新發(fā)表的一篇文章。

內(nèi)容對AI在醫(yī)療領(lǐng)域的可重復(fù)性提出了質(zhì)疑,呈現(xiàn)諸多醫(yī)療領(lǐng)域及場景中,AI自帶的黑箱屬性造成的隱患。

更值得關(guān)注的是,盡管問題存在,但AI仍在醫(yī)療領(lǐng)域大規(guī)模推廣使用。

舉例來看,數(shù)以百計(jì)的美國醫(yī)院已在使用一種AI模型標(biāo)記敗血癥早期癥狀,但在2021年,該模型被發(fā)現(xiàn)未能識別率高達(dá)67%。

所以,AI究竟帶來了哪些醫(yī)療隱患,如何解決?

繼續(xù)往下看。

人工智能的“看病難”

我們先從哈佛醫(yī)學(xué)院的數(shù)據(jù)科學(xué)家Kun-Hsing Yu發(fā)現(xiàn)AI“拋硬幣”的始末聊起。

在醫(yī)療領(lǐng)域,AI用于診斷檢測人體一直質(zhì)疑聲不斷,Kun-Hsing Yu此番研究也是希望有個直觀體感。

他選定了常見癌癥之一的肺癌,每年有350萬美國人因該病癥去世,若能更早通過CT掃描篩查,很多人可以免于死亡。

該領(lǐng)域的確備受機(jī)器學(xué)習(xí)界關(guān)注,為此,2017年業(yè)內(nèi)還舉辦了面向肺癌篩查的競賽。

該活動歸屬于Kaggle的Data Science Bowl賽事,數(shù)據(jù)由主辦方提供,涵蓋1397位患者的胸部CT掃描數(shù)據(jù)。參賽團(tuán)隊(duì)需開發(fā)并測試算法,最終大賽按準(zhǔn)確率給予評獎,在官宣中,至少五個獲獎模型準(zhǔn)確度90%以上。

但Kun-Hsing Yu又重新測試了一輪,然后震驚地發(fā)現(xiàn),即便使用原比賽數(shù)據(jù)的子集,這些“獲獎”模型最高準(zhǔn)確率卻下降到了60-70%。

上述狀況并非個例。

普林斯頓一位博士,Sayash Kapoor,在17個領(lǐng)域的329項(xiàng)研究中報(bào)告了可重復(fù)性失敗和陷阱,醫(yī)學(xué)名列其中。

基于研究,這位博士及自己的教授還組織了一個研討會,吸引了30個國家600名科研者參與。

一位劍橋的高級研究員在現(xiàn)場表示,他用機(jī)器學(xué)習(xí)技術(shù)預(yù)測新冠傳播流行趨勢,但因不同來源的數(shù)據(jù)偏差、訓(xùn)練方法等問題,沒有一次模型預(yù)測準(zhǔn)確。還有一位研究者也分享了——自己用機(jī)器學(xué)習(xí)研究心理課題,但無法復(fù)現(xiàn)的問題。

在該研討會上,還有參與者指出谷歌此前遇到的“坑”。

他們曾在2008年就利用機(jī)器學(xué)習(xí)分析用戶搜索所產(chǎn)生數(shù)據(jù)集,進(jìn)而預(yù)測流感暴發(fā)。谷歌為此還鼓吹一波。

但事實(shí)上,它并未能預(yù)測2013年的流感暴發(fā)。一家獨(dú)立研究機(jī)構(gòu)指出,該模型將一些流感流行無關(guān)的季節(jié)性詞匯進(jìn)行了關(guān)聯(lián)和鎖定。2015年,谷歌停止了對外公開該趨勢預(yù)測。

Kapoor認(rèn)為,就可重復(fù)性來說,AI模型背后的代碼和數(shù)據(jù)集都應(yīng)可用并不出錯誤。那位研究新冠流行模型的劍橋ML研究者補(bǔ)充道,數(shù)據(jù)隱私問題、倫理問題、監(jiān)管障礙也是導(dǎo)致可重復(fù)性出問題的病灶。

他們繼續(xù)補(bǔ)充道,數(shù)據(jù)集是問題根源之一。目前公開可用的數(shù)據(jù)集比較稀缺,這導(dǎo)致模型很容易產(chǎn)生帶偏見的判斷。比如特定數(shù)據(jù)集中,醫(yī)生給一個種族開的藥比另一個種族多,這可能導(dǎo)致AI將病癥與種族關(guān)聯(lián),而非病癥本身。

另一個問題是訓(xùn)練AI中的“透題”現(xiàn)象。因數(shù)據(jù)集不足,用于訓(xùn)練模型的數(shù)據(jù)集和測試集會重疊,甚至該情況一些當(dāng)事人還不知道,這也可能導(dǎo)致大家對模型的正確率過于樂觀。

盡管問題存在,但AI模型仍已被應(yīng)用在實(shí)際診斷場景中,甚至直接下場看病。

2021年,一個名為Epic Sepsis Model的醫(yī)療診斷模型被曝出嚴(yán)重漏檢問題。

該模型用于敗血癥篩查,通過識別病人早期患病特征檢測,避免這種全身感染的發(fā)生,但密歇根大學(xué)醫(yī)學(xué)院研究者通過調(diào)查分析了27697人的就診情況,結(jié)果發(fā)現(xiàn),該模型未能識別67%敗血癥病患。

此后,該公司對模型進(jìn)行了大調(diào)整。

一位計(jì)算生物學(xué)家對此指出,該問題之所以較難解決,也同AI模型透明度不足有關(guān)?!拔覀冊趯?shí)踐中部署了無法理解的算法,也并不知道它帶什么偏見”,他補(bǔ)充道。

可以明確的是,只要上述問題一直未能解決,商業(yè)巨頭及相關(guān)創(chuàng)業(yè)項(xiàng)目也有些舉步維艱——

去年谷歌谷歌健康(Google Health)宣布人員拆分到各團(tuán)隊(duì),前幾天,谷歌孵化的生命健康子公司Verily又被曝裁員約15%。

有沒改進(jìn)措施?

對于這樣的現(xiàn)狀,一些研究者和業(yè)內(nèi)人士也在著手改進(jìn)醫(yī)療AI。

一方面,是構(gòu)建靠譜的超大數(shù)據(jù)集。

涵蓋機(jī)構(gòu)、國家和人口等多方面的數(shù)據(jù),并向所有人開放。

這種數(shù)據(jù)庫其實(shí)已經(jīng)出現(xiàn)了,比如英國和日本的國家生物庫,以及重癥病房遠(yuǎn)程監(jiān)護(hù)系統(tǒng)eICU合作的數(shù)據(jù)庫等。

就拿eICU合作研究數(shù)據(jù)庫來說,這里面大約有20萬次的ICU入院相關(guān)數(shù)據(jù),由飛利浦醫(yī)療集團(tuán)和MIT的計(jì)算生理學(xué)實(shí)驗(yàn)室共同提供。

為了規(guī)范數(shù)據(jù)庫的內(nèi)容,需要建立收集數(shù)據(jù)的標(biāo)準(zhǔn)。例如一個關(guān)于醫(yī)療結(jié)果伙伴關(guān)系的可觀測數(shù)據(jù)模型,讓各醫(yī)療機(jī)構(gòu)能以相同的方式收集信息,這樣有利于加強(qiáng)醫(yī)療保健領(lǐng)域的機(jī)器學(xué)習(xí)研究。

當(dāng)然,與此同時,也必須重視嚴(yán)格保護(hù)患者的隱私,而且只有當(dāng)患者本人同意時,才有資格把他們的數(shù)據(jù)納入庫。

另一方面,想要提升機(jī)器學(xué)習(xí)質(zhì)量的話,消除冗余數(shù)據(jù)也很有幫助。

因?yàn)樵跈C(jī)器學(xué)習(xí)中,冗余數(shù)據(jù)不僅會延長運(yùn)行時間、消耗更多資源;而且還很可能造成模型過擬合——也就是訓(xùn)練出來的模型在訓(xùn)練集上表現(xiàn)很好,但是在測試集上表現(xiàn)較差。

對于AI圈很熱門的預(yù)測蛋白質(zhì)結(jié)構(gòu),這個問題已經(jīng)得到了有效緩解。在機(jī)器學(xué)習(xí)過程中,科學(xué)家們成功地從測試集中刪除了和訓(xùn)練集用到的過于相似的蛋白質(zhì)。

but,各病人醫(yī)療數(shù)據(jù)之間的差異,并沒有不同蛋白質(zhì)結(jié)構(gòu)差異那么明顯。在一個數(shù)據(jù)庫中,可能有許許多多病情非常相似的個體。

所以我們需要想清楚到底向算法展示什么數(shù)據(jù),才能平衡好數(shù)據(jù)的代表性和豐富性之間的關(guān)系。

哥本哈根大學(xué)的轉(zhuǎn)化性疾病系統(tǒng)生物學(xué)家S?ren Brunak如是評價。

除此之外,還可以請行業(yè)大佬們制定一個檢查表,規(guī)范醫(yī)療AI領(lǐng)域的研究開發(fā)步驟。

然后,研究人員就能更方便地搞清楚先做什么、再做什么,有條不紊地操作;還能Check一些可能遺漏的問題,比如一項(xiàng)研究是回顧性還是前瞻性的,數(shù)據(jù)與模型的預(yù)期用途是否匹配等等。

其實(shí),現(xiàn)有已有多種機(jī)器學(xué)習(xí)檢查表,其中大部分是基于“EQUATOR Network”先提出的,這是一項(xiàng)旨在提高健康研究可靠性的國際倡議。

此前,上文提到的普林斯頓的Kapoor博士,也和團(tuán)隊(duì)共同發(fā)表了一份包含21個問題的清單。

他們建議,對于一個預(yù)測結(jié)果的模型,研究人員得確認(rèn)訓(xùn)練集中的數(shù)據(jù)要早于測試集,這樣可以確保兩個數(shù)據(jù)集是獨(dú)立的,不會有數(shù)據(jù)重疊和相互影響。

參考鏈接

[1]https://www.nature.com/articles/d41586-023-00023-2

[2]https://www.wired.com/story/machine-learning-reproducibility-crisis/

[3]https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA

關(guān)鍵詞: 機(jī)器學(xué)習(xí) 醫(yī)療領(lǐng)域 可重復(fù)性

責(zé)任編輯:FD31
上一篇:當(dāng)前熱文:為什么1%的億萬富豪能賺走全球2/3的增量財(cái)富?
下一篇:最后一頁