蛋殼研究院曾在2018年的報告中提到,隨著我國人口總量峰值達(dá)到15億,僅醫(yī)療大數(shù)據(jù)總量就將達(dá)到ZB以上。前些年也有機構(gòu)預(yù)測,到2020年全球醫(yī)療數(shù)據(jù)量預(yù)計將達(dá)到35ZB,而中國的數(shù)據(jù)量將占全球的20%。
雖然如今尚沒有確切的數(shù)據(jù),但我國醫(yī)療數(shù)據(jù)資源豐富,應(yīng)用場景涉及到醫(yī)療服務(wù)、醫(yī)院管理、醫(yī)學(xué)科研、公共衛(wèi)生、醫(yī)療保障、以及產(chǎn)業(yè)發(fā)展的各個環(huán)節(jié)和領(lǐng)域,健康醫(yī)療大數(shù)據(jù)行業(yè)市場規(guī)模也在逐年增長。數(shù)據(jù)不僅是AI模型訓(xùn)練的基礎(chǔ),還關(guān)系到AI技術(shù)在醫(yī)療中的應(yīng)用效果和可信度。然而,醫(yī)療AI的發(fā)展過程中,面臨的最大挑戰(zhàn)之一也是數(shù)據(jù)的獲取與利用。
一、醫(yī)療AI大模型為何需要數(shù)據(jù)
醫(yī)療AI技術(shù)的核心在于通過海量數(shù)據(jù)的學(xué)習(xí)與分析,來構(gòu)建和優(yōu)化模型,以達(dá)到診斷、治療、預(yù)測疾病等目標(biāo)。只有擁有足夠多且高質(zhì)量的數(shù)據(jù),AI才能夠“學(xué)習(xí)”到足夠多的知識,從而做出準(zhǔn)確的判斷。
例如,將患者的病歷、影像、基因信息等數(shù)據(jù)用于訓(xùn)練AI大模型,使其能夠識別復(fù)雜的疾病模式和預(yù)測患者的健康風(fēng)險,高質(zhì)量的數(shù)據(jù)直接決定了AI大模型的性能。數(shù)據(jù)不僅用于模型的訓(xùn)練,還用于模型的驗證和優(yōu)化,通過不斷地驗證和調(diào)整,AI大模型可以變得更加精準(zhǔn)和可靠。醫(yī)療AI大模型還需要通過持續(xù)地接收新數(shù)據(jù)來進(jìn)行更新,以適應(yīng)不斷變化的醫(yī)學(xué)知識和臨床實踐。
醫(yī)療AI大模型的訓(xùn)練、驗證與優(yōu)化、應(yīng)用與更新,均高度依賴于大規(guī)模、高質(zhì)量的數(shù)據(jù)。這些數(shù)據(jù)不僅是模型學(xué)習(xí)的基礎(chǔ),也是它們在實際應(yīng)用中提供精準(zhǔn)預(yù)測和決策支持的關(guān)鍵。
二、醫(yī)療數(shù)據(jù)使用現(xiàn)狀
盡管醫(yī)療AI大模型的應(yīng)用在不斷擴(kuò)展,但在數(shù)據(jù)使用方面存在較大限制,真正能夠用于AI開發(fā)和應(yīng)用的數(shù)據(jù)仍然有限。
首先,數(shù)據(jù)孤島問題嚴(yán)重。醫(yī)療數(shù)據(jù)分散在各個醫(yī)院、實驗室和機構(gòu)中,缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和共享機制,難以整合利用,AI大模型無法獲得足夠多樣化和全面的數(shù)據(jù)來進(jìn)行有效的訓(xùn)練。
其次,數(shù)據(jù)標(biāo)準(zhǔn)化不足。醫(yī)療數(shù)據(jù)的質(zhì)量直接影響AI模型的表現(xiàn),然而由于醫(yī)療數(shù)據(jù)來源多樣,且數(shù)據(jù)格式和結(jié)構(gòu)各異,不完整、不準(zhǔn)確或不一致的問題使得數(shù)據(jù)清洗和預(yù)處理工作變得異常復(fù)雜和耗時,數(shù)據(jù)的整合和應(yīng)用難度大大增加。低質(zhì)量的數(shù)據(jù)不僅影響AI大模型的訓(xùn)練效果,甚至可能導(dǎo)致錯誤的診斷或治療建議。
此外,隱私與安全問題突出。醫(yī)療數(shù)據(jù)非常敏感,涉及個人隱私和倫理安全。隱私保護(hù)技術(shù)不足,嚴(yán)格的法律法規(guī)限制了數(shù)據(jù)的自由流動,進(jìn)一步加劇了數(shù)據(jù)獲取和利用的難度。
多重困難之下,獲取醫(yī)療數(shù)據(jù)的成本較高,尤其是對于小型醫(yī)療機構(gòu)和初創(chuàng)企業(yè)來說,數(shù)據(jù)的獲取和處理成本可能成為主要障礙。
三、醫(yī)療AI大模型訓(xùn)練的數(shù)據(jù)來源
醫(yī)療AI大模型所需的數(shù)據(jù)來源廣泛,包括但不限于電子病歷數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)、基因組數(shù)據(jù)、臨床試驗數(shù)據(jù)、檢驗數(shù)據(jù)、費用數(shù)據(jù)、醫(yī)院運營管理數(shù)據(jù)、醫(yī)藥研發(fā)數(shù)據(jù)、藥品流通數(shù)據(jù)、智能穿戴數(shù)據(jù)、體檢數(shù)據(jù)等等。
這些數(shù)據(jù)中,一部分是來自政府的公共數(shù)據(jù),例如常規(guī)人口統(tǒng)計和重大疾病監(jiān)測數(shù)據(jù)、醫(yī)療保險數(shù)據(jù)等,這些數(shù)據(jù)具有較高的權(quán)威性和可靠性,當(dāng)前我國有序推進(jìn)公共數(shù)據(jù)開放,推動公共數(shù)據(jù)資源開發(fā)利用,充分釋放公共數(shù)據(jù)價值。
另一部分是企業(yè)自有數(shù)據(jù),例如有些企業(yè)擁有自己的研究數(shù)據(jù),還有軟硬件產(chǎn)品進(jìn)行自主采集獲取的數(shù)據(jù),再進(jìn)行結(jié)構(gòu)化處理,形成人工智能的訓(xùn)練基礎(chǔ)。
此外,還有一些數(shù)據(jù)產(chǎn)業(yè)合作數(shù)據(jù),通過與醫(yī)療機構(gòu)的合作項目獲取高質(zhì)量的醫(yī)療數(shù)據(jù),并將其用于模型訓(xùn)練。
除以上主要數(shù)據(jù)來源之外,互聯(lián)網(wǎng)上的公開數(shù)據(jù)、知識文獻(xiàn)以及行業(yè)開源的數(shù)據(jù)集,也是AI大模型訓(xùn)練的重要數(shù)據(jù)來源。
四、產(chǎn)業(yè)各方正在探索 破解數(shù)據(jù)難題
在推進(jìn)醫(yī)療AI大模型應(yīng)用過程中,產(chǎn)業(yè)各方正在積極探索多種解決方案,以期破解數(shù)據(jù)難題。
政府層面,通過發(fā)布一系列政策文件,支持健康醫(yī)療大數(shù)據(jù)的應(yīng)用發(fā)展,并推動人工智能技術(shù)的研發(fā)和應(yīng)用。這些措施涵蓋了從頂層規(guī)劃到技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定、市場培育以及應(yīng)用推廣等多個方面。例如積極加快醫(yī)療信息化建設(shè),推進(jìn)數(shù)據(jù)互聯(lián)互通,推動醫(yī)療數(shù)據(jù)的開放與共享,同時加強數(shù)據(jù)使用的監(jiān)管等。特別是“數(shù)據(jù)二十條”創(chuàng)新提出了建立數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營權(quán)等分置的產(chǎn)權(quán)運行機制,以盤活數(shù)據(jù)資源要素的活力,推進(jìn)了我國的建立。業(yè)內(nèi)專家曾表示,在這個數(shù)據(jù)基礎(chǔ)制度的基礎(chǔ)上,有望破解醫(yī)療健康數(shù)據(jù)開放與信息保護(hù)的“兩難困境”、合法合規(guī)開展醫(yī)療健康數(shù)據(jù)流通和交易活動、激活數(shù)據(jù)提供者和開發(fā)者的動力、建立安全可控和彈性包容的數(shù)據(jù)要素治理制度。
在數(shù)據(jù)標(biāo)準(zhǔn)化方面,各國和地區(qū)正在努力推動醫(yī)療數(shù)據(jù)的標(biāo)準(zhǔn)化,制定統(tǒng)一的數(shù)據(jù)格式和協(xié)議,確保不同來源的數(shù)據(jù)能夠無縫整合。包括推廣HL7、FHIR等標(biāo)準(zhǔn),以實現(xiàn)數(shù)據(jù)的互操作性。中國信通院自2020年開始,聯(lián)合業(yè)界陸續(xù)起草《醫(yī)療健康大數(shù)據(jù)平臺》系列標(biāo)準(zhǔn)解決醫(yī)療數(shù)據(jù)質(zhì)量參差不齊、管理欠規(guī)范、應(yīng)用不足等問題,對數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)資產(chǎn)管理、智能化處理等關(guān)鍵環(huán)節(jié)提出標(biāo)準(zhǔn)化技術(shù)規(guī)范,相關(guān)成果已于日前發(fā)布。此外,2023年,中國信通院還牽頭,聯(lián)合20余家相關(guān)產(chǎn)學(xué)研用單位共同研究起草《醫(yī)療健康行業(yè)大模型應(yīng)用技術(shù)要求》系列標(biāo)準(zhǔn)發(fā)布,醫(yī)療健康領(lǐng)域也有了大模型應(yīng)用技術(shù)標(biāo)準(zhǔn)規(guī)范。
數(shù)據(jù)交易所、數(shù)據(jù)平臺的建立,為醫(yī)療AI大模型的發(fā)展提供了助力。各地數(shù)據(jù)交易所不斷有醫(yī)療健康數(shù)據(jù)產(chǎn)品上架交易,例如國家健康醫(yī)療大數(shù)據(jù)中心(北方)推進(jìn)數(shù)據(jù)產(chǎn)品場內(nèi)交易,在惠醫(yī)領(lǐng)域,打造了腫瘤高風(fēng)險人群全生命周期健康管理數(shù)據(jù)隊列產(chǎn)品。北數(shù)所近日專門推出AI大模型訓(xùn)練數(shù)據(jù)集,包含170余個數(shù)據(jù)集產(chǎn)品,其中數(shù)十個涉及醫(yī)療健康領(lǐng)域,助力AI大模型訓(xùn)練。數(shù)據(jù)平臺方面,例如2024年6月在北京智源大會上發(fā)布的北京人工智能數(shù)據(jù)運營平臺,匯聚了超過700萬億字節(jié)的通用數(shù)據(jù)集,包含醫(yī)療、教育、法律、新聞等18類行業(yè)數(shù)據(jù),未來將進(jìn)一步擴(kuò)展到30類左右。此外,市場上也有不少企業(yè)乘著風(fēng)口建立了AI數(shù)據(jù)平臺,提供AI數(shù)據(jù)采集標(biāo)注等服務(wù),成為AI大模型訓(xùn)練的數(shù)據(jù)供應(yīng)方。
技術(shù)層面,隱私計算、聯(lián)邦學(xué)習(xí)等技術(shù)不斷發(fā)展,期望通過在不直接共享數(shù)據(jù)的情況下,利用分布式計算模型來實現(xiàn)數(shù)據(jù)的聯(lián)合分析,為AI在保護(hù)隱私的同時實現(xiàn)數(shù)據(jù)共享提供新的解決方案。
產(chǎn)業(yè)合作層面,醫(yī)療大模型的應(yīng)用勢不可擋,許多醫(yī)療機構(gòu)也開始積極擁抱AI大模型。AI企業(yè)率先抱緊頭部公立醫(yī)院,與醫(yī)院開展合作共研,有效利用脫敏后的院內(nèi)數(shù)據(jù)進(jìn)行大模型訓(xùn)練,再通過AI大模型能力,幫助醫(yī)院提升醫(yī)療服務(wù)和運營效率。除醫(yī)療機構(gòu)外,AI企業(yè)與藥企、與醫(yī)療服務(wù)企業(yè)、科研院所的合作不勝枚舉,多方協(xié)同是產(chǎn)業(yè)發(fā)展的必經(jīng)之路。
五、結(jié)語
醫(yī)療AI的未來發(fā)展離不開數(shù)據(jù)的支持,但數(shù)據(jù)的獲取和使用卻面臨諸多挑戰(zhàn)。盡管如此,隨著技術(shù)的進(jìn)步和產(chǎn)業(yè)各方的共同努力,未來這些挑戰(zhàn)有望被逐步克服。
接下來還需要進(jìn)一步發(fā)揮產(chǎn)業(yè)協(xié)同效應(yīng),共同推動醫(yī)療AI大模型真正發(fā)揮潛力,為醫(yī)療健康事業(yè)帶來更多可能性。我們誠邀醫(yī)療健康領(lǐng)域的企業(yè)和機構(gòu)積極參與到“AI大模型應(yīng)用場景”產(chǎn)學(xué)研融通創(chuàng)新活動中來,提出創(chuàng)新性的解決方案,推動醫(yī)療行業(yè)的智能化變革。
注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除