導讀:未來的IT,一定是“老、舊、新”三個IT的平行組合和使用。當然這一段不是我的總結,只是“拿來主義”。時光倒序,先從智能技術著手,從解決方案的角度分享人工智能在醫(yī)療行業(yè)的應用。
【編者按】未來的IT,一定是“老、舊、新”三個IT的平行組合和使用。當然這一段不是我的總結,只是“拿來主義”。時光倒序,先從智能技術著手,從解決方案的角度分享人工智能在醫(yī)療行業(yè)的應用。
工業(yè)技術是“老”IT(IndustrialTechnology),信息技術是“舊”IT,智能技術是“新”IT(IntelligentTechnology)。工業(yè)技術解決了人類發(fā)展資源不對稱的問題,互聯(lián)網(wǎng)信息技術很快會解決信息不對稱的問題,智能技術將面臨解決人類智力不對稱問題的艱巨任務。
未來的IT,一定是“老、舊、新”三個IT的平行組合和使用。當然這一段不是我的總結,只是“拿來主義”。時光倒序,先從智能技術著手,從解決方案的角度分享人工智能在醫(yī)療行業(yè)的應用。
春秋戰(zhàn)國,七雄爭霸,那時候就出現(xiàn)了偉大的“數(shù)據(jù)治理專家”秦始皇,將國家(“數(shù)據(jù)”)治理的三要素:組織架構、制度流程和技術支撐大集成,更將標準化發(fā)揮到極致。
這兩年,醫(yī)療人工智能更是發(fā)展迅速,產(chǎn)業(yè)格局亦風起云涌?;ヂ?lián)網(wǎng)醫(yī)療健康產(chǎn)業(yè)聯(lián)盟發(fā)布的《醫(yī)療人工智能技術與應用白皮書(2018年)》對人工智能在醫(yī)療行業(yè)的寶貴價值、細分領域的應用、面臨的問題與挑戰(zhàn)進行了概括性的綜述。
在中關村,程序猿們把人工智能叫“養(yǎng)狗”(阿爾法狗),“養(yǎng)狗”是要有“狗糧”的,沒有“狗糧”吃的“阿爾法狗”肯定長不大;反之,沒有消費者,“阿爾法狗”的“狗糧”也沒有任何存在的意義。
這里的“狗糧”說的是經(jīng)過數(shù)據(jù)治理過后的大數(shù)據(jù),這樣才可以把面粉加工(AI/DG)成面皮(數(shù)據(jù)開放平臺),做成包子(專病研究)、餛飩(臨床輔助決策)、餃子(真實世界研究)等。如圖1所示:一望無際的麥田,好比臨床醫(yī)生(各自的一畝三分地)寫的病歷(種的麥子)各不相同(良莠不齊)。結構化電子病歷系統(tǒng)的普及,對臨床質(zhì)控、臨床科研發(fā)揮了巨大作用,而模板化的病歷不僅限制了醫(yī)生的思維,且歸檔后的病歷千篇一律,生生把“大數(shù)據(jù)”變成了“數(shù)據(jù)大”。更為重要的是,很多醫(yī)學信息因為電子病歷模板沒有預設“元素”而被隱藏掉了。
近些年,醫(yī)院信息平臺建設如火如荼,隨著互聯(lián)互通測評“政治任務”式的推廣,平臺建設達到高峰,標準規(guī)范得到越來越多的應用普及。但如弗吉尼亞·梅森醫(yī)療中心在精益變革中提出的:我們的系統(tǒng)為誰而建?
建成的數(shù)據(jù)中心依然有80%的是非結構化數(shù)據(jù),此結構化非彼結構化、此標準非彼標準。醫(yī)生種的麥子,收割后加工不成面粉,制作不出包子。
1.信息平臺下的科研應用
“集成平臺”到“信息平臺”叫法的改變,是信息化建設從“數(shù)據(jù)集成共享”到“標準規(guī)范建設”的轉變。是從著力解決信息孤島、煙囪林立,資源共建、數(shù)據(jù)共享、業(yè)務協(xié)作,到傳統(tǒng)業(yè)務領域、重點信息工程、新興技術領域標準體系的建設和應用的轉變。
60項基礎類信息標準(衛(wèi)生信息數(shù)據(jù)元目錄、衛(wèi)生信息數(shù)據(jù)元值域代碼、疾病分類與代碼……)、88項醫(yī)院信息化標準(電子病歷基本數(shù)據(jù)集、電子病歷共享文檔規(guī)范、電子病歷與醫(yī)院信息平臺標準符合性測試規(guī)范……)、76項區(qū)域衛(wèi)生信息化標準(健康檔案共享文檔規(guī)范……)(數(shù)據(jù)來源:國家衛(wèi)生健康委統(tǒng)計信息中心、中國衛(wèi)生信息與健康醫(yī)療大數(shù)據(jù)學會衛(wèi)生信息標委會),日趨完善的信息標準體系框架下,醫(yī)院、區(qū)域建成了以患者為中心的病人主索引EMPI系統(tǒng)、臨床數(shù)據(jù)中心CDR、運營數(shù)據(jù)中心ODR和科研數(shù)據(jù)中心RDR。
然而,海量的醫(yī)療數(shù)據(jù)卻很少能轉化成相應的科研成果。
醫(yī)學信息分散且不完整,醫(yī)學文本信息利用很難,基于關系型的數(shù)據(jù)倉庫,病例篩選檢索耗時之長,信息提取效率之低,數(shù)據(jù)統(tǒng)計挖掘之繁瑣,是臨床醫(yī)生無法接受的。
走訪一下醫(yī)院,臨床醫(yī)生都在抱怨信息平臺花了上千萬,想要的數(shù)據(jù)卻沒有,做科研要檢索的病例樣本出不來。導致這種情況其實至少有兩個重要的原因不能忽視:一是源數(shù)據(jù)非常差;二是那么多的標準規(guī)范,公司開發(fā)的產(chǎn)品遵循得太少。
信息平臺說:這個鍋,我不背。
2.大數(shù)據(jù)平臺的科研應用探索
現(xiàn)如今,有些醫(yī)院已經(jīng)采用Hadoop集群計算框架,分布式存儲、分布式運算,非關系型數(shù)據(jù)庫NoSQL建設醫(yī)療大數(shù)據(jù)平臺。
相對于信息平臺,其海量數(shù)據(jù)處理能力讓查找樣本病例達到毫秒,多維度數(shù)據(jù)導出統(tǒng)計也是小菜一碟,只是這時候的“面粉”稍顯粗糙。
數(shù)據(jù)結構化程度欠佳、準確匹配程度不夠、科研數(shù)據(jù)不全——麥子通通結了穗,那穗在麥浪中隨風波動,只是還不是那么飽滿。
3.基于人工智能的科研應用
也許是之前的預算有限,或許之前的供應商服務雖好、技術卻停滯不前,可能是頂層架構雖好、落地卻有偏差,同一家醫(yī)院換過幾家公司的HIS、LIS或PACS系統(tǒng)的現(xiàn)象已經(jīng)很普遍。而在建設信息平臺、大數(shù)據(jù)平臺的時候,之前的數(shù)據(jù)庫、數(shù)據(jù)倉庫還是孤立地躺在數(shù)據(jù)庫服務器里,數(shù)據(jù)得不到全面整合。
從數(shù)據(jù)庫、數(shù)據(jù)倉庫,到數(shù)據(jù)湖、數(shù)據(jù)海,我們不討論是應該建一個“大湖”,還是建不同的數(shù)據(jù)倉庫。從臨床科研的角度,我們需要對歷史數(shù)據(jù)全集成、所有數(shù)據(jù)全覆蓋,才能得到全面的病例樣本;我們要將非結構化數(shù)據(jù)相對全結構化、全標準化映射,才能做到智能檢索;我們要無邊的麥田,綠油油、清爽爽,清風吹來,陣陣清香,精細的“面粉”方唾手可得。