“大數據”作為時下最火的詞匯,隨之而來的數據分析、數據挖掘等圍繞大數據的技術逐漸成為研究的焦點。早在2012年3月22日,奧巴馬就宣布美國政府五大部門投資2億美元啟動“大數據研究和發(fā)展計劃(Big Data Research and Development Initiative),欲大力推動大數據相關的收集、儲存、保留、管理、分析和共享海量數據技術研究,以提高美國的科研、教育與國家安全能力。
而大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有特定意義的數據進行專業(yè)化處理。從某種程度上說,大數據是數據分析的前沿技術,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數據技術是從各種各樣類型的數據中,快速獲得有價值信息的能力。對于大數據時代,目前通常認為有下述四大基本特征,稱為“四V”特征:第一,數據規(guī)模大(Volume),可稱海量;第二,數據類型多樣(Variety);第三,數據價值(Value)高;第四,要求處理速度(Velocity)快。這些特性使得大數據區(qū)別于傳統(tǒng)的數據概念。大數據的概念與“海量數據”不同,后者只強調數據的量,而大數據不僅用來描述大量的數據,還更進一步指出數據的復雜形式、數據的快速時間特性以及對數據的分析、處理等專業(yè)化處理,最終獲得有價值信息的能力。
一、檢驗醫(yī)學的大數據特征
檢驗科作為醫(yī)院里最重要的醫(yī)技部門之一,檢驗信息系統(tǒng)(Laboratory Information system, LIS)已經成為醫(yī)院管理信息系統(tǒng)中的重要組成部分。LIS中的檢驗數據主要包括申請信息(病人基本信息,申請項目信息)、報告信息(結果信息)、其他信息(質控信息等)。LIS的作用是將患者標本在實驗儀器檢驗后獲得的數據進行處理,生成一份檢驗報告,再通過院內網絡存儲在醫(yī)院數據庫中,使醫(yī)生能夠方便、及時地看到患者的檢驗結果。同時醫(yī)生要對檢驗結果進行全面的分析,作為下一步診療的依據。檢驗醫(yī)學數據有以下特點。
首先,檢驗醫(yī)學數據體量巨大,在病人住院過程中會產生大量的檢驗信息和其它與病人相關的數據,整個醫(yī)院的檢驗數據更是一個海量概念,一個擁有2000張病床的醫(yī)院,每年至少產生3000萬條檢驗項目。
其次,檢驗醫(yī)學數據類型繁多,由于醫(yī)學數據庫本身就較為龐大,再加上醫(yī)學信息的復雜性與多樣性等因素的影響,與日常數據的處理分析相比,醫(yī)學數據分析將會更為復雜,其分析難度之大是可想而知的。在檢驗醫(yī)學中,常規(guī)檢驗指標的數據一般為文本,較容易處理。但形態(tài)學檢驗,如微生物形態(tài)及骨髓細胞學的圖片數據、自身抗體等免疫熒光的圖像數據、寄生蟲檢驗中的視頻數據、血糖血脂等指標的動態(tài)監(jiān)測數據等,出現越來越多的半結構化和非結構化數據信息。而流式細胞儀的數據顯示方式甚至包括單參數直方圖、二維點圖、二維等高圖、假三維圖和列表模式等多種格式的復合數據。
第三,檢驗醫(yī)學數據作為臨床醫(yī)生的重要的輔助手段,甚至骨髓細胞學、病理學及微生物學結果等具有診斷意義的結果,其價值之高不言而喻。
第四,檢驗醫(yī)學數據處理速度快,如全自動快速微生物質譜檢測系統(tǒng)(MS)等質譜技術,將標本板放入MS儀器,幾分鐘內即可顯示鑒定結果。而高分辨率和高靈敏度的質譜信號,又使得質譜圖的信息量巨大,數據流往往為高速實時數據流,而且往往需要快速、持續(xù)的實時處理。
目前檢驗信息系統(tǒng)尚未開發(fā)其所在輔助診斷方面所具有的重大作用。檢驗信息系統(tǒng)的巨大潛力尚未被開發(fā),被匯總和統(tǒng)計的數據沒有得到進一步的挖掘和利用,隱藏在數據里面的有價值的信息沒有充分的發(fā)揮其功效,臨床診斷得不到有效信息的支持。尤其針對上述一些復雜的醫(yī)療數據,特別對于一些毫無數據特征,無規(guī)律科學的數據,傳統(tǒng)的數據統(tǒng)計分析方法已經不再適用,而數據挖掘技術是一種有效的分析方法,具有十分重要的作用?,F階段,在數據挖掘技術的廣泛應用之后,檢驗醫(yī)學領域的學者正對此進行深入的研究。
二、數據挖掘技術簡述
數據庫技術的發(fā)展解決了海量的醫(yī)學數據的存儲和數據檢索的效率問題,如何充分利用這些寶貴的醫(yī)學信息資源來為疾病的診斷和治療提供科學的決策,促進醫(yī)學研究,已成為人們關注的焦點。數據挖掘(Data Mining, DM) 是近幾年才發(fā)展起來的信息處理技術,它是從大量數據中提取出可信的、新穎的、有效的并最終能被人理解的模式的處理過程,涉及數據庫、人工智能、統(tǒng)計學、模式識別、可視化技術、并行計算等眾多領域知識。將數據挖掘技術應用到醫(yī)學信息數據庫中,可以發(fā)現其中的精細的醫(yī)學診斷規(guī)則和模式,在對疾病重新分類的基礎上,對具有相同病因、共同發(fā)病機制的患者亞群實現精準的診斷、評估、預測、治療和預防,輔助患者恢復健康,實現患者的價值最大化。這是精準醫(yī)學的精髓。
1. 數據挖掘的分析方法
數據挖掘根據不同的任務要求具有不同的分析方法,可以實現不同的功能要求。其中主要可以分為六大不同的分析方法,分別是:分類( Classification )、估值(Estimation )、預言(Prediction )、相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules )、聚集(Clustering )、描述和可視化(Description and Visualization),包括文本數據挖掘。WEB數據挖掘、圖形圖像數據挖掘、視頻和音頻數據挖掘。數據挖掘通過不同的分析方法可以實現強大的功能。
2. 數據挖掘的知識類型
數據挖掘是通過在大型的數據庫中根據自己的需要篩選有用的信息,其主要的目的就是發(fā)現知識,這種系統(tǒng)中的表現形式具有多樣化的特點,通過采用特定的挖掘方法進行分析,掌握數據挖掘系統(tǒng)的固有特征,明確其所能發(fā)現知識的種類。通過比較分析,數據挖掘系統(tǒng)的知識類型主要可以分為以下幾大類:廣義型知識(Generalization)、分類知識(Classification)、聚類知識(Clustering)、差異型知識(Discrimination)、關聯(lián)型知識(Association)、序貫模式(Sequential patterns)、情節(jié)知識(Episodes)、預測型知識((Prediction)、演化型知識((Evolution)、偏差知識(Deviation)。
3. 數據挖掘的任務及方法
根據挖掘任務可以分為:分類或預測模型發(fā)現、數據總結與聚類發(fā)現、關聯(lián)規(guī)則發(fā)現、序列模式發(fā)現、相似模式發(fā)現、混沌模式發(fā)現、依賴關系或依賴模型發(fā)現、異常和趨勢發(fā)現等。數據挖掘的方法根據任務的不同可以選擇合適的方法,目前數據挖掘的方法主要可以分為基于統(tǒng)計學的挖掘方法、基于神經網絡和機器學習的數據挖掘方法、數據庫方法等?;?/span>統(tǒng)計學的數據挖掘方法建立在統(tǒng)計學知識的基礎上,通過統(tǒng)計學的回歸分析和判據分析等多種專業(yè)知識完成數據挖掘的任務?;谏窠浘W絡和機器學習的數據挖掘方法是一種智能化的數據分析技術,通過自適應的數據分析技術,進行訓練和學習滿足多種數據挖掘任務的需要。神經網絡技術可以細致的劃分為前神經網絡和自組織神經網絡。
三、數據挖掘在檢驗醫(yī)學中的應用
隨著醫(yī)療檢驗手段的飛速發(fā)展,經過多年的醫(yī)療系統(tǒng)信息化建設,檢驗信息系統(tǒng)已經積累和沉淀了海量的病人檢驗數據,能否從這些海量數據中挖掘對醫(yī)生、病人和檢驗技師的有價值的參考信息,能否利用這些參考信息給未來病人提供有價值的參考呢?能否根據這些歷史數據,分析出某些疾病跟某些因素有關呢?譬如飲食結構、地區(qū)分布、男女特征和年齡段分析。筆者認為通過數據挖掘技術可以實現以上需求。
(1)疾病診斷:正確的診斷對于指導病人的用藥及康復顯然是重要的,在臨床中有些疾病錯綜復雜,數據挖掘的有關分類分析可以應用于疾病的診斷。粗糙集理論、人工神經網絡、模糊邏輯分析在疾病診斷方面是有效的。現階段,在數據挖掘技術的廣泛應用之后,已有學者探索將LIS的數據應用于輔助診斷。耿中澤利用決策樹和模糊聚類分析兩種數據挖掘技術,嘗試實現檢驗醫(yī)學計算機輔助診斷,并由此得出應用的一般模式。
(2)疾病相關因素分析:在LIS數據庫中有大量的關于病人的檢驗結果和病人的個人信息,包括年齡、性別、診斷、職業(yè)、類別等,對數據庫中的信息進行關聯(lián)規(guī)則分析可以發(fā)現有意義的關系及模式,某種疾病的相關發(fā)病危險因素分析可以指導患者如何預防該疾病。王專等對心腦血管疾病生化檢驗進行數據挖掘,發(fā)現了有意義的關系及模式。鄭旅芳利用人工神經網絡(ArtificialNeuralNetwork,ANN)對胃腸腫瘤標志物進行數據挖掘,發(fā)現對多項檢驗項目分析具有更高的診斷效率,可以對診斷大腸癌進行指導。Ramezankhani.A等采用關聯(lián)規(guī)則挖掘技術確定2型糖尿病的發(fā)病率模式。
(3)在檢驗醫(yī)學圖像中的應用:檢驗醫(yī)學領域中越來越多的形態(tài)學檢驗,應用圖像作為疾病診斷的工具,如骨髓細胞學及微生物涂片的圖片數據、自身抗體等免疫熒光的圖像數據等,數據挖掘可以應用于圖像的分析。但目前未見在檢驗醫(yī)學中形態(tài)學檢驗上的應用報道。
(4)在DNA相關檢驗項目中的應用:如DNA序列分析可用非線性相關統(tǒng)計法—AMI(average mutual information)。另外對DNA序列間相似搜索與比較(對分別來自帶病和健康組織的基因序列,進行比較以識別兩類基因間的差異),可以認為是導至疾病的基因因素檢驗。王洪波等提出了基于流形學習的DNA序列數據挖掘方法,不但平均識別率高,而且計算時間相對較少。
(5)在醫(yī)學其他方面的應用:數據挖掘還可應用于寄生蟲檢驗中的視頻數據、血糖血脂等指標的動態(tài)監(jiān)測數據等半結構化和非結構化數據信息分析。流式細胞儀的數據的單參數直方圖、二維點圖、二維等高圖、假三維圖和列表模式等數據也可用數據挖掘來分析。還有在醫(yī)學其他方面的應用:Shah.BR等認為數據挖掘已被應用于糖尿病臨床研究的許多方面,包括經典的流行病學、效能研究、人口健康與衛(wèi)生服務研究等。Sung SF等等利用數據挖掘技術開發(fā)了一個腦卒中管理軟件,用于分析卒中預后的嚴重程度。
四、小結
盡管檢驗醫(yī)學的數據極為豐富,但運用數據挖掘技術分析和處理這些數據資源的研究,在我國尚處于起步階段。目前檢驗醫(yī)師工作難于開展的關鍵問題,是沒有對大量的檢驗數據進行規(guī)范化和系統(tǒng)化的挖掘與總結。人體成分錯綜復雜且瞬時變化,加上檢測誤差等等因素使得檢驗結果呈現出統(tǒng)計分布特點,因此檢驗結果對于疾病或健康狀態(tài)的表征不如影像檢查那樣直觀,如果不能正確分析則得不到病人或臨床滿意的認同。數據挖掘可以根據檢驗結果給醫(yī)生、病人、檢驗技師提供可疑病情診斷參考,也可以給醫(yī)療雜志、國民健康提供經過挖掘分析的生活指標指導。在互聯(lián)網、HIS和LIS基本普及的信息時代,將臨床信息、檢驗信息和患者信息聯(lián)系起來,對本身具有統(tǒng)計分布屬性的檢驗結果進行數據挖掘,提煉成為有臨床價值的重要信息,是檢驗醫(yī)學未來臨床應用的關鍵技術。
來源:檢驗醫(yī)學網 作者: 陸軍總醫(yī)院檢驗科 劉杰