物流寄情67:大資料時代催生

醫學資訊學

楊惟雯

 

大資料催生“科學研究方法”從“假設驅動”方法轉向“資料驅動”的方法。

 

一、醫療衛生領域跨入大資料的時代

 

有報告表明,全世界現在所有的資料,其中的92%是在過去的兩年之間產生的,有目共睹的,我們現在已經進入了大資料的時代。然大資料時代來臨,意味著什麼?

 

從醫療衛生領域來講,一個新生兒在出生的第一天,他產生的資料就相當於美國國會圖書館所有資料的70倍。

以人類基因組的測序為例,我們知道,人類基因組是一個非常偉大的全世界協作的計畫,我們每個人都有23對染色體,這23對染色體包含什麼樣的資訊呢?我們每個人的23對染色體包括30億的堿基對,如果寫在黃頁或者白頁的書上,會有兩百頁內容,如果讀出來的話需要九年半的時間,大概的資料量是3個GB DVD容量,這是一個人基因組的資訊。

 

人類基因組計畫給我們最大的貢獻之一,就是怎麼分析每一個人的基因組。這個費用在2001年,對人類完整基因組的測序需要一億美元,到了2012年是一萬美元,我們期待著一千美元人類基因組的測序時代逐漸到來。這意味著什麼?以後我們到了醫院,每個人都可以很方便地做常規檢查,把你的基因組全部測下來,這樣的願景就會帶來很多機會。

矽谷一個公司叫做23andMe,它可以很方便的對人體部分基因組做測序,你花99美元,把你的標本寄過去,它可以對你一些重要基因資訊進行分析、測序。

 

測序有什麼作用呢?如果把你的基因資訊測下來,可以得到很多資訊,首先可以知道一個人祖先的資訊。比如說我母親姓孔,有人說是孔家第75代,是不是真的?我們可以通過基因測序得到這個資訊;第二,可以對你現在的健康情況進行分析;第三,他可以預測你的健康以及將來的情況,通過這個分析可以知道一個人喝酒以後是否容易臉紅;甚至對於婦女來講,可以知道你得乳腺癌的機率是多少,如果超過一定界限的話,就會提示你做預防性處理,包括你的性格變化、行為變化,都可以通過這個來預測。

 

剛才說的是人類基因組的測序,如果每一個人都進行基因測序的話,這樣的話資訊體量會非常巨大。從生物醫學領域裡面,文獻最大的資料庫是PubMed,資料在10個五次方,發展是平緩曲線,我們再看每個人基因測序資訊,它的增長首先體量是在10的15次方到10的18次方,曲線非常陡。從這個可以看出,健康資訊資料是呈現爆炸性增長的趨勢。

 

隨著各種感測器的發展,可以說是即時的24小時可以從人身上測量到無數健康資訊,比如腦電圖、心電圖、血壓等等,這些資訊可以通過移動設備(手機、無線網)傳到雲計算中心,提供給醫生進行管理。從這個角度上講,健康資料也是增長非常迅速的

比如說IPhone手機,通過它的一些軟體可以監測你的睡眠狀況以及其他資訊,以及現在發展快的無線寬頻,像蘋果在做IWatch,這些都產生著非常大量的資料。所以說我們已經到了醫療衛生的大資料時代。

 

可以看出,傳統的病歷資訊存儲在備案庫,查詢、收集非常困難。而現在全世界基本上有大量的電子病歷檔案已經建立,還有大量公共衛生資訊、收費資訊、用藥、檢查、住院資訊以及大量的圖像資訊、心電圖資訊、管理資訊,剛才我們已經提到基因資訊,還有醫學知識庫資訊以及實驗室檢查資料,這樣的多樣性和大量,意味著醫療衛生領域已經到了大資料時代。

 

二、大資料時代催生醫學資訊學

 

我們知道,資訊化已在每個領域都產生著重要的影響,比如說金融資訊化、航空信息化,毋庸置疑,很多領域離不開資訊化,但是基本上沒有一個領域形成一個專門的學科,比如金融資訊學。

 

但只有在醫療、在電腦領域產生了這個學科,如生物醫學資訊學
將來大家會越來越聽到,你是從事什麼專業?你學的什麼專業?

 

衛生資訊化領域可以分成兩大類:
1、學科界領域、學術界領域,叫做醫學資訊學;
2、從行業應用角度來講,叫做衛生資訊技術,或者數位化醫療、數位化醫院

 

生物醫學資訊學的概念,是一門基礎學科,也是門應用學科。研究的是生物醫學資訊的方法、技術、理論,這個會應用到各個領域。

1、從體系上講,最主要的是臨床。每一個人到了醫院診斷、治療,這樣的資訊技術應用到這個領域叫做臨床資訊學

2、還有一個是生物資訊學,怎麼通過電腦技術説明生物學的結合,叫做生物資訊學。

3、還有圖像資訊學公共衛生資訊學

 

這樣就形成一個體系,從左到右是從分子細胞水準到組織器官水準,到個體水準再到人群的角度怎麼收集資訊,説明人體衛生健康的提高改善,這是人群和社會的水準,所以這就形成一個醫學資訊學

 

第一個概念是生物資訊學,它僅僅是在分子細胞水準角度,它是其中的一個領域,它和醫學資訊學不一樣。

還有一個概念是衛生資訊學,衛生資訊學包括臨床資訊學、公共衛生資訊學,所以說衛生資訊學和醫學資訊學不一樣。

 

在美國很多大學都有醫學資訊學專業,有幾個典型的學校,比如哥倫比亞大學。最近十年之內,哥倫比亞大學在這個方面的綜合實力是排第一的,還有其他的一些大學。

大陸也有醫學資訊學專業,但奇怪的是他們主要是以本科為主,而在美國在醫學資訊學領域是沒有本科的,只有碩士、MA、PD、博士後等。

 

我們現在到了醫療衛生的大資料時代,怎麼分析呢?這些分析方法是否成熟呢?遠遠沒有。

可以這麼講,有一個資料應該是奧巴馬政府就發起了“大資料的研發行動計畫”,這個計畫一發佈,美國的六大部委就率先第一批劃撥兩億美元研究基金促進大資料方法研究。

 

從基本的理論來講,我們拿資料來幹嗎?是從中要得到知識和智慧。有一個模型叫做“從資料到智慧”,比如說39是一個資料,它本身沒有任何意義,如果是39度,就變成資訊,這個資訊就表明39度可能是體溫,39度“從資料到知識”,39度從醫學角度上講,是代表發燒,之後再得到什麼資訊呢?如果“從資料到智慧”,就證明你需要吃退燒藥了。所以任何的資料它的最終走向,是我們從中間挖掘出資訊、挖掘出知識、挖掘出智慧,這是一個大資料分析的最基本的模型。

 

三、大資料時代帶來科學研究方法的巨大變化

 

這裡一定要跟大家分享一下。大資料和醫學資訊學這個新學科催生了傳統的科學研究方法的巨大轉變,如果大家稍微偏學術一點點,最經典的就是假說驅動的方法。而有了大資料以後,就要過度到新的科學研究方法,叫做資料驅動或者是發現驅動的研究方法。

 

這兩個新的研究方法和傳統研究方法有什麼區別?

傳統的科學研究方法或者說傳統的科學實際上是源於16、17世紀的啟明運動。
哲學根源:是唯物主義,能觀察、能測量

研究方法步驟:
第一步,是發現問題
第二步,是形成假說,這個假說就是說“估計有這樣的知識存在”;第三步,最重要做實驗,通過實驗收集資料進行資料分析;
最終一步,得到結論,然後再進行結論的推廣。

這便是傳統的以假說驅動的科研方法。

 

這個方法有什麼問題呢?它只能解決“Know Know Problem”。

從邏輯上講,很多研究者認為傳統的科學研究方法從邏輯上也有缺陷,這裡不一一贅述。我們可以總結一下,這樣的研究方法耗費巨大、每次收集資料時都是特定的目的收集特定資料,這些資料是沒辦法再利用的,而且這樣的產出,比如說收集資料兩三年以後進行分析,然後發現最後結論無法支援,這樣的產出可以說是低產出的,這樣的研究方法過分強調的是微觀、局部

 

我們看看大資料給我們帶來什麼樣的科研方法,這樣的方法給我們帶來什麼樣的啟迪、啟示和光芒呢?

這個方法源於:資訊化革命,存儲能力、運算能力、人工智慧

哲學根源:不能用傳統的方法觀察、測量。這個研究方法叫做資料驅動的科學方法

步驟:
第一步,是制定各種資料的標準、功能標準、傳輸標準
第二步,進行資訊化建設,收集資料、建立資料倉庫、建立大資料倉庫
第三步,有了這些資料之後,我並不知道這個資料庫當中包含著什麼樣的知識,然後就進行演算法研究,這裡面有N種資料採擷演算法;第四步,然後我們可以自動搜索大資料,同時可能做10種、20種、100種的假說,不同的演算法去自動檢索不同知識的存在。通過自動化的過程可以在同樣的大資料裡挖掘出各種各樣的可能潛在的知識;
最後一步,通過統計學方法得到進一步驗證和結論

 

所以這樣的研究方法有什麼樣的好處呢?它可以解決傳統的不知道的問題。大資料裡面,我們事先沒有假說,並不知道可能存在什麼樣的知識,我們可以通過“黑盒子”的辦法挖掘出潛存的知識和智慧

好處顯而易見,它的花費是低的,建成大資料倉庫就可以挖掘出潛在的知識。同時隨著演算法研究、運算能力提高,就可以一直去運行、分析。這些資料是可以重複利用的,產出是高產出的過程。這就是大資料給我們帶來的方法學上的科學研究方面的,有人認為是一個巨大的變革。大家可以關注一下。這樣的方法可能更支持,從宏觀上解決更多的問題。

 

從科學的領域來看,我們所知道的東西是很小的部分,中間的圓圈是我們可以通過、觀察、知識預測到可能存在的知識,大的圓圈裡面絕大部分的知識、科學問題,我們根本不知道它在哪裡,是什麼樣的知識。這樣的話,科學問題可以通過剛才講的資料驅動的科學研究方法去發現、證實,用它們為我們服務。從方法學上,大資料給我們帶來了一個新的科學研究方向。

 

四、舉例示範

 

最後,我舉幾個簡單的例子,醫療衛生大資料的分析、方法和成果已經在逐漸的開展,比如說去看病,一個人的健康資料會越來越多,一個病人去看病,醫生可以看到很多資訊,那麼醫生怎麼樣消化吸收這些資訊呢?我們有一個技術是能夠自動進行臨床資訊的總結,這是人工智慧技術。

 

另外一個領域,如果一家藥廠研發新藥,花費是非常昂貴的,基本上平均耗費8億美元、10到17年的時間,而且只有10%才成功,所以說研發新藥成本是巨大的,包括經濟和時間上的成本。那麼大資料分析可以帶來什麼革命性的變化?

從新藥研究過程,包括臨床前期、臨床實驗一直到病人使用這個藥,每個過程進行資料分析都可以帶來革命性變化。比如說虛擬篩選,可以從很多潛在藥物當中篩選出可能的藥物。

 

另外一個領域特別有意思,就是在現成的藥物裡發現它的新功能。

剛才我們講了,一個完整的開發新藥過程需要那麼長時間、那麼大精力。那麼在現成藥物裡能否發現新的藥物、新的功能呢?

這裡有一個例子,這個是藥廠在偶然機會當中發現的,是可以通過大資料分析可以發現藥的新功能。比如說通過電子病歷資訊庫,現在這塊絕大部分資訊是非結構化的,這裡有一個技術就是自然語言處理技術,通過這個技術可以把電子病歷裡面的資訊全部挖掘出來,這個研究取得了一個新的發現----有一個新的藥對癌症有治療作用。他是通過電子病歷裡面自動找到幾組病人,一組是糖尿病人用胰島素的,第二組是糖尿病用其他藥物,第三組不是糖尿病的,第四組是用了他這個藥。發現這四組病人分析,看以往十年的資料可以看出,用這個藥存活率大大好於其他組。所以這是一個重大的發現,就是這個藥具有抑制或者抗癌的作用。

對藥廠來講,通過一年、兩年的研究可以給他省去8億研發費用,這就是大資料分析對藥廠的巨大作用。

且分析藥物新功能不僅可以通過電子病歷、也可以通過文獻進行分析,生物最大醫學文獻就是PubMed,裡面有兩億篇文章,通過自然語言處理可以獲取五億個事實,通過它研究可以發現某些藥有什麼新功能,進行驗證。這是“舊藥新功能”研發,這是一個醫學資訊學的新領域。

 

另外一個例子就是糖尿病腎病,由於糖尿病引起腎臟功能衰竭,這個危害非常大。我們從大資料角度怎麼認識這個病呢?

這裡有兩個方面,一是我們有一個重要的研究方法,叫做GWA,基因組關聯研究。自動從資料庫裡面找到糖尿病腎病的病人和不是糖尿病腎病的病人,我們找到這兩組病人,然後這兩組病人全部用基因組方法,把他的基因組測序出來,看一看糖尿病腎病的病人他的基因組特殊的變異,從中就發現糖尿病腎病是多基因引起的疾病。這是什麼意思?這樣的話,一旦有糖尿病的時候就做基因組測序,就可以提前預測這個人可能發展成為糖尿病腎病的可能性有多大,進行提前處理。這個意義重要性之大,就很清楚了,這也是通過大資料的分析,基因資料分析、臨床資料分析得出來的。

同樣的問題,我們還是可以通過文獻的方式進行研究,醫療衛生大資料,從臨床、醫療衛生服務甚至是健康物聯網跟我們平時的生活習慣、生活模式帶來的巨大變化。

 

可以講,資訊化如果和健康整合就會關係到每一個人的生活、健康,我們可以去展望,資料是“新的石油”,我們怎麼找到這個能源和挖掘它,這是非常值得研究的。

 

有人說,大資料革命將比互聯網給我們帶來的革命更大。在這個革命裡面,需要大家一起努力,面對、迎接大資料,尤其是醫療衛生大資料的挑戰!

                             ----------摘自雷健波演講稿

arrow
arrow
    全站熱搜

    大宅配 發表在 痞客邦 留言(0) 人氣()