從生物統(tǒng)計下一代數(shù)據(jù)分析趨勢說起
2009年,SAS公司在北美發(fā)布了全新的JMP/SAS CLINICAL產(chǎn)品,內(nèi)部人士認為JMP/SAS Clinical產(chǎn)品是SAS針對生命科學領域的“下一代數(shù)據(jù)分析平臺”。作為全球生命科學領域數(shù)據(jù)分析和研發(fā)改善的領導者,SAS的這一舉動毫無疑問將引領全球生物統(tǒng)計分析的方向,也令整個產(chǎn)業(yè)界重新思考,生物統(tǒng)計及其在藥物、衛(wèi)生等領域的應用將走向何方?
SAS的生命科學領域新動向
前SAS生命科學資深科學家,現(xiàn)任JMP/SAS CLINICAL產(chǎn)品經(jīng)理的GEOFFREY MANN在今年年初舉行的JMP/SAS CLINICAL新版本發(fā)布會上,展示了這一產(chǎn)品是如何改善臨床試驗和藥物評審等各個環(huán)節(jié)數(shù)據(jù)分析的。在“探索臨床試驗數(shù)據(jù)背后的隱藏模式,來自 SAS——臨床數(shù)據(jù)分析軟件標準”這一話題下,他展示了新一代生物統(tǒng)計分析的方向和耐人尋味的諸多細節(jié):
JMP/SAS Clinical是全球首款全面支持CDISC數(shù)據(jù)標準的軟件。而SAS作為CDISC的積極參與者,在推廣CDISC應用上自然是不遺余力。JMP/SAS Clinical產(chǎn)品在功能全面性、先進性和易用性上配置豐富,其組成模塊包括:
− SAS Clinical Standards Toolkit
− SAS BASE2
− SAS ACCESS to PC Files
− SAS Genetics
− SAS GRAPH
− SAS IML
− SAS STAT
− JMP Life Sciences SAS components 12=
− SAS Integration Technologies
SAS Enterprise Guide (此為可選項,僅僅適用于客戶端而非服務器端)
− JMP
− JMP for Clinical
這一共十二個模塊涵蓋了生命科學領域所需的數(shù)據(jù)整理、數(shù)據(jù)分析、SAS編程、JMP數(shù)據(jù)可視化圖形界面等全部內(nèi)容。其安裝模式與其他傳統(tǒng)SAS模塊一樣,既可以單機安裝,又可以客戶端、服務器的模式安裝。盡管SAS對這個打包產(chǎn)品的價格三緘其口,但一些迅速購買該產(chǎn)品包的客戶透露“和以往相比,其價格令人驚喜”。對于價格敏感型客戶來說,廠商這種為推廣新策略而進行的促銷的確是降低采購成本的好機會。
同時,SAS公司網(wǎng)站也宣稱“JMP/SAS Clinical是JMP(藥物評審員的不二之選)和SAS(制藥業(yè)生物統(tǒng)計學家的標準分析與報告工具)的完美結(jié)合”。至此,SAS的策略可見一斑。
功能上,JMP/SAS Clinical能通過JMP菜單進行“point,click and discover”式數(shù)據(jù)分析,所有鼠標操作會在后臺自動記錄為JMP程序,以便反復調(diào)用;也可以直接沿用過往已經(jīng)寫好的SAS程序;對于SAS程序員來說,還可以繼續(xù)編程。以前SAS給人的大致印象基本上是程序員和統(tǒng)計學家的工具,而其他業(yè)務人員(比如藥物評審員、臨床醫(yī)生、流行病學家、生物測定小組成員,數(shù)據(jù)監(jiān)察員和任何想理解臨床研究結(jié)果的人)使用傳統(tǒng)SAS軟件的準入門檻教高,學習曲線相對陡峭而難于盡快熟練掌握。JMP/SAS CLINICAL的使命似乎不僅僅在于取悅傳統(tǒng)用戶,讓分析和編程工作更簡單和高效,其精美的圖形也很有利于對統(tǒng)計結(jié)果的解釋和溝通,還在于讓大量非統(tǒng)計專業(yè)人員得以輕松使用SAS強大的統(tǒng)計分析性能而又不必經(jīng)受漫長而痛苦的學習和培訓過程。
下一代數(shù)據(jù)分析?
那么,所謂的“下一代數(shù)據(jù)分析平臺”,其實就是以生物統(tǒng)計所常用的SAS模塊為基礎,對軟件進行了改造和封裝,輔之以行業(yè)標準和優(yōu)化的分析能力,降低使用門檻,提升專業(yè)性,在深度和廣度兩個維度同時發(fā)力。筆者個人理解,“下一代”的提法應該和SAS基本模塊多年來在用戶友好、可視化、交互性分析等方面的進展較慢有關,而JMP在易用性,交互性、探索性數(shù)據(jù)分析(EDA)等方面與傳統(tǒng)SAS模塊(如SAS GRAPH)相比可謂后來居上,正好在這些方面提供了很好的補充。而這些方面多年來也一直是很多傳統(tǒng)統(tǒng)計軟件倍受用戶抱怨的地方:難學,難用,展示效果也亟待提升。
比如,在臨床試驗的藥審工作中,美國FDA要求對于受試對象的年齡、性別、種族等信息進行分析,并以如下圖表的形式展示:
而在JMP/SAS CLINICAL中,既可以用上述圖形/圖表展示,交互式的數(shù)據(jù)分析又可以通過點擊圖形中SEX變量下的M或者F,被點擊選中的這些數(shù)據(jù)的在其他變量維度(Age, Race等)中會自動變色,對應的數(shù)據(jù)行在后臺也被同步選中,病人情況的展示也會很清晰和完全;若要進行下一步的子集化、分組以便進行進一步探索也很方便。
在“韋氏圖”和“火山圖”里,無論是考察個體之間的關系還是探索不良反應的程度,JMP/SAS CLINICAL提供的圖形都比傳統(tǒng)圖形手段更為清晰直觀,交互性也更強,為在這些重要分析步驟有效地中“探索”和“發(fā)現(xiàn)”臨床數(shù)據(jù)中的重要信息提供了可能。
據(jù)筆者了解,JMP作為SAS旗下主打數(shù)據(jù)分析可視化和交互性的軟件部門,一直在走一條與傳統(tǒng)SAS模塊化策略不同的道路:敏捷計算+可視化+交互式。JMP繼承了SAS在分析和建模領域的巨大優(yōu)勢,沿襲了SAS的數(shù)據(jù)挖掘和傳統(tǒng)統(tǒng)計功能,在DOE(試驗設計)等高級分析領域一直獨占鰲頭,近10年來在圖形和交互式分析方面也有明顯的進步。其運行性能(速度、穩(wěn)定性等)堪稱優(yōu)秀,所處理的數(shù)據(jù)量也從原先的42億行65535列升級到軟件本身對數(shù)據(jù)無限制DD也就是取決于內(nèi)存大小。
那么,這一新動向能否給SAS帶來預期的效果?其背后是否有更高層面的策略?
也許先看看其他行業(yè)會幫助我們理解這一動向。在對分析能力和數(shù)據(jù)吞吐量更高的銀行業(yè),SAS的數(shù)據(jù)挖掘平臺長期以來一直是行業(yè)標準。2011年5月初,SAS總部宣布一項新的產(chǎn)品戰(zhàn)略,在SAS ENTERPRISE MINDER(企業(yè)級數(shù)據(jù)挖掘平臺)上加入JMP產(chǎn)品。并且,和這個產(chǎn)品策略相對應,推出了“探索性數(shù)據(jù)挖掘”的概念。 這個舉動不由令人產(chǎn)生簡單的聯(lián)想:JMP/SAS Clinical 和SAS ENTERPRISE MINER兩個SAS引以為傲的拳頭產(chǎn)品和核心競爭力,都已經(jīng)和JMP融合,除了這兩款拳頭產(chǎn)品,SAS旗下的一系列主打產(chǎn)品包括SAS VBI, SAS VDD,SAS MLA等,都是在傳統(tǒng)SAS模塊的基礎上融合JMP而形成的新一代產(chǎn)品。這種把傳統(tǒng)數(shù)據(jù)分析融入可視化交互式數(shù)據(jù)探索的舉動,是不是SAS新的產(chǎn)品策略?
反觀全球統(tǒng)計分析業(yè)界,商業(yè)智能新秀TIBCO并購了SPLUS和SPOTFIRE,IBM并購了SPSS和COGNOS,ORACLE并購了HyperionDD這些并購是否昭示著傳統(tǒng)統(tǒng)計分析與圖形、可視化能力的結(jié)合這一趨勢已經(jīng)在全球范圍內(nèi)實實在在地發(fā)生了呢? 站在這樣的角度,跳出“生物統(tǒng)計”的小圈子,不難發(fā)現(xiàn),數(shù)據(jù)分析正走向一個全新的方向:分析可以是文本的,圖形的,而不再只是數(shù)據(jù)表的。
就此,筆者相信,“下一代數(shù)據(jù)分析”這種提法,無論是否真正成為幾大巨頭的產(chǎn)品策略并不重要。事實是,在數(shù)據(jù)分析領導者JMP/SAS和傳統(tǒng)IT巨頭IBM, ORACLE等的推動下,大幕已經(jīng)就此拉開。這一潮流的第一登陸點,似乎并非金融和電信,而是我國十二五規(guī)劃中重點發(fā)展的生物醫(yī)藥行業(yè)。
中國生物醫(yī)藥數(shù)據(jù)分析的機會與挑戰(zhàn)
和其他科技領域一樣,我國的技術界習慣了“引進一流技術與設備”,或者“業(yè)界老大用什么,我們就用什么”。這種依賴國外同行的選擇來降低決策風險的做法,一段時期曾經(jīng)起到過相當積極的作用。只是在創(chuàng)新領域,永遠模仿競爭對手的做法,只能產(chǎn)生跟隨者,而不是創(chuàng)新。
我國藥品新的注冊管理辦法的核心就是要保證藥品質(zhì)量,鼓勵新藥創(chuàng)新和遏制低水平的重復。生物制藥的創(chuàng)新和自主研發(fā),需要藥企和研發(fā)機構(gòu)在以臨床醫(yī)學(包括治療、診斷、倫理等)為基礎,并豐富以藥學、藥理學、毒理學、藥代動力學、生物統(tǒng)計、現(xiàn)代生物技術、信息學等的各學科方面都有足夠的積累和深入研究。在數(shù)據(jù)分析方面,先進的生物統(tǒng)計方法加上計算機軟硬件技術的飛速發(fā)展,可以實現(xiàn)由工具層面的升級到生產(chǎn)/研究方法的革新。
反觀國內(nèi)大學的生物統(tǒng)計和其他類型的應用統(tǒng)計教學,基本上都是數(shù)學學科的延伸。闡述數(shù)理統(tǒng)計原理的要求,遠遠高于了應用數(shù)據(jù)分析方法的要求。這一特征使得我國培養(yǎng)的數(shù)據(jù)分析人員,在數(shù)據(jù)分析的應用和拓展方面,創(chuàng)新能力不夠,思路課本化、程式化。在商業(yè)領域,無論是臨床數(shù)據(jù)分析還是銀行數(shù)據(jù)分析,都更傾向于:
1.采用SAS編程的手段進行分析,過于強調(diào)編程的必要性和重要性
2.分析過程仍然以“帶著問題找結(jié)果”的邏輯展開
3.在分析結(jié)果的溝通和展示上,以部分傳統(tǒng)統(tǒng)計分析圖形和數(shù)據(jù)表為主
4.部分數(shù)據(jù)分析和對結(jié)果的解釋存在普遍誤用乃至于錯誤
創(chuàng)新的一大特征就是繞開模式思維的盲點。擺脫傳統(tǒng)思路和模式,用全新的方法、手段、工具去開展工作,其本身就是創(chuàng)新的一部分。藥物研發(fā)水平的升級和創(chuàng)新密不可分。在數(shù)據(jù)分析層面,在部分保留傳統(tǒng)編程手段的同時,恰當引入可視化、交互式而又更加強大的數(shù)據(jù)分析能力和方法,能否為我國生物制藥領域的研究和發(fā)展提供一些創(chuàng)新的源動力?我們拭目以待。
評論