幾乎每個行業(yè)都會產(chǎn)生大量的數(shù)據(jù),且隨著時間呈快速增長趨勢。實驗室數(shù)據(jù)也不例外,近年來,高通量和高內(nèi)涵分析成為實驗室分析方法的大趨勢,而這必然導(dǎo)致產(chǎn)生相較于以前幾倍甚至幾十倍的數(shù)據(jù),但要知道大量的數(shù)據(jù)并非就是所謂的大數(shù)據(jù)。 成熟的高通量和高內(nèi)涵分析方法,都會融入互聯(lián)網(wǎng)技術(shù)加以使用。加上和研究機構(gòu)、藥品生產(chǎn)企業(yè)以及小型實驗室之間越來越多的合作都使得數(shù)據(jù)量大幅增加。不斷增長的數(shù)據(jù)量不僅僅對實驗室的IT系統(tǒng)提出了挑戰(zhàn),而且也給數(shù)據(jù)的處理分析,提供了更多的新可能性,以及與此有關(guān)的價值增值過程,這些都可以概括到大數(shù)據(jù)這一概念中去。 大量的數(shù)據(jù)本身并非就是大數(shù)據(jù):只有當這些數(shù)據(jù)能夠按照一定的格式保存,并能有效的被查詢、進行綜合分析后可以獲取某種新的相互關(guān)系,并從中得到更有用的信息時,這樣的‘大量數(shù)據(jù)’才能被稱之為大數(shù)據(jù)。 能夠使人易于理解的大數(shù)據(jù)實際上都是經(jīng)由實驗得到的,猶如亂麻般的大量過程、結(jié)果數(shù)據(jù)。過去,雖然已經(jīng)進行了測試,但得到的這些所謂的源數(shù)據(jù)卻不能被有效的利用起來。此時,非常簡單的大數(shù)據(jù)應(yīng)用就能讓您節(jié)約時間、金錢和資源。 要把積累的大量數(shù)據(jù)到變成大數(shù)據(jù)還有很多工作要做。許多實驗室數(shù)據(jù)和信息都被存儲在本地的數(shù)據(jù)庫中,更多的是記錄在紙張報告、記錄表中,被分散在一個個文件夾中,這都使得它們不能用于大數(shù)據(jù)分析。 實驗室中大數(shù)據(jù)的應(yīng)用 大數(shù)據(jù)的應(yīng)用條件首先是要把實驗室中所有的數(shù)據(jù)都保存在統(tǒng)一的數(shù)字化平臺上。這種平臺允許對所有數(shù)據(jù)進行分類,而且還有統(tǒng)一的、結(jié)構(gòu)化的數(shù)據(jù)采集過程,從而能夠在過程層面上對數(shù)據(jù)進行比較。為了能夠處理越來越大的數(shù)據(jù)量,從長期發(fā)展的角度看,把分析用和生產(chǎn)用的儀器設(shè)備與IT系統(tǒng)直接連接起來就是必不可少的了,這樣可以確保在任何時間都能連續(xù)跟蹤數(shù)據(jù),根據(jù)這些數(shù)據(jù)可以看出很多被隱藏的影響因素,對這些影響因素進行仔細分析后,可以搞清楚它們對過程的影響關(guān)聯(lián)從而做出調(diào)整。 數(shù)據(jù)化實驗室的挑戰(zhàn) 多年來,實驗室數(shù)據(jù)的數(shù)字化就是對實驗室日常工作中的一個嚴峻挑戰(zhàn)。目前已經(jīng)有許多不同類型的電子實驗室記錄(ELNs)和實驗室信息管理系統(tǒng)(LIMS)可供使用,但不是所有的實驗室都使用統(tǒng)一的系統(tǒng)管理數(shù)字化文件。某些移動輸入設(shè)備,例如平板電腦和智能手機的不同發(fā)展趨勢都有利于數(shù)字化系統(tǒng)的應(yīng)用和推廣。許多實驗室都有這樣的要求:使用數(shù)據(jù)格式完全不同的數(shù)據(jù)。其中不乏一些像Word、Excel、PDF和圖像格式的通用數(shù)據(jù)格式,但也常常要用到一些特殊格式的數(shù)據(jù)。 為了能夠在更大范圍內(nèi)使用這些數(shù)據(jù),根據(jù)數(shù)據(jù)產(chǎn)生的過程來管理組織數(shù)據(jù)這種方法很有必要。例如:光譜的圖譜數(shù)據(jù)可作為數(shù)字化檢測報告。圖像數(shù)據(jù)其實也能和其他格式的數(shù)據(jù)相互比較,而無需把所有的圖譜并排進行對比,只把具有可比性的譜圖文件相互比較就可以了。這一例子告訴我們,要利用大數(shù)據(jù)首先要解決小數(shù)據(jù)的問題,但大多數(shù)實驗室都存在有太多難以關(guān)聯(lián)的小數(shù)據(jù)存在的難題。 在利用大數(shù)據(jù)的過程中,首先要制定標準,利用制定的標準可以把實驗過程中的數(shù)據(jù)輕松的匯總到一起,進行整理分類,實現(xiàn)相互比較。但迄今為止還沒有能夠?qū)⒖鐚W(xué)科實驗室過程進行統(tǒng)一的數(shù)據(jù)格式。 儀器設(shè)備與IT系統(tǒng)的聯(lián)網(wǎng) 試驗設(shè)備和檢測儀器都算是實驗室的數(shù)據(jù)采集設(shè)備,它們可以記錄生成大量數(shù)據(jù)。這些數(shù)據(jù)常常都被保存在聯(lián)網(wǎng)的計算機中,沒有聯(lián)網(wǎng)接口的話,可以保存在網(wǎng)絡(luò)驅(qū)動器中。除了因分散式的設(shè)備配置帶來的缺點,限制了暢通無阻的數(shù)據(jù)傳輸,不同工作組之間除了分散式的數(shù)據(jù)結(jié)構(gòu)缺點之外,即使使用U盤也很難自動把儀器的結(jié)果數(shù)據(jù)與實驗室報告文檔數(shù)據(jù)一一建立起對應(yīng)的聯(lián)系。 為了填補實驗室儀器設(shè)備與IT系統(tǒng)間的空白,儀器設(shè)備制造商、實驗室用品生產(chǎn)廠、科研機構(gòu)和制藥企業(yè)合作成立了一個名為‘SiLA快速集成’的國際性組織,制定了實驗室儀器設(shè)備控制的統(tǒng)一標準。這一標準的目的是:不同生產(chǎn)廠家生產(chǎn)的設(shè)備有著統(tǒng)一的接口,即所謂的PMS過程管理系統(tǒng)接口。這一PMS過程管理系統(tǒng)可以通過網(wǎng)絡(luò)服務(wù)器或者經(jīng)互聯(lián)網(wǎng)的安全連接來登錄、訪問。 這樣以來,同一實驗室的同事就可以在不同的計算機上通過安全訪問登錄這一網(wǎng)絡(luò)了,而登陸的計算機可以是在同一大樓內(nèi)的不同計算機,也可以是另一個地區(qū)的任一計算機,登陸后可以任意訪問一臺儀器設(shè)備,進行過程參數(shù)的輸入,同時接收設(shè)備數(shù)據(jù)。在自動化控制環(huán)境中,還可以對整個檢測過程或文件錄入過程進行遠程遙控或監(jiān)控。 SiLA實驗室的自動化標準中有用以集成各儀器設(shè)備的不同途徑。例如:通過與SiLA實驗室自動化兼容的驅(qū)動器,它能把不符合標準規(guī)定的設(shè)備通訊納入到網(wǎng)絡(luò)服務(wù)器的管理之中。SiLA接口轉(zhuǎn)換器能夠為儀器的操作提供一個兼容的平臺,經(jīng)網(wǎng)絡(luò)服務(wù)器與過程管理系統(tǒng)建立通訊。在第三層方案里,SILA兼容的儀器設(shè)備通過它的網(wǎng)絡(luò)服務(wù)器把第三方與過程管理系統(tǒng)連接起來。有助于各種設(shè)備的兼容,且能把實驗室中已經(jīng)安裝的儀器設(shè)備與實驗室中的IT網(wǎng)系統(tǒng)連接起來。 數(shù)據(jù)設(shè)備連接標準的建立 很多成功的案例都可以實現(xiàn)實驗室各儀器設(shè)備間的連接了,例如,與數(shù)字化試驗記錄、實驗室管理系統(tǒng)LIMS之間的連接,但這種連接常常是復(fù)雜的,且成本高。在未來,或許實驗室儀器設(shè)備即插即用的連接是可以實現(xiàn)的。而把數(shù)字化試驗記錄集成到與實驗室自動化標準SiLA兼容的過程管理系統(tǒng)中去,正如弗勞恩霍夫研究所協(xié)會與Labfolder公司合作開發(fā)的方案那樣,可以極大地簡化大量實驗室儀器設(shè)備的常規(guī)連接。 下一個必要的方案就是:制定統(tǒng)一的連接協(xié)議標準,有了標準才能將在儀器設(shè)備上檢測的數(shù)據(jù)和填寫的數(shù)字化試驗記錄之間建立起相互關(guān)聯(lián)。這一標準的目的應(yīng)是:建立一個基礎(chǔ)平臺,并能夠以最大的自由度的看清基礎(chǔ)平臺中保存的數(shù)據(jù)。當過去的數(shù)據(jù)自動在新過程優(yōu)化中得到了應(yīng)用時,使用集成、靈活的實驗室就變得易如反掌了,這才可以說是真正實現(xiàn)了大數(shù)據(jù)應(yīng)用。 |