生物數(shù)據(jù)整合與挖掘

出版時(shí)間:2009-5  出版社:復(fù)旦大學(xué)出版社  作者:朱揚(yáng)勇,熊S 著  頁數(shù):240  字?jǐn)?shù):282000  
Tag標(biāo)簽:無  

前言

  自然科學(xué)研究宇宙和生命,所用的方法是證明和實(shí)驗(yàn),證明依靠的是數(shù)學(xué),實(shí)驗(yàn)依靠的是觀測。由于觀測具有不確定性,因此依靠數(shù)學(xué)更能促進(jìn)科學(xué)的發(fā)展。歷史上,一旦某個(gè)研究領(lǐng)域采用了數(shù)學(xué)就會快速發(fā)展(例如,物理學(xué)采用數(shù)學(xué)后產(chǎn)生了數(shù)學(xué)物理),可以把這種現(xiàn)象稱為“數(shù)學(xué)化”,從這個(gè)角度可以將數(shù)學(xué)看成是自然科學(xué)的工具。時(shí)至現(xiàn)今,幾乎所有的學(xué)科都或多或少地依靠數(shù)學(xué)。后來,計(jì)算機(jī)出現(xiàn)了,這是建立在數(shù)學(xué)基礎(chǔ)上的機(jī)器,計(jì)算機(jī)突破了入在運(yùn)用數(shù)學(xué)時(shí)的局限性(如問題規(guī)模較大時(shí),只能抽樣)。于是,當(dāng)一個(gè)領(lǐng)域采用了計(jì)算機(jī)也會快速發(fā)展(如數(shù)學(xué)本身采用計(jì)算機(jī)后產(chǎn)生的計(jì)算數(shù)學(xué)),這種現(xiàn)象稱為“信息化”?! ∩茖W(xué)一直是以實(shí)驗(yàn)為主的,很難“數(shù)學(xué)化”,然而卻能夠“信息化”,信息化后形成了生物信息學(xué)。生物信息學(xué)應(yīng)用計(jì)算機(jī)對各種生物數(shù)據(jù)進(jìn)行存儲、管理、處理和分析,以期發(fā)現(xiàn)生物數(shù)據(jù)所反映的生物規(guī)律,促進(jìn)生命科學(xué)的發(fā)展?! ∩飻?shù)據(jù)主要來自于生命科學(xué)領(lǐng)域的實(shí)驗(yàn),實(shí)驗(yàn)產(chǎn)生了巨量的生物數(shù)據(jù),其中尤其是基因組計(jì)劃產(chǎn)生的數(shù)據(jù)最具代表性。這些巨量的生物數(shù)據(jù)保存在世界各地的相關(guān)研究機(jī)構(gòu)中,或隱含在浩瀚的科學(xué)文獻(xiàn)里。這種方式存放的生物數(shù)據(jù)也常常被稱為生物數(shù)據(jù)庫,但是它們和計(jì)算機(jī)領(lǐng)域所用的數(shù)據(jù)庫可能是完全不同的。這些數(shù)據(jù)有用文本文件方式存儲的,也有用各種數(shù)據(jù)庫管理系統(tǒng)存儲的。它們反映了生命科學(xué)研究的整體進(jìn)展和成果,有重疊更相互補(bǔ)充,這需要將這些生物數(shù)據(jù)整合在一起。

內(nèi)容概要

生物信息學(xué)應(yīng)用計(jì)算機(jī)技術(shù)對各種生物數(shù)據(jù)進(jìn)行管理和分析,以期發(fā)現(xiàn)生物數(shù)據(jù)所反映的生物規(guī)律,促進(jìn)生命科學(xué)的發(fā)展。一方面,生命科學(xué)實(shí)驗(yàn)產(chǎn)生的巨量的生物數(shù)據(jù)保存在世界各地的相關(guān)研究機(jī)構(gòu)中,或隱含在浩瀚的科學(xué)文獻(xiàn)里。這些數(shù)據(jù)反映了生命科學(xué)研究的整體進(jìn)展和成果,有重疊更相互補(bǔ)充,這就需要將這些生物數(shù)據(jù)整合在一起。另一方面,生物信息學(xué)也希望采用數(shù)據(jù)挖掘技術(shù)對生物數(shù)據(jù)進(jìn)行分析,以期發(fā)現(xiàn)生物規(guī)律,因此根據(jù)生命科學(xué)的需要和領(lǐng)域知識,設(shè)計(jì)出有效的生物數(shù)據(jù)挖掘算法和軟件工具是一個(gè)重要的研究內(nèi)容。   本書較為系統(tǒng)地介紹了生物數(shù)據(jù)整合與挖掘的技術(shù)框架,主要介紹了作者在這方面的研究成果,包括:生物數(shù)據(jù)抽取技術(shù)、生物數(shù)據(jù)整合技術(shù)、生物序列數(shù)據(jù)挖掘、基因表達(dá)譜芯片數(shù)據(jù)挖掘、轉(zhuǎn)錄因子及順式調(diào)控元件挖掘、生物數(shù)據(jù)模型和數(shù)據(jù)庫管理系統(tǒng)等內(nèi)容,還介紹了一個(gè)生物數(shù)據(jù)整合系統(tǒng)、一個(gè)基因表達(dá)譜芯片數(shù)據(jù)庫和數(shù)據(jù)挖掘系統(tǒng)、一個(gè)轉(zhuǎn)錄因子及順式調(diào)控元件的挖掘分析平臺等等的設(shè)計(jì)與實(shí)現(xiàn)。   本書的讀者對象為從事生物信息學(xué)研究的科學(xué)工作者。本書也可以作為生物信息學(xué)專業(yè)研究生的教學(xué)參考書和生物軟件工程技術(shù)人員的參考書。

作者簡介

朱揚(yáng)勇,1963年生,浙江武義人。1994年于復(fù)旦大學(xué)獲計(jì)算機(jī)軟件專業(yè)理學(xué)博士學(xué)位?,F(xiàn)為復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授;上海市政府信息化專家;上海生物信息技術(shù)研究中心學(xué)術(shù)委員會委員;上海市計(jì)算機(jī)學(xué)會理事;上海市生物信息學(xué)會理事等。長期從事數(shù)據(jù)庫、數(shù)據(jù)挖掘、生物

書籍目錄

第1章 背景知識 1.1 生物信息學(xué)  1.1.1 基本概念  1.1.2 研究內(nèi)容  1.1.3 研究方法  1.1.4 研究機(jī)構(gòu) 1.2 數(shù)據(jù)整合  1.2.1 數(shù)據(jù)資源  1.2.2 數(shù)據(jù)整合的動因  1.2.3 數(shù)據(jù)整合的概念  1.2.4 數(shù)據(jù)整合的內(nèi)容 1.3 數(shù)據(jù)挖掘  1.3.1 數(shù)據(jù)挖掘的定義  1.3.2 數(shù)據(jù)挖掘的任務(wù)  1.3.3 數(shù)據(jù)挖掘的類型  1.3.4 相關(guān)技術(shù)的差異第2章 數(shù)據(jù)整合與數(shù)據(jù)挖掘方法 2.1 數(shù)據(jù)整合的方法  2.1.1 數(shù)據(jù)整合的方式  2.1.2 數(shù)據(jù)整合的步驟 2.2 數(shù)據(jù)挖掘的方法  2.2.1 數(shù)據(jù)挖掘過程示例  2.2.2 數(shù)據(jù)挖掘過程模型  2.2.3 數(shù)據(jù)挖掘應(yīng)用方式 2.3 數(shù)據(jù)清潔技術(shù)  2.3.1 數(shù)據(jù)的質(zhì)量問題  2.3.2 數(shù)據(jù)清潔的主要工作 2.4 數(shù)據(jù)倉庫技術(shù)  2.4.1 數(shù)據(jù)倉庫的概念  2.4.2 數(shù)據(jù)組織  2.4.3 主題設(shè)計(jì)  2.4.4 數(shù)據(jù)加載  2.4.5 數(shù)據(jù)規(guī)約 2.5 小結(jié)第3章 生物數(shù)據(jù)源 3.1 生物數(shù)據(jù)  3.1.1 生物序列數(shù)據(jù)  3.1.2 生物分子結(jié)構(gòu)數(shù)據(jù)  3.1.3 芯片及基因表達(dá)數(shù)據(jù)  3.1.4 生物網(wǎng)絡(luò)數(shù)據(jù) 3.2 生物數(shù)據(jù)組織  3.2.1 生物數(shù)據(jù)的數(shù)據(jù)庫組織形式  3.2.2 生物數(shù)據(jù)的互聯(lián)網(wǎng)組織形式 3.3 生物數(shù)據(jù)庫  3.3.1 生物序列數(shù)據(jù)庫  3.3.2 基因組數(shù)據(jù)庫  3.3.3 結(jié)構(gòu)數(shù)據(jù)庫  3.3.4 芯片和基因表達(dá)數(shù)據(jù)庫  3.3.5 生物文獻(xiàn)數(shù)據(jù)庫 3.4 生物數(shù)據(jù)源的特征 3.5 小結(jié)第4章 復(fù)雜生物數(shù)據(jù)源的數(shù)據(jù)抽取 4.1 生物數(shù)據(jù)抽取  4.1.1 生物數(shù)據(jù)抽取面臨的問題  4.1.2 包裝器的要素  4.1.3 抽取算法  4.1.4 元數(shù)據(jù)生成與包裝器生成工具 4.2 包裝器的設(shè)計(jì)  4.2.1 基于實(shí)例切分的抽取算法  4.2.2 基于定位器多結(jié)點(diǎn)共享的數(shù)據(jù)抽取模型  4.2.3 數(shù)據(jù)抽取模型描述  4.2.4 元數(shù)據(jù)的生成和維護(hù)  4.2.5 數(shù)據(jù)抽取模型表達(dá)能力 4.3 包裝器解決方案  4.3.1 面向無噪聲復(fù)雜數(shù)據(jù)源的解決方案  4.3.2 面向含噪聲復(fù)雜數(shù)據(jù)源的解決方案  4.3.3 ReDE和L-樹包裝器生成工具的架構(gòu)  4.3.4 ReDE和L-樹包裝器生成工具的實(shí)現(xiàn)技術(shù) 4.4 L-樹匹配:面向復(fù)雜數(shù)據(jù)源的數(shù)據(jù)抽取算法  4.4.1 L-樹上的數(shù)據(jù)映射機(jī)制  4.4.2 L-樹匹配算法的相關(guān)概念  4.4.3 L-樹匹配算法  4.4.4 L-樹匹配算法舉例 4.5 基于L-樹的包裝器生成工具  4.5.1 將ERE擴(kuò)充成數(shù)據(jù)抽取腳本語言  4.5.2 可視化編輯調(diào)試環(huán)境  4.5.3 ERE的可視化構(gòu)建  4.5.4 ERE的邏輯檢查  4.5.5 抽取結(jié)果的可視化評價(jià)  4.5.6 以XML格式輸出抽取結(jié)果 4.6 小結(jié)第5章 生物數(shù)據(jù)整合案例 5.1 生物數(shù)據(jù)整合系統(tǒng)的設(shè)計(jì)  5.1.1 生物數(shù)據(jù)整合的關(guān)鍵問題分析  5.1.2 生物數(shù)據(jù)整合目標(biāo)的確立  5.1.3 生物數(shù)據(jù)整合方式和技術(shù)的設(shè)計(jì) 5.2 基于GO的數(shù)據(jù)整合  5.2.1 GO簡介  5.2.2 DB2GO表  5.2.3 語義相似數(shù)據(jù)庫表  5.2.4 以GO統(tǒng)一數(shù)據(jù)的邏輯和語義 5.3 數(shù)據(jù)抽取和增量更新  5.3.1 數(shù)據(jù)抽取  5.3.2 數(shù)據(jù)的增量更新 5.4 基于GO的查詢技術(shù)  5.4.1 異構(gòu)生物數(shù)據(jù)庫的語義查詢  5.4.2 BioDW中語義查詢的體系結(jié)構(gòu)  5.4.3 GO語義相似性度量方法  5.4.4 語義相似性查詢 5.5 BioDW系統(tǒng)  5.5.1 BioDW的系統(tǒng)結(jié)構(gòu)  5.5.2 BioDW的系統(tǒng)的數(shù)據(jù)規(guī)?! ?.5.3 BioDW的數(shù)據(jù)查詢 5.6 小結(jié)第6章 生物序列數(shù)據(jù)挖掘進(jìn)展 6.1 生物序列數(shù)據(jù)挖掘的基本概念和內(nèi)容  6.1.1 生物序列相似性  6.1.2 生物序列模式挖掘  6.1.3 生物序列聚類分析  6.1.4 生物序列分類分析  6.1.5 生物序列關(guān)聯(lián)分析  6.1.6 生物序列異常分析 6.2 生物序列數(shù)據(jù)挖掘的研究階段  6.2.1 基于統(tǒng)計(jì)技術(shù)的數(shù)據(jù)挖掘方法的應(yīng)用階段  6.2.2 一般化數(shù)據(jù)挖掘方法的應(yīng)用階段  6.2.3 專門數(shù)據(jù)挖掘技術(shù)的設(shè)計(jì)階段 6.3 生物序列數(shù)據(jù)挖掘研究與應(yīng)用現(xiàn)狀  6.3.1 生物序列模式挖掘方面  6.3.2 生物序列聚類分析方面  6.3.3 生物序列分類分析方面  6.3.4 生物序列關(guān)聯(lián)分析方面  6.3.5 生物序列異常分析方面 6.4 生物序列數(shù)據(jù)挖掘研究趨勢 6.5 小結(jié)第7章 生物序列數(shù)據(jù)挖掘技術(shù) 7.1 序列數(shù)據(jù)源 7.2 生物序列模式挖掘  7.2.1 生物序列模式挖掘問題  7.2.2 基于多支持度的生物序列模式挖掘框架  7.2.3 基于多支持度的生物序列模式挖掘算法 7.3 生物序列聚類分析  7.3.1 生物序列聚類問題分析  7.3.2 蛋白質(zhì)序列聚類  7.3.3 基因序列聚類 7.4 生物序列分類分析  7.4.1 生物序列分類問題分析  7.4.2 轉(zhuǎn)錄因子分類  7.4.3 基于支持向量機(jī)的轉(zhuǎn)錄因子分類算法 7.5 小結(jié)第8章 基因芯片數(shù)據(jù)挖掘 8.1 基因表達(dá)譜芯片數(shù)據(jù)挖掘  8.1.1 基因表達(dá)譜數(shù)據(jù)分析  8.1.2 基因表達(dá)相似性分析  8.1.3 基因表達(dá)共發(fā)生分析  8.1.4 基因表達(dá)路徑分析  8.1.5 特殊表達(dá)基因分析 8.2 基因表達(dá)譜數(shù)據(jù)庫建設(shè)  8.2.1 基因表達(dá)譜芯片數(shù)據(jù)的標(biāo)準(zhǔn)  8.2.2 基因表達(dá)譜數(shù)據(jù)庫建設(shè)的難點(diǎn)  8.2.3 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)  8.2.4 數(shù)據(jù)加載與數(shù)據(jù)管理  8.2.5 自動導(dǎo)入數(shù)據(jù) 8.3 基因表達(dá)譜數(shù)據(jù)挖掘系統(tǒng)  8.3.1 數(shù)據(jù)挖掘框架  8.3.2 BDMAPA架構(gòu)擴(kuò)展  8.3.3 基因表達(dá)譜芯片數(shù)據(jù)挖掘系統(tǒng) 8.4 小結(jié)第9章 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘系統(tǒng) 9.1 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘原理  9.1.1 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘原理  9.1.2 順式調(diào)控元件文本挖掘原理 9.2 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘系統(tǒng)設(shè)計(jì)  9.2.1 數(shù)據(jù)挖掘軟件  9.2.2 數(shù)據(jù)分析服務(wù)  9.2.3 綜合的轉(zhuǎn)錄因子、順式調(diào)控元件數(shù)據(jù)庫 9.3 小結(jié)第10章 生物序列數(shù)據(jù)庫管理系統(tǒng) 10.1 生物數(shù)據(jù)處理面臨的問題  10.1.1 生物數(shù)據(jù)存儲方式  10.1.2 生物序列數(shù)據(jù)庫的查詢需求 10.2 生物序列數(shù)據(jù)模型BioSeg  10.2.1 數(shù)據(jù)結(jié)構(gòu)  10.2.2 代數(shù)操作  10.2.3 Open BUILT?IN函數(shù)  10.2.4 等價(jià)規(guī)則  10.2.5 BioSeg模型的特點(diǎn) 10.3 生物序列數(shù)據(jù)庫管理系統(tǒng)的設(shè)計(jì)  10.3.1 代數(shù)查詢實(shí)例  10.3.2 查詢語言  10.3.3 體系結(jié)構(gòu) 10.4 小結(jié)參考文獻(xiàn)致謝

章節(jié)摘錄

  第1章 背景知識  諾貝爾獎獲得者Dulbecc0于1986年在《Science》雜志上發(fā)表的一篇短文中率先提出了人類基因組計(jì)劃。該計(jì)劃在探討生命奧秘的過程中,使得自動化的DNA測序技術(shù)、生物數(shù)據(jù)挖掘分析技術(shù)、基因組數(shù)據(jù)庫和分析軟件、基因芯片技術(shù)的一些工具性技術(shù)獲得了快速發(fā)展,并使生物信息學(xué)作為一個(gè)學(xué)科領(lǐng)域獲得了公認(rèn)。本章介紹生物信息學(xué)、數(shù)據(jù)整合與數(shù)據(jù)挖掘方面的背景知識和基本概念?! ?.1 生物信息學(xué)  生命科學(xué)實(shí)驗(yàn)產(chǎn)生了大量生物數(shù)據(jù),如何在數(shù)學(xué)、計(jì)算機(jī)科學(xué)等的支持下充分利用這些生物數(shù)據(jù)更有效地開展生命的探討是一個(gè)很有意義的問題。于是,生物數(shù)據(jù)處理技術(shù)獲得了發(fā)展,并最終產(chǎn)生了生物信息學(xué)?! ?.1.1 基本概念  生物信息學(xué)(Bioinformatics)是指生命科學(xué)與數(shù)學(xué)科學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交匯融合所形成的一門交叉學(xué)科。它應(yīng)用先進(jìn)的數(shù)據(jù)管理技術(shù)、數(shù)學(xué)分析模型和計(jì)算機(jī)軟件對各種生物數(shù)據(jù)進(jìn)行提取、存儲、處理和分析,旨在掌握復(fù)雜生命現(xiàn)象的形成模式與演化規(guī)律。  該定義是Rashidi等人于2000年給出的。由于生命科學(xué)研究者各自從事的具體領(lǐng)域不同,對其存在不同的理解,因此至今仍沒有一個(gè)關(guān)于生物信息學(xué)的統(tǒng)一定義。但其基本的研究內(nèi)容和研究方法還是比較統(tǒng)一的,就是通過研究生物數(shù)據(jù)來促進(jìn)生命科學(xué)的研究。隨著生命科學(xué)研究的深入,生物信息學(xué)也受到廣泛關(guān)注?! ∈聦?shí)上,生物信息學(xué)起源要早很多。1953年4月25日,Waston和Crick提出DNA(Deoxyribo Nucleic Acid)雙螺旋結(jié)構(gòu)和自我復(fù)制機(jī)制,揭開了分子生物學(xué)研究的新篇章。1956年,在美國田納西州蓋特林堡召開首次“生物學(xué)中的信息理論研討會”,萌生了生物信息學(xué)概念。20世紀(jì)60年代,研究者開始搜集生物信息,并應(yīng)用計(jì)算方法對其進(jìn)行分析,發(fā)現(xiàn)其中反映生命現(xiàn)象的重要規(guī)律。隨后,生物學(xué)的研究手段發(fā)生了革命性的變化,由單純的觀察和實(shí)驗(yàn)研究轉(zhuǎn)向與生物數(shù)據(jù)分析相結(jié)合。70年代到80年代初,數(shù)學(xué)統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)得到了較快發(fā)展,研究者開始應(yīng)用計(jì)算機(jī)技術(shù)解決生物學(xué)問題,生物信息學(xué)初步形成。1986年,美國科學(xué)家首次提出“人類基因組計(jì)劃”(Human Genome Project,HGP),促進(jìn)了生物信息學(xué)的迅速發(fā)展。1987年,Hwa A.Lim博士  首次將這一學(xué)科命名為“Bioinformatics”(生物信息學(xué))?! ≌鏒ulbecc0 1986年所說:“人類的DNA序列是人類的真諦,這個(gè)世界上發(fā)生的一切事情,都與這一序列息息相關(guān)?!钡@些由數(shù)以億計(jì)ACGT符號組成的DNA序列中包含著什么信息?基因組中的這些信息怎樣控制有機(jī)體的發(fā)育?基因組本身又是怎樣進(jìn)化的?要完全破譯這一序列以及相關(guān)的內(nèi)容,人類還有相當(dāng)長的路要走。生物信息學(xué)成為可能揭開謎底的重要方法之一?! ?.1.2 研究內(nèi)容  生物信息學(xué)的目標(biāo)是指導(dǎo)生命科學(xué)研究,以揭示生物數(shù)據(jù)中蘊(yùn)含的生物學(xué)知識和規(guī)律,讀懂基因組的遺傳信息。其研究內(nèi)容主要包括以下兩大方面。  1.生物數(shù)據(jù)的存儲、管理和整合  生物數(shù)據(jù)主要有生物序列數(shù)據(jù)(如DNA序列、蛋白質(zhì)序列等)、生物分子結(jié)構(gòu)數(shù)據(jù)、芯片及基因表達(dá)數(shù)據(jù)、生物網(wǎng)絡(luò)數(shù)據(jù)(如蛋白質(zhì)相互作用網(wǎng)絡(luò)、調(diào)控網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)等)、生物文獻(xiàn)數(shù)據(jù)等。目前在國際上總共約有1 000多個(gè)生物數(shù)據(jù)庫,存放數(shù)百TB(tera byte)的生物數(shù)據(jù)。由于大多數(shù)生物數(shù)據(jù)的含義目前還不為人們所知,因此大量的生物學(xué)研究將基于生物數(shù)據(jù)進(jìn)行。生物學(xué)研究手段由單純的觀察和實(shí)驗(yàn)轉(zhuǎn)向現(xiàn)代信息學(xué)方法,即將生物的實(shí)驗(yàn)變成了數(shù)據(jù)的計(jì)算?! ∩飻?shù)據(jù)是一種非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量巨大、種類繁多、數(shù)據(jù)操作類型復(fù)雜等是其主要的特征。其表達(dá)和存儲方式是生物數(shù)據(jù)訪問和處理的關(guān)鍵。目前,生物數(shù)據(jù)的存儲方式有兩種:一種是采用文本文件方式存儲;另一種是采用關(guān)系數(shù)據(jù)庫、XML(eXtensible Markup Language)數(shù)據(jù)庫或者面向?qū)ο髷?shù)據(jù)庫等存儲方式,但是由于沒有合適的數(shù)據(jù)模型或數(shù)據(jù)類型,生物數(shù)據(jù)在這種存儲方式中也只是用數(shù)據(jù)庫管理系統(tǒng)(Database Management System,DBMS)中提供的文本字段來存儲。就是說,兩者本質(zhì)上是一樣的,都是文本方式。文本方式對復(fù)雜的生物數(shù)據(jù)操作(如:生物序列相似性查詢、MOTIF查詢等)而言,處理效率是難以令人滿意的,也即目前的數(shù)據(jù)庫技術(shù)(包括XML數(shù)據(jù)庫技術(shù))都不適合生物數(shù)據(jù)的存儲、管理和處理,這直接影響了生物信息學(xué)軟件的有效性和實(shí)用性,進(jìn)而影響了生命科學(xué)和生物技術(shù)的發(fā)展。另外,文本方式的存儲在生物數(shù)據(jù)的處理能力和處理性能上也都不能滿足要求。因此,如何有效地管理和處理生物數(shù)據(jù)是一個(gè)亟待解決的問題。針對生物數(shù)據(jù)的特點(diǎn),建立生物數(shù)據(jù)庫管理系統(tǒng)是一個(gè)關(guān)系生命科學(xué)與技術(shù)發(fā)展的重要課題。  由于生物數(shù)據(jù)產(chǎn)生于世界各地的研究機(jī)構(gòu),存儲在各種生物數(shù)據(jù)庫中,因此為完成一項(xiàng)研究工作,需要整合這些分散在各研究機(jī)構(gòu)中的生物數(shù)據(jù)。但因?yàn)樯飻?shù)據(jù)庫數(shù)量眾多且規(guī)模龐大,所以生物數(shù)據(jù)整合是一項(xiàng)艱巨的計(jì)算機(jī)工程任務(wù)。  2.生物數(shù)據(jù)挖掘和分析  生物信息學(xué)領(lǐng)域的核心內(nèi)容是研究如何通過對生物數(shù)據(jù)的分析,以期發(fā)現(xiàn)生物數(shù)據(jù)中的規(guī)律(如DNA序列、結(jié)構(gòu)及其與生物功能之間的關(guān)系等),并對分析結(jié)果進(jìn)行解釋和可視化,其研究范圍涉及基因組學(xué)、蛋白質(zhì)組學(xué)、系統(tǒng)生物學(xué)、比較基因組學(xué)等,挖掘和分析的內(nèi)容包括生物序列數(shù)據(jù)的分析和挖掘、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘、生物網(wǎng)絡(luò)系統(tǒng)的分析和挖掘、芯片和基因表達(dá)數(shù)據(jù)分析等內(nèi)容。 ?。?)生物序列數(shù)據(jù)的分析和挖掘 ?、傩蛄斜葘Γ盒蛄邢嗨菩匝芯渴巧镄蛄袛?shù)據(jù)分析和挖掘研究的核心內(nèi)容,其中一個(gè)主要的應(yīng)用問題是給定一條生物序列,在序列數(shù)據(jù)庫中查詢與其相似程度大于一定閾值的序列(比較兩個(gè)或兩個(gè)以上的序列的相似性),即生物序列相似性查詢。序列比對是最基本、最重要的方法之一,它根據(jù)給定的相似矩陣(PAM250,BLOSUM62等),同時(shí)考慮可能的插入、刪除和突變,找出序列間的最優(yōu)聯(lián)配。序列比對主要有全局比對和局部比對兩種策略:全局比對是對序列的全長進(jìn)行比對,適用于全局水平上相似性程度較高的序列;典型的算法有Needle—man-Wunsch算法等;局部比對是尋找序列間相似性最大的子序列,典型的算法有基于動態(tài)規(guī)劃思想的Smith-Waterman算法以及啟發(fā)式的兩序列比對數(shù)據(jù)庫相似性搜索算法FASTA和BLAST(Basic Local Alignment Search T001)等。多序列比對是將一組序列同時(shí)進(jìn)行比對,發(fā)現(xiàn)序列間的相似程度,大多采用啟發(fā)式算法,具有代表性的主要是漸進(jìn)比對方法和迭代比對方法?! 、诠δ茉治觯夯蜃R別是識別DNA序列上的具有生物學(xué)特征的片段,識別對象包括蛋白質(zhì)編碼(即基因的范圍和在序列中的位置),也包括其他具有一定生物學(xué)功能的功能元件,如轉(zhuǎn)錄因子、順式調(diào)控元件等。功能元件能夠表征序列的功能特征。序列上的功能元件主要包括編碼序列元功能片段和非編碼序列元功能片段等。其中,編碼序列可被轉(zhuǎn)錄并執(zhí)行一定的生物學(xué)功能;調(diào)控序列控制編碼序列的動態(tài)行為,如轉(zhuǎn)錄調(diào)控序列控制編碼序列的表達(dá)速率等。目前,“DNA元件百科全書”(Encyclopedia of DNA Elements,ENCODE)計(jì)劃已開展人類基因組中功能元件的分析工作,但該計(jì)劃正處于初期,積累的數(shù)據(jù)仍然較少。 ?。?)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘  人類基因工程的目的之一是要了解人體內(nèi)蛋白質(zhì)的結(jié)構(gòu)、功能、相互作用以及與各種人類疾病之間的關(guān)系。雖然蛋白質(zhì)由氨基酸的線性序列組成,但是只有折疊成特定的空間構(gòu)象才能具有相應(yīng)的生物學(xué)功能。由于蛋白質(zhì)的三維結(jié)構(gòu)比其一級結(jié)構(gòu)在進(jìn)化中更穩(wěn)定,同時(shí)也包含了較氨基酸序列(一級結(jié)構(gòu))更多的信息,因此,蛋白質(zhì)結(jié)構(gòu)分析和預(yù)測的基本問題是比較兩個(gè)或兩個(gè)以上蛋白質(zhì)分子空間結(jié)構(gòu)的相似性。蛋白質(zhì)的結(jié)構(gòu)與功能是密切相關(guān)的,一般認(rèn)為,具有相似功能的蛋白質(zhì)結(jié)構(gòu)一般相似,因此可通過對已知結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)的分析來預(yù)測未知蛋白質(zhì)的結(jié)構(gòu)。在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘中,同源建模(homology modeling)方法是具有代表性的方法?! ×硪粋€(gè)目的是從蛋白質(zhì)的氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu),即從頭預(yù)測(abinitio)方法,根據(jù)物理、化學(xué)原理通過理論計(jì)算(如分子力學(xué)、分子動力學(xué))進(jìn)行蛋白質(zhì)的結(jié)構(gòu)預(yù)測。該方法假設(shè)折疊后的蛋白質(zhì)取能量最低的構(gòu)象。但是從頭預(yù)測方法在實(shí)際中常常不合適?! 。?)生物網(wǎng)絡(luò)系統(tǒng)的分析和挖掘  分子生物學(xué)研究揭示,復(fù)雜生命現(xiàn)象是大量基因活動且相互作用的結(jié)果?!癉NA元件百科全書”計(jì)劃的研究表明,人類基因組藍(lán)圖是一個(gè)復(fù)雜的網(wǎng)絡(luò)系統(tǒng)。認(rèn)識和解讀人類基因組藍(lán)圖是后基因組時(shí)代生命科學(xué)領(lǐng)域面臨的最具挑戰(zhàn)性的熱點(diǎn)問題之一。從全局和系統(tǒng)水平研究和分析生物學(xué)系統(tǒng),闡述人類基因組中所有基因間的關(guān)系是系統(tǒng)認(rèn)識人類基因組藍(lán)圖的重要步驟。系統(tǒng)生物學(xué)是研究生物系統(tǒng)中所有組成成分(基因、mRNA、蛋白質(zhì)等)的構(gòu)成,以及在特定條件下這些組分間的相互關(guān)系的學(xué)科,將在基因組序列的基礎(chǔ)上完成由生物體內(nèi)各種組成成分鑒別及其相互作用的研究到途徑、網(wǎng)絡(luò)和模塊的構(gòu)建,這是現(xiàn)代生物學(xué)的研究前沿,已成為21世紀(jì)生物學(xué)的核心驅(qū)動力?! ?gòu)建生物系統(tǒng)組成成分間的生物網(wǎng)絡(luò)是系統(tǒng)生物學(xué)的重要研究內(nèi)容,這對揭示基因功能、解析序列間的相互作用、認(rèn)識生命活動的規(guī)律有重要意義。通過實(shí)驗(yàn)識別生物網(wǎng)絡(luò)是一種高耗費(fèi)的方法。因此,有必要研究新的生物信息學(xué)方法,以對生物網(wǎng)絡(luò)進(jìn)行有效識別,從而為實(shí)驗(yàn)生物學(xué)研究提供重要的指導(dǎo)信息。

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    生物數(shù)據(jù)整合與挖掘 PDF格式下載


用戶評論 (總計(jì)1條)

 
 

  •   很好的書,正是我所需要的。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7