DNA和蛋白質(zhì)序列數(shù)據(jù)分析工具

出版時間:2012-6  出版社:科學出版社  作者:薛慶中 等編著  頁數(shù):356  字數(shù):475250  
Tag標簽:無  

內(nèi)容概要

近年來新一代測序技術的研發(fā)和應用,極大地推動了基因組科學的發(fā)展,也給基因組數(shù)據(jù)分析帶來巨大的新挑戰(zhàn)。第三版對前兩版原有內(nèi)容做了大量更新和補充,《DNA和蛋白質(zhì)序列數(shù)據(jù)分析工具(第三版)》17章,分別從基因組學、蛋白質(zhì)組學、系統(tǒng)生物學三個層次詳細介紹了常用的基因數(shù)據(jù)庫和網(wǎng)絡工具;為適應Windows7的環(huán)境,將BioPerl程序包的數(shù)據(jù)分析做了重排使其更易操作。尤其是增添了新一代測序數(shù)據(jù)分析實例,包括SNVs和Indel識別、小RNA-seq分析、枯草桿菌全基因組序列拼接;并對Bowtie等讀序列定位工具和UCSC瀏覽器的使用做介紹。
《DNA和蛋白質(zhì)序列數(shù)據(jù)分析工具(第三版)》內(nèi)容深入淺出、圖文并茂。書中提及的各種方法均有充實的例證并附上相關數(shù)據(jù)和圖表,供讀者理解和參考;書后還附有中英文的專業(yè)術語和詞匯。可作為對基因組學、蛋白質(zhì)組學、生物信息學感興趣的本科生、研究生和研究人員學習、研究的重要工具手冊。

作者簡介

書籍目錄

第三版前言第二版前言第一版前言第1章 序列比對工具BLAST和ClustalX1.1 BLAST搜索程序1.2 本地運行BLAST(Windows系統(tǒng))1.3 多序列比對(ClustalX)參考文獻第2章 真核生物基因結構的預測2.1 基因可讀框的識別2.2 CpG島、轉錄終止信號和啟動子區(qū)域的預測2.3 基因密碼子偏好性計算:CodonW的使用2.4 采用mRNA序列預測基因:Spidey的使用2.5 ASTD數(shù)據(jù)庫簡介參考文獻第3章 電子克隆3.1 種子序列的搜索3.2 序列拼接3.3 在水稻數(shù)據(jù)庫中的電子延伸3.4 電子克隆有關事項的討論參考文獻第4章 分子進化遺傳分析工具(MEGA5)4.1 序列數(shù)據(jù)的獲取和比對4.2 進化距離的估計4.3 分子鐘假說的檢驗4.4 系統(tǒng)進化樹構建參考文獻第5章 蛋白質(zhì)結構與功能預測5.1 蛋白質(zhì)信息數(shù)據(jù)庫5.2 蛋白質(zhì)一級結構分析5.3 蛋白質(zhì)二級結構預測5.4 蛋白質(zhì)家族和結構域5.5 蛋白質(zhì)三級結構預測5.6 蛋白質(zhì)結構可視化工具參考文獻第6章 序列模體的識別和解析6.1 MEME程序包6.2 通過MEME識別DNA或蛋白質(zhì)序列中模體6.3 通過MAST搜索序列中的已知模體6.4 通過GLAM2識別有空位的模體6.5 通過GLAM2SCAN搜索序列中的已知模體6.6 應用TOMTOM與數(shù)據(jù)庫中的已知模體進行比對6.7 應用GOMO鑒定模體的功能6.8 應用MCAST搜索基因表達調(diào)控模塊6.9 應用MEME-ChIP發(fā)現(xiàn)DNA序列模體6.10 應用SPAMO推測轉錄因子的結合位點6.11 應用DREME發(fā)現(xiàn)短的正則表達模體6.12 應用FIMO尋找數(shù)據(jù)庫已知的模體6.13 應用CentiMo尋找主要的富集模體參考文獻第7章 蛋白質(zhì)譜數(shù)據(jù)分析7.1 生物質(zhì)譜技術的基本原理7.2 X!Tandem軟件7.3 Mascot軟件7.4 Sequest軟件7.5 蛋白質(zhì)組學數(shù)據(jù)統(tǒng)計分析TPP軟件參考文獻第8章 基因芯片數(shù)據(jù)處理和分析8.1 芯片數(shù)據(jù)的獲取和處理8.2 芯片數(shù)據(jù)聚類分析和差異表達基因篩選8.3 GenMAPP芯片數(shù)據(jù)的可視化8.4 通過GEO檢索和提交芯片數(shù)據(jù)8.5 應用DAVID工具對芯片數(shù)據(jù)功能注釋和分類參考文獻第9章 GO基因本體和KEGG代謝途徑分析9.1 Gene Ontology數(shù)據(jù)庫9.2 KEGG數(shù)據(jù)庫參考文獻第10章 系統(tǒng)生物學網(wǎng)絡結構分析10.1 Cytoscape軟件簡介10.2 Cytoscape軟件安裝10.3 Cytoscape基本操作10.4 應用BiNGO插件進行基因注釋10.5 應用BioQuali插件進行基因表達分析10.6 應用Agilent Literature Search插件進行文獻搜索10.7 鏈接BOND數(shù)據(jù)庫做網(wǎng)絡分析10.8 應用插件Cytoprophet預測潛在蛋白和結構域的相互作用參考文獻第11章 Bioperl模塊數(shù)據(jù)分析及其安裝11.1 概述11.2 Bioperl重要模塊簡介和腳本實例11.3 Bioperl安裝參考文獻第12章 讀序列(reads)定位軟件Bowtie12.1 Bowtie特性12.2 Burrows-Wheeler(BW)轉換程序12.3 不要求精確的比對搜索12.4 回溯過量表達12.5 階段搜索12.6 Bowtie的輸出格式參考文獻第13章 UCSC基因組瀏覽器13.1 基因分類器(Gene sorter)工具13.2 基因組瀏覽器(Genome Browser)13.3 蛋白質(zhì)組瀏覽器(Proteome Browser)13.4 表瀏覽器(Table Browser)參考文獻第14章 SNVs和Indel識別分析方法及工具14.1 Bowtie工具14.2 samtools軟件包14.3 識別單核苷酸多態(tài)性(SNP)14.4 尋找同義突變和非同義突變14.5 發(fā)現(xiàn)讀框內(nèi)插入缺失(in-frame indel)14.6 發(fā)現(xiàn)其他類型的突變參考文獻第15章 小RNA高通量測序數(shù)據(jù)分析15.1 數(shù)據(jù)分析流程15.2 Rfam數(shù)據(jù)庫15.3 miRBase數(shù)據(jù)庫15.4 應用mfold預測RNA二級結構15.5 應用miRAlign搜索miRNA15.6 應用TargetScan預測miRNA的靶基因參考文獻第16章 RNA測序(RNA-Seq)分析16.1 TopHat的分析流程16.2 轉錄組讀序列比對16.3 獲得基因表達譜及轉錄物表達譜16.4 差異表達基因鑒定及注釋16.5 SNPs/SNVs及InDels鑒定與注釋16.6 選擇性剪切(alternative splicing)鑒定16.7 TopHat應用實例參考文獻第17章 全基因組序列拼接的流程和方法17.1 實例數(shù)據(jù)的獲取17.2 短讀序列數(shù)據(jù)作圖到參考基因組17.3 將短讀序列數(shù)據(jù)從頭拼接成染色體骨架17.4 大規(guī)模染色體骨架拼接17.5 草圖和實驗物理圖譜間的比較參考文獻英漢對照詞匯英文索引中文索引彩圖

章節(jié)摘錄

第1章 序列比對工具BLAST 和ClustalX駱迎峰 丁文超 程尹 陳辰 薛慶中序列比對是基因組學研究的核心手段之一,從測序拼接到基因表達分析都需要將未知序列和數(shù)據(jù)庫中的已知序列進行相似性比較。序列比對工具很多,其中以基本局部比對搜索工具(BLAST,basic local alignment search tool)最為常用。生物不同基因的DNA 序列或氨基酸序列通過比對,可以在相應數(shù)據(jù)庫中找到相同或相似序列。本章主要介紹美國國家生物技術信息中心(The National Center for Biotechnology Information,NCBI)數(shù)據(jù)庫提供的BLAST搜索在線服務及本地運行程序,用戶可以通過提交核苷酸或蛋白質(zhì)序列,并選擇所要比較的NCBI 序列數(shù)據(jù)庫,進行序列相似性(Sequence similarity)搜索。本章還將介紹多序列比對工具ClustalX的使用方法,以便預測基因的功能,探索物種的親緣關系及其進化。1.1 BLAST 搜索程序NCBI 的BLAST搜索程序(http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)下設3 個部分(圖1.1):用BLAST 拼接的參考基因組(BLAST Assembled RefSeq Genome)、基礎的BLAST(Basic BLAST)、特殊的BLAST(Specialized BLAST)1.1.1 用BLAST拼接的參考基因組在做BLAST搜索前,用戶可根據(jù)自己的需求,選擇與某個特定物種(special genome) 基因組數(shù)據(jù)庫或所有拼接的基因組參考序列數(shù)據(jù)庫BLAST。如選擇后者,點擊list all genomic BLAST databases 后,從圖1.2 可知目前正在測序或已完成測序的物種及其數(shù)量,包括:脊椎動物(Vertebrates)26 種、無脊椎動物(Invertebrates)16 種、原生動物(Protozoa)18 種、植物(Plants)47 種、真菌(Fungi)17 種。1.1.2 基礎的BLAST確定了相應的數(shù)據(jù)庫,接下來是選擇搜索方法。表1.1 列出了BLAST 家族的5 個子程序及其查詢序列、數(shù)據(jù)庫、搜索方法。子程序nucleotide blast(blastn)和protein blast(blastp)最為常用,使用也較簡便,可以直接進行比對,搜索時只需將查詢序列粘貼到搜索框中,點擊BLAST 即可完成。其中,blastn 用來發(fā)現(xiàn)高分值匹配的核酸序列,而blastp 能發(fā)現(xiàn)氨基酸殘基的相似性和找到其同源蛋白。與前兩個子程序相比,后三個子程序(blastx、tblastn 和tblastx)搜索過程較為復雜,在比對前需要先經(jīng)過“翻譯”。例如,運行blastx 需先將查詢序列翻譯成蛋白質(zhì)序列,tblastn 需將核酸數(shù)據(jù)庫中的序列翻譯成蛋白質(zhì)序列,而tblastx 需對查詢序列和數(shù)據(jù)庫中的核酸序列都進行翻譯?,F(xiàn)以blastx 為例(圖1.3),說明核苷酸序列翻譯后可能生成6 種蛋白質(zhì)序列。假設目標序列為ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC,理論上此核苷酸序列翻譯時,可以分別從查詢序列的正向鏈或反向互補鏈的1、2、3 相位起始。正向鏈(5′→3′端)(1)第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCGACC AAT CTG CTT TAT ACC CGC(2)第二位起始:TG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCGACC AAT CTG CTT TAT ACC CGC(3)第三位起始:G AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACCAAT CTG CTT TAT ACC CGC反向鏈(3′→5′端)(4)第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTTAAC TAA TTT AGC GGT ACT CAT(5)第二位起始:CG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTTAAC TAA TTT AGC GGT ACT CAT(6)第三位起始:G GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AACTAA TTT AGC GGT ACT CAT上述目標序列翻譯后便會產(chǎn)生相應的6 個不同相位的氨基酸序列:(1)M S T A K L V K S K A T N L L Y T R(2)― V P L N ― L N Q K R P I C F I P(3)E Y R ― I S ― I K S D Q S A L Y P(4)A G I K Q I G R F ― F N ― F S G T H(5)R V ― S R L V A F D L T N L A V L(6)G Y K A D W S L L I ― L I ― R Y S結果如圖1.4 所示(注:“―”為終止子)。通過blastx 程序比對,將匹配分值最高的序列視為最有可能表達的靶標核苷酸序列。本例最佳比對為MSTAKLVKSKATNLLYTR(圖1.5),暗示該序列是從正向第一位起始翻譯,由此說明,blastx 子程序在編碼區(qū)分析時,可對相位的確定起一定作用。1.1.2 網(wǎng)上blastx 比對工具在BLAST主界面點擊“blastx”(圖1.1),進入序列提交界面(圖1.6)。該界面由輸入查詢序列(Enter Query Sequence)、搜索設置選項(Choose Search Set)和算法參數(shù)設置(Algorithm Parameters)(圖1.7)三部分組成。(1) 輸入查詢序列:用戶可以在提交框中直接輸入NCBI 數(shù)據(jù)庫GI 號(每行1個號),或粘貼序列;也可以點擊“瀏覽”(Browse)按鈕上傳保存在本地的fasta格式序列文件。網(wǎng)上運行BLAST服務允許選擇比對兩條或多條序列(Align two or more sequences)。此時,比對序列必須采用fasta 格式。為方便管理,用戶可以為BLAST 搜索任務命名(Job Title)。在本例中,填入的fasta 格式序列名稱是“lesson.seq.screen.Contig34”,相應地,搜索任務名稱自動變?yōu)?ldquo;lesson.seq.screen.Contig34” (圖1.6)。若提交的是單條fasta 格式序列,默認搜索任務就是該序列名稱。(2) 搜索設置:本例選擇的數(shù)據(jù)庫(Database)為默認的非冗余蛋白庫(nr)。物種(Organism)選擇填入“human”;密碼子表(Genetic code)采用默認標準密碼子。在“Entrez Query” 中可選擇使用布爾表達式(Boolean expression)。(3)算法參數(shù)設置:a) 通用的參數(shù)(General Parameters)設置包括:最多靶序列數(shù)(Max target)和期望閾值(Expect threshold,簡稱E值)、搜索詞大小(Word size)、查詢區(qū)域最多匹配數(shù)(Max matches in a query range)。E 值表示在數(shù)據(jù)庫搜索時與期望值隨機匹配的可能性,E=1 表示匹配是隨機產(chǎn)生的;反之,E=0 表示匹配不是隨機產(chǎn)生的,由此可見,設置的E 值越小,置信度就越高(圖1.7)。b)記分參數(shù):蛋白質(zhì)序列相似性通常采用突變數(shù)據(jù)(mutation data,MD)和BLOSUM 兩種矩陣估算。突變數(shù)據(jù)基于可接受點突變(point accepted mutation,PAM)值。PAM1 表示一個進化變異單位, 即有1%的氨基酸變異。常用的矩陣PAM250 相似性記分值相當于兩個序列間保留20%匹配。在測定遠距離序列相關性時可采用BLOSUM 矩陣,BLOSUM 值表示相同序列的百分比(如常用的BLOSUM62 表示比對結果中至少有62%的氨基酸相同)。對于相似性較高序列的比對,一般選擇較低的PAM 值或較高的BLOSUM 值,反之亦然。為補償插入與缺失對序列相似性的影響,通常采用空位開放罰分(gap opening penalty)和空位延伸罰分(gap extension penalty)。一個長度為n的空位,罰分數(shù)=空位開放罰分+空位延伸罰分×n。每個記分矩陣都有默認的空位罰分值。本例采用默認選項。c) 過濾(Filter)和屏蔽(Mask):通常需對低復雜性區(qū)域序列進行過濾,使其不參與顯著性統(tǒng)計。設置屏蔽查詢種子序列只用于掃描數(shù)據(jù)庫,不能用于擴展。屏蔽fasta 格式中的小寫字母。搜索選項設置完成后,點擊“BLAST”即可運行搜索。blastx運行后,服務器會自動以網(wǎng)頁形式返回結果,其中包括比對上的序列、相似性程度及顯著性水平等信息,如圖1.8所示。……

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    DNA和蛋白質(zhì)序列數(shù)據(jù)分析工具 PDF格式下載


用戶評論 (總計5條)

 
 

  •   俺的專業(yè)書。。。
  •   工具書值得學習
  •   正在看,入神中
  •   這本書等了好久才有貨
  •   看了就收獲~
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7