出版時(shí)間:2012-2 出版社:化學(xué)工業(yè)出版社 作者:陸文聰 等著 頁(yè)數(shù):244
Tag標(biāo)簽:無(wú)
前言
計(jì)算機(jī)在理論化學(xué)和應(yīng)用化學(xué)各個(gè)領(lǐng)域的廣泛應(yīng)用,極大地促進(jìn)了化學(xué)學(xué)科的發(fā)展,并產(chǎn)生了一系列交叉學(xué)科,如計(jì)算(機(jī))化學(xué)、化學(xué)計(jì)量學(xué)、化學(xué)信息學(xué)等。 化學(xué)化工領(lǐng)域積累了大量的科學(xué)實(shí)驗(yàn)和生產(chǎn)實(shí)際數(shù)據(jù),如何總結(jié)這些數(shù)據(jù)中的規(guī)律性,進(jìn)而用以指導(dǎo)以后的科學(xué)實(shí)驗(yàn)和生產(chǎn)操作,這是一項(xiàng)非常有意義的工作,這項(xiàng)工作的實(shí)施需要數(shù)據(jù)挖掘技術(shù)與化學(xué)化工知識(shí)和科學(xué)實(shí)踐的結(jié)合。 所謂化學(xué)數(shù)據(jù)挖掘(ChemicalDataMining),就是利用機(jī)器學(xué)習(xí)方法對(duì)化學(xué)化工(或相關(guān)學(xué)科)中有關(guān)數(shù)據(jù)樣本進(jìn)行采集、整理、分析、建模等,試圖歸納和總結(jié)數(shù)據(jù)中蘊(yùn)含的規(guī)律性,進(jìn)而利用所建定性或定量的數(shù)學(xué)模型預(yù)報(bào)未知樣本的性質(zhì)?;瘜W(xué)數(shù)據(jù)挖掘的應(yīng)用研究?jī)?nèi)容涉及材料設(shè)計(jì)、分子設(shè)計(jì)、化工過(guò)程優(yōu)化等領(lǐng)域?;瘜W(xué)數(shù)據(jù)挖掘方法和技術(shù)已成為化學(xué)信息學(xué)、生物信息學(xué)的主要研究工具。 利用化學(xué)數(shù)據(jù)挖掘方法和技術(shù),可以總結(jié)藥物分子的構(gòu)效關(guān)系,即藥物的生物活性與其結(jié)構(gòu)特征參數(shù)(分子描述符)之間的定量或定性關(guān)系,在此基礎(chǔ)上可以設(shè)計(jì)和預(yù)測(cè)新的高活性化合物。利用化學(xué)數(shù)據(jù)挖掘方法和技術(shù),可以總結(jié)新材料的物理化學(xué)性質(zhì)與其組成元素的原子參數(shù)、化學(xué)配方、制備工藝等參數(shù)之間的定性或定量關(guān)系,在此基礎(chǔ)上可以輔助新材料研制和新產(chǎn)品開(kāi)發(fā),達(dá)到事半功倍的效果。利用化學(xué)數(shù)據(jù)挖掘方法和技術(shù),對(duì)大型現(xiàn)代化工廠(特別是煉油廠、化工廠和煉鋼廠)的生產(chǎn)操作過(guò)程作“工業(yè)診斷”,找出優(yōu)化生產(chǎn)的“瓶頸”問(wèn)題,建立解決“瓶頸”問(wèn)題的數(shù)據(jù)挖掘模型,在此基礎(chǔ)上可以實(shí)現(xiàn)低成本、高收率、低能耗、高質(zhì)量地生產(chǎn)和制備各種化學(xué)產(chǎn)品。因此,利用化學(xué)數(shù)據(jù)挖掘所得研究對(duì)象的統(tǒng)計(jì)規(guī)律,可以指導(dǎo)我們更好地開(kāi)展下一步的科學(xué)實(shí)驗(yàn)和生產(chǎn)實(shí)踐,達(dá)到“事半功倍”的目的?;瘜W(xué)數(shù)據(jù)挖掘方法和技術(shù)的應(yīng)用成本低,卻可能在科學(xué)實(shí)驗(yàn)中節(jié)省人力物力,甚至在工業(yè)生產(chǎn)中產(chǎn)生可觀的經(jīng)濟(jì)效益,因而化學(xué)數(shù)據(jù)挖掘方法和技術(shù)有廣泛的應(yīng)用背景。 筆者長(zhǎng)期從事化學(xué)數(shù)據(jù)挖掘方法在化學(xué)化工領(lǐng)域的應(yīng)用研究工作,在該研究領(lǐng)域積累了大量成功應(yīng)用實(shí)例,我們開(kāi)發(fā)的化學(xué)數(shù)據(jù)挖掘軟件HyperMiner和基于數(shù)據(jù)挖掘的工業(yè)優(yōu)化控制系統(tǒng)已在國(guó)內(nèi)若干大型企業(yè)得到實(shí)際應(yīng)用,達(dá)到了增產(chǎn)降耗的目的。本書(shū)從化學(xué)工作者易于理解的角度介紹常用數(shù)據(jù)挖掘方法的基本原理,并重點(diǎn)介紹作者近年來(lái)在材料設(shè)計(jì)、工業(yè)優(yōu)化、構(gòu)效關(guān)系、生物信息學(xué)等領(lǐng)域的數(shù)據(jù)挖掘工作。 筆者曾與我國(guó)已故著名化學(xué)家陳念貽先生長(zhǎng)期合作研究,很多工作曾得益于陳念貽先生的指導(dǎo)和幫助。筆者曾作為合作者協(xié)助陳念貽先生出版過(guò)兩本學(xué)術(shù)專著,即《模式識(shí)別方法在化學(xué)化工中的應(yīng)用》(科學(xué)出版社,2000)和《SupportVectorMachineinChemistry》(WorldScientificPublishingCoP(pán)teLtd,2004),本書(shū)的出版是筆者對(duì)于恩師陳念貽先生的化學(xué)數(shù)據(jù)挖掘工作在上海大學(xué)的繼承和發(fā)展。本書(shū)有關(guān)科研工作得到了國(guó)家自然科學(xué)基金委員會(huì)、上海市科學(xué)技術(shù)委員會(huì)、上海寶山鋼鐵集團(tuán)、云南省科技廳、北京石油化工設(shè)計(jì)院等單位的資助;有關(guān)學(xué)術(shù)研究和技術(shù)開(kāi)發(fā)工作得到了筆者的研究生們的大力配合,其中劉旭和顧天鴻博士等在算法程序方面做了較多工作,楊善升和鈕冰博士等在化學(xué)數(shù)據(jù)挖掘應(yīng)用方面做了較多的工作;本書(shū)的出版得到了化學(xué)工業(yè)出版社的支持,在此一并致謝。 為方便讀者學(xué)以致用,筆者為讀者提供了化學(xué)數(shù)據(jù)挖掘應(yīng)用軟件HyperMiner,讀者下載后可免費(fèi)使用30天(附錄1含該軟件簡(jiǎn)介和下載方法),希望廣大讀者能通過(guò)具體應(yīng)用案例學(xué)習(xí)和受益。本書(shū)可供化學(xué)、化工及相關(guān)領(lǐng)域的科研人員和工程技術(shù)人員閱讀,亦可作為高等學(xué)校的教學(xué)參考書(shū)。 化學(xué)數(shù)據(jù)挖掘涉及的研究領(lǐng)域很廣,本書(shū)只是介紹了部分常用方法在筆者涉獵的研究領(lǐng)域中的工作,有關(guān)數(shù)據(jù)挖掘方法包括變量相關(guān)分析和多元統(tǒng)計(jì)、模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、支持向量機(jī)、集成學(xué)習(xí)、特征篩選等;有關(guān)數(shù)據(jù)挖掘方法的綜合應(yīng)用案例涉及材料設(shè)計(jì)、工業(yè)優(yōu)化、構(gòu)效關(guān)系和生物信息學(xué)等領(lǐng)域。由于筆者的學(xué)識(shí)和工作所限,疏漏和不足之處在所難免,歡迎各位讀者和研究同行提出寶貴意見(jiàn)。 陸文聰 2011年8月于上海大學(xué)
內(nèi)容概要
本書(shū)主要介紹了化學(xué)常用數(shù)據(jù)挖掘方法和技術(shù)的基本原理,并重點(diǎn)介紹了模式識(shí)別、支持向量機(jī)、集成學(xué)習(xí)方法在材料設(shè)計(jì)、工業(yè)優(yōu)化、構(gòu)效關(guān)系、生物信息學(xué)等領(lǐng)域的應(yīng)用研究實(shí)例。書(shū)中所有應(yīng)用研究實(shí)例全部取自作者的應(yīng)用研究課題,有關(guān)算法程序可采用作者開(kāi)發(fā)的應(yīng)用軟件HyperMiner(見(jiàn)附錄1)。
本書(shū)可供化學(xué)、化工及相關(guān)領(lǐng)域的科研人員和工程技術(shù)人員閱讀,亦可作為高等學(xué)校的教學(xué)參考書(shū)。
書(shū)籍目錄
1化學(xué)數(shù)據(jù)挖掘綜述
1.1化學(xué)數(shù)據(jù)挖掘的目的和意義
1.1.1數(shù)據(jù)挖掘與材料設(shè)計(jì)
1.1.2數(shù)據(jù)挖掘與構(gòu)效關(guān)系
1.1.3數(shù)據(jù)挖掘與工業(yè)優(yōu)化
1.2化學(xué)數(shù)據(jù)挖掘方法概要
1.3化學(xué)數(shù)據(jù)挖掘應(yīng)用進(jìn)展
1.3.1機(jī)器學(xué)習(xí)的數(shù)學(xué)本質(zhì)
1.3.2統(tǒng)計(jì)模型的“過(guò)擬合”問(wèn)題
1.3.3模式識(shí)別優(yōu)化算法及其改進(jìn)
1.3.4支持向量機(jī)算法的應(yīng)用效果
1.3.5建立綜合運(yùn)用多種算法的數(shù)據(jù)處理平臺(tái)
參考文獻(xiàn)
2模式識(shí)別基本原理和方法
2.1模式識(shí)別方法的基本原理和預(yù)備知識(shí)
2.2模式識(shí)別經(jīng)典方法
2.2.1最近鄰方法
2.2.2主成分分析方法
2.2.3多重判別矢量和Fisher判別矢量方法
2.2.4偏最小二乘方法
2.2.5非線性映照方法
2.3模式識(shí)別應(yīng)用技術(shù)
2.3.1最佳投影識(shí)別方法
2.3.2超多面體建模
2.3.3逐級(jí)投影建模方法
2.3.4最佳投影回歸方法
2.3.5模式識(shí)別逆投影方法
2.4決策樹(shù)算法
2.4.1C4.5算法
2.4.2隨機(jī)決策樹(shù)算法
2.4.3隨機(jī)森林算法
參考文獻(xiàn)
3人工神經(jīng)網(wǎng)絡(luò)和遺傳算法
3.1人工神經(jīng)網(wǎng)絡(luò)
3.1.1反向人工神經(jīng)網(wǎng)絡(luò)
3.1.2Kohonen自組織網(wǎng)絡(luò)
3.2遺傳算法
參考文獻(xiàn)
4支持向量機(jī)方法
4.1統(tǒng)計(jì)學(xué)習(xí)理論(SLT)簡(jiǎn)介
4.1.1背景
4.1.2原理
4.2支持向量分類(SVC)算法
4.2.1線性可分情形
4.2.2非線性可分情形
4.3支持向量機(jī)(SVM)的核函數(shù)
4.4支持向量回歸(SVR)方法
4.4.1線性回歸情形
4.4.2非線性回歸情形
4.5支持向量機(jī)分類與回歸算法的實(shí)現(xiàn)
4.6應(yīng)用前景
參考文獻(xiàn)
5集成學(xué)習(xí)方法
5.1集成學(xué)習(xí)算法概述
5.2Boosting算法
5.3Adaboost算法
5.4Bagging算法
參考文獻(xiàn)
6特征選擇方法和應(yīng)用
6.1特征選擇研究概述
6.2基于支持向量分類的特征選擇
6.2.1后向浮動(dòng)搜索算法
6.2.2用SVM?BFS進(jìn)行特征選擇
6.3支持向量回歸的特征選擇
6.3.1PRIFER算法
6.3.2計(jì)算結(jié)果的評(píng)價(jià)準(zhǔn)則
6.3.3PRIFER方法與常規(guī)計(jì)算方法的結(jié)果比較
6.4集成學(xué)習(xí)及其特征選擇
6.4.1個(gè)體子集的特征選擇
6.4.2基于預(yù)報(bào)風(fēng)險(xiǎn)的特征選擇
6.4.3PRIFEB算法
6.4.4UCI數(shù)據(jù)集上的計(jì)算結(jié)果
參考文獻(xiàn)
7鈣鈦礦型離子導(dǎo)體導(dǎo)電性的數(shù)據(jù)挖掘
7.1鈣鈦礦型離子導(dǎo)體與燃料電池材料
7.2鈣鈦礦的結(jié)構(gòu)特性
7.3鈣鈦礦型晶體的原子參數(shù)
7.3.1鈣鈦礦容忍因子
7.3.2鈣鈦礦平均離子半徑
7.3.3鈣鈦礦單位晶格邊值與臨界半徑
7.3.4鈣鈦礦組成元素的電負(fù)性
7.3.5鈣鈦礦平均離子極化率與所帶電荷
7.3.6鈣鈦礦原子參數(shù)與量化參數(shù)的組合
7.4鈣鈦礦離子導(dǎo)體數(shù)據(jù)的收集
7.5數(shù)據(jù)集的自變量篩選
7.5.1自變量的經(jīng)典統(tǒng)計(jì)相關(guān)性分析
7.5.2貝葉斯網(wǎng)絡(luò)進(jìn)行變量關(guān)聯(lián)性分析
7.5.3前進(jìn)?后退法進(jìn)行自變量篩選
7.6多種數(shù)據(jù)挖掘方法建立原子參數(shù)?鈣鈦礦導(dǎo)電能力模型
7.6.1PLS,BP?ANN與SVR建立的回歸模型
7.6.2回歸模型的留一法交叉驗(yàn)證與獨(dú)立測(cè)試集驗(yàn)證
7.6.3SVR模型的敏感性分析
參考文獻(xiàn)
8熔鹽相圖數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘
8.1相圖計(jì)算的意義
8.2原子參數(shù)?模式識(shí)別方法概述
8.3智能數(shù)據(jù)庫(kù)技術(shù)在材料科學(xué)中的應(yīng)用
8.4熔鹽相圖智能數(shù)據(jù)庫(kù)的研究和開(kāi)發(fā)
8.5判別鹵化物體系是否形成中間化合物
8.6白鎢礦結(jié)構(gòu)物相含稀土異價(jià)固溶體的形成規(guī)律
8.6.1白鎢礦型物相及其異價(jià)固溶體的形成規(guī)律
8.6.2白鎢礦型MⅠM′Ⅲ(XO4)2(X=Mo,W)物
相及其異價(jià)固溶體的形成規(guī)律
8.7鈣鈦礦及類鈣鈦礦結(jié)構(gòu)的物相的若干規(guī)律性
8.7.1鈣鈦礦結(jié)構(gòu)的復(fù)鹵化物的若干規(guī)律性
8.7.2含鈣鈦礦結(jié)構(gòu)層的夾層化合物的規(guī)律
參考文獻(xiàn)
9鍍錫薄鋼板質(zhì)量的數(shù)據(jù)挖掘
9.1鍍錫薄鋼板的發(fā)展
9.2鍍錫板生產(chǎn)過(guò)程簡(jiǎn)介
9.3鍍錫板耐蝕性能與工業(yè)生產(chǎn)軟熔條件的關(guān)系
9.4鍍錫板耐蝕性能與實(shí)驗(yàn)室模擬軟熔條件的關(guān)系
9.5工業(yè)生產(chǎn)中防止淬水斑產(chǎn)生的數(shù)學(xué)模型
9.6鍍錫板淬水斑的實(shí)驗(yàn)室模擬研究
參考文獻(xiàn)
10合成氨生產(chǎn)效益的數(shù)據(jù)挖掘
10.1氨合成裝置簡(jiǎn)介
10.1.1生產(chǎn)原理
10.1.2生產(chǎn)流程
10.1.3生產(chǎn)數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)挖掘的必要性
10.2DMOS合成氨優(yōu)化系統(tǒng)的開(kāi)發(fā)
10.2.1DMOS合成氨優(yōu)化系統(tǒng)簡(jiǎn)介
10.2.2DMOS合成氨優(yōu)化系統(tǒng)離線版軟件
10.2.3DMOS合成氨優(yōu)化系統(tǒng)在線版軟件
10.2.4DMOS合成氨優(yōu)化系統(tǒng)優(yōu)化生產(chǎn)實(shí)施步驟
10.2.5DMOS合成氨優(yōu)化系統(tǒng)主要特點(diǎn)
10.3氨合成裝置生產(chǎn)優(yōu)化模型的研究
10.3.1數(shù)據(jù)集
10.3.21號(hào)合成塔生產(chǎn)優(yōu)化數(shù)學(xué)模型
10.4討論和結(jié)論
參考文獻(xiàn)
11分子結(jié)構(gòu)性質(zhì)關(guān)系的數(shù)據(jù)挖掘
11.1偶氮染料最大吸收波長(zhǎng)的支持向量回歸模型
11.1.1分子結(jié)構(gòu)特征參數(shù)的計(jì)算和篩選
11.1.2支持向量回歸的計(jì)算結(jié)果
11.1.3討論
11.2胍類化合物Na/H交換抑制活性的支持向量分類模型
11.2.1特征參數(shù)的計(jì)算與篩選
11.2.2支持向量分類的計(jì)算結(jié)果
11.2.3與其他方法的比較
11.3抗艾滋病藥物HEPT活性的支持向量分類模型
11.3.1特征參數(shù)的計(jì)算與篩選
11.3.2支持向量分類的計(jì)算結(jié)果
11.3.3與其他方法的比較
11.4三唑類化合物分子篩選的最佳投影識(shí)別模型
11.4.1特征參數(shù)的計(jì)算和篩選
11.4.2特征參數(shù)間的共線性檢查
11.4.3OPR法的計(jì)算
11.4.4OPR法的測(cè)試結(jié)果
11.4.5結(jié)論
參考文獻(xiàn)
12HIV?1蛋白酶特異性位點(diǎn)的數(shù)據(jù)挖掘
12.1數(shù)據(jù)集準(zhǔn)備
12.2mRMR方法和特征選取
12.3不同的特征子集建模預(yù)報(bào)能力比較
12.4特征分析和結(jié)論
參考文獻(xiàn)
13蛋白質(zhì)結(jié)構(gòu)及功能類型預(yù)測(cè)
13.1用集成學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位
13.1.1蛋白質(zhì)亞細(xì)胞定位的生物學(xué)基礎(chǔ)及研究現(xiàn)狀
13.1.2蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)集以及特征參數(shù)的提取
13.1.3亞細(xì)胞定位預(yù)測(cè)中模型參數(shù)的選擇與模型的驗(yàn)證
13.1.4分析與討論
13.2蛋白質(zhì)結(jié)構(gòu)類型的集成學(xué)習(xí)方法預(yù)測(cè)
13.2.1蛋白質(zhì)結(jié)構(gòu)類型簡(jiǎn)介及研究現(xiàn)狀
13.2.2數(shù)據(jù)集以及特征參數(shù)的提取
13.2.3預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)類型時(shí)的模型參數(shù)選擇與模型驗(yàn)證
13.2.4分析與討論
13.3膜蛋白類型的集成學(xué)習(xí)方法預(yù)測(cè)
13.3.1膜蛋白簡(jiǎn)介及計(jì)算預(yù)測(cè)研究現(xiàn)狀
13.3.2膜蛋白預(yù)測(cè)的數(shù)據(jù)集以及特征參數(shù)的提取
13.3.3預(yù)測(cè)膜蛋白質(zhì)類型的模型參數(shù)選擇與模型驗(yàn)證
13.3.4預(yù)測(cè)膜蛋白質(zhì)類型的模型變量分析
13.4蛋白質(zhì)亞細(xì)胞定位和膜蛋白類型預(yù)報(bào)的在線Web服務(wù)
參考文獻(xiàn)
附錄1“HyperMiner數(shù)據(jù)挖掘軟件”下載和應(yīng)用說(shuō)明
一、軟件簡(jiǎn)介和下載方法
二、應(yīng)用案例:V?PTC材料最佳配方及最佳工藝條件的探索
附錄2第6章所用的數(shù)據(jù)集
一、大腦膠質(zhì)瘤數(shù)據(jù)集
二、多元校正數(shù)據(jù)集
三、基因芯片數(shù)據(jù)集
參考文獻(xiàn)
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
21世紀(jì)計(jì)算機(jī)化學(xué)叢書(shū) PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版