第四范式

出版時(shí)間:2012-6  出版社:科學(xué)出版社  作者:潘教峰、張曉林  頁數(shù):247  字?jǐn)?shù):264500  
Tag標(biāo)簽:無  

內(nèi)容概要

《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》系統(tǒng)介紹了地球與環(huán)境科學(xué)、生命與健康科學(xué)、數(shù)字信息基礎(chǔ)設(shè)施和數(shù)字化學(xué)術(shù)信息交流等方面基于海量數(shù)據(jù)的科研活動(dòng)、過程、方法和基礎(chǔ)設(shè)施,生動(dòng)揭示了在海量數(shù)據(jù)和無處不在網(wǎng)絡(luò)上發(fā)展起來的與實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這三種科研范式相輔相成的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),進(jìn)一步探討了這種新范式的內(nèi)涵和內(nèi)容,包括利用多樣化工具不間斷采集科研數(shù)據(jù)、建立系統(tǒng)化工具和設(shè)施來管理整個(gè)數(shù)據(jù)生命周期、開發(fā)基于科學(xué)研究問題的數(shù)據(jù)分析及可視化工具與方法等,并深入探討了這種新范式對(duì)科學(xué)研究、科學(xué)教育、學(xué)術(shù)信息交流及科學(xué)家群體的長遠(yuǎn)影響。
《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》將幫助從事科學(xué)研究、科技研究規(guī)劃、科技政策等領(lǐng)域的科研人員和管理者理解和把握科研環(huán)境與科研方法的革命性變化,也將為學(xué)術(shù)出版、文獻(xiàn)情報(bào)、科學(xué)數(shù)據(jù)及其他從事信息與知識(shí)管理的人士提供未來的戰(zhàn)略視角,同時(shí)也有助于有志于科學(xué)研究和學(xué)術(shù)信息交流管理的高層次學(xué)生了解未來的挑戰(zhàn)和需求。

作者簡介

書籍目錄

譯者的話前言吉姆·格雷論eScience:科學(xué)方法的一次革命第一章 地球與環(huán)境一、引言二、格雷法則:以數(shù)據(jù)庫為中心的科學(xué)計(jì)算三、正在興起的環(huán)境應(yīng)用科學(xué)四、用數(shù)據(jù)重新定義生態(tài)科學(xué)五、海洋科學(xué)2020年遠(yuǎn)景六、拉近夜空:海量數(shù)據(jù)中的發(fā)現(xiàn)七、裝備地球:下一代傳感器網(wǎng)絡(luò)與環(huán)境科學(xué)第二章 健康與幸福一、引言二、醫(yī)療奇點(diǎn)與語義醫(yī)學(xué)時(shí)代三、發(fā)展中國家的醫(yī)療服務(wù):面臨的挑戰(zhàn)及可能的解決之道四、大腦神經(jīng)回路圖譜探索五、用于神經(jīng)生物學(xué)研究的計(jì)算顯微鏡六、數(shù)據(jù)密集型醫(yī)療保健的統(tǒng)一建模方法七、生物系統(tǒng)進(jìn)程代數(shù)模型的可視化第三章 科學(xué)的基礎(chǔ)框架一、引言二、科學(xué)新路徑?三、超越數(shù)據(jù)海嘯:發(fā)展基礎(chǔ)設(shè)施,處理生命科學(xué)數(shù)據(jù)四、多核計(jì)算與科學(xué)發(fā)現(xiàn)五、并行計(jì)算和云六、工作流工具對(duì)以數(shù)據(jù)為中心的研究的作用七、語義eScience:在下一代數(shù)字化推動(dòng)的科學(xué)研究中實(shí)現(xiàn)語義編碼八、數(shù)據(jù)密集科學(xué)可視化九、所有知識(shí)的平臺(tái):創(chuàng)建知識(shí)驅(qū)動(dòng)的研究基礎(chǔ)設(shè)施第四章 學(xué)術(shù)信息交流一、引言二、吉姆·格雷的第四范式和科學(xué)記錄的構(gòu)建三、以數(shù)據(jù)為中心的世界中的文本四、開船了:走向機(jī)器友好的學(xué)術(shù)信息交流體系五、數(shù)據(jù)政策的未來之路六、我已經(jīng)看到了范式轉(zhuǎn)變,就是我們自己七、從Web2.0走向全球數(shù)據(jù)庫第五章 結(jié)語一、未來之路二、結(jié)論三、下一步四、致謝五、關(guān)于吉姆·格雷詞匯表照片和圖片鳴謝

章節(jié)摘錄

版權(quán)頁:   插圖:    大多數(shù)的科學(xué)數(shù)據(jù)分析以分級(jí)步驟進(jìn)行。在第一步中,對(duì)數(shù)據(jù)子集進(jìn)行抽取,這一工作要通過過濾某些屬性(如去除錯(cuò)誤的數(shù)據(jù))或抽取數(shù)據(jù)列的垂直子集完成。在接下來的步驟中,通常以某種方式轉(zhuǎn)換或聚合數(shù)據(jù)。當(dāng)然,在更復(fù)雜的數(shù)據(jù)集中,這些模式往往伴隨著多個(gè)數(shù)據(jù)集的復(fù)雜連接,如外部校準(zhǔn)或抽取和分析一個(gè)基因序列的不同部分[8]。隨著數(shù)據(jù)集的日益增大,進(jìn)行大多數(shù)這些計(jì)算的最有效方法顯然是盡可能地使分析功能與數(shù)據(jù)密切結(jié)合,這也使大多數(shù)的模式很容易通過集合型的表述語言來表達(dá),這種語言的運(yùn)用可以從基于成本的查詢優(yōu)化、自動(dòng)并行化和索引中獲得巨大收益。 格雷及其合作者展示了幾個(gè)現(xiàn)有關(guān)系數(shù)據(jù)庫技術(shù)成功應(yīng)用于這方面的項(xiàng)目[9]。有一些項(xiàng)目以無縫的方法來整合用程序語言編寫的復(fù)雜類庫,并將其作為底層數(shù)據(jù)庫引擎的擴(kuò)展[10,11]。 近年來,Map Reduce 2已經(jīng)成為分布式數(shù)據(jù)分析和計(jì)算的普遍范式[12]。這種范式的原理類似于分布式分組和聚合的能力,這些能力已經(jīng)在并行關(guān)系數(shù)據(jù)庫系統(tǒng)中存在了一段時(shí)間。新一代的并行數(shù)據(jù)庫系統(tǒng),如Teradata、Aster Data和Vertica,已經(jīng)將這些能力重塑為“數(shù)據(jù)庫中的MapReduce”,并開發(fā)出可以比較每種方法優(yōu)點(diǎn)的新基準(zhǔn)[13]。 與科學(xué)家連接 設(shè)計(jì)科學(xué)數(shù)據(jù)庫面臨的最具挑戰(zhàn)性的問題是在數(shù)據(jù)庫建設(shè)者和對(duì)分析感興趣的專門領(lǐng)域科學(xué)家(domainscientists)之間建立起有效的交流。但大多數(shù)項(xiàng)目犯下了竭力追求“為所有人做所有事”(everything for everyone)的錯(cuò)誤。顯然,有一些特征要比其他一些特征更重要。因此,有必要對(duì)不同設(shè)計(jì)進(jìn)行折中,當(dāng)然,這也導(dǎo)致性能的折中。 吉姆·格雷提出了“20個(gè)詢問”的啟發(fā)式規(guī)則。在他參與的每一個(gè)項(xiàng)目中,他都尋求研究人員想讓數(shù)據(jù)系統(tǒng)回答的最重要的20個(gè)問題。他認(rèn)為,5個(gè)問題不足以識(shí)別廣泛的模式,100個(gè)問題將導(dǎo)致重點(diǎn)不突出。由于與人2譯者注:Map Reduce是Google開發(fā)的分布式計(jì)算模型,在處理T級(jí)別以上巨量數(shù)據(jù)業(yè)務(wù)時(shí)有顯著優(yōu)勢(shì)。 類選擇有關(guān)的大多數(shù)決定都遵循“長尾理論”(或所謂的1/f分布),詢問中的相關(guān)信息根據(jù)重要性排序顯然是呈對(duì)數(shù)分布,大約在20(24.5)~100(26.5)范圍內(nèi)實(shí)現(xiàn)增益是適中的[14]。 “20個(gè)詢問”規(guī)則是一種設(shè)計(jì)步驟的別稱,這種步驟使專門領(lǐng)域科學(xué)家和數(shù)據(jù)庫設(shè)計(jì)者可以對(duì)話,填補(bǔ)科學(xué)領(lǐng)域中使用的名詞和動(dòng)詞之間,以及數(shù)據(jù)庫中存儲(chǔ)的實(shí)體和關(guān)系之間的語義鴻溝。這些詢問定義了專門領(lǐng)域科學(xué)家期望對(duì)數(shù)據(jù)庫提出的有關(guān)實(shí)體和關(guān)系方面的精確問題集。這種重復(fù)實(shí)踐的結(jié)果是:專門領(lǐng)域科學(xué)家和數(shù)據(jù)庫之間可以使用共同的語言。 這種方法非常成功地使設(shè)計(jì)過程聚焦于系統(tǒng)必須支持的最重要特征,同時(shí)幫助專門領(lǐng)域科學(xué)家理解數(shù)據(jù)庫系統(tǒng)的折中,從而限制“特征的蠕變”。

編輯推薦

  《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》以吉姆·格雷提出科學(xué)研究第四范式的著名演講開篇,邀請(qǐng)國際著名科學(xué)家對(duì)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的理念、應(yīng)用和影響進(jìn)行了全面分析。第一部分,Dan Fay等人介紹了地球、環(huán)境、海洋、空間等領(lǐng)域的大數(shù)據(jù)環(huán)境與科學(xué)應(yīng)用;第二部分,Simon Mercer等人分析了醫(yī)學(xué)、認(rèn)知科學(xué)、生物系統(tǒng)、醫(yī)療服務(wù)等領(lǐng)域的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn);第三部分,Daron Green等人提出了適應(yīng)大數(shù)據(jù)時(shí)代的科學(xué)信息與科學(xué)計(jì)算基礎(chǔ)設(shè)施面臨的挑戰(zhàn);第四部分,Lee Dirks等人對(duì)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)給學(xué)術(shù)信息交流帶來的深刻變化做了描述。全書視野開闊、思考深邃,既把握大勢(shì),又深入具體,為把握第四范式的要旨與含義提供了堅(jiān)實(shí)的基礎(chǔ)。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    第四范式 PDF格式下載


用戶評(píng)論 (總計(jì)5條)

 
 

  •   書到手后,大概的翻了翻,所瀏覽的內(nèi)容,大部分能看懂、能理解,但也有一部分內(nèi)容看不太懂,如果靜下心來,從頭開始看,應(yīng)該會(huì)有好一些,畢竟這是一本需要思考和查資料來看的書,對(duì)數(shù)據(jù)、統(tǒng)計(jì)分析感興趣的朋友可以買來看一看。
  •   非常精致的全彩圖書,很喜歡,內(nèi)容豐富,非常好!
  •   全彩圖,紙質(zhì)好,翻譯也不錯(cuò)。
  •   很值得一讀的書,發(fā)貨快,質(zhì)量好,精裝的哦
  •   挺不錯(cuò)的 開闊視野和思想 當(dāng)初是從同事那看到的 然后就想買了
 

250萬本中文圖書簡介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7