網(wǎng)絡(luò)信息采集與利用

出版時間:2010-6  出版社:賈朝輝 中國人民大學(xué)出版社 (2010-06出版)  作者:賈朝輝  頁數(shù):157  

前言

隨著科技的發(fā)展,信息的總量在迅速增長,網(wǎng)絡(luò)信息采集方式也在進行著革命性的發(fā)展,對信息質(zhì)量的要求不斷提高。根據(jù)第25次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,截至2009年年底,中國網(wǎng)民數(shù)量已經(jīng)達到3.8億,互聯(lián)網(wǎng)普及率穩(wěn)步上升,這既給網(wǎng)絡(luò)信息的采集與利用提出了更高的要求,也提供了現(xiàn)實基礎(chǔ)。本書從教學(xué)實踐出發(fā),理論和實踐相結(jié)合,系統(tǒng)地闡述了與網(wǎng)絡(luò)信息采集與利用的相關(guān)內(nèi)容。第一章為網(wǎng)絡(luò)信息資源概論;第二章介紹了網(wǎng)絡(luò)信息處理方式及關(guān)鍵技術(shù);第三章介紹了搜索引擎及其使用;第四章介紹了其他網(wǎng)絡(luò)信息資源及其使用;第五章介紹了聯(lián)機檢索技術(shù)及其應(yīng)用;第六章介紹了網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)庫信息采集;第七章介紹了非萬維網(wǎng)網(wǎng)絡(luò)信息的采集;第八章介紹了網(wǎng)絡(luò)信息編輯;第九章介紹了網(wǎng)絡(luò)競爭情報采集與分析。本書在編寫過程中得到許多同行和北京第二外國語學(xué)院圖書館的大力支持,特別是中國人民大學(xué)出版社的大力支持,也參閱了大量的相關(guān)著作和網(wǎng)站,在此表示衷心的感謝!本書在編寫過程中,注重內(nèi)容更新,緊跟現(xiàn)代檢索技術(shù)的發(fā)展,然而作者能力、知識有限,錯誤、疏漏之處在所難免,請讀者予以批評指正。

內(nèi)容概要

  《網(wǎng)絡(luò)信息采集與利用》從教學(xué)實踐出發(fā),理論和實踐相結(jié)合,系統(tǒng)地闡述了與網(wǎng)絡(luò)信息采集與利用的相關(guān)內(nèi)容。第一章為網(wǎng)絡(luò)信息資源概論;第二章介紹了網(wǎng)絡(luò)信息處理方式及關(guān)鍵技術(shù);第三章介紹了搜索引擎及其使用;第四章介紹了其他網(wǎng)絡(luò)信息資源及其使用;第五章介紹了聯(lián)機檢索技術(shù)及其應(yīng)用;第六章介紹了網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)庫信息采集;第七章介紹了非萬維網(wǎng)網(wǎng)絡(luò)信息的采集;第八章介紹了網(wǎng)絡(luò)信息編輯;第九章介紹了網(wǎng)絡(luò)競爭情報采集與分析。

書籍目錄

第1章 網(wǎng)絡(luò)信息資源概論第1節(jié) 互聯(lián)網(wǎng)概況第2節(jié) 網(wǎng)絡(luò)信息資源概述第3節(jié) 網(wǎng)絡(luò)信息資源的類型第4節(jié) 網(wǎng)絡(luò)信息資源檢索第5節(jié) 網(wǎng)絡(luò)信息采集與利用的未來趨勢復(fù)習(xí)思考題第2章 網(wǎng)絡(luò)信息處理方式及關(guān)鍵技術(shù)第1節(jié) 文獻標引理論第2節(jié) 檢索語言第3節(jié) 計算機信息檢索第4節(jié) 元數(shù)據(jù)技術(shù)第5節(jié) 中文自動分詞處理技術(shù)第6節(jié) 文本自動處理技術(shù)第7節(jié) 網(wǎng)絡(luò)信息挖掘復(fù)習(xí)思考題第3章 搜索引擎及其使用第1節(jié) 搜索引擎概述第2節(jié) 搜索技術(shù)基礎(chǔ)第3節(jié) 搜索引擎Google的使用第4節(jié) 百度搜索的使用第5節(jié) 特色搜索引擎復(fù)習(xí)思考題第4章 其他網(wǎng)絡(luò)信息資源及其使用第1節(jié) 網(wǎng)頁瀏覽器及使用技巧第2節(jié) 網(wǎng)絡(luò)目錄的利用第3節(jié) 虛擬圖書館資源的挖掘復(fù)習(xí)思考題第5章 聯(lián)機檢索技術(shù)及其應(yīng)用第1節(jié) 聯(lián)機檢索概述第2節(jié) 主要國際聯(lián)機檢索系統(tǒng)簡介復(fù)習(xí)思考題第6章 網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)庫信息采集第1節(jié) 中國高等教育文獻保障系統(tǒng)第2節(jié) 萬方數(shù)據(jù)資源系統(tǒng)第3節(jié) 中文全文型期刊數(shù)據(jù)庫——中國知網(wǎng)第4節(jié) 中文圖書數(shù)據(jù)庫第5節(jié) 綜合性數(shù)據(jù)庫——EIVillage第6節(jié) 全文電子期刊復(fù)習(xí)思考題第7章 非萬維網(wǎng)網(wǎng)絡(luò)信息的采集第1節(jié) FTP第2節(jié) 郵件列表第3節(jié) Usenet第4節(jié) Telnet和BBS復(fù)習(xí)思考題第8章 網(wǎng)絡(luò)信息編輯第1節(jié) 信息篩選第2節(jié) 網(wǎng)絡(luò)信息制作復(fù)習(xí)思考題第9章 網(wǎng)絡(luò)競爭情報采集與分析第1節(jié) 競爭情報的基本概念第2節(jié) 競爭情報的獲取第3節(jié) 競爭情報的分析方法復(fù)習(xí)思考題參考文獻

章節(jié)摘錄

插圖:從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機器人采集的網(wǎng)頁,還要經(jīng)過其他程序進行分析,根據(jù)一定的相關(guān)度算法進行大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當你輸入關(guān)鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當我們以同一關(guān)鍵詞用不同的搜索引擎查詢時,搜索結(jié)果也就不盡相同。大型全文搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁索引,數(shù)據(jù)量高達幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只占到互聯(lián)網(wǎng)上普通網(wǎng)頁的30%,不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責(zé)收集網(wǎng)站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的網(wǎng)站信息給分類目錄的編輯,然后由編輯人員審核遞交的信息,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內(nèi)容,并將該站點放在相應(yīng)的類別和目錄中,所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫”中。用戶在查詢信息時,可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引簿一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼簿一樣,按照各個網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個網(wǎng)站的詳細地址,一般還會提供各個網(wǎng)站的內(nèi)容簡介,用戶不使用關(guān)鍵詞也可進行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個網(wǎng)站上某個網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的)。

編輯推薦

《網(wǎng)絡(luò)信息采集與利用》:21世紀高職高專規(guī)劃教材·新聞傳播系列

圖書封面

評論、評分、閱讀與下載


    網(wǎng)絡(luò)信息采集與利用 PDF格式下載


用戶評論 (總計1條)

 
 

  •   買了就后悔了,內(nèi)容很爛知識陳舊,大道理多。不建議購買。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7