出版時(shí)間:2010-7 出版社:李翔、李生紅、劉功申、 等 機(jī)械工業(yè)出版社 (2010-07出版) 作者:李翔 等 著
前言
近年來發(fā)生了很多安全事件,例如美國9·11事件、倫敦公交系統(tǒng)連環(huán)爆炸案、巴厘島恐怖襲擊、印度孟買恐怖襲擊等。災(zāi)難的發(fā)生促使大眾開始重新審視社會(huì)各個(gè)方面的安全性和可靠性。在這種環(huán)境下,計(jì)算機(jī)被認(rèn)為是解決此類安全問題的一個(gè)有力工具,例如,它被廣泛用來收集和分析情報(bào)。美國政府在9·11事件后,建立了全球聯(lián)網(wǎng)的指紋系統(tǒng)及日趨嚴(yán)格的出入境管理體系,以期建筑嚴(yán)密的恐怖襲擊防控網(wǎng)絡(luò),盡管由于對(duì)恐怖活動(dòng)的規(guī)律性還缺乏清晰的認(rèn)識(shí),這些網(wǎng)絡(luò)暫時(shí)還未發(fā)揮出預(yù)警和防范恐怖襲擊事件的作用。就計(jì)算機(jī)本身而言,無論從硬件到軟件,還是從操作系統(tǒng)到數(shù)據(jù)管理系統(tǒng),都存在嚴(yán)重的安全問題。網(wǎng)絡(luò)所帶來的計(jì)算機(jī)安全問題則更為嚴(yán)重。網(wǎng)絡(luò)互連在方便信息傳送的同時(shí),也給連網(wǎng)計(jì)算機(jī)所保護(hù)的信息帶來了威脅。除了基于網(wǎng)絡(luò)和軟硬件的安全問題以外,近幾年來,互聯(lián)網(wǎng)還暴露了其他的一些安全隱患,尤其是一些對(duì)于整個(gè)社會(huì)都起到負(fù)面影響的安全問題。最為引人注目的是,自2005以來爆發(fā)的多起“人肉搜索”等網(wǎng)絡(luò)暴力事件,把互聯(lián)網(wǎng)中內(nèi)容安全問題暴露在公眾眼前。事實(shí)上,網(wǎng)絡(luò)“暴力”由來已久,互聯(lián)網(wǎng)上公開的信息及越來越強(qiáng)大的搜索功能,使原本隱在角落的信息被“曝光”到大眾視野內(nèi),一些本不構(gòu)成隱私的信息在互聯(lián)網(wǎng)上任意傳播,并在引發(fā)網(wǎng)絡(luò)上的語言暴力后,造成了嚴(yán)重的后果。還有數(shù)字信息的知識(shí)產(chǎn)權(quán)問題。由于數(shù)字信息復(fù)制及網(wǎng)絡(luò)傳播非常便利,造成信息自身具有的知識(shí)產(chǎn)權(quán)被有意或無意地侵犯。盡管在歐洲發(fā)生了幾起因有意或無意的共享了具有知識(shí)產(chǎn)權(quán)歌曲而弓I發(fā)的多起訴訟和巨額的罰金,但法律畢竟是版權(quán)侵權(quán)的最后防范手段。目前,已經(jīng)出現(xiàn)了在組織內(nèi)部(局域網(wǎng)范圍內(nèi))防范信息泄露的技術(shù)手段,盡管在整個(gè)互聯(lián)網(wǎng)領(lǐng)域此類技術(shù)還很缺乏,但我們有理由相信計(jì)算機(jī)技術(shù)將能夠起到更為重要的作用。以上是一些計(jì)算機(jī)安全中的新型問題,大多是公共或私有信息的內(nèi)容所帶來的風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)中,有些是商業(yè)風(fēng)險(xiǎn),有些是個(gè)人或者組織的危機(jī),有些是社會(huì)的安全風(fēng)險(xiǎn)。相比于傳統(tǒng)的信息安全問題,例如通信安全、計(jì)算機(jī)安全等與計(jì)算機(jī)網(wǎng)絡(luò)和軟硬件設(shè)備關(guān)系緊密的安全問題不同,對(duì)此類風(fēng)險(xiǎn)的評(píng)估及加強(qiáng)安全的防護(hù)是新的一類信息安全問題,我們把它稱為“信息內(nèi)容安全”,或稱為“內(nèi)容安全”。本書是對(duì)此類問題的分析及相關(guān)技術(shù)的總結(jié)和介紹。
內(nèi)容概要
《信息內(nèi)容安全管理及應(yīng)用》從信息處理的基本理論開始講解,通過幾個(gè)具有代表性的信息內(nèi)容安全應(yīng)用實(shí)例,系統(tǒng)地介紹信息內(nèi)容安全在目前的發(fā)展和現(xiàn)實(shí)水平?!缎畔?nèi)容安全管理及應(yīng)用》共9章,主要內(nèi)容包括互聯(lián)網(wǎng)信息內(nèi)容獲取、文本特征的抽取、音頻和視頻特征抽取、信息處理模型和方法、分類算法、信息過濾、數(shù)字水印和輿情系統(tǒng)等?! 缎畔?nèi)容安全管理及應(yīng)用》可作為高等院校信息安全相關(guān)專業(yè)信息內(nèi)容安全課程的教材,也可作為從事信息內(nèi)容安全工作的科技人員、工程技術(shù)人員以及其他相關(guān)部門人員的參考資料。
書籍目錄
出版說明 前言 第1章 緒論 1 1.1 信息內(nèi)容安全概述 1 1.2 信息內(nèi)容安全威脅 2 1.3 信息內(nèi)容安全特點(diǎn)及其與相關(guān)學(xué)科的聯(lián)系 2 1.4 信息內(nèi)容安全研究現(xiàn)狀 3 1.4.1 政府部門主導(dǎo)的項(xiàng)目 3 1.4.2 科研院所或公司的項(xiàng)目與產(chǎn)品 4 1.5 信息內(nèi)容安全研究的意義 4 1.6 本章小結(jié) 5 1.7 習(xí)題 5 第2章 網(wǎng)絡(luò)信息內(nèi)容的獲取 6 2.1 互聯(lián)網(wǎng)信息類型 6 2.1.1 網(wǎng)絡(luò)媒體信息 6 2.1.2 網(wǎng)絡(luò)通信信息 8 2.2 網(wǎng)絡(luò)媒體信息獲取原理 8 2.2.1 網(wǎng)絡(luò)媒體信息獲取理想流程 8 2.2.2 網(wǎng)絡(luò)媒體信息獲取的分類 11 2.2.3 網(wǎng)絡(luò)媒體信息獲取的技術(shù)難點(diǎn) 13 2.3 網(wǎng)絡(luò)媒體信息獲取方法 13 2.3.1 需身份認(rèn)證靜態(tài)媒體發(fā)布信息獲取 13 2.3.2 內(nèi)嵌腳本語言片段的動(dòng)態(tài)網(wǎng)頁信息獲取 17 2.3.3 基于瀏覽器模擬實(shí)現(xiàn)網(wǎng)絡(luò)媒體信息獲取 20 2.4 網(wǎng)絡(luò)通信信息獲取方案 24 2.5 本章小結(jié) 25 2.6 習(xí)題 25 第3章 文本信息的特征抽取和選擇 26 3.1 文本特征的抽取和選擇概述 26 3.2 語義特征的抽取 27 3.2.1 詞級(jí)別語義特征 27 3.2.2 亞詞級(jí)別語義特征 29 3.2.3 語義與語用級(jí)別語義特征 30 3.2.4 漢語的語義特征抽取 30 3.3 特征子集選擇 31 3.3.1 停用詞過濾 32 3.3.2 文檔頻率閾值法 33 3.3.3 TF-IDF 34 3.3.4 信噪比 34 3.3.5 信息增益 35 3.3.6 卡方統(tǒng)計(jì) 36 3.4 特征重構(gòu) 36 3.4.1 詞干 36 3.4.2 知識(shí)庫 37 3.4.3 潛在語義索引 37 3.5 向量生成 40 3.5.1 局部系數(shù) 40 3.5.2 全局系數(shù) 41 3.5.3 規(guī)范化系數(shù) 41 3.5.4 幾種常見的組合方式 41 3.6 本章小結(jié) 42 3.7 習(xí)題 42 第4章 音頻信息特征抽取 43 4.1 數(shù)字音頻技術(shù)概述 43 4.2 人類的聽覺感知 44 4.3 音頻信號(hào)分析和編碼 47 4.3.1 音頻信號(hào)的特征分析 47 4.3.2 音頻信號(hào)的數(shù)字編碼 48 4.3.3 數(shù)字音頻信號(hào)的解析 48 4.4 音頻信息特征抽取 49 4.4.1 基于幀的音頻特征 50 4.4.2 基于片段的音頻特征 51 4.5 本章小結(jié) 52 4.6 習(xí)題 53 第5章 圖像信息特征抽取 54 5.1 數(shù)字圖像的表示方法 54 5.2 圖像顏色特征提取 56 5.2.1 顏色直方圖特征 56 5.2.2 顏色聚合矢量特征 59 5.2.3 顏色矩特征 60 5.2.4 其他顏色特征 61 5.3 圖像紋理特征提取 61 5.3.1 灰度共生矩陣 61 5.3.2 Gabor小波特征 62 5.3.3 Tamura特征 63 5.3.4 紋理特征 64 5.4 其他圖像特征 64 5.4.1 邊緣特征 64 5.4.2 輪廓特征 65 5.5 本章小結(jié) 66 5.6 習(xí)題 66 第6章 信息處理模型和方法 67 6.1 文本模式匹配算法 67 6.1.1 經(jīng)典單模式匹配算法 67 6.1.2 經(jīng)典多模式DFSA匹配算法 71 6.2 分類算法 73 6.2.1 線性分類器 74 6.2.2 最近鄰分類法 75 6.2.3 支持向量機(jī) 76 6.2.4 傳統(tǒng)Bayes分類方法 78 6.2.5 向量空間模型法 79 6.3 本章小結(jié) 80 6.4 習(xí)題 81 第7章 信息過濾 82 7.1 信息過濾概述 82 7.1.1 信息過濾研究的歷史 83 7.1.2 信息過濾的分類體系 84 7.1.3 信息過濾的應(yīng)用 86 7.1.4 信息過濾的評(píng)價(jià) 86 7.2 內(nèi)容安全的信息過濾 87 7.2.1 信息過濾與其他信息處理的異同 87 7.2.2 用戶過濾和安全過濾 88 7.2.3 現(xiàn)有信息過濾系統(tǒng)及技術(shù) 90 7.3 基于匹配的文本過濾 92 7.3.1 特征字串匹配查全率估算 93 7.3.2 準(zhǔn)確率估算試驗(yàn) 94 7.4 基于鄰近類別分類的過濾 95 7.5 本章小結(jié) 96 7.6 習(xí)題 97 第8章 數(shù)字水印 98 8.1 數(shù)字水印概述 98 8.1.1 數(shù)字水印的歷史 98 8.1.2 數(shù)字水印的現(xiàn)狀 99 8.1.3 數(shù)字水印分類 101 8.1.4 數(shù)字水印基本要求 102 8.1.5 數(shù)字水印的應(yīng)用領(lǐng)域 104 8.1.6 數(shù)字水印的發(fā)展趨勢(shì) 106 8.2 數(shù)字水印理論與模型 108 8.2.1 系統(tǒng)數(shù)學(xué)模型 108 8.2.2 數(shù)字水印的一般定義 108 8.2.3 數(shù)字水印的基本特性 109 8.2.4 數(shù)字水印與密碼學(xué)的區(qū)別 110 8.3 數(shù)字音頻水印技術(shù) 113 8.3.1 數(shù)字音頻水印算法 113 8.3.2 數(shù)字音頻水印攻擊 114 8.3.3 數(shù)字音頻水印算法評(píng)價(jià)準(zhǔn)則 116 8.4 數(shù)字圖像水印技術(shù) 116 8.4.1 數(shù)字圖像水印算法 116 8.4.2 數(shù)字圖像水印攻擊 119 8.4.3 數(shù)字圖像水印評(píng)價(jià)準(zhǔn)則 121 8.5 數(shù)字視頻水印技術(shù) 123 8.5.1 數(shù)字視頻水印算法 123 8.5.2 數(shù)字視頻水印攻擊 126 8.5.3 數(shù)字視頻水印技術(shù)的特殊要求 127 8.6 一種基于DCT視頻水印的改進(jìn)算法 128 8.6.1 算法模型介紹 128 8.6.2 算法基本思想 129 8.6.3 嵌入算法步驟 129 8.6.4 提取算法步驟 130 8.6.5 仿真試驗(yàn)分析 131 8.7 本章小結(jié) 136 8.8 習(xí)題 136 第9章 網(wǎng)絡(luò)輿情監(jiān)測(cè)與預(yù)警系統(tǒng) 137 9.1 輿情系統(tǒng)的背景和應(yīng)用范圍 137 9.1.1 現(xiàn)狀 137 9.1.2 輿情系統(tǒng)的發(fā)展趨勢(shì) 139 9.1.3 輿情系統(tǒng)的應(yīng)用 142 9.2 輿情系統(tǒng)的功能分解 143 9.2.1 技術(shù)發(fā)展背景 143 9.2.2 高仿真網(wǎng)絡(luò)信息深度提取 148 9.2.3 高性能信息自動(dòng)提取機(jī)器人技術(shù) 149 9.2.4 基于語義的海量文本特征快速提取與分類 150 9.2.5 多媒體群件理解技術(shù) 151 9.2.6 非結(jié)構(gòu)信息自組織聚合表達(dá) 152 9.2.7 非結(jié)構(gòu)信息數(shù)據(jù)挖掘技術(shù) 153 9.3 互聯(lián)網(wǎng)論壇信息分析 154 9.3.1 面向互聯(lián)網(wǎng)論壇的定點(diǎn)網(wǎng)站深入挖掘機(jī)制 155 9.3.2 異構(gòu)數(shù)據(jù)歸一化存儲(chǔ)與目標(biāo)站點(diǎn)熱點(diǎn)查詢 156 9.3.3 監(jiān)控目標(biāo)熱點(diǎn)自動(dòng)發(fā)現(xiàn)功能 156 9.4 本章小結(jié) 157 9.5 習(xí)題 157 參考文獻(xiàn) 158
章節(jié)摘錄
插圖:多詞級(jí)別中一種思路是應(yīng)用名詞短語作為特征項(xiàng),這種方法也稱為Syntactic Phrase Indexing。另外一種策略則是不考慮詞性,只從統(tǒng)計(jì)角度根據(jù)詞之間較高的同現(xiàn)頻率(Co-Occur Frequency)來選取特征項(xiàng)。采用名詞短語或者同現(xiàn)高頻詞作為特征項(xiàng),需要考慮特征空間的稀疏性問題,詞與詞可能的組合結(jié)果很多,下面僅以兩個(gè)詞的組合為例進(jìn)行介紹,根據(jù)統(tǒng)計(jì),一個(gè)網(wǎng)絡(luò)信息檢索原型系統(tǒng)包含的兩詞特征項(xiàng)就達(dá)10億項(xiàng),而且許多詞之間的搭配是沒有語義的,絕大多數(shù)組合在實(shí)際文本中出現(xiàn)頻率很低,這些都是影響多詞級(jí)別索引實(shí)用性的因素。3.2.3語義與語甩級(jí)別語義特征如果我們能獲得更高語義層次的處理能力,例如實(shí)現(xiàn)語義級(jí)別(Semantic Level)或語用級(jí)別(Pragmatic Level)的理解,則可以提供更強(qiáng)的文本表示能力,進(jìn)而得到更理想的文本分類效果。然而在目前階段,由于還無法通過自然語言理解技術(shù)實(shí)現(xiàn)對(duì)開放文本理想的語義或語用理解,因此相應(yīng)的索引技術(shù)并沒有前面的幾種方法應(yīng)用廣泛,往往應(yīng)用在受限領(lǐng)域。在自然語言理解等研究領(lǐng)域取得突破以后,語義級(jí)別甚至更高層次的文本索引方法將會(huì)有更好的實(shí)用性。3.2.4 漢語的語義特征抽取1.漢語分詞漢語是一種孤立語,不同于印歐語系的很多具有曲折變化的語言,漢語的詞匯只有一種形式而沒有諸如復(fù)數(shù)等變化。另一方面,漢語不存在顯式(類似空格)的詞邊界標(biāo)志,因此需要研究中文(漢語和中文對(duì)應(yīng)的概念不完全一致,在不引起混淆的情況下,文本未進(jìn)行明確區(qū)分而依照常用習(xí)慣選擇使用)文本自動(dòng)切分為詞序列的中文分詞技術(shù)。中文分詞方法最早采用了最大匹配法,即與詞表中最長(zhǎng)的詞優(yōu)先匹配的方法。根據(jù)掃描語句的方向,可以分為正向最大匹配(Maximum Match,MM)、反向最大匹配(Reverse Maximum Match,RMM),以及雙向最大匹配(MM))等多種形式。
編輯推薦
《信息內(nèi)容安全管理及應(yīng)用》:信息采集的原理及方法文本、圖像、視音頻的特征提取技術(shù)面向內(nèi)容安全的分類原理有方法內(nèi)容安全的典型應(yīng)用案例
圖書封面
評(píng)論、評(píng)分、閱讀與下載
信息內(nèi)容安全管理及應(yīng)用 PDF格式下載