中文印刷體文檔識別技術

出版時間：2010-8 出版社：科學出版社作者：王科俊，馮偉興著頁數(shù)：203 字數(shù)：256000
Tag標簽：無

前言

隨著科技的發(fā)展，人類社會正經(jīng)歷從工業(yè)化社會向信息化社會的轉(zhuǎn)變，信息化程度越來越高。近年來，伴隨互聯(lián)網(wǎng)的迅速普及，通過互聯(lián)網(wǎng)這一方式進行信息傳播和交換已成為人們?nèi)粘９ぷ魃畹氖走x信息交流方式。為了促進信息交流效率，中文印刷體文檔識別技術日益受到眾多學者的關注。目前，具有漢字和符號識別功能的印刷體識別軟件（OCR）已在實際中得到廣泛應用，但是一個中文文檔中不僅含有漢字和符號，還含有特殊字符以及各種各樣的公式和圖表.而現(xiàn)階段的中文文檔識別軟件尚不能對公式等這些文檔內(nèi)容進行識別和處理，迫切需要一種既能識別漢字又能識別和處理公式等其他文檔內(nèi)容的較為全面的中文文檔識別系統(tǒng)。針對這一現(xiàn)狀，我們開展了以公式為主的中文印刷體文檔識別研究，本書就是我們近幾年來在這一領域研究成果的總結(jié)。本書作為國內(nèi)第一部關于中文印刷體文檔識別技術的著作，系統(tǒng)地分析了中文印刷體文檔識別技術的各個方面，包括文檔圖像的預處翠、版面分析、文字和符號識別、公式定位和提取、公式結(jié)構(gòu)分析與表示、表格識別和文檔中的圖形圖像處理等內(nèi)容。結(jié)合作者多年來在公式識別方面取得的研究成果重點給出了公式的定位與提取和公式的結(jié)構(gòu)分析的理論與方法。

內(nèi)容概要

本書全面闡述了中文印刷體文檔識別的原理、方法和系統(tǒng)組成。依據(jù)中文印刷體文檔的特點，分別介紹了文檔圖像預處理、版面分析、漢字識別、公式的定位與提取、公式字符分割與識別、公式結(jié)構(gòu)分析與表示、圖表處理等內(nèi)容的基本原理和技術實現(xiàn)方法，并提供了一個中文印刷體文檔識別系統(tǒng)實例。    本書可作為研究公式識別、表格識別和漢字識別技術的參考書，可供從事圖像處理、文字識別的研究人員閱讀，也可作為計算機、信息工程、電子技術、自動化等相關學科專業(yè)的研究生和高年級本科生學習圖像處理、模式識別技術的輔助教材參考使用。    本書還配有完整的實例代碼光盤，供讀者參考。

書籍目錄

《智能科學技術著作叢書》序前言第1章  緒論  1.1  中文印刷體文檔識別基本原理  1.2  中文印刷體文檔識別研究現(xiàn)狀    1.2.1  印刷體文檔的漢字識別    1.2.2  印刷體文檔的公式識別    1.2.3  印刷體文檔的表格識別  1.3  中文印刷體文檔識別中的難點第2章  中文印刷體文檔圖像預處理  2.1  中文印刷體文檔圖像采集    2.1.1  文檔圖像采集    2.1.2  文檔圖像顯示    2.1.3  文檔圖像格式  2.2  中文印刷體文檔圖像特點  2.3  二值化處理    2.3.1  圖像灰度化    2.3.2  圖像二值化  2.4  平滑去噪    2.4.1  鄰域平均法    2.4.2  中值平均法    2.4.3  噪聲直接去除法  2.5  傾斜校正    2.5.1  圖像傾斜檢測    2.5.2  圖像傾斜校正第3章  版面分析  3.1  版面結(jié)構(gòu)  3.2  版面分析方法    3.2.1  基于連通域的版面分析方法    3.2.2  二分法    3.2.3  基于組合特征的版面分析方法    3.2.4  基于神經(jīng)網(wǎng)絡的版面分析方法    3.2.5  基于最近鄰連接強度和行列可信度的版面分析方法  3.3  版面理解    3.3.1  文字區(qū)域    3.3.2  圖片區(qū)域    3.3.3  表格區(qū)域    3.3.4  版面結(jié)構(gòu)表示與存儲  3.4  版面重構(gòu)第4章  印刷體漢字識別  4.1  文本區(qū)域預處理    4.1.1  文本增強    4.1.2  字符分割    4.1.3  字符細化    4.1.4  字符歸一化    4.1.5  文本區(qū)域處理效果圖  4.2  印刷體漢字的特征提取    4.2.1  印刷體漢字的統(tǒng)計特性    4.2.2  印刷體漢字的常用特征  4.3  印刷體漢字識別的實現(xiàn)方式第5章  公式的定位與提取  5.1  印刷體文檔公式的特點  5.2  基于投影的公式定位和提取    5.2.1  獨立行公式的定位    5.2.2  內(nèi)嵌公式的定位  5.3  基于Parzen窗的獨立行公式定位和提取    5.3.1  待分類文本行的特征數(shù)據(jù)提取    5.3.2  Parzen窗方法    5.3.3  公式定位與提取效果  5.4  基于字符寬度中心矩的公式定位和提取    5.4.1  文本區(qū)域基本數(shù)據(jù)獲取    5.4.2  含公式的文本行提取    5.4.3  文本行中公式判別    5.4.4  獨立行公式的定位    5.4.5  內(nèi)嵌公式的定位    5.4.6公式定位與提取效果  5.5  基于漢字拒識的內(nèi)嵌公式定位和提取    5.5.1  內(nèi)嵌公式的定位    5.5.2  公式定位與提取效果第6章  公式字符分割與識別  6.1  公式字符的特點  6.2  公式字符的分割    6.2.1  基于輪廓跟蹤的字符分割    6.2.2  基于連通域的字符分割  6.3  公式字符的識別    6.3.1  公式字符圖像預處理    6.3.2  基于模板匹配的公式字符識別    6.3.3  基于特征的公式字符識別    6.3.4  印刷體公式字符識別的實現(xiàn)    6.3.5  公式字符識別方法第7章  公式結(jié)構(gòu)分析與表示  7.1  公式結(jié)構(gòu)分析的難點    7.1.1  數(shù)學運算符的模糊性    7.1.2  符號的上下文敏感性    7.1.3  表示習慣的差異性    7.1.4  公式的復雜性    7.1.5  公式的多行結(jié)構(gòu)  7.2  公式結(jié)構(gòu)分析前的字符預處理  7.3  公式結(jié)構(gòu)分析方法  7.4  公式結(jié)構(gòu)表示方法    7.4.1  公式的典型表示方法    7.4.2  實驗結(jié)果第8章  圖表處理  8.1  文檔中圖形圖像的表示與處理    8.1.1  游程壓縮    8.1.2  霍夫曼編碼壓縮    8.1.3  算術壓縮方法    8.1.4  Rice壓縮方法    8.1.5  LZW壓縮方法  8.2  文檔中表格的分析與識別    8.2.1  表格預處理    8.2.2  表格直線提取    8.2.3  表格結(jié)構(gòu)分析    8.2.4  表格字符提取與識別第9章  中文印刷體文檔識別軟件HEUOCR的設計與實現(xiàn)  9.1  應用程序框架的構(gòu)建    9.1.1  框架風格    9.1.2  數(shù)字圖像處理類  9.2  文檔圖像預處理    9.2.1  圖像灰度化    9.2.2  圖像平滑濾波    9.2.3  圖像閾值分割  9.3  文檔圖像版面分析    9.3.1  基本連通域提取    9.3.2  基本連通域分析  9.4  文本漢字識別    9.4.1  字符分割    9.4.2  字符識別  9.5  公式識別    9.5.1  公式定位    9.5.2  公式字符分割    9.5.3  公式字符特征提取    9.5.4  公式字符識別    9.5.5  公式結(jié)構(gòu)分析參考文獻

章節(jié)摘錄

插圖：信息化理念已經(jīng)被很多人所熟悉，人們越來越追求一種有力的、簡潔的、準確無誤的信息交流手段。由于人們?nèi)粘Ｉ钪薪邮盏降慕^大多數(shù)信息是以圖像的形式進行傳遞的，尤其是依托互聯(lián)網(wǎng)的數(shù)字圖書館和遠程教育的興起，使得圖像信息自動識別技術有著廣泛的應用前景和重要的研究價值。中文印刷體文檔識別技術就是一個典型的針對含有中文字符圖像的信息自動識別技術。1.1 中文印刷體文檔識別基本原理現(xiàn)有的文字識別技術一般采用光學的方式將文字圖像信息采集到計算機中，因此，該類技術常被稱為光學字符識別（optiCal character recognition，OCR）技術。經(jīng)過近一個世紀的發(fā)展，OCR已經(jīng)成為當今模式識別領域中最活躍的研究內(nèi)容之一。它綜合了數(shù)字圖像處理、計算機圖形學和人工智能等多方面的知識，并在計算機及其相關領域中得到了廣泛應用。按照識別方法，OCR識別方法可以分為如下三類：統(tǒng)計特征字符識別技術、結(jié)構(gòu)特征字符識別技術和基于人工神經(jīng)網(wǎng)絡的字符識別技術。作為OCR技術的一個重要研究方向，印刷體文檔識別主要針對比較正式、規(guī)范的書籍、報刊和雜志的圖像信息進行采集和識別。與一般文檔圖像相比，印刷體文檔圖像存在前景信息與背景信息色差顯著，文字信息形式規(guī)范等特點，這都為印刷體文檔的信息處理和識別創(chuàng)造了便利條件。然而，各類印刷體文檔中除了包含文字信息以外，還常有公式、表格以及各種各樣的圖形等信息，因此，若將印刷體文檔中包含的所有信息都完整地識別出來，也不是一件易事。

圖書封面

圖書標簽Tags

無

評論、評分、閱讀與下載

還沒讀過(74)
勉強可看(540)
一般般(921)
內(nèi)容豐富(3821)
強力推薦(313)

中文印刷體文檔識別技術 PDF格式下載

用戶評論 (總計9條)

不錯，國內(nèi)一本不錯中文識別書
不夠深入.適合略做了解
正版.比書店便宜
內(nèi)容還不錯，就是主要光盤質(zhì)量。
里面光盤斷裂了。
大家不要買這本書，就是**
光盤內(nèi)容太樂色了，根本沒法用，可見這本書基本樂色。
講得很系統(tǒng)，從原理上深度刨析了ocr的各個技術要點，但是最好配合一本講算法的書，一起學習，這樣效果更佳
送貨比較快，可惜書上有價值的內(nèi)容不多，已經(jīng)束之高閣

中文印刷體文檔識別技術

用戶評論 (總計9條)

推薦圖書

相關圖書