數據質量工程實踐

出版時間:2010-11  出版社:電子工業(yè)出版社  作者:麥吉利夫雷  頁數:284  
Tag標簽:無  

前言

最近20年,在麻省理工學院的全面數據質量管理計劃(Total Data Quality Management program,TDQM)的引領下,信息質量(數據質量)已成為一門發(fā)展迅速的新興學科:由TDQM發(fā)起的信息質量國際會議(International Conferenee on Information Quality,ICIS)自1996年起已召開14屆,面向應用的MIT信息質量工業(yè)研討會(MIT IQ Industly Symposium Program,IQIS)自2007年起已召開4屆。2006年,在TDQM的幫助下,美國阿肯色州州立大學設立了世界首個信息質量碩士和博士學位授予點;2009年,TDQM創(chuàng)辦了信息質量學術期刊,當年共出版3期,刊登學術論文9篇,其中首篇論文系統(tǒng)討論了信息質量的研究內容,將信息質量分為4大類19個研究主題,從而形成信息質量的完整研究框架體系。美國已基本完成企業(yè)級數據集成,并將信息質量問題列為企業(yè)信息化面臨的首要問題。盡管國內有多位學者不斷呼吁要加強對“數據”的重視程度,也有少數學者較早進人信息質量研究領域,但整體上來看,當前國內對信息質量仍以零星分散研究為主,缺乏系統(tǒng)性成果和規(guī)模性組織,尤其缺乏針對國內信息化特點的信息質量研究。我國企業(yè)數據集成環(huán)境比美國企業(yè)更加復雜,據IDC調查(2008),圍內企業(yè)在數據集成相關項目建設中,面臨的首要問題是業(yè)務需求不明確,其次才是信息質量問題;但事實上,國內72%的企業(yè)存在相似重復數據,60%的企業(yè)存在不完整數據,信息質量問題相當嚴重,對信息質量研究的迫切需求不容忽視。信息質量研究在全球范圍內日益活躍,但與此不相稱的是,全球范圍內相關專著不過20余種,而中國大陸市場迄今為止還沒有該領域的書籍銷售(含英文版書籍)。本書是全球第1本面向工程應用的信息質量專著,它將信息質量的概念框架與改善信息質量的技術、工具、操作指南相結合,提出并詳細描述了獲取高質量數據和可信信息的10個步驟,為提高信息質量提供了一套與業(yè)務無關的系統(tǒng)方法論。

內容概要

本書將信息質量的概念框架與改善信息質量的技術、工具、操作指南相結合,提出并詳細描述了獲取高質量數據和可信信息的10個步驟,為提高信息質量提供了一套與業(yè)務無關的系統(tǒng)方法論(簡稱“10步法”)?!稊祿|量工程實踐:獲取高質量數據和可信信息的十大步驟》在簡述信息質量方法和介紹“10步流程”賴以建立的基本原理及概念的基礎上,系統(tǒng)闡述了“10步流程”所包含的流程、指南、建議、實例和模板,討論了信息質量項目的有關方法建議、時問安排和團隊組建,介紹了方法論中的具體應用技術,還以簡明易懂的形式對書中的重要概念、模板、術語等精華部分進行了歸納整理?! ”緯鴥热葚S富,理論和實踐結合緊密,易讀性和可操作性強,既可作為信息質量的入門和進階用書,又可作為數據工程、信息技術等領域工程技術人員的參考用書。

作者簡介

Danette McGilvray,Granite Falls咨詢公司的總裁。該公司專門研究信息質量管理和數據管治。以支持客戶滿意度、決策支持、供應鏈管理及卓越運營方面的關鍵業(yè)務流程。

書籍目錄

第1章 概述 信息和數據質量的影響 關于方法論的概念和步驟 工程中的數據質量方法 付諸管理第2章 基本概念 引言 信息質量框架 信息生命周期 數據質量維度 業(yè)務影響技術 數據分類 數據規(guī)范 數據管治和數據統(tǒng)管 信息和數據質量提高周期 10步流程 最佳實踐及指導方針第3章 10步流程 引言 步驟1 定義業(yè)務需求和方法 引言 步驟1.1確定業(yè)務問題優(yōu)先次序 步驟1.2項目規(guī)劃 步驟2分析信息環(huán)境 引言 步驟2.1 了解相關需求 步驟2.2 了解相關數據和規(guī)范 步驟2.3 了解相關技術 步驟2.4 了解相關流程 步驟2.5 了解相關人員/組織 步驟2.6 定義信息生命周期 步驟2.7 制訂數據捕獲和評估方案 步驟3 評估數據質量 引言 步驟3.1 數據規(guī)范 步驟3.2 數據完整性準則 步驟3.3 重復 步驟3.4 準確性 步驟3.5 一致性和同步 步驟3.6 及時性和有效性 步驟3.7 易用性和可維護性 步驟3.8 數據覆蓋 步驟3.9 表達質量 步驟3.10 可理解性、相關性和可信度 步驟3.11 數據衰變 步驟3.12 效用性 步驟4 評估業(yè)務影響 引言 步驟4.1 事例 步驟4.2 用法 步驟4.3 業(yè)務影響的5個“為什么” 步驟4.4 費效矩陣 步驟4.5 排序和優(yōu)先級劃分 步驟4.6 流程影響 步驟4.7 低質量數據的代價 步驟4.8 費效分析 步驟5 確定根本原因 引言 步驟5.1 根本原因的5個“為什么” 步驟5.2 跟蹤和回溯 步驟5.3 因果/魚骨圖 步驟6 制訂提高方案 步驟7 預防未來數據錯誤 步驟8 糾正當前數據錯誤 步驟9 實施控制 步驟10 溝通行動和結果 10步流程小結第4章 構建個人項目 項目和10個步驟 數據質量項目角色 項目時間安排第5章 其他技術和工具 引言 信息生命周期方法 數據捕獲 結果分析和歸檔 度量 數據質量工具 10個步驟和六西格瑪第6章 結尾 附錄A快速參考 信息質量框架 詳細的POSMAD交互矩陣 POSMAD的階段和行動 數據質量維度 業(yè)務影響技術 10步流程概述 數據分類的定義 術語表 參考文獻 圖、表和模板列表  

章節(jié)摘錄

插圖:多數工具都使用開放性算法,但需要調整到能適合具體數據。需將業(yè)務需求轉換成工具所需的規(guī)則和算法:·確定要比較的字段和匹配標準?!ご_定標準化規(guī)則、消除重復算法、權重和閾值。·要求幾輪測試以使標準化和匹配程序達到可接受的水平。預測數據準備和跨語言匹配方面的困難。在像瑞士這樣的一些國家中存在多種語言,很難程序化地判斷使用哪種語言才能將數據標準化,因此,因不同語言和地址格式不得不使用不同算法和閾值。還必須處理數據的錄入方式、參考點和數據錄入人員知識上的差異。比如,在法國的某人錄入了一個法國地址,而在德國的某人通常采用十分不同的方式錄入同樣的地址。準備實施匹配時,在分析行動上要花足夠的時間,對獲得成功結果非常關鍵。5.設計重復評估流程包括以下幾點:·感興趣的總體和相關的選擇標準是什么(業(yè)務和技術兩方面)?!⒂烧l以及何時抽取數據,需要什么樣的輸出格式?!⒂烧l在消除重復工具中操作數據,何時進行?!⒂烧l審查消除重復的結果,何時進行?!⒂烧l報告測試和分析結果,何時進行?!⑹占裁礈y量標準,需要什么報表。6.抽取數據參考第5章“數據捕獲”一節(jié),以確保抽取正確的數據集。7.測試重復數據使用最能滿足需求的工具。對于初步評估,或許只需查看匹配結果。直到全面測試和定義了這些結果后才可自動進行數據變更。從工具提供商那里得到適當培訓,并使用可得到的最佳實踐。根據需要,管理和調整標準化程序、閾值和匹配算法。在最終滿意之前,不得不多次檢查結果/調整算法,這是正常的,不足為奇。對那些顯示重復但可接受的記錄,不做處理,但需對它們做標記。報告所使用的測量標準,并討論其影響。如果想自動運行保留流程,請在安排時間表時多規(guī)劃些時間。即便保留流程由人員通過檢查結果和選擇保留記錄來人工完成,也必須有記錄或字段要優(yōu)先的指導準則。將規(guī)則歸檔,并提供培訓,以便獲取更一致的保留結果。根據經驗,建議將標準化數據保存在與原始數據字段不同的字段內。標準化數據用于幫助匹配。如果研究組對標準化程序進行了調整,就可使用更新算法對數據進行重新標準化。如果沒有原始數據,這樣做將不太可能。

媒體關注與評論

“我尊敬的同事Danette McGilvray描述了一種非常實用的規(guī)劃和管理信息質量的方法。我建議您閱讀、領會和運用書中的這些知識?!薄  狶arry P.English,信息影響國際股份有限公司的總裁和首席專家,TIQM。質量體系的創(chuàng)始人,國際信息和數據質量協(xié)會的構想者和共同創(chuàng)辦人“在這個人們討論時間很長,但可行性建議很少的話題上,Danette McGilvray是一個給人們帶來清新感覺的例外。如果您想了解如何實施數據質量項目,請閱讀本書,您需要的一切盡在其中?!薄  狣avid Plotkin,加州汽車協(xié)會數據質量經理

編輯推薦

《數據質量工程實踐:獲取高質量數據和可信信息的十大步驟》:信息就是金錢。研究表明,數據質量問題每年都使企業(yè)損失數10億美元,劣質數據造成浪費和低效,破壞客戶與供應商之間的信譽,甚至使組織無力做出明智決策。在這本既重要又及時的新書中,Danette Mc Gilvray提出了她的信息質量“10步法”——一種被證實了的、用于在企業(yè)中了解和創(chuàng)建信息質量的方法。她提出的方法適用于各種數據,以及各種類型和規(guī)模的組織。Danette Mc Gilvray使用這種方法已培訓了一些“財富500強”客戶以及數百名研究人員。精彩內容:許多模板、詳細實例以及實施“10步法”中每一步的實用建議;以易于使用的格式突出顯示了有關基本概念和定義、重要檢查點、溝通活動以及一些最佳做法,方便快速參考;一個可鏈接到眾多數據質量資源的配套網站,其中包含文中勾勒出的許多規(guī)劃和信息收集模板,“10步法”基本思想的快速匯總,以及其他技術和信息。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    數據質量工程實踐 PDF格式下載


用戶評論 (總計12條)

 
 

  •   對數據質量管理做了比較全面的介紹,特別是10步流程,很具啟發(fā)性。
    但這本書針對的是大范圍的數據質量,具體到某一行業(yè),還是要理論結合實際,做大量的思考。

    總的說來,是一本具有啟發(fā)性的書。
  •   本書對從事數據質量管理的實踐者非常有幫助,舉例和最佳實踐都不錯。
  •   我目前從事數據集成和整合的工作。我發(fā)現(xiàn)這本書里,提到了很多我工作中碰到的問題??吹贸鲎髡叩慕涷灪茇S富。有些觀點讀了之后發(fā)覺感慨萬千。原來我碰到的問題,作者也碰到過。更難能可貴的是作者對此提出了具有可操作性的理論和實踐框架。對我們的工作具有很好的指導意義。

    但是要真正吃透這本書,還是要大量的實踐和思考。也許在這個領域再多做幾年,體會會更加深刻吧!
  •   信息化高速發(fā)展,數據質量日益受到廣泛重視。這本書講的還不錯!
  •   挺好,結合實踐,操作性強。推薦。
  •   看了下 內容簡介,挺好,挺實用。
  •   學生上課的書籍,是正版
  •   此書在方法論層面對數據質量管理作出詳細而縝密的介紹,“10步流程”作者法是其代表。此書既注重理論,更有實踐基礎支持,為一部經典、實用之作。
  •   書從理論上來說,是對數據質量分析提供了很好的指導作用
  •   比較詳細的列出了要做的工作,可以作為懶人的直接步驟
  •   內容不錯,有一定的指導作用
  •   對于提高信息化建設質量,提供了很好的框架與實施步驟。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7