出版時間:2011-8 出版社:科學出版社 作者:孫尚拱 頁數(shù):339
Tag標簽:無
內容概要
《應用多變量統(tǒng)計分析》由孫尚拱編著,介紹了多變量統(tǒng)計分析的基本理論及其各種常用模型。全書共有11章,內容包括緒言,矩陣的某些補充知識,多元正態(tài)分布,假設檢驗,多元線性模型,實用多元線性回歸與典則相關分析,判別分析,主成分分析與因子分析,隱變量分析,聚類分析,生存分析。書中配有大量例題、習題,并且例題都寫出了sAs計算程序。隨書配的光盤中提供了書中大量數(shù)據(jù)的電子版,以方便讀者使用。
《應用多變量統(tǒng)計分析》可供普通高等院校數(shù)學、應用數(shù)學、統(tǒng)計學等各專業(yè)高年級本科生及研究生作為教材使用,也可供相關專業(yè)研究人員參考使用。
書籍目錄
前言
第1章 緒 言
第2章 矩陣的某些補充知識
第3章 多元正態(tài)分布
第4章 假設檢驗
第5章 多元線性模型
第6章 實用多元線性回歸與典則相關分析
第7章 判別分析
第8章 主成分分析與因子分析
第9章 隱變量分析
第10章 聚類分析
第11章 生存分析
參考文獻
附錄
章節(jié)摘錄
第1章 緒言統(tǒng)計學是收集及分析統(tǒng)計數(shù)據(jù)的學科。隨著社會及科技的快速發(fā)展,特別是統(tǒng)計軟件的發(fā)展,對統(tǒng)計數(shù)據(jù)的分析工作已變得越來越容易,但對統(tǒng)計分析的要求也越來越高及深入。統(tǒng)計分析工具在日新月異地進步,可是人們的思想常帶有一定的慣性,不一定都與技術的進步同步。自然或社會現(xiàn)象及經(jīng)濟生活中的各種變量之間往往存在很大的相關性或依賴性。它們的變化往往是彼此相關聯(lián)的,而人們習慣的分析總是把相關的變量割裂開來,彼此獨立地去分析每一個變量,這就是“多變量問題的單變量分析法”。為了提示這種分析法存在的問題,現(xiàn)舉例說明如下:例1.120世紀70年代初,北京市高血壓防治組發(fā)現(xiàn):北京炊事員的高血壓患病率很高,覺得不可思議,于是重新設計了一個方案,于1974年抽查了北京市916名炊事員,調查15個變量:性別、年齡、工種、工齡、做炊事工作前的工種、一天工作的時間、班次、常在高溫下工作、食量、嗜咸、素食、腎炎史、家族史、超重及是否發(fā)胖。指標是舒張壓[1]。先用多重回歸分析法找出對舒張壓有顯著影響的變量為年齡,體胖,腎炎史,性別,工種,家族史,嗜咸。再用單變量分析法,即把每一個變量與舒張壓作統(tǒng)計分析。與上述回歸分析不一致的是:“超重、工齡、素食”在單變量分析法中對舒張壓有顯著的影響;而在多重回歸分析法中有顯著影響的“家族史”在單變量分析法中對舒張壓沒有顯著的影響。文獻[1]逐一分析了它們發(fā)生不一致的原因。舉幾例說明如下:(1)工齡對于血壓的影響。在單變量分析法中,可以把工齡與血壓的關系作成表1.1的形式。從表1.1可見:高血壓患病率隨工齡的增高而升高。使用單因素統(tǒng)計的2£4列聯(lián)表中的獨立性檢驗公式,可算得?2=33:9,自由度為3,查表可得p60:0001.說明高血壓患病率在不同工齡的群體中有非常顯著的差別(p60:0001)。若同時對此數(shù)據(jù)作另一形式的處理,如表1.2所示,其中限定工人的年齡在40歲以上,則由于例數(shù)減少,只好對工齡分得粗一些,作成兩水平:15年及以下與15年以上。從表1.2可見,不同工齡段的高血壓患病率(24.5%與26.0%)相差很?。??2=0:088;pr>0:75)。這就說明,表1.1中“工齡增加時高血壓患病率也隨之增加”的結果實際是一種假象。造成這種假象的根本原因是未把隱藏在工齡背后更本質的因素(年齡)控制住。也就是說,對同一批數(shù)據(jù),即使使用同一形式的統(tǒng)計法,也可得出完全相反的結論。但表1.2的方法已包含有多因素分析的思想,所以表1.2自然比表1.1合理一些。(2)體重與體胖對于血壓的影響。從表1.3的表面上來看,表中僅考察超重與不超重。但實際上,表1.3中未把另外的因素(如年齡、體胖等)對于血壓的影響扣除。表1.4和表1.5僅是扣除了體胖的影響。結果說明,表1.3中超重對高血壓的影響實際上是體胖的影響結果。表(3)家族史對高血壓的影響。表1.6是單因素下家族史對高血壓的影響列聯(lián)表。結果是非常不顯著的,這與線性回歸的結果不一致。但表1.6中未把另外14個因素對血壓可能的影響扣除,即由于這些因素的相互干擾(如比例分配不勻等)也可能造成了表1.6的假象。而高血壓有遺傳性,這一點在目前也早有定論了。對素食變量的情況的分析也有類似的問題。把有相關性的變量割裂開來,把多變量問題簡單地拆成很多單變量的分析法絕不限于中國。1978年8月9日,光明日報刊登一則科技信息:某單位對美國20個城市作飲水氟化研究,10個城市的飲水進化氟化處理,而另外10個城市未氟化作為對照,得到結論:“飲水氟化有致癌作用”。但過了一個時期,光明日報又登載了相反的文章。原來前述論文發(fā)表后,受到了美國癌腫協(xié)會和國皇家統(tǒng)計協(xié)會的懷疑。他們派人對該批數(shù)據(jù)重新作統(tǒng)計分析,得到結論:飲水氟化沒有發(fā)現(xiàn)有致癌作用,相反地,卻略有保護作用。兩個結論差別如此之大,根源在于第一分析法完全是類似于表1.1的單因素分析法,而后一個結論則把兩組城市中種族、生活環(huán)境上的不同所產(chǎn)生的影響盡可能地扣除,再去比較兩組城市的癌癥的患病率。上述兩例雖發(fā)生在20世紀70年代,但至今,國內外的刊物、報刊上單純用單因素分析法公布結論仍是相當普遍。也就是說,多變量統(tǒng)計分析的知識在很多人的頭腦中仍是相當缺乏。多變量統(tǒng)計分析所使用的數(shù)據(jù)遠比單變量分析法所用的數(shù)據(jù)更易取得,只要在相同的條件下把與問題有關或可能有關的變量盡可能多地記錄即可。它遠比單因素分析法必須控制(或固定)其他因素而去記錄某個因素(或對它做試驗)要容易得多,因為其他因素應控制或固定在什么水平上,不同的控制或固定法對結果可能會有很大的影響。但多變量分析也有其缺點即必須使用計算機統(tǒng)計軟件;理解計算結果要有一定的抽象思維能力;它不及單因素分析法那樣直觀、明了。這些大概是為什么不是每一個實際工作者都在使用或懂得多變量統(tǒng)計法的原因吧。統(tǒng)計數(shù)據(jù)的收集常需要一定時間的周密設計再去抽樣或做試驗。在過去相當長的時間內,對統(tǒng)計資料的分析大多停留在計算均值、百分比或加一點簡單的組間比較。我們花了大量的精力、財力(有時達幾十億人民幣)去調查或做試驗,為什么只僅僅去計算幾個均值及百分比?根據(jù)作者幾十年的工作經(jīng)驗,我們認為“一年取樣,十年分析”。也就是說,如果樣本的取得用了一年時間,但真正要對一批合格的大樣本資料作較為全面、認真而細致的分析工作,用十年的時間是不算多的。這主要是因為“變量與變量”,“人與變量”及“人與人”之間的關系實在是相當復雜,要充分揭露它們之間的各種內在的統(tǒng)計聯(lián)系,絕不可能在幾天或幾個月就可以完成。特別地,人的認識總是在不斷地進步,因此,對資料的內在信息的提取也隨時間在不斷地提高。可惜的是,即使在目前計算機高度普及的情況下,人們對資料中信息的提取仍然是普遍地提取不足。這種對統(tǒng)計信息的提取不足的根源是實際工作者對多變量統(tǒng)計的內容了解很少,自然也就應用得少了。例如,對中醫(yī)理論的解析問題。應該說,中醫(yī)理論的實質應該是幾千年以來中醫(yī)大夫“經(jīng)驗性的多變量統(tǒng)計分析”的結果。現(xiàn)在,高度計算機化了的計方法的應用仍不很充分。
編輯推薦
《應用多變量統(tǒng)計分析》重點是介紹多變量統(tǒng)計的分析方法,但書內有大量的實例及練習題,它對初學者是極有幫助的。書內的這些數(shù)據(jù)不僅可用于驗證《應用多變量統(tǒng)計分析》的例子,也可進一步用于做各種統(tǒng)計分析工作。
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載