出版時間:2012-1 出版社:科學出版社 作者:呂士楠,初敏 頁數(shù):373
Tag標簽:無
內(nèi)容概要
本書介紹語音合成的原理和針對漢語的各項合成技術,以及應用的范例。全書分基礎篇和專題篇兩大部分?;A篇介紹語音合成技術的發(fā)展歷程和作為語音合成技術基礎的聲學語音學知識,尤其是作者獲得的相關研究成果(填補了漢語語音學知識中的某些空白),并對各種合成器的工作原理和基本結構進行系統(tǒng)的闡述。專題篇結合近十年來國內(nèi)外技術發(fā)展的熱點和方向,討論韻律分析與建模、數(shù)據(jù)驅(qū)動的語音合成方法、語音合成數(shù)據(jù)庫的構建技術、文語轉換系統(tǒng)的評估方法、語音合成技術的應用等。
本書面向從事語言聲學、語音通信技術,特別是語音合成的科學工作者、工程技術人員、大學教師、研究生和高年級的大學生,可作為他們研究、開發(fā)、進修的參考書。
書籍目錄
序一
序二
前言
基礎篇
第1章 語音合成技術史的敘述
1.1 機械式語音合成器
1.1.1 Kempelen的講話機
1.1.2 Euphonia講話機
1.2 電子式語音合成器
1.2.1 VODER
1.2.2 模式播放器
1.2.3 共振峰合成器
1.3 基于計算機的語音合成
1.3.1 數(shù)字式共振峰語音合成技術
1.3.2 波形拼接合成技術
1.4 漢語語音合成的發(fā)展
1.4.1 漢語合成研究的先驅(qū)
1.4.2 國內(nèi)漢語合成技術的研究
1.5 總結
參考文獻
附錄 合成語音樣品
第2章 聲學語音學
2.1 聲學基礎
2.1.1 空氣中的聲波
2.1.2 波動方程
2.1.3 聲音在管子中的傳播
2.2 言語交際過程
2.2.1 語音的產(chǎn)生
2.2.2 語音的感知
2.3 語音的聲學特征
2.3.1 語音的時間維及頻率維表示
2.3.2 頻譜分析
2.3.3 語圖和語音的頻譜分析方法
2.3.4 元音的頻譜
2.3.5 輔音的頻譜
2.3.6 音軌
2.4 漢語普通話的音位系統(tǒng)
2.4.1 漢語普通話的輔音系統(tǒng)
2.4.2 漢語普通話的元音系統(tǒng)
2.4.3 漢語傳統(tǒng)的聲韻調(diào)系統(tǒng)
2.5 總結
參考文獻
第3章 韻律
3.1 語調(diào)模型
3.1.1 “調(diào)核”理論和INTSINT語調(diào)模型
3.1.2 Pierrehumbert有限狀態(tài)網(wǎng)絡模型
3.1.3 Tilt語調(diào)模型
3.1.4 Fujisaki模型
3.1.5 PENTA模型
3.2 漢語普通話韻律的基本單元
3.2.1 詞調(diào)
3.2.2 短語語調(diào)
3.3 句調(diào)和篇章韻律
3.3.1 語篇語調(diào)
3.3.2 朗讀風格的影響
3.4 總結
參考文獻
第4章 漢語文語轉換系統(tǒng)
4.1 合成語音自然度的研究
4.1.1 合成語音自然度實驗
4.1.2 音聯(lián)對自然度的影響
4.1.3 漢語語句重音的聲學表現(xiàn)
4.2 漢語共振峰合成系統(tǒng)
4.2.1 系統(tǒng)框圖
4.2.2 合成單元
4.2.3 語言學處理
4.2.4 韻律設計
4.2.5 聲學處理
4.3 基音同步波形疊加合成
4.3.1 PSOLA算法
4.3.2 漢語的韻律——播音風格言語的聲學分析
4.3.3 KX-PSOLA漢語文語轉換系統(tǒng)的韻律模型
4.3.4 高清晰度高自然度KX-PSOLA漢語文語轉換系統(tǒng)
4.3.5 《聯(lián)想佳音》
4.4 總結
參考文獻
專題篇
第5章 普通話的節(jié)律和重音的實驗研究
5.1 基于大規(guī)模語料庫的韻律研究
5.1.1 語料庫的設計原則
5.1.2 語料庫的后期加工
5.1.3 語料庫的實體
5.2 普通話的節(jié)律組織
5.2.1 節(jié)律組織中的自由度
5.2.2 節(jié)律組織規(guī)則
5.3 普通話的重音標注、分類及分配
5.3.1 重音的知覺強度標注
5.3.2 重音強度的三級標注
5.3.3 語義重音與節(jié)奏重音
5.3.4 重音的分布與韻律邊界
5.3.5 總結
參考文獻
第6章 基于大規(guī)模語料庫的波形拼接合成
6.1 韻律控制策略
6.1.1 全控制策略
6.1.2 半控制策略
6.1.3 軟控制策略
6.2 基于韻律軟控制策略的TTS系統(tǒng)的結構
6.3 單元選擇和波形拼接的策略和方法
6.3.1 音節(jié)關聯(lián)的上下文矢量
6.3.2 上下文矢量的距離
6.4 建立語音特征覆蓋完備的言語數(shù)據(jù)庫
6.4.1 音庫覆蓋率與規(guī)模
6.4.2 言語數(shù)據(jù)波形的采集和標注
6.4.3 標注精度對合成自然度的影響
6.4.4 基于上下文相關邊界模型的自動切分方法
6.4.5 音段波形的直接拼接合成
6.4.6 小結
6.5 木蘭-漢英雙語TTS系統(tǒng)
6.5.1 木蘭的結構
6.5.2 統(tǒng)一的文本標準化模塊
6.5.3 語言檢測和分發(fā)模塊及單元提取模塊
6.5.4 言語數(shù)據(jù)庫
6.5.5 小結
6.6 更多應用
6.6.1 個性化TTS系統(tǒng)
6.6.2 領域自適應TTS
6.6.3 互聯(lián)網(wǎng)個性化語音服務
6.7 總結
參考文獻
第7章 波形拼接合成語料庫生成技術
7.1 錄音腳本的設計
7.1.1 音段特征覆蓋
7.1.2 韻律特征覆蓋
7.2 發(fā)音人的挑選
7.2.1 發(fā)音人性別的選擇
7.2.2 發(fā)音人年齡的限制
7.2.3 發(fā)音人籍貫的選擇
7.2.4 音色的要求
7.2.5 專業(yè)水平的考查
7.2.6 發(fā)音人的工作時間保證
7.2.7 候選發(fā)音人人數(shù)的考慮
7.2.8 候選人的發(fā)音評估
7.3 音庫錄制
7.3.1 錄音室
7.3.2 錄音設備
7.3.3 錄音程序
7.4 數(shù)字錄音材料的處理
7.4.1 復審
7.4.2 標音
7.5 總結
參考文獻
第8章 語音合成系統(tǒng)的質(zhì)量評估
8.1 語音輸出系統(tǒng)質(zhì)量評估方法
8.1.1 音節(jié)清晰度測試
8.1.2 詞和句的可懂度測試
8.1.3 語句和篇單的整體性能測試
8.1.4 評測的原則
8.2 漢語語音合成質(zhì)量評估
8.2.1 1994年“863”漢語語音合成系統(tǒng)評測
8.2.2 1995年漢語語音合成系統(tǒng)評價方法
8.3 國家語言文字工作委員會漢語語音合成系統(tǒng)評測
8.3.1 2004年漢語語音合成系統(tǒng)評價方法
8.3.2 2004年的評測結果和分析
8.4 MOS和PC評估方法的比較
8.4.1 測試文本和測試條件
8.4.2 MOS評估
8.4.3 PC測試
8.4.4 MOS和PC評測比較結果
8.5 漢語合成語音評測新方法探索
8.6 總結
參考文獻
附錄 2004年評估測試語料
第9章 展望
9.1 STRAIGHT分析合成技術
9.2 基于HMM的語音合成
9.2.1 系統(tǒng)的框圖
9.2.2 訓練集及參數(shù)提取
9.2.3 HMM模型化
9.2.4 基于上下文聚類的決策樹
9.2.5 言語合成
9.3 從概念到語音的合成
9.3.1 SOLE系統(tǒng)
9.3.2 SOCS系統(tǒng)
9.4 多語種合成系統(tǒng)
9.5 口語翻譯系統(tǒng)
9.6 總結
參考文獻
后記
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載