視覺語音情感識別

出版時間:2013-4  出版社:科學(xué)出版社  
Tag標簽:無  

前言

計算機科學(xué)技術(shù)的迅速發(fā)展改變了人們的工作和生活方式。人機交互(human computer interaction,HCI)技術(shù)是突破計算機與人類交互瓶頸的重要技術(shù),它有力地促進了計算機的普及應(yīng)用。為了使人類與計算機之間進行更加智能、更加自然的交互,新型的人機交互技術(shù)正在逐漸成為研究熱點。人們不僅希望能以更方便、更高效、更自然的方式操縱計算機,而且還希望計算機能理解人的情感,并提供有價值的增值服務(wù)。因此,情感識別已經(jīng)成為人機交互領(lǐng)域亟待突破的關(guān)鍵技術(shù)之一。    所謂情感識別,就是利用計算機分析特定表演者的面部表情、姿勢和語音信號及其變化過程,進而確定該表演者的內(nèi)心情緒或思想活動,實現(xiàn)人機之間更智能、更自然的交互。情感分析在許多領(lǐng)域都有著潛在的應(yīng)用價值,如心理學(xué)研究、圖像理解、臉部動畫合成、視頻檢索、機器人技術(shù)和虛擬現(xiàn)實技術(shù)等領(lǐng)域。隨著多媒體技術(shù)的發(fā)展,基于音視頻的情感分析、識別研究對增強計算機的智能化和人性化、開發(fā)新型人機環(huán)境,以及推動多媒體技術(shù)和信號處理等相關(guān)領(lǐng)域的發(fā)展有著重要的意義。    本書作者近幾年來在國家自然科學(xué)基金項目(60673190、61003183、61272211)的支持下,開展了基于視頻和音頻的情感識別技術(shù)的研究,包括視頻和音頻的情感特征的提取、適合于音視頻情感分析、分類和識別的算法或分類器、多分類器融合的情感識別方法以及情感分析、識別的應(yīng)用等。本書是在這些項目的研究成果基礎(chǔ)上,系統(tǒng)化地加以歸類總結(jié)撰寫而成的。    全書內(nèi)容分為8章。第1章為緒論,簡要地介紹了視覺語音情感識別產(chǎn)生的背景和意義、研究內(nèi)容及其應(yīng)用領(lǐng)域。第2章為視覺語音情感識別技術(shù)概況,包括情感識別的框架、情感的定義與分類、情感信號的預(yù)處理、常見的情感特征提取與選擇、現(xiàn)有的情感識別方法,以及情感識別的難點及新動向。第3章為基于視覺信息的情感特征提取方法,內(nèi)容包括基于視頻、圖像的表情特征提取的相關(guān)方法,這些方法是對已經(jīng)提出的一些方法的改進,并提出自己所設(shè)計的方法。第4章為基于視覺信息的情感識別方法,內(nèi)容包括了較有特色的相關(guān)表情分類、識別方法,如針對樣本的不均衡性,提出并實現(xiàn)的最大間隔最小體積球形支持向量機的表情識別方法;針對細微表情的識別問題,提出并實現(xiàn)的混合特征結(jié)合分類樹的細微表情識別算法;針對視頻信息存在噪聲和部分遮擋問題,提出并實現(xiàn)的基于模糊深隱馬爾可夫模型的圖像序列表情識別方法。第5章為語音情感特征選擇提取方法,內(nèi)容包括了語音情感測試庫的構(gòu)建、個性化和基于多重分形理論的語音情感特征提取方法、語音情感特征有效選擇方法,以及基于流形學(xué)習(xí)的語音情感特征降維等方法。第6章為語音情感識別方法,內(nèi)容包括了基于選擇性特征的決策樹的語音情感識別方法和基于改進有向無環(huán)圖的分層語音情感識別方法。第7章為視覺語音融合情感識別方法,內(nèi)容包括基于D-S證據(jù)理論的多粒度語段融合情感識別方法、多分類器融合方法和具有噪聲過濾功能的分類器協(xié)同訓(xùn)練半監(jiān)督主動學(xué)習(xí)方法等。第8章為情感分析的應(yīng)用,內(nèi)容包括基于表情動作單元參數(shù)的逼真表情動畫方法和E-learning環(huán)境中的情感分析應(yīng)用方法。    本書較全面地總結(jié)了課題組近年來的有關(guān)視覺語音情感識別的研究成果,內(nèi)容系統(tǒng)、深入淺出、方法有新穎性和創(chuàng)新性。適合從事音視頻信息的處理,特別是從事智能人機交互、計算機視覺與聽覺、模式識別與人工智能以及智能動畫等領(lǐng)域的科技工作者閱讀參考。本書也可作為情感計算、新型人機交互和智能信息處理等課程的研究生教材。    本書由詹永照總體負責,毛啟容負責組織實施。本書的第1、2章由毛啟容和成科揚撰寫,第3章由林慶撰寫,第5、6章由毛啟容撰寫,詹永照負責了其余各章的撰寫和全書的統(tǒng)稿工作。    完成這些項目的老師和合作者還有張建明、文傳軍、葉敬福、曹鵬、周庚濤、陳亞必、劉娟、李婷、陸捷榮、張娟、胡敏靈、徐莉婷、劉云、孔建等,他們在課題研究中刻苦鉆研,做了有意義的探索性工作,也為本書的完成做出了重要貢獻。在此謹向他們表示衷心的感謝。本書的撰寫過程也參考了國內(nèi)外研究者的研究成果和資料,也一并向他們致謝。    情感計算屬于交叉學(xué)科的新興研究領(lǐng)域,由于我們的水平有限,書中難免有疏漏之處,敬請讀者不吝指正。    詹永照    2012年10月于江蘇大學(xué)

內(nèi)容概要

《視覺語音情感識別》作者近幾年來在國家自然科學(xué)基金項目(60673190、61003183、61272211)的支持下,開展了基于視頻和音頻的情感識別技術(shù)的研究,包括視頻和音頻的情感特征的提取、適合于音視頻情感分析、分類和識別的算法或分類器、多分類器融合的情感識別方法以及情感分析、識別的應(yīng)用等?!兑曈X語音情感識別》是在這些項目的研究成果基礎(chǔ)上,系統(tǒng)化地加以歸類總結(jié)撰寫而成的。全書內(nèi)容分為8章?!兑曈X語音情感識別》較全面地總結(jié)了課題組近年來的有關(guān)視覺語音情感識別的研究成果,內(nèi)容系統(tǒng)、深入淺出、方法有新穎性和創(chuàng)新性。

書籍目錄

前言 第1章緒論 1.1視覺語音情感識別的產(chǎn)生背景 1.2視覺語音情感分析的研究內(nèi)容 1.3視覺語音情感識別的應(yīng)用領(lǐng)域 1.3.1表情識別的應(yīng)用 1.3.2語音情感識別的應(yīng)用 參考文獻 第2章視覺語音情感識別技術(shù)概況 2.1情感識別框架 2.2情感描述模型 2.2.1情感的定義 2.2.2情感的分類 2.3視覺語音信號預(yù)處理 2.3.1人臉表情圖像預(yù)處理 2.3.2情感語音信號預(yù)處理 2.4情感特征提取 2.4.1視覺信息情感特征提取 2.4.2語音情感特征提取 2.5情感特征選擇 2.6常用的情感識別模型 2.6.1基于相似性的情感識別模型 2.6.2基于連接機制的情感識別模型 2.6.3基于概率模型的情感識別模型 2.6.4基于集成學(xué)習(xí)的情感識別模型 2.7視覺語音情感識別的挑戰(zhàn) 2.8視覺語音情感識別的新動向 參考文獻 第3章基于視覺信息的情感特征提取方法 3.1概述 3.2基于小波分解和優(yōu)選VLBP的表情特征提取方法 3.2.1表情圖像的小波分解 3.2.2小波分解圖像的情感特征提取 3.2.3實驗結(jié)果與分析 3.3基于多頻域LBP—TOP的人臉表情特征提取方法 3.3.1 LBP—TOP算子 3.3.2多頻率圖像分塊LBP—TOP特征提取 3.3.3實驗結(jié)果與分析 3.4基于VLBP與光流的混合情感特征提取 3.4.1眼睛區(qū)域的小波分解分塊VLBP特征提取 3.4.2特征點自動標注的嘴部光流特征提取 3.4.3基于混合特征的表情識別 3.4.4實驗結(jié)果與分析 3.5基于Gabor變換的表情圖像特征提取方法 3。5.1小波變換與多分辨率分析 3.5.2 Gabor變換 3.5.3人臉表情圖像的網(wǎng)格化 3.5.4基于Gabor小波變換的表情彈性圖的構(gòu)造  3.5.5實驗結(jié)果與分析 3.6基于積分圖像的表情特征提取方法 3.6.1積分圖像的概念 3.6.2積分圖像表情特征提取 3.6.3實驗結(jié)果與分析 3.7一種加權(quán)矩形提取表情特征的方法 3.7.1矩形模板設(shè)計 3.7.2基于加權(quán)矩形的表情特征提取 3.7.3實驗結(jié)果與分析 3.8本章小結(jié) 參考文獻 第4章基于視覺信息的情感識別方法 4.1概述 4.2最大間隔最小體積球形支持向量機 4.2.1最大間隔球形支持向量機 4.2.2最大間隔最小體積球形支持向量機 4.2.3模型性能分析 4.2.4基于最大間隔最小體積球形支持向量機的表情識別 4.3混合特征結(jié)合分類樹的細微表情識別算法 4.3.1混合特征提取 4.3.2基于分類樹的表情識別 4.3.3實驗結(jié)果與分析 4.4基于模糊深隱馬爾可夫模型的圖像序列表情識別方法 4.4.1模糊深隱馬爾可夫模型 4.4.2模糊深隱馬爾可夫模型的特性 4.4.3基于模糊深隱馬爾可夫模型的圖像序列表情識別  4.4.4實驗結(jié)果與分析 4.5本章小結(jié) 參考文獻 第5章語音情感特征選擇提取方法 5.1概述 5.2情感語音庫的錄制 5.2.1語音情感數(shù)據(jù)庫 5.2.2音視頻情感數(shù)據(jù)庫 5.2.3音視頻情感的有效性分析 5.3語音情感特征提取方法 5.3.1傳統(tǒng)聲學(xué)語音情感特征分析與提取 5.3.2基于導(dǎo)數(shù)的非個性化語音情感特征提取方法 5.3.3基于多重分形理論的語音情感特征提取方法 5.4語音情感特征選擇方法 5.4.1基于神經(jīng)網(wǎng)絡(luò)貢獻分析的語音情感特征選擇 5.4.2基于遺傳算法的語音情感特征選擇和分類器參數(shù)優(yōu)化方法 5.4.3基于類集/類對的兩級語音情感特征選擇方法 5.4.4基于擴展測地距離的語音情感特征有效性分析方法 5.4.5實驗結(jié)果與分析 5.5基于流形學(xué)習(xí)的語音情感特征降維 5.5.1 Isomap算法描述 5.5.2 ELE算法描述 5.5.3基于增量流形學(xué)習(xí)的情感特征降維方法 5.5.4實驗結(jié)果比較與分析 …… 第6章語音情感識別方法 第7章視覺語音融合情感識別方法 第8章情感分析的應(yīng)用 參考文獻

章節(jié)摘錄

版權(quán)頁:   插圖:   2.4.2語音情感特征提取 總體上講,人類的語音傳達了兩類信息。一類是語言學(xué)信息,它以某一種語言規(guī)范準確(或者近乎準確)地確定了說話人的定性目的。另一類是超語言學(xué)信息,它是以實現(xiàn)說話人定性目的方式的細微變化來傳達的。超語言學(xué)信息不能傳達語義信息,但它能傳達有關(guān)說話人當前情緒和態(tài)度的信息。此外,它或許還能傳達有關(guān)說話人口音和社會階層特征等信息。超語言學(xué)信息包括韻律學(xué)相關(guān)的基頻和響度的變化,以及語音質(zhì)量相關(guān)的聲音頻譜上的變化,只要這些變化不會引起語言學(xué)信息的失真。 目前,在語音情感特征提取領(lǐng)域中,情感特征可以粗略地分為基于超語言學(xué)的語音情感特征和基于語言學(xué)的語音情感特征(包括詞匯、句法等)。 1.基于超語言學(xué)的語音情感特征 基于超語言學(xué)的語音情感特征可分為三大類:韻律學(xué)特征、音質(zhì)特征和頻譜特征。韻律學(xué)特征主要包括音調(diào)、音強和語速等。韻律學(xué)特征主要包括如下三類。 (1)基頻相關(guān)特征:主要是指基音頻率及其均值、變化范圍、變化率與均方差等特征。 (2)能量相關(guān)特征:主要是指短時平均能量、短時能量變化率、短時平均振幅、振幅平均變化率及短時最大振幅等。 (3)時長相關(guān)特征:主要指語速、短時平均過零率等。 音質(zhì)特征主要有呼吸聲、明亮度特征(低頻能量和高頻能量的比值,用以反映語音的清亮特性)、共振峰和喉化音等;頻譜特征主要包括Mel倒譜系數(shù)(Mel frequency cepstrum coefficients,MFCC)及其衍生參數(shù)等。此外,基于這三類語音情感特征的不同語段長度的統(tǒng)計特征是目前使用最普遍的特征參數(shù)之一,如特征的平均值、變化率及變化范圍等。傳統(tǒng)的基于聲學(xué)的語音情感特征在整個語音情感特征中起著比較重要的作用,是使用最多的語音情感特征。但是這類情感特征中包含了說話者與生俱來的說話特征,如語速快、嗓門兒大等特點,也包含了說話內(nèi)容的信息,使這類特征中的絕大部分特征參數(shù)的分布會隨著說話者和說話內(nèi)容的變化而產(chǎn)生較大的變化,從而使當待識別語音的說話者不在訓(xùn)練語音情感庫中,說話內(nèi)容發(fā)生變化時,識別率急劇下降。除了上述的基于聲學(xué)的傳統(tǒng)語音情感特征外,近年來,國內(nèi)外研究者提出了新的基于聲學(xué)的情感特征以及情感特征使用的新方法。

編輯推薦

《視覺語音情感識別》適合從事音視頻信息的處理,特別是從事智能人機交互、計算機視覺與聽覺、模式識別與人工智能以及智能動畫等領(lǐng)域的科技工作者閱讀參考?!兑曈X語音情感識別》也可作為情感計算、新型人機交互和智能信息處理等課程的研究生教材。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    視覺語音情感識別 PDF格式下載


用戶評論 (總計1條)

 
 

  •   里面的內(nèi)容其實不是很新,但是國內(nèi) 這方面的書也挺缺的。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7