黄大色黄大片女爽一次,丁香一区二区三区,精品一区日韩,www.国产网站,日韩欧美视频在线播放,性视频久久,欧美日日日日bbbbb视频

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品
 

語(yǔ)音技術(shù)成為主流技術(shù)

 


  隨著激動(dòng)人心的新應(yīng)用例如語(yǔ)音門(mén)戶(voice portal)和網(wǎng)上消息(web messaging)以及改進(jìn)的算法使語(yǔ)音技術(shù)逐漸成為一項(xiàng)被大眾接受和使用的技術(shù)。語(yǔ)音門(mén)戶提供使用自然語(yǔ)言命令訪問(wèn)Internet信息的方式, 網(wǎng)上消息是新的一種統(tǒng)一消息應(yīng)用, 它把網(wǎng)站訪問(wèn)和傳統(tǒng)語(yǔ)音信箱,電子郵件和傳真等技術(shù)集成在一起。總之, 語(yǔ)音技術(shù)很有潛力成為下一個(gè)個(gè)人電腦,電話和其它電子設(shè)備的下一個(gè)關(guān)鍵的訪問(wèn)接口。

機(jī)會(huì)在哪里?

  語(yǔ)音門(mén)戶應(yīng)用給具有語(yǔ)音技術(shù)的開(kāi)發(fā)商提供了很大的機(jī)會(huì)。根據(jù)Frost & Sullivan*公司預(yù)測(cè), 未來(lái)六年這一市場(chǎng)段會(huì)有54%的增長(zhǎng)**。公用網(wǎng)絡(luò)提供商, 本地交換提供商(LEC)和Internet服務(wù)提供商(ISP)等都在尋找提供不同于別人的服務(wù), 他們都很有可能進(jìn)入這一領(lǐng)域來(lái)提供利潤(rùn)豐厚的增值服務(wù)。

  同一消息應(yīng)用應(yīng)運(yùn)而生是由于企業(yè)認(rèn)識(shí)到跨平臺(tái)消息系統(tǒng)(語(yǔ)音,電子郵件和傳真)應(yīng)用的優(yōu)點(diǎn)。網(wǎng)上消息則代表了一個(gè)很自然的功能上上的增強(qiáng)。Dot-com公司利用語(yǔ)音技術(shù)提供了訪問(wèn)他們網(wǎng)站服務(wù)器和分布式數(shù)據(jù)庫(kù)的另外一種方法。 這一演變將語(yǔ)音技術(shù)帶入到公眾中去, 這方面的需求也在不斷的增長(zhǎng)。 移動(dòng)電話的用戶一定很歡迎使用自然語(yǔ)音識(shí)別輸入而不是按鍵的輸入。 尤其是當(dāng)現(xiàn)在移動(dòng)電話尺寸越來(lái)越小,語(yǔ)音輸入的優(yōu)勢(shì)也更加明顯。

連續(xù)語(yǔ)音處理技術(shù)

  創(chuàng)建增強(qiáng)的語(yǔ)音技術(shù)的平臺(tái)的技術(shù)稱作連續(xù)語(yǔ)音處理, 簡(jiǎn)稱CSP(Continuous Speech Processing ). 利用CSP和Dialogic? Dialogic?板卡結(jié)合在一起的新技術(shù),可以開(kāi)發(fā)出提供最高準(zhǔn)確度和最好性能語(yǔ)音識(shí)別電話應(yīng)用。

  利用CSP開(kāi)發(fā)有以下5個(gè)主要的優(yōu)點(diǎn):

  • 節(jié)省開(kāi)支 - 整個(gè)系統(tǒng)是低成本的平臺(tái)
  • 性能 - 減少系統(tǒng)延遲時(shí)間,改進(jìn)反應(yīng)速度
  • 準(zhǔn)確度 - 更高的識(shí)別準(zhǔn)確度
  • 可擴(kuò)展性 - 系統(tǒng)可由小到大擴(kuò)展
  • 密度 - 每個(gè)板卡經(jīng)濟(jì)的端口密度

  在后面我們會(huì)繼續(xù)討論CSP技術(shù)的優(yōu)點(diǎn)。首先讓我們來(lái)看一下是CSP是利用哪些技術(shù)來(lái)實(shí)現(xiàn)的。

底層技術(shù)實(shí)現(xiàn)

  CSP是在現(xiàn)有語(yǔ)音技術(shù)上增加了新的算法來(lái)實(shí)現(xiàn)的。一個(gè)主要的功能模塊就是語(yǔ)音打斷(barge-in),它使一個(gè)用戶可以通過(guò)說(shuō)話來(lái)打斷語(yǔ)音提示。 一個(gè)語(yǔ)音識(shí)別引擎可以識(shí)別出用戶打斷所說(shuō)的話是什么。許多電話環(huán)境里,進(jìn)入系統(tǒng)的信號(hào)是多個(gè)信號(hào)的混合包括用戶的說(shuō)話,語(yǔ)音提示的回聲和線路的噪音?紤]到這么多種變數(shù),例如電話線的類型和質(zhì)量還有說(shuō)話人的的不同語(yǔ)言,開(kāi)發(fā)語(yǔ)音打斷功能面對(duì)非常大的技術(shù)挑戰(zhàn)。首先,系統(tǒng)根據(jù)電話環(huán)境建立回聲特性的模型,然后把對(duì)向外播放語(yǔ)音提示的回聲進(jìn)入信號(hào)中的消除掉。使用CSP,過(guò)去需要大量CPU處理資源的工作就大大減輕而把這部分工作被放在板卡上一個(gè)DSP來(lái)進(jìn)行處理,這樣可以高效的管理語(yǔ)音檢測(cè)。CSP被設(shè)計(jì)用來(lái)優(yōu)化基于主機(jī)的(host-based)語(yǔ)音識(shí)別資源例如運(yùn)行在主機(jī)上擁有很大詞匯庫(kù)的語(yǔ)音識(shí)別引擎(ASR)。 CSP使從語(yǔ)音板卡(analog, T-1/E-1,etc.)到主機(jī)處理器傳送)經(jīng)過(guò)預(yù)處理的語(yǔ)音數(shù)據(jù)流成為可能。

  CSP功能里面有幾個(gè)關(guān)鍵的功能,它們對(duì)我們討論過(guò)的應(yīng)用和市場(chǎng)段里起到關(guān)鍵的作用:

  • 回聲消除(Echo Cancellation,簡(jiǎn)稱EC) - 用于語(yǔ)音識(shí)別,IP電話,DTMF和音頻檢測(cè)技術(shù)。主要用來(lái)把外發(fā)的信號(hào)的回聲從進(jìn)入信號(hào)里面清除。
  • 全雙工操作 - 應(yīng)用程序可以在同一個(gè)通道上同時(shí)接受和發(fā)送語(yǔ)音數(shù)據(jù)。
  • 語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detector,簡(jiǎn)稱VAD) -檢測(cè)線路上是否有語(yǔ)音能量
  • 語(yǔ)音打斷(Barge-In) - 當(dāng)在某一個(gè)通道上檢測(cè)到語(yǔ)音能量,CSP可以被設(shè)置為自動(dòng)停止在那個(gè)通道上播放的提升語(yǔ)音。 這可以很快的中止提示音,接收用戶的輸入,從而提高識(shí)別的準(zhǔn)確度。 如果不很快地中止提示語(yǔ)音,用戶很可能口吃或者說(shuō)話不清晰,那也會(huì)影響識(shí)別的性能。
  • 語(yǔ)音事件通知 - 當(dāng)檢測(cè)到線路上語(yǔ)音能量,CSP可以在不停止當(dāng)前語(yǔ)音提示播放的時(shí)候給主機(jī)的處理器發(fā)出一個(gè)消息,語(yǔ)音識(shí)別的引擎可以做進(jìn)一步判斷以后停止提示音的播放。
  • 預(yù)緩沖(Pre-Speech Buffer) - 進(jìn)入的語(yǔ)音數(shù)據(jù)被存在一個(gè)250毫秒的緩沖區(qū)里。 當(dāng)檢測(cè)到語(yǔ)音能量,這一部分儲(chǔ)存在緩沖區(qū)里的語(yǔ)音就會(huì)被轉(zhuǎn)發(fā)到語(yǔ)音識(shí)別資源來(lái)被處理。這種預(yù)緩沖的里包含的關(guān)鍵信息在高識(shí)別準(zhǔn)確率要求的時(shí)候是十分關(guān)鍵的。
  • 統(tǒng)一的編程接口 (API) - 為了保證系統(tǒng)的可擴(kuò)展性,不同密度的底層硬件之上,應(yīng)用程序的編程接口必須要一樣。

CSP優(yōu)點(diǎn)

  如果我們?cè)谟蠧SP和沒(méi)有的兩種情況下對(duì)呼叫流程進(jìn)行一下比較,可以看到CSP的優(yōu)勢(shì)是很明顯的。在沒(méi)有CSP的系統(tǒng)里,主機(jī)不斷的針對(duì)所有激活狀態(tài)的通道,從DSP取數(shù)據(jù)。 這就消耗主機(jī)CPU很多資源,進(jìn)而影響系統(tǒng)性能。當(dāng)DSP不斷把語(yǔ)音包送到CPU,這種工作很可能占據(jù)90%到100%的CPU處理能力。而且,DSP還沒(méi)有辦法過(guò)濾掉無(wú)用的數(shù)據(jù)(例如沒(méi)有說(shuō)話的時(shí)間),這進(jìn)一步使系統(tǒng)性能下降。因此必須要安裝高性能處理平臺(tái)來(lái)彌補(bǔ)CPU的工作量。

  當(dāng)一個(gè)主叫方和一個(gè)有CSP的語(yǔ)音平臺(tái)進(jìn)行交互時(shí),整個(gè)過(guò)程中都是在播放提示語(yǔ)音。主叫方可以在提示音播放過(guò)程中任何時(shí)刻說(shuō)話,插入語(yǔ)音命令。這加快了語(yǔ)音菜單導(dǎo)航。后臺(tái)處理系統(tǒng)同樣高效。系統(tǒng)平臺(tái)只需要在有語(yǔ)音輸入的時(shí)候才交給主機(jī)進(jìn)行語(yǔ)音處理,這通常只占應(yīng)用程序10%到15%的處理時(shí)間。CSP利用DSP的VAD功能只把有語(yǔ)音的部分?jǐn)?shù)據(jù)交給主機(jī)來(lái)處理,節(jié)省了主機(jī)處理的資源。上面功能是利用板卡上DSP的檢測(cè)模塊來(lái)完成的。

  預(yù)處理緩沖區(qū)的說(shuō)明

  語(yǔ)音打斷功能是由板卡上的預(yù)處理緩沖區(qū)和語(yǔ)音能量檢測(cè)兩個(gè)模塊來(lái)實(shí)現(xiàn)的,把主機(jī)的CPU從連續(xù)數(shù)據(jù)處理的負(fù)擔(dān)中解脫出來(lái)。主機(jī)只有當(dāng)板卡產(chǎn)生一個(gè)事件例如檢測(cè)到語(yǔ)音以后才需要開(kāi)始工作。還有其它的好處。使主機(jī)CPU不再處理無(wú)用的數(shù)據(jù)可以減少系統(tǒng)負(fù)荷,這也是系統(tǒng)可以擴(kuò)大到幾百個(gè)端口。 還有,預(yù)處理緩沖區(qū)為應(yīng)用程序開(kāi)發(fā)者提供了更高的可靠性和準(zhǔn)確度。

  擁有語(yǔ)音打斷的語(yǔ)音系統(tǒng)會(huì)把去除回聲后的數(shù)據(jù)打成很小的包(小于100毫秒)從語(yǔ)音板卡發(fā)到主機(jī)上的語(yǔ)音識(shí)別引擎。這樣做可以使主叫方語(yǔ)音的檢測(cè)和確認(rèn)花更少的時(shí)間,達(dá)到更高識(shí)別的準(zhǔn)確度?蛻粢矔(huì)感覺(jué)系統(tǒng)很友好,因?yàn)樗麄円徽f(shuō)話系統(tǒng)就停止播放提示語(yǔ)音了。

  選擇很明確:在板卡上做預(yù)處理緩沖區(qū)而不是把所有語(yǔ)音檢測(cè)都放到主機(jī)上,在今天要求可擴(kuò)展性和高密度的系統(tǒng)中是必需的。

Recognizing the Benefits

  Internet的成功和電子商務(wù)的增長(zhǎng)為語(yǔ)音技術(shù)創(chuàng)建了新的機(jī)會(huì),也提出了新的需求,這些新的需求只能用類似CSP這樣的語(yǔ)音處理結(jié)構(gòu)來(lái)實(shí)現(xiàn)。除了結(jié)構(gòu),CSP也提供了關(guān)鍵的優(yōu)點(diǎn),應(yīng)用程序開(kāi)發(fā)商可以開(kāi)發(fā)新的功能投入市場(chǎng)。

  準(zhǔn)確度

  CSP提供很多功能類似語(yǔ)音打斷,預(yù)處理緩沖區(qū),回聲消除增加了客戶的滿意度,他們不會(huì)有過(guò)去的體驗(yàn)過(guò)的關(guān)于語(yǔ)音技術(shù)的不好的感受。背景音,靜電和不好的線路質(zhì)量利用環(huán)境噪音閥值被減輕或者消除了。這究使這個(gè)平臺(tái)可以被應(yīng)用到任何電話環(huán)境,給開(kāi)發(fā)者提供進(jìn)入不同市場(chǎng)的堅(jiān)實(shí)的基礎(chǔ)。

  密度/可擴(kuò)展性

  CSP提供4到120路不同的密度。因?yàn)楹芏嗾Z(yǔ)音識(shí)別需要的關(guān)鍵模塊在板上被支持了,減少主機(jī)CPU處理連續(xù)語(yǔ)音數(shù)據(jù)的負(fù)荷。當(dāng)在一臺(tái)機(jī)箱里面插多塊高密度板卡,這個(gè)系統(tǒng)可以輕松擴(kuò)展到幾百線。

  節(jié) 約

  CSP節(jié)省了實(shí)施費(fèi)用和運(yùn)營(yíng)費(fèi)用。因?yàn)檎Z(yǔ)音門(mén)戶和網(wǎng)上消息應(yīng)用都是在共享的主機(jī)上,空間的考慮是很重要的。高密度的系統(tǒng)可以運(yùn)行在一臺(tái)機(jī)箱里就可以減少系統(tǒng)所需的空間。

  而且,板卡級(jí)模塊使昂貴的主機(jī)平臺(tái)不是必須。使用比較便宜的處理器就可以達(dá)到可接受的性能。從運(yùn)營(yíng)費(fèi)用來(lái)考慮,使用了類似語(yǔ)音打斷,回聲消除和預(yù)處理緩沖區(qū),減少了呼叫的時(shí)間,單位時(shí)間內(nèi)能接入的電話就增加了。

  應(yīng)用提供商也需要考慮到節(jié)約。訪問(wèn)帶有語(yǔ)音功能的應(yīng)用大多是免費(fèi)電話。如果每個(gè)呼叫的時(shí)間可以縮短,電話費(fèi)也會(huì)相應(yīng)減少。

  最重要的優(yōu)點(diǎn)就是改進(jìn)了客戶的服務(wù)。獲得新客戶是昂貴的。利用CSP提供能輕松導(dǎo)航和高準(zhǔn)確度,你可以更好的留住你現(xiàn)有的客戶,同時(shí)把你的時(shí)間和精力放在尋找新的有利潤(rùn)的服務(wù)上來(lái)吸引新的客戶。

  性能提高

  CSP提供了別的電話平臺(tái)沒(méi)有的高性能。語(yǔ)音打斷是任何一個(gè)語(yǔ)音導(dǎo)航系統(tǒng)中的關(guān)鍵成分。讓用戶可以有一個(gè)與計(jì)算機(jī)的對(duì)話是用戶有更舒適的體驗(yàn)。如果沒(méi)有語(yǔ)音打斷,用戶會(huì)覺(jué)得他們被系統(tǒng)所控制而感覺(jué)不舒服。 語(yǔ)音打斷的準(zhǔn)確度也是很關(guān)鍵的。一些系統(tǒng)會(huì)被背景噪音或者其它非語(yǔ)音時(shí)間所打斷。 使用者就會(huì)繼續(xù)等待系統(tǒng)的提示選項(xiàng)盡管這時(shí)候系統(tǒng)已經(jīng)被不真實(shí)的語(yǔ)音所打斷。高級(jí)的系統(tǒng)都會(huì)使用負(fù)載的語(yǔ)音檢測(cè)模塊避免不小心的輸入打斷語(yǔ)音提示。如果這種高級(jí)的系統(tǒng)沒(méi)有硬件的幫忙,大量的主機(jī)處理能力都這些前端處理所耗費(fèi)了,最終將影響到系統(tǒng)的密度和性能。

  CSP使使用者感覺(jué)更好。板卡上的語(yǔ)音檢測(cè)模塊和預(yù)處理緩沖區(qū)使板卡級(jí)的模塊可以過(guò)濾提交給主機(jī)CPU的數(shù)據(jù)流。只有語(yǔ)音說(shuō)話被檢測(cè)和獲得。因此,CPU的負(fù)荷很小,語(yǔ)音事件更加準(zhǔn)確發(fā)給識(shí)別軟件。 最終的結(jié)果就是更高的識(shí)別率和滿意的客戶。

Will Your Voice Be Heard?

  如果你希望提供先進(jìn)的語(yǔ)音處理應(yīng)用,你應(yīng)該使用連續(xù)語(yǔ)音處理平臺(tái)。CSP提供業(yè)界對(duì)下一代語(yǔ)音應(yīng)用如語(yǔ)音門(mén)戶和網(wǎng)上消息提供了最好的支持。

**Frost and Sullivan, "Speech Recognition," April, 2000, p. 31.
00-6556-002
02-23-01



融合通信專欄>>技術(shù)開(kāi)發(fā)>>

 
 


相關(guān)鏈接:
科大訊飛構(gòu)筑語(yǔ)音技術(shù)領(lǐng)域的核心競(jìng)爭(zhēng)優(yōu)勢(shì) 2003-09-19
捷通華聲“颶風(fēng)行動(dòng)”降低語(yǔ)音應(yīng)用門(mén)檻 2003-08-04
基于MSTTS的網(wǎng)絡(luò)通信應(yīng)用開(kāi)發(fā) 2003-08-04
語(yǔ)音應(yīng)用客戶滿意度調(diào)研 2003-07-29
Nuance Voice Platform - NVP 2.0語(yǔ)音平臺(tái) 2003-07-22

分類信息:  語(yǔ)音合成TTS_與_語(yǔ)音識(shí)別ASR     文摘   技術(shù)_語(yǔ)音合成_文摘   技術(shù)_語(yǔ)音識(shí)別_文摘