首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產品


ASR:“說得出做得到”

——語音識別技術正在走進大眾生活

陳青松

  愛看科幻電影的朋友恐怕都不會忘記,在影片中常常有以聲控方式來操縱汽車、電腦及一切電器的情節(jié),而現(xiàn)在人們依靠電腦電話整合系統(tǒng)CTI(ComputerTelephoneIntegration)技術已經讓這些科學幻想走向現(xiàn)實。例如,當你對著某品牌手機直呼某人姓名時,就可以自動撥通對方的電話;三菱汽車推出的Galant車款,駕駛員也可透過聲控來操作音響等設備。

  所謂“電腦電話整合系統(tǒng)”CTI,其實就是我們熟悉的“電話語音系統(tǒng)”。在通訊日漸發(fā)達的日常生活中,CTI已到了無所不在的地步。打電話到車站訂票、到醫(yī)院掛號,接聽電話語音廣告,銀行的查帳、國際長途通訊的網(wǎng)絡電話等等,這些都是CTI領域下的產品。而這些產品,若繼續(xù)延伸到新的發(fā)展趨勢,除了網(wǎng)絡電話的發(fā)展模式較為獨立之外,語音辨識和自動話務系統(tǒng)兩者將會是未來市場的主流。

  CTI的核心技術就是電腦語音辨識系統(tǒng)的應用。電腦語音辨識系統(tǒng)可分為二種:一是個人使用;二是大眾服務。個人使用的語音辨識系統(tǒng)在技術上較容易實現(xiàn),如IBM等公司開發(fā)的語音輸入法已在市場上銷售。這種個人用的語音辨識系統(tǒng)具有幾個特點:一是產品使用者單一,二是詞匯簡易,三是電腦學習使用者語音特點的機會多。此類產品目前能夠走向市場化,主要是因為他們采取的是“片語式”辨識,藉由特定詞匯、片語,電腦很容易學習和熟悉這些指令;同時,操作者的多半是某個固定的使用者,只要經過多次的練習,電腦可以很快地熟悉這些特定的發(fā)音和語句。

  另一種供大眾使用的語音辨識系統(tǒng),如:用于大型電腦服務需求的金融機構、電信公司、航空和鐵路等部門的自動話務系統(tǒng)(CallCenter),其技術層次較高,目前國內這類產品投入商業(yè)應用的極少。這主要是由于目前的語音辨識系統(tǒng)至多只能做到“條件式”的階段(注:“條件式”語音辨識,是指電腦在有限的條件下,才可以執(zhí)行的聲音指令。)

  當然要達到無所不識的“自然語音辨識”水平還是一個長遠的目標,預計可能還要幾年的時間才有可能成熟。其中的技術“瓶頸”關鍵在于語言的千變萬化。語言當中的聲紋和語意的分析,可說是對電腦的兩項極大的挑戰(zhàn)。

  在聲紋方面,電腦接收聲音的環(huán)境必須很單純,而在人類語言當中,夾雜了太多的同音、相似音和腔調,光是數(shù)字“一”和“七”的發(fā)音就容易混淆;相較于聲紋的掌控,語意分析對電腦程序設計人員更是一大挑戰(zhàn)。一個人若不是照著規(guī)矩講話,可能會造成電腦的誤判和混淆,而一句話的意思該怎么表達,不同人往往有不同的習慣。

  除了上述兩種問題之外,還可能出現(xiàn)速度問題。有些人說話速度快,有些人說話速度慢,而電腦在處理各種南腔北調時,如何在最短時間內辨識出其中語意,將會是非常重要的一環(huán)。

  為了解決語音問題,業(yè)界最普遍的做法,就是針對某一行業(yè)某個領域,依賴歸納法,搜集大量的專有詞匯及語法,進行分類歸納后,儲存在電腦中用來在以后辨識中應用。目前解決這些技術難題較成功的有美國Nuance公司,據(jù)稱其語音辨識系統(tǒng)已達到了97%的效果,但中文的辨識能力有多高,目前還在評估之中,F(xiàn)在許多國際大廠商,如IBM、英特爾和西門子等都在這方面積極開拓,可以相信不久的將來,語音辨識系統(tǒng)的應用將會更加大眾化,讓人們的生活更加隨“語”所欲。

 



相關鏈接:
主要語音引擎及開發(fā)工具 2002-01-30
聲揚語音識別系列開發(fā)工具 2002-01-30
IBM ViaVoice語音軟件開發(fā)工具 2002-01-30
語音識別的應用前景 2002-01-30
語音識別技術的發(fā)展趨勢 2002-01-30

分類信息:     技術_語音識別_文摘