CTI論壇(ctiforum.com) (編譯/老秦): “任何傻瓜都知道。重點是要了解。”- 艾爾伯特愛因斯坦
人工智能 (AI) 幫助實現(xiàn)聯(lián)絡中心未來的多種方式令人興奮。而且,由于 COVID-19 最初幾個月推動的數(shù)字化采用,如果這個未來現(xiàn)在還沒有發(fā)生,那么它指日可待。
但是,無論聯(lián)絡中心 AI (CCAI) 發(fā)展得多么迅速,重要的是要了解它仍然與一個容易被忽視的因素--轉錄準確性--聯(lián)系在一起。而且,對于那些負責投資客戶服務 AI 未來的人來說,了解原因至關重要。
為了理解我們所說的意思,機器需要知道我們正在說的是什么
與愛因斯坦的 POV 相反,機器理解語音的能力確實歸結為它們準確知道所說內容的能力;蛘,更具體地說,自然語言理解 (NLU) 完全取決于給定 AI 轉錄構成人類語音的不同音高、口音、噪音和方言的能力。
而且,要在現(xiàn)代化聯(lián)絡中心中有所作為,需要實時了解所說的內容。
輸入轉錄引擎,傳統(tǒng)上,這些引擎有單獨的聲學、發(fā)音和語言模型,每個模型都是單獨訓練的。讓這些模型協(xié)同工作需要大量的時間和精力。傳統(tǒng)的轉錄引擎難以調整并且提供相對較低的轉錄準確度。然而,轉錄架構在過去十年中發(fā)展迅速。
當今一流的語音引擎使用統(tǒng)一和優(yōu)化音頻和語言建模的端到端 (E2E) 模型。以這種方式轉錄的文本現(xiàn)在通過多個 NLP 管道進行處理,同步工作以生成結構化數(shù)據(jù)。然后,NLU 系統(tǒng)會解釋這些數(shù)據(jù),以更好地理解所講內容的意圖、目標和突出部分。
具有諷刺意味的是,這種現(xiàn)代架構比它的前輩更簡單、更準確。而且,也許最重要的是,E2E 轉錄引擎也更容易根據(jù)客戶特定的數(shù)據(jù)進行微調。特別是在聯(lián)絡中心內,這意味著他們的轉錄準確性會隨著品牌和特定產(chǎn)品客戶交互的培訓而迅速提高。 E2E 正迅速成為現(xiàn)代轉錄引擎的黃金標準,也是我們在Cresta使用的方法。
但這讓我們回到了最初的觀點--像Cresta所使用的那樣出色的自然語言理解 (NLU) 僅與它所提供的結構化數(shù)據(jù)一樣好,這與轉錄的質量一樣好。
這意味著(反過來)實時指導幫助座席幫助客戶的能力與其轉錄引擎的準確性有關。正如非常非愛因斯坦的諺語所說,“Garbage in, garbage out”。
測量轉錄準確度的行業(yè)標準
好的,那么我們如何定義"好的"轉錄準確度是什么?這是一個簡單的問題,但回答起來有點復雜。
讓我們從單詞錯誤率 (WER) 開始,這是衡量語音到文本能力轉錄準確性的行業(yè)標準。 WER 的計算方法是對一段轉錄文本中的替換、插入和刪除進行總計,然后將該數(shù)量除以實際說出的單詞數(shù)。而且,與大多數(shù)技術一樣,隨著提供語音到文本的平臺逐年改進,它們各自的 WER 下降。
例如,2018 年,領先的語音轉文本平臺之一的 WER 約為 30%。到 2020 年,他們的估計平均值下降到 27%。到 2021 年,也就是一年后,另一項估計將相同的 WER 定為 12%。因此,隨著轉錄引擎的改進,"良好的轉錄準確性"的定義將保持不變。作為參考,今天的"現(xiàn)成"語音到文本產(chǎn)品(例如亞馬遜、谷歌、IBM Watson)的平均 WER 為 25%。

重要的是要注意,就像 NLU 的"Garbage in, garbage out",WER 測量在很大程度上受到訓練數(shù)據(jù)質量的影響。對于許多企業(yè)而言,針對特定業(yè)務術語的 WER 將比針對通用語言的 WER 重要得多。這就是為什么可調性如此重要的原因。
Cresta在現(xiàn)代轉錄引擎中尋找什么
綜上所述,有很多方法可以衡量現(xiàn)代轉錄引擎的質量。因此,舉例來說,除了我們自己的工程師在Cresta的轉錄引擎方面優(yōu)先考慮的轉錄準確性之外,還有以下三個主要標準:
1. 可定制性
對于聯(lián)絡中心應用程序,自定義和調整轉錄引擎的能力至關重要。每個企業(yè)都不同,快速調整轉錄模型以準確檢測品牌特定語言對于有效的人工智能驅動功能是必須的。這樣做,可以顯著提高特定客戶的 WER。Cresta的專有轉錄方法使我們的團隊能夠為每個客戶快速創(chuàng)建自定義轉錄模型。
2. 實時
延遲對于實時聯(lián)絡中心應用程序中使用的轉錄引擎至關重要。這是因為最初的(即非最終的)成績單首先浮出水面,然后隨著更多上下文的收集進行調整以變得更加準確。某些音頻片段的最終結果可能比最初的猜測(100ms 到 500ms)需要更長的時間(500ms 到 2s 甚至更長)。延遲是Cresta實時架構的核心,允許我們在對話展開時向座席和經(jīng)理呈現(xiàn)高度準確的轉錄。
3. 可集成性
最后但并非最不重要的一點是可集成性。一流的轉錄引擎可以接收來自許多不同來源的音頻流,包括 SIPREC、Amazon Connect、直接來自座席桌面等。而且隨著音頻系統(tǒng)的不斷發(fā)展,特別是隨著向CCaaS和UCaaS的轉變,快速且簡單的集成至關重要?紤]到這一點,Cresta旨在快速集成到云和混合環(huán)境中,幫助我們兌現(xiàn)我們的承諾,即充當客戶對話的真正智能層。
轉錄準確性和聯(lián)絡中心 AI 的未來
那么轉錄引擎的未來會怎樣呢?在未來的某個時候,聯(lián)絡中心人工智能能否實現(xiàn)完美的轉錄準確性?可能不是。由于語言本身在不斷地適應和發(fā)展,即使是人工轉錄服務也無法保持 100% 的準確率。
但 100% 的準確率并不是重點。在Cresta,我們相信 AI 的真正力量在于使用它來協(xié)助勞動力,而不是追求自動化。這意味著提供有效的實時指導和生產(chǎn)力能力,幫助座席提供有影響力的客戶體驗。
聲明:版權所有 非合作媒體謝絕轉載
原文網(wǎng)址:https://cresta.com/blog/transcription-is-critical-to-contact-center-ai/