首頁>>廠商>>語音識別與合成>>得意音通

"得意關(guān)鍵詞檢出器"API

2003/11/24

  "得意關(guān)鍵詞檢出器"技術(shù)是一種自動語音識別(ASR)技術(shù)。它應用于一些具有特定要求的場合, 由于速度、高檢出率或其他特定的要求,人們并不需要系統(tǒng)識別出整個句子,更不需要理解整個句子,而只關(guān)注那些包含特定詞(稱為"關(guān)鍵詞")的句子。比如,對一些特殊人名、地名和詞語進行電話監(jiān)聽,又比如通過人名進行自動分機接駁服務,等等。

  根據(jù)一些應用的特殊需要,關(guān)鍵詞檢出器有一些有別于其他自動語音識別的地方。包括:
 。1) 有的應用需要限定或假設一個句子只能含有一個關(guān)鍵詞(如自動分機接駁),而有的應用則不希望有這樣的限定(如電話監(jiān)聽)。
 。2) 有的應用希望"寧錯勿漏"( 如電話監(jiān)聽),而有的應用則希望"寧漏勿錯"(如自動分機接駁)。關(guān)鍵詞集內(nèi)的詞沒有被檢出,稱為"漏識",而關(guān)鍵詞集外的詞識別成一個集內(nèi)詞,稱為"誤警"或"虛報"。 對一個特定的關(guān)鍵詞檢出器,漏識率和誤警率兩者不可能同時達到其最低點。因而相對于其他語音識別器,關(guān)鍵詞檢出器需要在漏識率和誤警率之間找到需要的平衡點,稱為"操作點"。

  "得意關(guān)鍵詞檢出器"的應用編程接口(API)有如下的特征:

  (1) 非特定人。得意關(guān)鍵詞檢出器對不同人的說話有一定的適應能力,不管是誰,只要說的是標準普通話即可,帶一些輕微的口音沒有任何影響。
  (2) 詞表可隨意定制。開發(fā)者可以利用API接口,方便地提供詞表定制工具,使得使用者無需具備專業(yè)知識就可以方便地定義自己的詞表;對新定義的詞表,系統(tǒng)無需重新訓練,立刻可以使用。
  (3) 句中關(guān)鍵詞個數(shù)可以設定。開發(fā)者可以根據(jù)具體的應用情況,方便地指定一句話中僅含一個關(guān)鍵詞(只報出最可能的關(guān)鍵詞),還是允許多個關(guān)鍵詞(檢出多少關(guān)鍵詞就報多少)。
 。4) 良好的拒識性能。利用性能良好的拒識功能,檢出器將根據(jù)具體情況報出所檢出關(guān)鍵詞,不會因使用者設定的句子中可以含有的關(guān)鍵詞數(shù)目而強行虛報。
 。5) 得意關(guān)鍵詞檢出器具有很低的漏識率和很低的誤警率。
 。6) 操作點易于調(diào)整。開發(fā)者可以根據(jù)具體應用需要,方便地設定操作點,以在漏識率和誤警率之間達到很好的平衡。


  (7) 得意關(guān)鍵詞檢出器利用很好的通道歸一技術(shù)可以在各種不同的信道(如固定電話或手機)中使用,而不影響其性能。
 。8) 得意關(guān)鍵詞檢出器聲學模型所需存儲<40MB。
  應用舉例:"得意智能語音總機"產(chǎn)品

  得意智能語音總機是利用得意關(guān)鍵詞檢出器的API開發(fā)出來的一個具體應用。具體技術(shù)設定為:
 。1) 詞表為人名,并附帶分機號碼信息。
  (2) 每句話中最多含一個關(guān)鍵詞。
 。3) 操作點靠近低誤警率一端。

  一個實際應用范例如下。
  下表是由某公司人事部門的管理人員輸入的用戶詞表:


  修改完畢后,得意智能語音總機的內(nèi)部詞表編譯器將自動把上述詞表轉(zhuǎn)換成內(nèi)部詞表。轉(zhuǎn)換過程主要用拼音標出每個姓名的發(fā)音,同時對一人多名和多人同名進行檢查。當有多人同名并且沒有"確認信息"或確認信息不能分出這些人時,內(nèi)部詞表編譯器將提示管理人員輸入可以互相區(qū)分這些人的確認信息。在發(fā)生重名時,確認信息用以與用戶進行對話以便確認要找的人。
  對話示例:
  a. 系統(tǒng):請于嗶聲后說出要找的人的姓名,按?邕^該提示,按0進入人工服務…嗶…
  b. 用戶:你好,我找張總。
  c. 系統(tǒng):轉(zhuǎn)接張三,請稍后… [轉(zhuǎn)接1001分機]。
  a. 系統(tǒng):請于…
  b. 用戶:[按#]
  c. 系統(tǒng):嗶
  d. 用戶:王…王五在嗎?
  e. 系統(tǒng):轉(zhuǎn)接王五,請稍后…[轉(zhuǎn)接1003分機]。
  a. 系統(tǒng):請于…
  b. 用戶:[按#]
  c. 系統(tǒng):嗶
  d. 用戶:麻煩你給我轉(zhuǎn)接李四先生。
  e. 系統(tǒng):請問你找市場部的還是財務部的?
  f. 用戶:市場部的李四!咀ⅲ河捎谙到y(tǒng)已經(jīng)自動轉(zhuǎn)換為用戶確認詞表,因此不會檢出"李四"!
  g. 系統(tǒng):轉(zhuǎn)接市場部李四,請稍后…[轉(zhuǎn)接1002]。
  a. 系統(tǒng):請于…
  b. 用戶:[按#]
  c. 系統(tǒng):嗶
  d. 用戶:請接張山。
  e. 系統(tǒng):如果您是找張三,按1;按#可重說;按0可轉(zhuǎn)人工服務
  f. 用戶:[按1]。
  g. 系統(tǒng):轉(zhuǎn)接張三,請稍后…[轉(zhuǎn)接1001]。

  應用舉例:"得意導航員"產(chǎn)品

  利用得意關(guān)鍵詞API,可以設計一個用聲音對Windows操作系統(tǒng)進行"發(fā)號施令"的"得意導航員"產(chǎn)品。在這里,用戶只需口呼命令就可以直接控制Windows,如口呼"我的電腦"、"打開字處理(即Word)"等可以打開相應的資源或應用,而且應用程序運行后,導航系統(tǒng)可以自動提取那些當前活動的菜單項,甚至是活動菜單的隱藏菜單子項,供用戶口呼使用。這個過程是自動的,是對用戶透明的。
  與利用得意命令SDK開發(fā)的語音命令導航員不同,得意導航員允許用戶的命令更靈活,可以夾雜一些其他的字詞。

得意音通公司供稿 CTI論壇編輯



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺項目中標 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗中心對《海量語音文件的目標說話人篩選系統(tǒng)》進行測試 2009-06-25
廣東政府和清華大學舉行了全面開展產(chǎn)學研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     技術(shù)_語音識別_解決方案