VOI611 離線語音模塊測試規(guī)范

本標準規(guī)定了VOI611語音模組識別效果及性能測試的術語、定義、測試相關說明(包括測試技術要求、測試指標、測試項目、測試內(nèi)容、測試設備和測試環(huán)境)、測試方法、步驟、以及測試結果報告。


1.測試內(nèi)容



module_a

2.測試要求


2.1 約束與限制

VOI611語音模組默認語音輸入滿足以下準則:

  • 輸入語音為普通話
  • 語音輸入為120字/min~300字/min, 單次語音輸入時長不超過30s
  • 發(fā)音單元的持續(xù)時間大于或等于0.2s, 發(fā)音單元間隔時間不超1s,如果停頓時間超過1s,則認為一次語音輸入結果

2.2 測試語料要求

語料庫中發(fā)音人的選擇應該在符合系統(tǒng)對發(fā)音人限制的條件下,選擇具有代表性和統(tǒng)計分布規(guī)律的發(fā)音人,應該考慮不同性別、不同語速、不同教育背景、不同發(fā)音韻律等因素。且必須滿足如下基本要求:

  • 普通話喚醒詞語料至少包括男女各50名及以上發(fā)音人
  • 普通話識別率測試語料至少包括男女各30名及以上發(fā)音人
  • 中文標準普通話要求在二級乙等及以上

這部分語音,我們稱為基本樣本集。
選擇測試語音后,所有待測的語音需要進行音量標準化處理。

2.3 測試設備要求

2.3.1 測試房間的要求

  • 房間大?。?6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
  • 混響時間:0.2s<混響時間<0.7s (頻率125Hz~8kHz)
  • 底噪:<30dBSPL(A)

2.3.1 音頻采樣設備的要求

圖1 - 音頻采樣設備要求
module_a

圖2 - 傳聲器的參數(shù)要求
module_a

圖3 - 音頻回放設備的要求
module_a

圖4- 聲壓計的要求
module_a

2.4 測試場景設計

如產(chǎn)品需求中對場景無特殊要求, 根據(jù)產(chǎn)品的應該場景可按如下的典型環(huán)境噪聲進行測試環(huán)境的布置

2.4.1 家居環(huán)境

家居環(huán)境包含臥室環(huán)境、 客廳環(huán)境、 廚房環(huán)境、 衛(wèi)浴環(huán)境、 陽臺環(huán)境等

噪聲
測試場景采用真實家居環(huán)境噪聲或模擬家居的環(huán)境噪聲, 分為低噪和高噪環(huán)境, 要求噪音頻譜保持穩(wěn)定且噪聲與命令詞無類似發(fā)音

圖5- 典型的家居環(huán)境噪聲
module_a

遠近場距離要求

  • 近場: 1 米及以下
  • 遠場: 默認為 3 米

2.4.2 車載環(huán)境

車載環(huán)境為車內(nèi)空間, 包含車輛行駛和熄火狀態(tài)、 開窗及關閉狀態(tài)等

噪聲

圖7- 典型的車載環(huán)境噪聲
module_a

距離要求

  • 若產(chǎn)品安于頂燈位置, 拾音與聲源距離應為 40cm
  • 若產(chǎn)品安于中控臺, 拾音與聲源距離為 70cm
  • 若產(chǎn)品安于其它位置, 根據(jù)需求來確定距離

2.5 其它特定的環(huán)境

其它環(huán)境下的測試如下表所示。 根據(jù)產(chǎn)品需要, 可適當進行裁剪

圖8- 其它場景
module_a

2.6 測試方法

2.6.1 基于語料庫的自動測試方法

根據(jù)測試要求, 構建不同的測試場景, 通過人工嘴把測試集中的語音輸出到被測設備, 電腦根據(jù)識別結果自動進行結果分析和統(tǒng)計, 在測試前需要注意以下內(nèi)容:

測試設備的擺放

  • 播放語音的人工嘴根據(jù)測試要求放置于測試房間的相應位置
  • 播放噪聲的音響放置于被測設備前方 1m 斜 135 度

圖9- 測試場景示意圖
module_a

被測設備的 MIC 正對著位于 90 度的播放語音的音響方向
需要注意:

  • 人工嘴或音響四周與墻面的距離均>=0.5m
  • 被測語音模塊四周與墻面的距離均>=0.5m

測量和調(diào)節(jié)環(huán)境聲壓

  • 使用聲壓計的方法: 選擇聲壓計的"slow"/"A"檔位, 手持聲壓計, 將聲壓計的探頭靠近被測設備的麥克風陣列的中心處進行測試。 讀取底噪或穩(wěn)態(tài)噪聲聲壓時, 聲壓計的讀數(shù)穩(wěn)定至少需要 10s 及以上。 讀取語音聲壓時, 聲壓計的讀數(shù)取播放這段語音時的最大值
  • 調(diào)節(jié)人工嘴/音響播放的聲壓: 確保測試環(huán)境內(nèi)無其它音源。 令電腦系統(tǒng)音量為最小值, 設置音響音量控制為最大值的 75%, 設置電腦上播放器音量為最大。 之后播放音頻文件,調(diào)節(jié)電腦音量直到聲壓計讀數(shù)達到預期值。 記錄電腦系統(tǒng)的音量值

2.6.2 語音喚醒及命令詞識別率測試

據(jù)測試場景搭建測試環(huán)境后, 將被測試設備調(diào)至待命狀態(tài), 使用人工嘴、 音響在相應距離下播放測試語音和噪聲。 根據(jù)被測試設備串口的輸出信息, 記錄不同噪聲環(huán)境下是否能給出正確響應, 分別統(tǒng)計低噪環(huán)境和高噪環(huán)境下喚醒正確率

圖10- 典型安靜環(huán)境下喚醒識別測試示意圖
module_a

2.6.3 誤喚醒頻度測試

放置音響于被測設備前方斜 45 度 1m 處。 根據(jù)被測試設備串口的輸出信息, 記錄 8 小時靜音、 8 小時播放電視、 8 小時連續(xù)的人聲負樣本情況下板卡是否有響應信息, 統(tǒng)計 24 小時被測設備被喚醒的次數(shù), 得到誤喚醒頻度值。

2.6.4 響應時間及實時系數(shù)測試

放置人工嘴于被測設備正前方 1m, 在被測設備旁放置并開啟錄音設備。
在安靜和噪聲環(huán)境下, 使用人工嘴喚醒詞條和命令詞各播放 10 條語音。

圖11- 響應時間及實時系數(shù)測試環(huán)境示意圖
module_a

分析錄音設備錄制的文件, 記錄一次識別過程中的發(fā)音時間 Ts、 發(fā)音結束時間 Te、 識別結果時間 Tr。 如下圖。 計算各個詞的響應時間= Tr-Te, 平均實時系數(shù)= (Tr-Ts)/(Te-Ts)

圖12- 實時系數(shù)計算示意圖
module_a

2.6.4 現(xiàn)場口呼的測試

現(xiàn)場口呼測試的結果包括喚醒率、 命令詞識別率、 平均意見得分。
測試要求:

  • 選擇 6 個發(fā)音人, 要求: 標準普通話, 18-60 歲之間, 男女各一半。
  • 在測試環(huán)境中進行測試。
  • 每個測試發(fā)音人需要朗讀所有的喚醒詞和命令詞至少 2 遍。
  • 需要 2 個以上識別結果記錄者, 記錄被測設備對當前發(fā)音的輸出結果。 (記錄表包括發(fā)音人、 記錄人、 操作人、 監(jiān)督人、 發(fā)音內(nèi)容、 語音識別結果等)
  • 全部發(fā)音人測試結束后, 統(tǒng)一按照運行過程流暢性進行主觀的指標評估。 (評估至少有 2人以上參與)

2.7 測試結果要求

2.7.1 包含的內(nèi)容

測試報告中應包括下述指標的測試結果

  • 語音喚醒正確率
  • 語音喚醒誤喚醒頻度
  • 命令詞識別率
  • 離線平均響應系數(shù)
  • 口呼測試中對識別結果和運行過程流暢性的平均意見得分(滿分 5 分)

2.7.2 語音識別指標要求

如果在產(chǎn)品需求中無特殊說明, 應滿足如下要求:

家居類產(chǎn)品語音識別要求:

  • 遠場低噪家居環(huán)境下, 喚醒成功率應大于或等于 95%, 誤喚醒頻度應小于或等于 0.2 次/h,命令詞識別正確率應大于或等于 90%
  • 遠場高噪家居環(huán)境下, 喚醒成功率應大于或等于 90%, 誤喚醒頻度應小于或等于 0.2 次/h,命令詞識別正確率應大于或等于 85%
  • 響應時間小于 2s 且實時系數(shù)不大于 1.5
  • 語音識別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
  • 1m 距離下, 信噪比>20db 的條件下喚醒率應不低于 98%, 誤喚醒頻度不應高于 0.1 次/h, 命令詞識別正確率大于或等于 95%

車載識別結果要求:

  • 場景一的喚醒率應不低于 95%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 90%
  • 場景二的喚醒率應不低于 92%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 88%
  • 場景三的喚醒率應不低于 90%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 85%
  • 響應時間小于 2s 且實時系數(shù)不大于 1.5
  • 語音識別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
  • 1m 距離下, 信噪比>20db 的條件下喚醒率應不低于 98%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 95%

其它環(huán)境下識別結果要求(針對在 2.5 章節(jié)的環(huán)境下進行的測試):

  • 喚醒率應不低于 90%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 85%
  • 響應時間小于 2s 且實時系數(shù)不大于 1.5
  • 語音識別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。