VOI611 離線語音模塊測試規(guī)范
本標準規(guī)定了VOI611語音模組識別效果及性能測試的術語、定義、測試相關說明(包括測試技術要求、測試指標、測試項目、測試內(nèi)容、測試設備和測試環(huán)境)、測試方法、步驟、以及測試結果報告。
1.測試內(nèi)容

2.測試要求
2.1 約束與限制
VOI611語音模組默認語音輸入滿足以下準則:
- 輸入語音為普通話
- 語音輸入為120字/min~300字/min, 單次語音輸入時長不超過30s
- 發(fā)音單元的持續(xù)時間大于或等于0.2s, 發(fā)音單元間隔時間不超1s,如果停頓時間超過1s,則認為一次語音輸入結果
2.2 測試語料要求
語料庫中發(fā)音人的選擇應該在符合系統(tǒng)對發(fā)音人限制的條件下,選擇具有代表性和統(tǒng)計分布規(guī)律的發(fā)音人,應該考慮不同性別、不同語速、不同教育背景、不同發(fā)音韻律等因素。且必須滿足如下基本要求:
- 普通話喚醒詞語料至少包括男女各50名及以上發(fā)音人
- 普通話識別率測試語料至少包括男女各30名及以上發(fā)音人
- 中文標準普通話要求在二級乙等及以上
這部分語音,我們稱為基本樣本集。
選擇測試語音后,所有待測的語音需要進行音量標準化處理。
2.3 測試設備要求
2.3.1 測試房間的要求
- 房間大?。?6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
- 混響時間:0.2s<混響時間<0.7s (頻率125Hz~8kHz)
- 底噪:<30dBSPL(A)
2.3.1 音頻采樣設備的要求




2.4 測試場景設計
如產(chǎn)品需求中對場景無特殊要求, 根據(jù)產(chǎn)品的應該場景可按如下的典型環(huán)境噪聲進行測試環(huán)境的布置
2.4.1 家居環(huán)境
家居環(huán)境包含臥室環(huán)境、 客廳環(huán)境、 廚房環(huán)境、 衛(wèi)浴環(huán)境、 陽臺環(huán)境等
噪聲
測試場景采用真實家居環(huán)境噪聲或模擬家居的環(huán)境噪聲, 分為低噪和高噪環(huán)境, 要求噪音頻譜保持穩(wěn)定且噪聲與命令詞無類似發(fā)音

遠近場距離要求
- 近場: 1 米及以下
- 遠場: 默認為 3 米
2.4.2 車載環(huán)境
車載環(huán)境為車內(nèi)空間, 包含車輛行駛和熄火狀態(tài)、 開窗及關閉狀態(tài)等
噪聲

距離要求
- 若產(chǎn)品安于頂燈位置, 拾音與聲源距離應為 40cm
- 若產(chǎn)品安于中控臺, 拾音與聲源距離為 70cm
- 若產(chǎn)品安于其它位置, 根據(jù)需求來確定距離
2.5 其它特定的環(huán)境
其它環(huán)境下的測試如下表所示。 根據(jù)產(chǎn)品需要, 可適當進行裁剪

2.6 測試方法
2.6.1 基于語料庫的自動測試方法
根據(jù)測試要求, 構建不同的測試場景, 通過人工嘴把測試集中的語音輸出到被測設備, 電腦根據(jù)識別結果自動進行結果分析和統(tǒng)計, 在測試前需要注意以下內(nèi)容:
測試設備的擺放
- 播放語音的人工嘴根據(jù)測試要求放置于測試房間的相應位置
- 播放噪聲的音響放置于被測設備前方 1m 斜 135 度

被測設備的 MIC 正對著位于 90 度的播放語音的音響方向
需要注意:
- 人工嘴或音響四周與墻面的距離均>=0.5m
- 被測語音模塊四周與墻面的距離均>=0.5m
測量和調(diào)節(jié)環(huán)境聲壓
- 使用聲壓計的方法: 選擇聲壓計的"slow"/"A"檔位, 手持聲壓計, 將聲壓計的探頭靠近被測設備的麥克風陣列的中心處進行測試。 讀取底噪或穩(wěn)態(tài)噪聲聲壓時, 聲壓計的讀數(shù)穩(wěn)定至少需要 10s 及以上。 讀取語音聲壓時, 聲壓計的讀數(shù)取播放這段語音時的最大值
- 調(diào)節(jié)人工嘴/音響播放的聲壓: 確保測試環(huán)境內(nèi)無其它音源。 令電腦系統(tǒng)音量為最小值, 設置音響音量控制為最大值的 75%, 設置電腦上播放器音量為最大。 之后播放音頻文件,調(diào)節(jié)電腦音量直到聲壓計讀數(shù)達到預期值。 記錄電腦系統(tǒng)的音量值
2.6.2 語音喚醒及命令詞識別率測試
據(jù)測試場景搭建測試環(huán)境后, 將被測試設備調(diào)至待命狀態(tài), 使用人工嘴、 音響在相應距離下播放測試語音和噪聲。 根據(jù)被測試設備串口的輸出信息, 記錄不同噪聲環(huán)境下是否能給出正確響應, 分別統(tǒng)計低噪環(huán)境和高噪環(huán)境下喚醒正確率

2.6.3 誤喚醒頻度測試
放置音響于被測設備前方斜 45 度 1m 處。 根據(jù)被測試設備串口的輸出信息, 記錄 8 小時靜音、 8 小時播放電視、 8 小時連續(xù)的人聲負樣本情況下板卡是否有響應信息, 統(tǒng)計 24 小時被測設備被喚醒的次數(shù), 得到誤喚醒頻度值。
2.6.4 響應時間及實時系數(shù)測試
放置人工嘴于被測設備正前方 1m, 在被測設備旁放置并開啟錄音設備。
在安靜和噪聲環(huán)境下, 使用人工嘴喚醒詞條和命令詞各播放 10 條語音。

分析錄音設備錄制的文件, 記錄一次識別過程中的發(fā)音時間 Ts、 發(fā)音結束時間 Te、 識別結果時間 Tr。 如下圖。 計算各個詞的響應時間= Tr-Te, 平均實時系數(shù)= (Tr-Ts)/(Te-Ts)

2.6.4 現(xiàn)場口呼的測試
現(xiàn)場口呼測試的結果包括喚醒率、 命令詞識別率、 平均意見得分。
測試要求:
- 選擇 6 個發(fā)音人, 要求: 標準普通話, 18-60 歲之間, 男女各一半。
- 在測試環(huán)境中進行測試。
- 每個測試發(fā)音人需要朗讀所有的喚醒詞和命令詞至少 2 遍。
- 需要 2 個以上識別結果記錄者, 記錄被測設備對當前發(fā)音的輸出結果。 (記錄表包括發(fā)音人、 記錄人、 操作人、 監(jiān)督人、 發(fā)音內(nèi)容、 語音識別結果等)
- 全部發(fā)音人測試結束后, 統(tǒng)一按照運行過程流暢性進行主觀的指標評估。 (評估至少有 2人以上參與)
2.7 測試結果要求
2.7.1 包含的內(nèi)容
測試報告中應包括下述指標的測試結果
- 語音喚醒正確率
- 語音喚醒誤喚醒頻度
- 命令詞識別率
- 離線平均響應系數(shù)
- 口呼測試中對識別結果和運行過程流暢性的平均意見得分(滿分 5 分)
2.7.2 語音識別指標要求
如果在產(chǎn)品需求中無特殊說明, 應滿足如下要求:
家居類產(chǎn)品語音識別要求:
- 遠場低噪家居環(huán)境下, 喚醒成功率應大于或等于 95%, 誤喚醒頻度應小于或等于 0.2 次/h,命令詞識別正確率應大于或等于 90%
- 遠場高噪家居環(huán)境下, 喚醒成功率應大于或等于 90%, 誤喚醒頻度應小于或等于 0.2 次/h,命令詞識別正確率應大于或等于 85%
- 響應時間小于 2s 且實時系數(shù)不大于 1.5
- 語音識別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
- 1m 距離下, 信噪比>20db 的條件下喚醒率應不低于 98%, 誤喚醒頻度不應高于 0.1 次/h, 命令詞識別正確率大于或等于 95%
車載識別結果要求:
- 場景一的喚醒率應不低于 95%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 90%
- 場景二的喚醒率應不低于 92%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 88%
- 場景三的喚醒率應不低于 90%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 85%
- 響應時間小于 2s 且實時系數(shù)不大于 1.5
- 語音識別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
- 1m 距離下, 信噪比>20db 的條件下喚醒率應不低于 98%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 95%
其它環(huán)境下識別結果要求(針對在 2.5 章節(jié)的環(huán)境下進行的測試):
- 喚醒率應不低于 90%, 誤喚醒頻度不應高于 0.5 次/h, 命令詞識別正確率大于或等于 85%
- 響應時間小于 2s 且實時系數(shù)不大于 1.5
- 語音識別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。