VOI611 離線語(yǔ)音模塊測(cè)試規(guī)范
本標(biāo)準(zhǔn)規(guī)定了VOI611語(yǔ)音模組識(shí)別效果及性能測(cè)試的術(shù)語(yǔ)、定義、測(cè)試相關(guān)說明(包括測(cè)試技術(shù)要求、測(cè)試指標(biāo)、測(cè)試項(xiàng)目、測(cè)試內(nèi)容、測(cè)試設(shè)備和測(cè)試環(huán)境)、測(cè)試方法、步驟、以及測(cè)試結(jié)果報(bào)告。
1.測(cè)試內(nèi)容

2.測(cè)試要求
2.1 約束與限制
VOI611語(yǔ)音模組默認(rèn)語(yǔ)音輸入滿足以下準(zhǔn)則:
- 輸入語(yǔ)音為普通話
- 語(yǔ)音輸入為120字/min~300字/min, 單次語(yǔ)音輸入時(shí)長(zhǎng)不超過30s
- 發(fā)音單元的持續(xù)時(shí)間大于或等于0.2s, 發(fā)音單元間隔時(shí)間不超1s,如果停頓時(shí)間超過1s,則認(rèn)為一次語(yǔ)音輸入結(jié)果
2.2 測(cè)試語(yǔ)料要求
語(yǔ)料庫(kù)中發(fā)音人的選擇應(yīng)該在符合系統(tǒng)對(duì)發(fā)音人限制的條件下,選擇具有代表性和統(tǒng)計(jì)分布規(guī)律的發(fā)音人,應(yīng)該考慮不同性別、不同語(yǔ)速、不同教育背景、不同發(fā)音韻律等因素。且必須滿足如下基本要求:
- 普通話喚醒詞語(yǔ)料至少包括男女各50名及以上發(fā)音人
- 普通話識(shí)別率測(cè)試語(yǔ)料至少包括男女各30名及以上發(fā)音人
- 中文標(biāo)準(zhǔn)普通話要求在二級(jí)乙等及以上
這部分語(yǔ)音,我們稱為基本樣本集。
選擇測(cè)試語(yǔ)音后,所有待測(cè)的語(yǔ)音需要進(jìn)行音量標(biāo)準(zhǔn)化處理。
2.3 測(cè)試設(shè)備要求
2.3.1 測(cè)試房間的要求
- 房間大?。?6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
- 混響時(shí)間:0.2s<混響時(shí)間<0.7s (頻率125Hz~8kHz)
- 底噪:<30dBSPL(A)
2.3.1 音頻采樣設(shè)備的要求




2.4 測(cè)試場(chǎng)景設(shè)計(jì)
如產(chǎn)品需求中對(duì)場(chǎng)景無特殊要求, 根據(jù)產(chǎn)品的應(yīng)該場(chǎng)景可按如下的典型環(huán)境噪聲進(jìn)行測(cè)試環(huán)境的布置
2.4.1 家居環(huán)境
家居環(huán)境包含臥室環(huán)境、 客廳環(huán)境、 廚房環(huán)境、 衛(wèi)浴環(huán)境、 陽(yáng)臺(tái)環(huán)境等
噪聲
測(cè)試場(chǎng)景采用真實(shí)家居環(huán)境噪聲或模擬家居的環(huán)境噪聲, 分為低噪和高噪環(huán)境, 要求噪音頻譜保持穩(wěn)定且噪聲與命令詞無類似發(fā)音

遠(yuǎn)近場(chǎng)距離要求
- 近場(chǎng): 1 米及以下
- 遠(yuǎn)場(chǎng): 默認(rèn)為 3 米
2.4.2 車載環(huán)境
車載環(huán)境為車內(nèi)空間, 包含車輛行駛和熄火狀態(tài)、 開窗及關(guān)閉狀態(tài)等
噪聲

距離要求
- 若產(chǎn)品安于頂燈位置, 拾音與聲源距離應(yīng)為 40cm
- 若產(chǎn)品安于中控臺(tái), 拾音與聲源距離為 70cm
- 若產(chǎn)品安于其它位置, 根據(jù)需求來確定距離
2.5 其它特定的環(huán)境
其它環(huán)境下的測(cè)試如下表所示。 根據(jù)產(chǎn)品需要, 可適當(dāng)進(jìn)行裁剪

2.6 測(cè)試方法
2.6.1 基于語(yǔ)料庫(kù)的自動(dòng)測(cè)試方法
根據(jù)測(cè)試要求, 構(gòu)建不同的測(cè)試場(chǎng)景, 通過人工嘴把測(cè)試集中的語(yǔ)音輸出到被測(cè)設(shè)備, 電腦根據(jù)識(shí)別結(jié)果自動(dòng)進(jìn)行結(jié)果分析和統(tǒng)計(jì), 在測(cè)試前需要注意以下內(nèi)容:
測(cè)試設(shè)備的擺放
- 播放語(yǔ)音的人工嘴根據(jù)測(cè)試要求放置于測(cè)試房間的相應(yīng)位置
- 播放噪聲的音響放置于被測(cè)設(shè)備前方 1m 斜 135 度

被測(cè)設(shè)備的 MIC 正對(duì)著位于 90 度的播放語(yǔ)音的音響方向
需要注意:
- 人工嘴或音響四周與墻面的距離均>=0.5m
- 被測(cè)語(yǔ)音模塊四周與墻面的距離均>=0.5m
測(cè)量和調(diào)節(jié)環(huán)境聲壓
- 使用聲壓計(jì)的方法: 選擇聲壓計(jì)的"slow"/"A"檔位, 手持聲壓計(jì), 將聲壓計(jì)的探頭靠近被測(cè)設(shè)備的麥克風(fēng)陣列的中心處進(jìn)行測(cè)試。 讀取底噪或穩(wěn)態(tài)噪聲聲壓時(shí), 聲壓計(jì)的讀數(shù)穩(wěn)定至少需要 10s 及以上。 讀取語(yǔ)音聲壓時(shí), 聲壓計(jì)的讀數(shù)取播放這段語(yǔ)音時(shí)的最大值
- 調(diào)節(jié)人工嘴/音響播放的聲壓: 確保測(cè)試環(huán)境內(nèi)無其它音源。 令電腦系統(tǒng)音量為最小值, 設(shè)置音響音量控制為最大值的 75%, 設(shè)置電腦上播放器音量為最大。 之后播放音頻文件,調(diào)節(jié)電腦音量直到聲壓計(jì)讀數(shù)達(dá)到預(yù)期值。 記錄電腦系統(tǒng)的音量值
2.6.2 語(yǔ)音喚醒及命令詞識(shí)別率測(cè)試
據(jù)測(cè)試場(chǎng)景搭建測(cè)試環(huán)境后, 將被測(cè)試設(shè)備調(diào)至待命狀態(tài), 使用人工嘴、 音響在相應(yīng)距離下播放測(cè)試語(yǔ)音和噪聲。 根據(jù)被測(cè)試設(shè)備串口的輸出信息, 記錄不同噪聲環(huán)境下是否能給出正確響應(yīng), 分別統(tǒng)計(jì)低噪環(huán)境和高噪環(huán)境下喚醒正確率

2.6.3 誤喚醒頻度測(cè)試
放置音響于被測(cè)設(shè)備前方斜 45 度 1m 處。 根據(jù)被測(cè)試設(shè)備串口的輸出信息, 記錄 8 小時(shí)靜音、 8 小時(shí)播放電視、 8 小時(shí)連續(xù)的人聲負(fù)樣本情況下板卡是否有響應(yīng)信息, 統(tǒng)計(jì) 24 小時(shí)被測(cè)設(shè)備被喚醒的次數(shù), 得到誤喚醒頻度值。
2.6.4 響應(yīng)時(shí)間及實(shí)時(shí)系數(shù)測(cè)試
放置人工嘴于被測(cè)設(shè)備正前方 1m, 在被測(cè)設(shè)備旁放置并開啟錄音設(shè)備。
在安靜和噪聲環(huán)境下, 使用人工嘴喚醒詞條和命令詞各播放 10 條語(yǔ)音。

分析錄音設(shè)備錄制的文件, 記錄一次識(shí)別過程中的發(fā)音時(shí)間 Ts、 發(fā)音結(jié)束時(shí)間 Te、 識(shí)別結(jié)果時(shí)間 Tr。 如下圖。 計(jì)算各個(gè)詞的響應(yīng)時(shí)間= Tr-Te, 平均實(shí)時(shí)系數(shù)= (Tr-Ts)/(Te-Ts)

2.6.4 現(xiàn)場(chǎng)口呼的測(cè)試
現(xiàn)場(chǎng)口呼測(cè)試的結(jié)果包括喚醒率、 命令詞識(shí)別率、 平均意見得分。
測(cè)試要求:
- 選擇 6 個(gè)發(fā)音人, 要求: 標(biāo)準(zhǔn)普通話, 18-60 歲之間, 男女各一半。
- 在測(cè)試環(huán)境中進(jìn)行測(cè)試。
- 每個(gè)測(cè)試發(fā)音人需要朗讀所有的喚醒詞和命令詞至少 2 遍。
- 需要 2 個(gè)以上識(shí)別結(jié)果記錄者, 記錄被測(cè)設(shè)備對(duì)當(dāng)前發(fā)音的輸出結(jié)果。 (記錄表包括發(fā)音人、 記錄人、 操作人、 監(jiān)督人、 發(fā)音內(nèi)容、 語(yǔ)音識(shí)別結(jié)果等)
- 全部發(fā)音人測(cè)試結(jié)束后, 統(tǒng)一按照運(yùn)行過程流暢性進(jìn)行主觀的指標(biāo)評(píng)估。 (評(píng)估至少有 2人以上參與)
2.7 測(cè)試結(jié)果要求
2.7.1 包含的內(nèi)容
測(cè)試報(bào)告中應(yīng)包括下述指標(biāo)的測(cè)試結(jié)果
- 語(yǔ)音喚醒正確率
- 語(yǔ)音喚醒誤喚醒頻度
- 命令詞識(shí)別率
- 離線平均響應(yīng)系數(shù)
- 口呼測(cè)試中對(duì)識(shí)別結(jié)果和運(yùn)行過程流暢性的平均意見得分(滿分 5 分)
2.7.2 語(yǔ)音識(shí)別指標(biāo)要求
如果在產(chǎn)品需求中無特殊說明, 應(yīng)滿足如下要求:
家居類產(chǎn)品語(yǔ)音識(shí)別要求:
- 遠(yuǎn)場(chǎng)低噪家居環(huán)境下, 喚醒成功率應(yīng)大于或等于 95%, 誤喚醒頻度應(yīng)小于或等于 0.2 次/h,命令詞識(shí)別正確率應(yīng)大于或等于 90%
- 遠(yuǎn)場(chǎng)高噪家居環(huán)境下, 喚醒成功率應(yīng)大于或等于 90%, 誤喚醒頻度應(yīng)小于或等于 0.2 次/h,命令詞識(shí)別正確率應(yīng)大于或等于 85%
- 響應(yīng)時(shí)間小于 2s 且實(shí)時(shí)系數(shù)不大于 1.5
- 語(yǔ)音識(shí)別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
- 1m 距離下, 信噪比>20db 的條件下喚醒率應(yīng)不低于 98%, 誤喚醒頻度不應(yīng)高于 0.1 次/h, 命令詞識(shí)別正確率大于或等于 95%
車載識(shí)別結(jié)果要求:
- 場(chǎng)景一的喚醒率應(yīng)不低于 95%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 90%
- 場(chǎng)景二的喚醒率應(yīng)不低于 92%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 88%
- 場(chǎng)景三的喚醒率應(yīng)不低于 90%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 85%
- 響應(yīng)時(shí)間小于 2s 且實(shí)時(shí)系數(shù)不大于 1.5
- 語(yǔ)音識(shí)別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
- 1m 距離下, 信噪比>20db 的條件下喚醒率應(yīng)不低于 98%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 95%
其它環(huán)境下識(shí)別結(jié)果要求(針對(duì)在 2.5 章節(jié)的環(huán)境下進(jìn)行的測(cè)試):
- 喚醒率應(yīng)不低于 90%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 85%
- 響應(yīng)時(shí)間小于 2s 且實(shí)時(shí)系數(shù)不大于 1.5
- 語(yǔ)音識(shí)別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。