VOI611 離線語(yǔ)音模塊測(cè)試規(guī)范

本標(biāo)準(zhǔn)規(guī)定了VOI611語(yǔ)音模組識(shí)別效果及性能測(cè)試的術(shù)語(yǔ)、定義、測(cè)試相關(guān)說明(包括測(cè)試技術(shù)要求、測(cè)試指標(biāo)、測(cè)試項(xiàng)目、測(cè)試內(nèi)容、測(cè)試設(shè)備和測(cè)試環(huán)境)、測(cè)試方法、步驟、以及測(cè)試結(jié)果報(bào)告。


1.測(cè)試內(nèi)容



module_a

2.測(cè)試要求


2.1 約束與限制

VOI611語(yǔ)音模組默認(rèn)語(yǔ)音輸入滿足以下準(zhǔn)則:

  • 輸入語(yǔ)音為普通話
  • 語(yǔ)音輸入為120字/min~300字/min, 單次語(yǔ)音輸入時(shí)長(zhǎng)不超過30s
  • 發(fā)音單元的持續(xù)時(shí)間大于或等于0.2s, 發(fā)音單元間隔時(shí)間不超1s,如果停頓時(shí)間超過1s,則認(rèn)為一次語(yǔ)音輸入結(jié)果

2.2 測(cè)試語(yǔ)料要求

語(yǔ)料庫(kù)中發(fā)音人的選擇應(yīng)該在符合系統(tǒng)對(duì)發(fā)音人限制的條件下,選擇具有代表性和統(tǒng)計(jì)分布規(guī)律的發(fā)音人,應(yīng)該考慮不同性別、不同語(yǔ)速、不同教育背景、不同發(fā)音韻律等因素。且必須滿足如下基本要求:

  • 普通話喚醒詞語(yǔ)料至少包括男女各50名及以上發(fā)音人
  • 普通話識(shí)別率測(cè)試語(yǔ)料至少包括男女各30名及以上發(fā)音人
  • 中文標(biāo)準(zhǔn)普通話要求在二級(jí)乙等及以上

這部分語(yǔ)音,我們稱為基本樣本集。
選擇測(cè)試語(yǔ)音后,所有待測(cè)的語(yǔ)音需要進(jìn)行音量標(biāo)準(zhǔn)化處理。

2.3 測(cè)試設(shè)備要求

2.3.1 測(cè)試房間的要求

  • 房間大?。?6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
  • 混響時(shí)間:0.2s<混響時(shí)間<0.7s (頻率125Hz~8kHz)
  • 底噪:<30dBSPL(A)

2.3.1 音頻采樣設(shè)備的要求

圖1 - 音頻采樣設(shè)備要求
module_a

圖2 - 傳聲器的參數(shù)要求
module_a

圖3 - 音頻回放設(shè)備的要求
module_a

圖4- 聲壓計(jì)的要求
module_a

2.4 測(cè)試場(chǎng)景設(shè)計(jì)

如產(chǎn)品需求中對(duì)場(chǎng)景無特殊要求, 根據(jù)產(chǎn)品的應(yīng)該場(chǎng)景可按如下的典型環(huán)境噪聲進(jìn)行測(cè)試環(huán)境的布置

2.4.1 家居環(huán)境

家居環(huán)境包含臥室環(huán)境、 客廳環(huán)境、 廚房環(huán)境、 衛(wèi)浴環(huán)境、 陽(yáng)臺(tái)環(huán)境等

噪聲
測(cè)試場(chǎng)景采用真實(shí)家居環(huán)境噪聲或模擬家居的環(huán)境噪聲, 分為低噪和高噪環(huán)境, 要求噪音頻譜保持穩(wěn)定且噪聲與命令詞無類似發(fā)音

圖5- 典型的家居環(huán)境噪聲
module_a

遠(yuǎn)近場(chǎng)距離要求

  • 近場(chǎng): 1 米及以下
  • 遠(yuǎn)場(chǎng): 默認(rèn)為 3 米

2.4.2 車載環(huán)境

車載環(huán)境為車內(nèi)空間, 包含車輛行駛和熄火狀態(tài)、 開窗及關(guān)閉狀態(tài)等

噪聲

圖7- 典型的車載環(huán)境噪聲
module_a

距離要求

  • 若產(chǎn)品安于頂燈位置, 拾音與聲源距離應(yīng)為 40cm
  • 若產(chǎn)品安于中控臺(tái), 拾音與聲源距離為 70cm
  • 若產(chǎn)品安于其它位置, 根據(jù)需求來確定距離

2.5 其它特定的環(huán)境

其它環(huán)境下的測(cè)試如下表所示。 根據(jù)產(chǎn)品需要, 可適當(dāng)進(jìn)行裁剪

圖8- 其它場(chǎng)景
module_a

2.6 測(cè)試方法

2.6.1 基于語(yǔ)料庫(kù)的自動(dòng)測(cè)試方法

根據(jù)測(cè)試要求, 構(gòu)建不同的測(cè)試場(chǎng)景, 通過人工嘴把測(cè)試集中的語(yǔ)音輸出到被測(cè)設(shè)備, 電腦根據(jù)識(shí)別結(jié)果自動(dòng)進(jìn)行結(jié)果分析和統(tǒng)計(jì), 在測(cè)試前需要注意以下內(nèi)容:

測(cè)試設(shè)備的擺放

  • 播放語(yǔ)音的人工嘴根據(jù)測(cè)試要求放置于測(cè)試房間的相應(yīng)位置
  • 播放噪聲的音響放置于被測(cè)設(shè)備前方 1m 斜 135 度

圖9- 測(cè)試場(chǎng)景示意圖
module_a

被測(cè)設(shè)備的 MIC 正對(duì)著位于 90 度的播放語(yǔ)音的音響方向
需要注意:

  • 人工嘴或音響四周與墻面的距離均>=0.5m
  • 被測(cè)語(yǔ)音模塊四周與墻面的距離均>=0.5m

測(cè)量和調(diào)節(jié)環(huán)境聲壓

  • 使用聲壓計(jì)的方法: 選擇聲壓計(jì)的"slow"/"A"檔位, 手持聲壓計(jì), 將聲壓計(jì)的探頭靠近被測(cè)設(shè)備的麥克風(fēng)陣列的中心處進(jìn)行測(cè)試。 讀取底噪或穩(wěn)態(tài)噪聲聲壓時(shí), 聲壓計(jì)的讀數(shù)穩(wěn)定至少需要 10s 及以上。 讀取語(yǔ)音聲壓時(shí), 聲壓計(jì)的讀數(shù)取播放這段語(yǔ)音時(shí)的最大值
  • 調(diào)節(jié)人工嘴/音響播放的聲壓: 確保測(cè)試環(huán)境內(nèi)無其它音源。 令電腦系統(tǒng)音量為最小值, 設(shè)置音響音量控制為最大值的 75%, 設(shè)置電腦上播放器音量為最大。 之后播放音頻文件,調(diào)節(jié)電腦音量直到聲壓計(jì)讀數(shù)達(dá)到預(yù)期值。 記錄電腦系統(tǒng)的音量值

2.6.2 語(yǔ)音喚醒及命令詞識(shí)別率測(cè)試

據(jù)測(cè)試場(chǎng)景搭建測(cè)試環(huán)境后, 將被測(cè)試設(shè)備調(diào)至待命狀態(tài), 使用人工嘴、 音響在相應(yīng)距離下播放測(cè)試語(yǔ)音和噪聲。 根據(jù)被測(cè)試設(shè)備串口的輸出信息, 記錄不同噪聲環(huán)境下是否能給出正確響應(yīng), 分別統(tǒng)計(jì)低噪環(huán)境和高噪環(huán)境下喚醒正確率

圖10- 典型安靜環(huán)境下喚醒識(shí)別測(cè)試示意圖
module_a

2.6.3 誤喚醒頻度測(cè)試

放置音響于被測(cè)設(shè)備前方斜 45 度 1m 處。 根據(jù)被測(cè)試設(shè)備串口的輸出信息, 記錄 8 小時(shí)靜音、 8 小時(shí)播放電視、 8 小時(shí)連續(xù)的人聲負(fù)樣本情況下板卡是否有響應(yīng)信息, 統(tǒng)計(jì) 24 小時(shí)被測(cè)設(shè)備被喚醒的次數(shù), 得到誤喚醒頻度值。

2.6.4 響應(yīng)時(shí)間及實(shí)時(shí)系數(shù)測(cè)試

放置人工嘴于被測(cè)設(shè)備正前方 1m, 在被測(cè)設(shè)備旁放置并開啟錄音設(shè)備。
在安靜和噪聲環(huán)境下, 使用人工嘴喚醒詞條和命令詞各播放 10 條語(yǔ)音。

圖11- 響應(yīng)時(shí)間及實(shí)時(shí)系數(shù)測(cè)試環(huán)境示意圖
module_a

分析錄音設(shè)備錄制的文件, 記錄一次識(shí)別過程中的發(fā)音時(shí)間 Ts、 發(fā)音結(jié)束時(shí)間 Te、 識(shí)別結(jié)果時(shí)間 Tr。 如下圖。 計(jì)算各個(gè)詞的響應(yīng)時(shí)間= Tr-Te, 平均實(shí)時(shí)系數(shù)= (Tr-Ts)/(Te-Ts)

圖12- 實(shí)時(shí)系數(shù)計(jì)算示意圖
module_a

2.6.4 現(xiàn)場(chǎng)口呼的測(cè)試

現(xiàn)場(chǎng)口呼測(cè)試的結(jié)果包括喚醒率、 命令詞識(shí)別率、 平均意見得分。
測(cè)試要求:

  • 選擇 6 個(gè)發(fā)音人, 要求: 標(biāo)準(zhǔn)普通話, 18-60 歲之間, 男女各一半。
  • 在測(cè)試環(huán)境中進(jìn)行測(cè)試。
  • 每個(gè)測(cè)試發(fā)音人需要朗讀所有的喚醒詞和命令詞至少 2 遍。
  • 需要 2 個(gè)以上識(shí)別結(jié)果記錄者, 記錄被測(cè)設(shè)備對(duì)當(dāng)前發(fā)音的輸出結(jié)果。 (記錄表包括發(fā)音人、 記錄人、 操作人、 監(jiān)督人、 發(fā)音內(nèi)容、 語(yǔ)音識(shí)別結(jié)果等)
  • 全部發(fā)音人測(cè)試結(jié)束后, 統(tǒng)一按照運(yùn)行過程流暢性進(jìn)行主觀的指標(biāo)評(píng)估。 (評(píng)估至少有 2人以上參與)

2.7 測(cè)試結(jié)果要求

2.7.1 包含的內(nèi)容

測(cè)試報(bào)告中應(yīng)包括下述指標(biāo)的測(cè)試結(jié)果

  • 語(yǔ)音喚醒正確率
  • 語(yǔ)音喚醒誤喚醒頻度
  • 命令詞識(shí)別率
  • 離線平均響應(yīng)系數(shù)
  • 口呼測(cè)試中對(duì)識(shí)別結(jié)果和運(yùn)行過程流暢性的平均意見得分(滿分 5 分)

2.7.2 語(yǔ)音識(shí)別指標(biāo)要求

如果在產(chǎn)品需求中無特殊說明, 應(yīng)滿足如下要求:

家居類產(chǎn)品語(yǔ)音識(shí)別要求:

  • 遠(yuǎn)場(chǎng)低噪家居環(huán)境下, 喚醒成功率應(yīng)大于或等于 95%, 誤喚醒頻度應(yīng)小于或等于 0.2 次/h,命令詞識(shí)別正確率應(yīng)大于或等于 90%
  • 遠(yuǎn)場(chǎng)高噪家居環(huán)境下, 喚醒成功率應(yīng)大于或等于 90%, 誤喚醒頻度應(yīng)小于或等于 0.2 次/h,命令詞識(shí)別正確率應(yīng)大于或等于 85%
  • 響應(yīng)時(shí)間小于 2s 且實(shí)時(shí)系數(shù)不大于 1.5
  • 語(yǔ)音識(shí)別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
  • 1m 距離下, 信噪比>20db 的條件下喚醒率應(yīng)不低于 98%, 誤喚醒頻度不應(yīng)高于 0.1 次/h, 命令詞識(shí)別正確率大于或等于 95%

車載識(shí)別結(jié)果要求:

  • 場(chǎng)景一的喚醒率應(yīng)不低于 95%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 90%
  • 場(chǎng)景二的喚醒率應(yīng)不低于 92%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 88%
  • 場(chǎng)景三的喚醒率應(yīng)不低于 90%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 85%
  • 響應(yīng)時(shí)間小于 2s 且實(shí)時(shí)系數(shù)不大于 1.5
  • 語(yǔ)音識(shí)別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。
  • 1m 距離下, 信噪比>20db 的條件下喚醒率應(yīng)不低于 98%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 95%

其它環(huán)境下識(shí)別結(jié)果要求(針對(duì)在 2.5 章節(jié)的環(huán)境下進(jìn)行的測(cè)試):

  • 喚醒率應(yīng)不低于 90%, 誤喚醒頻度不應(yīng)高于 0.5 次/h, 命令詞識(shí)別正確率大于或等于 85%
  • 響應(yīng)時(shí)間小于 2s 且實(shí)時(shí)系數(shù)不大于 1.5
  • 語(yǔ)音識(shí)別產(chǎn)品的主觀平均意見得分(總分 5 分)不小于 3.5 分。