世界最資訊丨OpenAI宣布開(kāi)源多語(yǔ)言語(yǔ)音識(shí)別系統(tǒng)Whisper
盡管包括 Google、亞馬遜和 Meta 在內(nèi)的科技巨頭,都將各自開(kāi)發(fā)的功能強(qiáng)大的語(yǔ)音識(shí)別系統(tǒng)置于其軟件和服務(wù)的核心地位。但在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,語(yǔ)音識(shí)別仍是一個(gè)頗具挑戰(zhàn)性的話(huà)題。好消息是,今日 OpenAI 隆重地宣布了 Whisper 的開(kāi)源 —— 可知作為一套自動(dòng)語(yǔ)音識(shí)別系統(tǒng),官方宣稱(chēng)它能夠?qū)崿F(xiàn)多種語(yǔ)言的強(qiáng)大轉(zhuǎn)錄、并將它們翻譯成英語(yǔ)。
訪(fǎng)問(wèn):
Parallels Desktop 18 今年首次促銷(xiāo):限時(shí)75折
【資料圖】
(來(lái)自:OpenAI Blog)
OpenAI 表示,Whisper 的不同之處,在于其接受了從網(wǎng)絡(luò)收集的 68 萬(wàn)小時(shí)的多語(yǔ)言和“多任務(wù)”訓(xùn)練數(shù)據(jù),從而提升了該方案對(duì)獨(dú)特口音、背景噪聲和技術(shù)術(shù)語(yǔ)的識(shí)別能力。
官方 GitHub 存儲(chǔ)庫(kù)上的概述稱(chēng):
Whisper 模型的主要目標(biāo)用戶(hù),是研究當(dāng)前模型穩(wěn)健性、泛化、能力、偏差和約束的 AI 研究人員。
與此同時(shí),它也很適合作為面向開(kāi)發(fā)者的自動(dòng)語(yǔ)音識(shí)別解決方案尤其是英語(yǔ)語(yǔ)音識(shí)別。
感興趣的朋友,可以從托管平臺(tái)上下載 Whisper 系統(tǒng)的多個(gè)版本,其模型在大約 10 種語(yǔ)言上展現(xiàn)出了強(qiáng)大的 ASR 結(jié)果。
此外假如在某些任務(wù)上加以微調(diào)的話(huà),它們還有望在語(yǔ)音活動(dòng)檢測(cè)、講述者分類(lèi)等應(yīng)用場(chǎng)景下表現(xiàn)出額外的能力。
架構(gòu)示意
遺憾的是,Whisper 尚未在相關(guān)領(lǐng)域得到強(qiáng)有力的評(píng)估、且模型也有其局限性 —— 有其在文本預(yù)測(cè)領(lǐng)域。
由于該系統(tǒng)接受了大量“嘈雜”的數(shù)據(jù)訓(xùn)練,OpenAI 決定提前給大家打一劑預(yù)防針,警告稱(chēng) Whisper 可能在轉(zhuǎn)錄中包含實(shí)際上未講述的單詞。
原因可能是 Whisper 既試圖預(yù)測(cè)音頻中的下一個(gè)單詞、又試圖轉(zhuǎn)錄音頻本身。
流程示例
此外 Whisper 在不同語(yǔ)言場(chǎng)景下的表現(xiàn)也不大一致,尤其涉及在訓(xùn)練數(shù)據(jù)中沒(méi)有很好被代表的語(yǔ)言的講述者時(shí),其錯(cuò)誤率也會(huì)更高。
不過(guò)后者在語(yǔ)音識(shí)別領(lǐng)域早已不是什么新鮮事,即使業(yè)內(nèi)首屈一指的系統(tǒng),也一直受到此類(lèi)偏差的困擾。
參考斯坦福大學(xué)在 2020 年分享的一項(xiàng)研究結(jié)果 —— 相較于黑人,來(lái)自亞馬遜、蘋(píng)果、Google、IBM 和微軟的系統(tǒng),針對(duì)白人用戶(hù)的錯(cuò)誤率要低得多(大約 35%)。
Whisper 有約 1/3 的音頻數(shù)據(jù)集為非英語(yǔ)
即便如此,OpenAI 還是認(rèn)為 Whisper 的轉(zhuǎn)錄功能,可被用于改進(jìn)現(xiàn)有的可訪(fǎng)問(wèn)性工具。其在 GitHub 上寫(xiě)道:
盡管 Whisper 模型不適用于開(kāi)箱即用的實(shí)時(shí)轉(zhuǎn)錄,但其速度和大小表明,其他人可在此基礎(chǔ)上構(gòu)建近乎實(shí)時(shí)的語(yǔ)音識(shí)別和翻譯應(yīng)用程序。
建立在 Whisper 模型之上的有益應(yīng)用程序,其價(jià)值切實(shí)地表明了這些模型的不同性能,有望發(fā)揮出真正的經(jīng)濟(jì)影響力。
我們希望大家能夠?qū)⒃摷夹g(shù)積極應(yīng)用于有益目的,使自動(dòng)語(yǔ)音識(shí)別技術(shù)更易獲得改進(jìn)、讓更多參與者能夠打造出更負(fù)責(zé)任的項(xiàng)目。
在速度和準(zhǔn)確性的雙重優(yōu)勢(shì)下,Whisper 將允許對(duì)大量通信提供可負(fù)擔(dān)得起的自動(dòng)轉(zhuǎn)錄和翻譯體驗(yàn)。
相關(guān)文章:
[視頻]OpenAI展示DALL-E 2:AI圖像生成器支持編輯圖像了
OpenAI的DALL-E繪畫(huà)AI 已能夠擴(kuò)展創(chuàng)作更大的圖像
過(guò)濾系統(tǒng)升級(jí):OpenAI再次開(kāi)放DALL-E 2的面容編輯功能
關(guān)鍵詞: Open Source OpenAI宣布開(kāi)源多語(yǔ)言語(yǔ)音識(shí)別系統(tǒng)Whisper cnBeta
相關(guān)新聞