實(shí)時(shí)語(yǔ)音識(shí)別

基于Deep voice2的端到端建模，將音頻流實(shí)時(shí)識(shí)別為文字，并返回每句話的開(kāi)始和結(jié)束時(shí)間，適用于長(zhǎng)句語(yǔ)音輸入、音視頻字幕、會(huì)議等場(chǎng)景

功能介紹

introduce

基于Deep voice2端到端建模，超過(guò)10萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練，多采樣率多場(chǎng)景聲學(xué)建模，近場(chǎng)中文普通話識(shí)別準(zhǔn)確率達(dá)98%

支持普通話和略帶口音的中文識(shí)別；支持英文識(shí)別

使用大規(guī)模數(shù)據(jù)集訓(xùn)練語(yǔ)言模型，對(duì)識(shí)別中間結(jié)果進(jìn)行智能糾錯(cuò)，并根據(jù)語(yǔ)音的內(nèi)容理解和停頓智能匹配合適的標(biāo)點(diǎn)符號(hào)，。！？

支持WebSocket API，支持Android、iOS、Linux SDK，可以在多種操作系統(tǒng)、多種設(shè)備終端上調(diào)用，快速上手，簡(jiǎn)單易用

首包響應(yīng)時(shí)間毫秒級(jí)，并實(shí)時(shí)展示中間文字結(jié)果，快速識(shí)別音頻流

文字識(shí)別結(jié)果支持時(shí)間戳識(shí)別返回的文字結(jié)果帶有時(shí)間戳，展示VAD切分句子開(kāi)始和結(jié)束時(shí)間，方便進(jìn)行功能開(kāi)發(fā)

scene

語(yǔ)音輸入準(zhǔn)確高效，解放雙手，說(shuō)話內(nèi)容實(shí)時(shí)展示在屏幕上，聊天順暢

直播新玩法，主播說(shuō)話可以直接將說(shuō)話內(nèi)容實(shí)時(shí)轉(zhuǎn)寫(xiě)為字幕展示在屏幕上，或者可進(jìn)行二次字幕編輯

大會(huì)演講可以在屏幕上實(shí)時(shí)展示嘉賓演講字幕，逐字展示并智能糾錯(cuò)

會(huì)議場(chǎng)景中，每個(gè)說(shuō)話人的語(yǔ)音可以實(shí)時(shí)記錄，提升會(huì)議記錄效率

對(duì)老師課堂內(nèi)容實(shí)時(shí)記錄，校方可以進(jìn)行教學(xué)內(nèi)容記錄以及教學(xué)質(zhì)量評(píng)估

advantage

基于Deep Peak2端到端建模，多采樣率多場(chǎng)景聲學(xué)建模，近場(chǎng)中文普通話識(shí)別準(zhǔn)確率達(dá)98%

支持WebSocket API方式、Android、iOS、Linux SDK方式調(diào)用，可以適用于多種操作系統(tǒng)、多設(shè)備終端均可使用

企業(yè)級(jí)穩(wěn)定服務(wù)保障，專有集群承載大流量并發(fā)，高效靈活，服務(wù)穩(wěn)定

中文普通話模型可在語(yǔ)音自訓(xùn)練平臺(tái)上零代碼自助訓(xùn)練，上傳文本語(yǔ)料即可有效提升業(yè)務(wù)詞匯的識(shí)別準(zhǔn)確率5-25%