應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

語音識別的后半段路,怎么走?

2019-09-27 09:10 安防知識網(wǎng)
關(guān)鍵詞:語音識別人工智能

導(dǎo)讀:從語言處理走向語言理解。

聲音,智慧城市,智慧安防

圖片來自“pexels”

分享一:提高語音識別魯棒性的三種途徑

近二十年,語音識別技術(shù)取得顯著進步,但識別的魯棒性問題一直阻礙著語音技術(shù)的進一步發(fā)展。對于語音識別和聲紋識別來說,該如何提升影響準確率的系統(tǒng)魯棒性?快商通首席科學(xué)家李海洲教授表示,想要從根本上提升識別準確率,可以從三個方面考慮。

首先,專用系統(tǒng)轉(zhuǎn)換為通用系統(tǒng)。

語音識別從實驗室走向應(yīng)用,環(huán)境適應(yīng)性一直是不容忽視的問題。實驗室中訓(xùn)練良好的引擎,一旦處于負責的噪聲環(huán)境,其識別準確率便會急劇下降。這些噪聲主要來自于信道偏差,環(huán)境噪音,被污染的測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的不匹配等。

因此,想要提高識別準確率,需將目前針對某單一環(huán)境的專用系統(tǒng)升級為通用系統(tǒng),提高識別引擎的自我學(xué)習(xí)能力,才能使其適應(yīng)不同環(huán)境的差異性。

第二,擴展獲取語音信息的渠道。

假設(shè)三種場景:面對面交流、視頻交流、電話語音交流,人在哪種情況下能聽得最清楚?毫無疑問是面對面交流,這種場景下溝通,人們可以看到對方的表情、手勢,而這些信息也將輔助聽覺獲取更多的信息。

人類從單一的渠道獲取信息尚且會有偏差的可能,機器亦然。李教授認為,未來將會形成語音、視覺等多渠道的技術(shù)手段,來幫助語音識別和聲紋識別進行準確率的提升。

第三,從語音語言處理走向語音語言理解。

人們普遍認為,語音識別是將聲音變?yōu)槲淖帧5诳焐掏ㄊ紫茖W(xué)家李海洲教授的理解里,語音識別的初衷是讓機器聽懂人類說話,并不一定需要將聲音轉(zhuǎn)化為文字。就像人與人之間的交流,并不需要先將對方說的語音轉(zhuǎn)換成文字。

機器無法直接聽懂人類的語言,所以需要將語音轉(zhuǎn)為文字來輔助,但如果希望技術(shù)有更近一層的突破,我們需要將精力放于語音識別的后半段路——從語音語言處理走向語音語言理解。

分享二:中國人工智能應(yīng)用落地的三大優(yōu)勢

第四次工業(yè)革命即將來臨,世界各國已經(jīng)認識到人工智能是未來國家之間競爭的關(guān)鍵賽場,因而紛紛爭奪這一輪科技革命的制高點。對于中國而言,人工智能的發(fā)展是一個歷史性的戰(zhàn)略機遇,政府創(chuàng)造土壤,企業(yè)奮起發(fā)力,中國在AI領(lǐng)域的實力與發(fā)展優(yōu)勢不斷被世界認可。

基于多年海外經(jīng)歷培養(yǎng)出的國際化視角,結(jié)合專業(yè)判斷能力,快商通首席科學(xué)家李海洲教授總結(jié)出中國人工智能應(yīng)用落地的三大優(yōu)勢。

政府推動:在我國,人工智能連續(xù)三年被寫入總理政府工作報告,并成為促進新興產(chǎn)業(yè)加快發(fā)展的新動能。政府的推動與總體規(guī)劃,完善了人工智能基礎(chǔ)設(shè)施的建設(shè),并使得各科技企業(yè)的技術(shù)能夠穩(wěn)步落地。

數(shù)據(jù)優(yōu)勢:人工智能的發(fā)展需要與深度學(xué)習(xí)和大數(shù)據(jù)緊密結(jié)合,中國在數(shù)據(jù)資源這一方面的優(yōu)勢,是毋庸置疑的。僅僅在日常生活中,中國近14億的人口就能產(chǎn)生比全球其他國家更多的數(shù)據(jù)。這讓深度學(xué)習(xí)有一個用武之地。

企業(yè)環(huán)境:自2012年深度學(xué)習(xí)取得重大突破,中國人工智能企業(yè)如雨后春筍般生長,激烈的競爭環(huán)境下,企業(yè)家們必須兼具創(chuàng)新與奮斗精神,才能在大浪淘沙中適者生存。再這樣的情況下,中國人工智能技術(shù)的創(chuàng)業(yè)環(huán)境積極向上,為優(yōu)質(zhì)的技術(shù)和企業(yè)家創(chuàng)造了健康的創(chuàng)業(yè)土壤。