6月24日,2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)在京揭曉,共評(píng)選出250個(gè)項(xiàng)目。記者注意到,在本次國(guó)家科學(xué)技術(shù)獎(jiǎng)各獲獎(jiǎng)項(xiàng)目中,與人工智能、大模型技術(shù)相關(guān)聯(lián)的項(xiàng)目明顯增加,涉及多語(yǔ)種智能語(yǔ)音、智能車(chē)聯(lián)網(wǎng)、智慧高速、超級(jí)計(jì)算等應(yīng)用場(chǎng)景。其中,“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目獲2023年度國(guó)家科技進(jìn)步獎(jiǎng)一等獎(jiǎng),也是過(guò)去十年來(lái)人工智能領(lǐng)域的首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。
自深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來(lái),語(yǔ)音交互、自然語(yǔ)言、機(jī)器視覺(jué)等基礎(chǔ)技術(shù)獲得大發(fā)展。在諸多技術(shù)中,多語(yǔ)種智能語(yǔ)音技術(shù)對(duì)于支撐人機(jī)交互、人類(lèi)語(yǔ)言互通及國(guó)家安全等需求具有重大戰(zhàn)略意義,但也面臨著如何突破復(fù)雜場(chǎng)景“雞尾酒會(huì)”效應(yīng)典型難題,以及如何基于自主可控的平臺(tái)、實(shí)現(xiàn)國(guó)產(chǎn)軟硬件的語(yǔ)音產(chǎn)業(yè)鏈自主可控等問(wèn)題。
據(jù)介紹,在“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目中,實(shí)現(xiàn)了四大關(guān)鍵技術(shù)突破。項(xiàng)目中,科大訊飛聯(lián)合中國(guó)科學(xué)技術(shù)大學(xué)、清華大學(xué)、華為等高校及企業(yè)通過(guò)多通道語(yǔ)音信號(hào)時(shí)空分離建模方法和多維度語(yǔ)音屬性解耦表征方法,實(shí)現(xiàn)語(yǔ)音信號(hào)中內(nèi)容、噪聲等高度耦合的多維屬性特征解耦,提升復(fù)雜場(chǎng)景下語(yǔ)音識(shí)別準(zhǔn)確率。
同時(shí),基于多語(yǔ)種通用音素體系和基本語(yǔ)言單元,構(gòu)建了多語(yǔ)種統(tǒng)一音素韻律體系,提升了小語(yǔ)種語(yǔ)音系統(tǒng)性能。
此外,以語(yǔ)音語(yǔ)義互增強(qiáng)的魯棒口語(yǔ)理解技術(shù),和多源知識(shí)增強(qiáng)的可信文本生成技術(shù),提升了復(fù)雜場(chǎng)景和深層次的語(yǔ)義理解準(zhǔn)確率。
“這個(gè)項(xiàng)目突破了復(fù)雜場(chǎng)景語(yǔ)音技術(shù)大規(guī)模使用門(mén)檻,實(shí)現(xiàn)了語(yǔ)音技術(shù)從中英文到多語(yǔ)種的拓展。”項(xiàng)目相關(guān)負(fù)責(zé)人透露,這一技術(shù)成果不僅可應(yīng)用于會(huì)議場(chǎng)合,還首次實(shí)現(xiàn)智能語(yǔ)音在國(guó)產(chǎn)芯片上的訓(xùn)練和推理性能,也在中國(guó)品牌“走出去”中發(fā)揮了關(guān)鍵推動(dòng)作用。
據(jù)了解,項(xiàng)目提出了硬件親和的變長(zhǎng)輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),解決了智能語(yǔ)音技術(shù)硬件平臺(tái)的“卡脖子”問(wèn)題。
目前,該技術(shù)已支持了華為等主流手機(jī)廠(chǎng)商和奇瑞、比亞迪、長(zhǎng)安等主機(jī)廠(chǎng),出海產(chǎn)品多語(yǔ)種問(wèn)題,并在智能軟硬件方面開(kāi)創(chuàng)了翻譯機(jī)、辦公本、智能錄音筆等智能硬件新品類(lèi)。
“通用人工智能時(shí)代,多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)中的創(chuàng)新可以和大模型技術(shù)相互補(bǔ)充、促進(jìn)。”專(zhuān)家表示,大模型技術(shù)可以在復(fù)雜語(yǔ)義理解、長(zhǎng)文本建模能力上進(jìn)一步提升語(yǔ)音識(shí)別、合成和翻譯的效果,同時(shí)基于其強(qiáng)大的語(yǔ)義理解、知識(shí)問(wèn)答、多輪對(duì)話(huà)、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語(yǔ)音技術(shù)的使用場(chǎng)景和應(yīng)用價(jià)值,支撐實(shí)現(xiàn)語(yǔ)音同傳、自動(dòng)客服、輔學(xué)答疑、家庭醫(yī)生、虛擬員工、陪伴機(jī)器人、服務(wù)機(jī)器人等等未來(lái)智能產(chǎn)品創(chuàng)新。