七月的上海熱情如火,比它更熱的,是在上海舉行的世界人工智能大會。作為全球范圍的行業(yè)盛事,今年的世界人工智能大會更是具有鮮明的特點:當(dāng)往屆的人工智能技術(shù)較為分散地體現(xiàn)在AR/VR、大數(shù)據(jù)、云計算等領(lǐng)域時,今年的世界人工智能大會幾乎所有的參展企業(yè)都將人工智能聚焦在了大模型這個賽道上,當(dāng)人工智能大模型賽道如此擁擠,人工智能未來又將向哪里“智能”呢?南方產(chǎn)業(yè)觀將通過在本屆世界人工智能大會上的所見所聞,試圖找出答案。
從人工智能大模型與大眾初次見面開始,簡單的文字對答很快就不能滿足大眾對“智能”的渴望了,很快,隨著人工智能大模型的快速迭代,文生圖,文生視頻和圖生視頻等多種AIGC方式的出現(xiàn),讓人工智能大模型和大眾有了更親密的接觸,而在2024世界人工智能大會上,不僅有更多的玩家加入到了人工智能大模型在視頻領(lǐng)域的應(yīng)用當(dāng)中,而借助人工智能大模型而誕生的各種更加低門檻的視頻工具,也讓視頻化從專業(yè)走向了普及。
在2024世界人工智能大會期間,快手大模型首次集體亮相,視頻生成大模型可靈、圖像生成大模型可圖等產(chǎn)品的多項新功能正式發(fā)布。其中可靈AI基礎(chǔ)模型再度升級,推出更加清晰的高畫質(zhì)版,以及首尾幀控制、鏡頭控制等全新編輯能力,同時,創(chuàng)作者單次生成的文生視頻時長增加至10s,是業(yè)內(nèi)對用戶開放使用可實現(xiàn)的最長時長。
而另一家在世界人工智能大會這么“剛”的大會上打造了一個PINK顏色展位的嗶哩嗶哩(以下簡稱“B站”),同樣將其在人工智能領(lǐng)域的看家本領(lǐng)進行了展示。其中嗶哩嗶哩鳴實驗室為世界首位中文虛擬歌手洛天依就量身定制了AI語音聲庫,通過精妙的算法調(diào)校,不僅保留了洛天依聲音的標(biāo)志性特質(zhì),還賦予了其更自然流暢和真實的表達(dá)能力,使其能夠輕松應(yīng)對各種曲風(fēng)和語言。在洛天依展區(qū)《歌行四方》的現(xiàn)場表演中,洛天依也呈現(xiàn)了堪比專業(yè)歌手級別的演唱,不少觀眾為此駐足,感受技術(shù)與藝術(shù)的完美融合。
此外,必剪Studio作為B自研的音視頻大模型,能為UP主提供免費生成1:1的真人模型定制服務(wù),通過輸入文本或錄音,即可生成實拍級效果的出鏡口播視頻。無論是直播互動、短視頻制作,還是虛擬偶像創(chuàng)造,都能幫助大大縮短創(chuàng)作周期,降低創(chuàng)作難度,讓更多創(chuàng)意得以快速實現(xiàn)。而在動漫領(lǐng)域,B站自研的AI動態(tài)漫技術(shù),則能夠通過圖文引導(dǎo)和動態(tài)控制,實現(xiàn)對角色五官、肢體動作、運鏡特效的生成與控制,構(gòu)建完整的動漫場景,真正實現(xiàn)讓漫畫“動” 起來,大幅降低了內(nèi)容制作的成本和門檻。
從各式各樣針對視頻領(lǐng)域的人工智能大模型和基于大模型誕生的視頻工具可以看出,如今無論是拿著一段文字、還是一張照片甚至是一幅漫畫,都能夠通過人工智能大模型“變成”動態(tài)的視頻,雖然目前的效果還較為參差不齊,但是人工智能大模型在視頻領(lǐng)域的應(yīng)用,可以說和像安全和教育之類的領(lǐng)域相比,可謂是大步流星遙遙領(lǐng)先。
其實相對而言,人工智能大模型帶來的視頻,不是未來,而是現(xiàn)在。