
智東西8月11日報道,昆侖萬維SkyWork AI技術發(fā)布周今日正式啟動。在持續(xù)5天的活動中,昆侖萬維將每天發(fā)布一款新模型,音頻驅動視頻生成數(shù)字人模型SkyReels-A3作為“第一彈”率先亮相。
當下市面上的數(shù)字人層出不窮,但因機械感、AI味兒重等問題廣受詬病。SkyReels-A3直擊數(shù)字人行業(yè)痛點,生成的視頻“真人感”肉眼可見,幾乎看不出來AI痕跡,支持多種精細動作及運鏡方式,而且生成時長“感人”,超60秒保持完全順暢一致。
比如,下面這個長視頻,你能看出完全是我們用SkyReels-A3在幾分鐘之內一次生成的嗎?
在昆侖萬維公布的初步人工測試中,Skyreels-A3對于面部和主體的穩(wěn)定性、口型同步、動作自然性等方面都取得了最好的效果,堪稱“五邊形戰(zhàn)士”——這些能力滿足時下熱門的數(shù)字人直播的業(yè)務需求,人人0門檻自創(chuàng)數(shù)字人開直播的時代真的來臨了!
在定量評估中,Skyreels-A3在不同的音頻驅動場景的大多數(shù)指標上,超越了先進的開源模型omniavatar和閉源模型omnihuman等方法,達到該賽道多項測評的SOTA(行業(yè)最佳)的水準。
當下,SkyReels-A3已經(jīng)面向所有人開放可用,智東西第一時間進行了實測。
在試用體驗后,智東西的真實感受是:這款模型堪稱“魔法”級別,準確和自然度、畫質及動感、時長都讓人眼前一亮。而且,從輸入所需的圖片、文案、音頻到最終生成的視頻,智東西基本都采用昆侖萬維的大模型及Skywork Super Agent來生成,從而體驗到了“從0到1”的創(chuàng)作快感。
不得不說,今天的生成式AI已經(jīng)是Next Level了。
不止于“對嘴型”表情動作達“真人級”
昆侖萬維的團隊觀察到,當下音頻驅動的人像視頻生成技術已經(jīng)顯著進步,但在自然的環(huán)境互動、長時間高質量生成以及執(zhí)行精準復雜指令等方面,仍難以勝任。
為此,其最新模型SkyReels-A3針對這些問題進行了優(yōu)化。
用戶輸入一張照片、一條音頻以及一句提示詞,SkyReels-A3就能輸出如以下視頻中的真人級直播賣貨視頻。視頻中,金發(fā)碧眼的女主播在講解手中的防曬霜,防曬霜自然地晃動,背后艷陽高照、泳池水光波動,真實感很強。
實測效果如何?智東西從多語種口型同步、手部動作自然度、表情動作與場景貼合度、動態(tài)運鏡控制、長視頻穩(wěn)定性、多風格多主體等方面,對SkyReels-A3的視頻生成效果進行了實際體驗。
如果我不說,相信大多數(shù)人看到下面的視頻后都會驚訝:這些視頻都是AI生成的?沒錯,從文案、角色、聲音到最終視頻,都是AI。
實測1:多語種口型同步。智東西輸入了中文、中文方言粵語、英文3種語言的音頻片段(各30秒),以及三張不同肖像圖,生成了三個數(shù)字人視頻,合而為一呈現(xiàn)。可以看到,視頻中的人物的表情穩(wěn)定,不同語種發(fā)音的嘴部運動自然連貫,口型與語音精準匹配。
實測2:手部動作自然度。開篇智東西展示了生成的貓咪賣貨視頻,現(xiàn)在當我把輸入的照片換成AI生成的人物肖像,只見視頻生成也十分聲臉貼合。更重要的是,手指生成正常且動作流暢,沒有出現(xiàn)“六個手指”這樣的恐怖谷效應以及重影現(xiàn)象。
此前7月,多家媒體報道,從Grok4到OpenAI o3等頂尖AI都數(shù)不清六根手指,引發(fā)人們關注。SkyReels-A3則在本次實測生成的多個視頻中都避開了這個bug。這種能力對廣告主播等業(yè)務場景非常重要,因為他們經(jīng)常需要手部和物品交互來達成商品成交。
實測3:表情動作與場景貼合度。首先是一個演講場景的案例,當我輸入一個演講場景的圖片和對應音頻,SkyReels-A3似乎理解了這一場景的設定,生成視頻中的女孩自信地進行演講,并時不時向左下角看稿子,符合場景設定。
下面這一視頻設定的場景為演唱會MV,可以看到生成視頻中小姐姐專注演唱,狀態(tài)“女團”活力十足,作為虛擬偶像立馬出道也不為過。而這一視頻生成僅僅花了1分鐘不到,加上照片和歌曲生成前后也不到10分鐘。
實測4:動態(tài)運鏡控制體驗。首先看一個昆侖萬維的官方Demo,鏡頭呈現(xiàn)了下降的動態(tài)運作,讓曠野中的男士逐漸逼近,展現(xiàn)出磅礴的大片感。
智東西對案例難度進行了升級,輸入一張帶有兩個人的照片,并輸入了一小段音樂音頻,以及“push in,女孩看向前方唱歌,男孩開心地看向女孩”文字指令,SkyReels-A3為我生成了一段采用了運鏡技巧的視頻。
從視頻效果來看,鏡頭的推進比較平滑,視角變化符合指令。不過,兩個人的嘴型隱約看到都在跟著動,與只要求女孩唱歌的提示指令略有出入。
據(jù)悉,昆侖萬維研發(fā)團隊目前預設了8種常見的運鏡參數(shù),包含: 固定鏡頭(static)、推鏡 (push in)、拉鏡 (push out)、左搖(pan left)、右搖(pan right)、抬升(crane up)、下降(crane down)和手持鏡頭(swing),用戶可以根據(jù)需要選擇相應運鏡,并且每個運鏡的強度可0–100%連續(xù)調節(jié)。
實測5:長視頻穩(wěn)定性效果。下面這是一段圍繞“《悉達多》與內卷還是躺平”主題生成的長視頻,時長接近1分鐘,畫面沒有出現(xiàn)崩壞、閃爍或人物變形,動作、表情也比較連貫。
當前市面上的模型主要專注于生成3-5秒的短視頻,但這對于廣告、直播帶貨等實際應用場景還不夠,1分鐘以上長視頻穩(wěn)定生成解決了市場的需求痛點。雖然SkyReels-A3視頻生成長度仍然有限,但已經(jīng)超出大多競品,通過多段視頻組合的方式,可以在保證時長的同時實現(xiàn)更精準控制。
實測6:多風格多主體效果。為了體驗不同風格生成,下面這是智東西用SkyReels-A3生成的一段3D卡通動漫視頻,畫面中的小松鼠聲情并茂地在講述它的經(jīng)歷,活潑而富有童真,這或許在兒童教育場景有可觀的商用價值。
基于上述體驗和案例鑒賞,我們認為音頻驅動數(shù)字人可想象的落地場景大大擴展了,包括虛擬偶像、虛擬人直播、線上教師、面試官數(shù)字人、游戲助手等,SkyReels-A3生成的數(shù)字人都將能夠勝任。
在體驗的過程中,最令我震撼的還是從文案、音頻、圖案到視頻的全鏈條AI生成。每一步都只需要一個頭腦中的點子以及鼠標鍵盤簡單操作,到最后一步視頻生成“集大成”,或許只要幾分鐘,而且免費。這不禁讓人贊嘆:內容生產(chǎn)者的“創(chuàng)造力爆發(fā)”時代真的要來了。
橫掃開閉源SOTA,人工測評“五邊形戰(zhàn)士”
魔法般的生成效果背后,是昆侖萬維AI視頻大模型技術的又一次迭代。
目前,Skyreels-A3的性能通過廣泛的實驗進行了驗證,包括現(xiàn)有最先進模型(開源和閉源)的定量和定性比較,多項指標實現(xiàn)了SOTA(行業(yè)表現(xiàn)最佳)。
據(jù)悉,在定量評估中,Skyreels-A3在不同的音頻驅動場景的大多數(shù)指標上,超越了先進的開源模型omniavatar和閉源模型omnihuman等方法。
其尤其是在唇形同步(sync-c)方面表現(xiàn)出卓越的性能。同時,研發(fā)團隊引入了step蒸餾,采用了更少的步數(shù) (40步減少為4步),效果幾乎沒有損失。
在人工測試中,Skyreels-A3對于面部和主體的穩(wěn)定性,動作自然性都取得了最好的效果,同時在口型同步和人臉取得最好比較接近的結果,可以說是一個“五邊形戰(zhàn)士”。
右圖則是對于retalking進行了評測,結果顯示音畫同步和視頻質量都有明顯的優(yōu)勢。
在定性分析中,Skyreels-A3模型在不同的應用場景中與OmniHuman、OmniAvatar、HunyuanAvatar等主流模型對比,都取得了不錯的生成效果。
據(jù)悉,Skyreels-A3生成的視頻視覺偽影(手部和動作扭曲)比較少,整體視覺質量更高,畫面更加自然。同時,對于半身復雜交互場景表現(xiàn)也更加優(yōu)秀。
基于DiT視頻擴散模型,破解累計誤差痛點
當前數(shù)字人生成技術尚未達到市場要求的精準度。 以直播帶貨為例,大量數(shù)字人主播在講解口紅時,口型難精準匹配,拿起口紅時手部動作僵硬或“穿模”,運鏡呆板使得展示效果大打折扣,也難以長時間不卡頓跳幀……
市場迫切需要更精準的AI視頻生成能力——能實現(xiàn)跨場景精準口型同步、穩(wěn)定長時輸出、更自然的交互生成和增強藝術化的運鏡控制。 昆侖萬維的Skyreels-A3正是瞄準這些核心痛點。自2024年起昆侖萬維就推出AI視頻模型SkyReels,而后瞄準電商直播等典型落地方向迭代模型。其本次推出的Skyreels-A3模型基于DiT(Diffusion Transformer)視頻擴散架構,架構能有效建模長時序依賴關系,擅長處理時間很長、前后關聯(lián)緊密的視頻內容,讓生成的視頻前后畫面連貫、有邏輯;同時Skyreels-A3引入3D變分自編碼器(3D-VAE)進行隱空間表征學習,在此空間內完成生成任務。這相當于把視頻壓縮成一個更小、更精煉的“核心版本”,就像把一部電影壓縮成一個很小的精華文件;然后在這個壓縮后的“核心空間” 里進行主要的視頻生成工作,從而顯著降低擴散模型計算復雜度,同時確保關鍵視覺特征的完整性。
如何生成高一致性的長視頻?傳統(tǒng)的延展方法由于生成誤差的累計,容易造成畫面逐漸崩壞。這就如同“走鋼絲”:依賴逐幀生成時,每一幀的微小誤差持續(xù)累積,導致畫面從細節(jié)失真逐步演變?yōu)槿姹缐摹拖穹磸蛷陀〉膱D紙,最終模糊成一團墨跡。昆侖萬維研發(fā)團隊采用全新的對齊訓練策略來進行視頻延展。通過歷史幀提供連續(xù)信息和參考圖提供畫面一致信息,如同架起一座穩(wěn)固的橋梁支柱,來減少誤差累計,從而消除畫面崩壞,持續(xù)地生成連續(xù)且畫面不崩壞的分鐘級別的長視頻。
在手與物品的交互方面,研發(fā)團隊針對手部動作自然度和清晰度,構造了針對線上直播等場景的數(shù)據(jù),并采用了不同seed和訓練過程checkpoints來生成大量候選,從而讓手上動作更自然和符合物理規(guī)律。此外值得一提的是,為了讓鏡頭語言更加靈動,研發(fā)團隊構造了一種基于ControlNet結構的鏡頭控制模塊,通過精細化鏡頭參數(shù)的輸入,實現(xiàn)幀級別精準運鏡控制。具體來說,這就好比給數(shù)字人所在場景做一個“3D深度掃描”,鏡頭控制模塊提取參考圖的深度信息,配合相機參數(shù),渲染目標運鏡軌跡的參考視頻。而后AI就能生成運鏡示范視頻當模板,讓數(shù)字人視頻逐幀復刻電影級絲滑的運鏡效果。
結語:AI視頻生成走向精細化競賽,加速產(chǎn)業(yè)落地步伐
當下,AI視頻生成正深入表情與物理交互的微觀戰(zhàn)場,昆侖萬維SkyReels-A3以唇動毫米級同步、符合動力學的肢體交互、長視頻零崩壞等優(yōu)勢突破精準卡位,推動視頻生成大模型迅速走向產(chǎn)業(yè)化。昆侖萬維在AI生成視頻領域的積累由來已久。早在2024年其就開始布局,而后相繼開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,以及全球首個無限時長視頻生成模型SkyReels-V2。此次推出的Skyreels-A3則聚焦數(shù)字人賽道,展現(xiàn)了“技術到生產(chǎn)力”的強大穿透力,有助于視頻生成模型應用到直播、電商、教育、廣告等多個領域。作為昆侖萬維技術周首發(fā)成果,SkyReels-A3不僅為數(shù)字人領域立標,更預告著AI視頻生成將引爆內容產(chǎn)業(yè)效能革命,才剛剛開始。昆侖萬維技術周還有更多更新,我們將持續(xù)關注。