歡迎來到家居網(wǎng)鏈！

貓咪也能“123上鏈接”！超強數(shù)字人模型SkyReels-A3來了，人人皆可零幀起手玩轉直播帶貨

2025-08-12 10:04:04 來源：家居網(wǎng)鏈網(wǎng)

智東西8月11日報道，昆侖萬維SkyWork AI技術發(fā)布周今日正式啟動。在持續(xù)5天的活動中，昆侖萬維將每天發(fā)布一款新模型，音頻驅動視頻生成數(shù)字人模型SkyReels-A3作為“第一彈”率先亮相。

當下市面上的數(shù)字人層出不窮，但因機械感、AI味兒重等問題廣受詬病。SkyReels-A3直擊數(shù)字人行業(yè)痛點，生成的視頻“真人感”肉眼可見，幾乎看不出來AI痕跡，支持多種精細動作及運鏡方式，而且生成時長“感人”，超60秒保持完全順暢一致。

比如，下面這個長視頻，你能看出完全是我們用SkyReels-A3在幾分鐘之內一次生成的嗎？

在昆侖萬維公布的初步人工測試中，Skyreels-A3對于面部和主體的穩(wěn)定性、口型同步、動作自然性等方面都取得了最好的效果，堪稱“五邊形戰(zhàn)士”——這些能力滿足時下熱門的數(shù)字人直播的業(yè)務需求，人人0門檻自創(chuàng)數(shù)字人開直播的時代真的來臨了！

在定量評估中，Skyreels-A3在不同的音頻驅動場景的大多數(shù)指標上，超越了先進的開源模型omniavatar和閉源模型omnihuman等方法，達到該賽道多項測評的SOTA（行業(yè)最佳）的水準。

當下，SkyReels-A3已經(jīng)面向所有人開放可用，智東西第一時間進行了實測。

在試用體驗后，智東西的真實感受是：這款模型堪稱“魔法”級別，準確和自然度、畫質及動感、時長都讓人眼前一亮。而且，從輸入所需的圖片、文案、音頻到最終生成的視頻，智東西基本都采用昆侖萬維的大模型及Skywork Super Agent來生成，從而體驗到了“從0到1”的創(chuàng)作快感。

不得不說，今天的生成式AI已經(jīng)是Next Level了。

不止于“對嘴型”表情動作達“真人級”

昆侖萬維的團隊觀察到，當下音頻驅動的人像視頻生成技術已經(jīng)顯著進步，但在自然的環(huán)境互動、長時間高質量生成以及執(zhí)行精準復雜指令等方面，仍難以勝任。

為此，其最新模型SkyReels-A3針對這些問題進行了優(yōu)化。

用戶輸入一張照片、一條音頻以及一句提示詞，SkyReels-A3就能輸出如以下視頻中的真人級直播賣貨視頻。視頻中，金發(fā)碧眼的女主播在講解手中的防曬霜，防曬霜自然地晃動，背后艷陽高照、泳池水光波動，真實感很強。

實測效果如何？智東西從多語種口型同步、手部動作自然度、表情動作與場景貼合度、動態(tài)運鏡控制、長視頻穩(wěn)定性、多風格多主體等方面，對SkyReels-A3的視頻生成效果進行了實際體驗。

如果我不說，相信大多數(shù)人看到下面的視頻后都會驚訝：這些視頻都是AI生成的？沒錯，從文案、角色、聲音到最終視頻，都是AI。

實測1：多語種口型同步。智東西輸入了中文、中文方言粵語、英文3種語言的音頻片段（各30秒），以及三張不同肖像圖，生成了三個數(shù)字人視頻，合而為一呈現(xiàn)。可以看到，視頻中的人物的表情穩(wěn)定，不同語種發(fā)音的嘴部運動自然連貫，口型與語音精準匹配。

實測2：手部動作自然度。開篇智東西展示了生成的貓咪賣貨視頻，現(xiàn)在當我把輸入的照片換成AI生成的人物肖像，只見視頻生成也十分聲臉貼合。更重要的是，手指生成正常且動作流暢，沒有出現(xiàn)“六個手指”這樣的恐怖谷效應以及重影現(xiàn)象。

此前7月，多家媒體報道，從Grok4到OpenAI o3等頂尖AI都數(shù)不清六根手指，引發(fā)人們關注。SkyReels-A3則在本次實測生成的多個視頻中都避開了這個bug。這種能力對廣告主播等業(yè)務場景非常重要，因為他們經(jīng)常需要手部和物品交互來達成商品成交。

實測3：表情動作與場景貼合度。首先是一個演講場景的案例，當我輸入一個演講場景的圖片和對應音頻，SkyReels-A3似乎理解了這一場景的設定，生成視頻中的女孩自信地進行演講，并時不時向左下角看稿子，符合場景設定。

下面這一視頻設定的場景為演唱會MV，可以看到生成視頻中小姐姐專注演唱，狀態(tài)“女團”活力十足，作為虛擬偶像立馬出道也不為過。而這一視頻生成僅僅花了1分鐘不到，加上照片和歌曲生成前后也不到10分鐘。

實測4：動態(tài)運鏡控制體驗。首先看一個昆侖萬維的官方Demo，鏡頭呈現(xiàn)了下降的動態(tài)運作，讓曠野中的男士逐漸逼近，展現(xiàn)出磅礴的大片感。

智東西對案例難度進行了升級，輸入一張帶有兩個人的照片，并輸入了一小段音樂音頻，以及“push in，女孩看向前方唱歌，男孩開心地看向女孩”文字指令，SkyReels-A3為我生成了一段采用了運鏡技巧的視頻。

從視頻效果來看，鏡頭的推進比較平滑，視角變化符合指令。不過，兩個人的嘴型隱約看到都在跟著動，與只要求女孩唱歌的提示指令略有出入。

據(jù)悉，昆侖萬維研發(fā)團隊目前預設了8種常見的運鏡參數(shù)，包含: 固定鏡頭（static)、推鏡（push in）、拉鏡（push out）、左搖（pan left）、右搖（pan right）、抬升（crane up）、下降（crane down）和手持鏡頭（swing），用戶可以根據(jù)需要選擇相應運鏡，并且每個運鏡的強度可0–100%連續(xù)調節(jié)。

實測5：長視頻穩(wěn)定性效果。下面這是一段圍繞“《悉達多》與內卷還是躺平”主題生成的長視頻，時長接近1分鐘，畫面沒有出現(xiàn)崩壞、閃爍或人物變形，動作、表情也比較連貫。

當前市面上的模型主要專注于生成3-5秒的短視頻，但這對于廣告、直播帶貨等實際應用場景還不夠，1分鐘以上長視頻穩(wěn)定生成解決了市場的需求痛點。雖然SkyReels-A3視頻生成長度仍然有限，但已經(jīng)超出大多競品，通過多段視頻組合的方式，可以在保證時長的同時實現(xiàn)更精準控制。

實測6：多風格多主體效果。為了體驗不同風格生成，下面這是智東西用SkyReels-A3生成的一段3D卡通動漫視頻，畫面中的小松鼠聲情并茂地在講述它的經(jīng)歷，活潑而富有童真，這或許在兒童教育場景有可觀的商用價值。

基于上述體驗和案例鑒賞，我們認為音頻驅動數(shù)字人可想象的落地場景大大擴展了，包括虛擬偶像、虛擬人直播、線上教師、面試官數(shù)字人、游戲助手等，SkyReels-A3生成的數(shù)字人都將能夠勝任。

在體驗的過程中，最令我震撼的還是從文案、音頻、圖案到視頻的全鏈條AI生成。每一步都只需要一個頭腦中的點子以及鼠標鍵盤簡單操作，到最后一步視頻生成“集大成”，或許只要幾分鐘，而且免費。這不禁讓人贊嘆：內容生產(chǎn)者的“創(chuàng)造力爆發(fā)”時代真的要來了。

橫掃開閉源SOTA,人工測評“五邊形戰(zhàn)士”

魔法般的生成效果背后，是昆侖萬維AI視頻大模型技術的又一次迭代。
目前，Skyreels-A3的性能通過廣泛的實驗進行了驗證，包括現(xiàn)有最先進模型（開源和閉源）的定量和定性比較，多項指標實現(xiàn)了SOTA（行業(yè)表現(xiàn)最佳）。
據(jù)悉，在定量評估中，Skyreels-A3在不同的音頻驅動場景的大多數(shù)指標上，超越了先進的開源模型omniavatar和閉源模型omnihuman等方法。

其尤其是在唇形同步（sync-c）方面表現(xiàn)出卓越的性能。同時，研發(fā)團隊引入了step蒸餾，采用了更少的步數(shù) （40步減少為4步），效果幾乎沒有損失。

在人工測試中，Skyreels-A3對于面部和主體的穩(wěn)定性，動作自然性都取得了最好的效果，同時在口型同步和人臉取得最好比較接近的結果，可以說是一個“五邊形戰(zhàn)士”。

右圖則是對于retalking進行了評測，結果顯示音畫同步和視頻質量都有明顯的優(yōu)勢。

在定性分析中，Skyreels-A3模型在不同的應用場景中與OmniHuman、OmniAvatar、HunyuanAvatar等主流模型對比，都取得了不錯的生成效果。

據(jù)悉，Skyreels-A3生成的視頻視覺偽影（手部和動作扭曲）比較少，整體視覺質量更高，畫面更加自然。同時，對于半身復雜交互場景表現(xiàn)也更加優(yōu)秀。

基于DiT視頻擴散模型,破解累計誤差痛點

當前數(shù)字人生成技術尚未達到市場要求的精準度。以直播帶貨為例，大量數(shù)字人主播在講解口紅時，口型難精準匹配，拿起口紅時手部動作僵硬或“穿模”，運鏡呆板使得展示效果大打折扣，也難以長時間不卡頓跳幀……
市場迫切需要更精準的AI視頻生成能力——能實現(xiàn)跨場景精準口型同步、穩(wěn)定長時輸出、更自然的交互生成和增強藝術化的運鏡控制。昆侖萬維的Skyreels-A3正是瞄準這些核心痛點。自2024年起昆侖萬維就推出AI視頻模型SkyReels，而后瞄準電商直播等典型落地方向迭代模型。其本次推出的Skyreels-A3模型基于DiT（Diffusion Transformer）視頻擴散架構，架構能有效建模長時序依賴關系，擅長處理時間很長、前后關聯(lián)緊密的視頻內容，讓生成的視頻前后畫面連貫、有邏輯；同時Skyreels-A3引入3D變分自編碼器（3D-VAE）進行隱空間表征學習，在此空間內完成生成任務。這相當于把視頻壓縮成一個更小、更精煉的“核心版本”，就像把一部電影壓縮成一個很小的精華文件；然后在這個壓縮后的“核心空間” 里進行主要的視頻生成工作，從而顯著降低擴散模型計算復雜度，同時確保關鍵視覺特征的完整性。

如何生成高一致性的長視頻？傳統(tǒng)的延展方法由于生成誤差的累計，容易造成畫面逐漸崩壞。這就如同“走鋼絲”：依賴逐幀生成時，每一幀的微小誤差持續(xù)累積，導致畫面從細節(jié)失真逐步演變?yōu)槿姹缐摹拖穹磸蛷陀〉膱D紙，最終模糊成一團墨跡。昆侖萬維研發(fā)團隊采用全新的對齊訓練策略來進行視頻延展。通過歷史幀提供連續(xù)信息和參考圖提供畫面一致信息，如同架起一座穩(wěn)固的橋梁支柱，來減少誤差累計，從而消除畫面崩壞，持續(xù)地生成連續(xù)且畫面不崩壞的分鐘級別的長視頻。

在手與物品的交互方面，研發(fā)團隊針對手部動作自然度和清晰度，構造了針對線上直播等場景的數(shù)據(jù)，并采用了不同seed和訓練過程checkpoints來生成大量候選，從而讓手上動作更自然和符合物理規(guī)律。此外值得一提的是，為了讓鏡頭語言更加靈動，研發(fā)團隊構造了一種基于ControlNet結構的鏡頭控制模塊，通過精細化鏡頭參數(shù)的輸入，實現(xiàn)幀級別精準運鏡控制。具體來說，這就好比給數(shù)字人所在場景做一個“3D深度掃描”，鏡頭控制模塊提取參考圖的深度信息，配合相機參數(shù)，渲染目標運鏡軌跡的參考視頻。而后AI就能生成運鏡示范視頻當模板，讓數(shù)字人視頻逐幀復刻電影級絲滑的運鏡效果。

結語：AI視頻生成走向精細化競賽,加速產(chǎn)業(yè)落地步伐

當下，AI視頻生成正深入表情與物理交互的微觀戰(zhàn)場，昆侖萬維SkyReels-A3以唇動毫米級同步、符合動力學的肢體交互、長視頻零崩壞等優(yōu)勢突破精準卡位，推動視頻生成大模型迅速走向產(chǎn)業(yè)化。昆侖萬維在AI生成視頻領域的積累由來已久。早在2024年其就開始布局，而后相繼開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1，以及全球首個無限時長視頻生成模型SkyReels-V2。此次推出的Skyreels-A3則聚焦數(shù)字人賽道，展現(xiàn)了“技術到生產(chǎn)力”的強大穿透力，有助于視頻生成模型應用到直播、電商、教育、廣告等多個領域。作為昆侖萬維技術周首發(fā)成果，SkyReels-A3不僅為數(shù)字人領域立標，更預告著AI視頻生成將引爆內容產(chǎn)業(yè)效能革命，才剛剛開始。昆侖萬維技術周還有更多更新，我們將持續(xù)關注。