可靈AI推出全新數字人功能


點擊播報本文,約
近日,可靈AI數字人正式亮相,憑借領先的口型精准度、情緒動作演繹和跨風格泛化能力,重新定義了數字人技術的行業標准。用戶僅需上傳一張角色圖片、輸入角色表達內容或一段音頻,就能生成最長1分鐘、極具表現力的數字人視頻,而且支持多類角色及中英日韓多語種,最低價格僅0.12元每秒,廣泛適用於廣告、電商、娛樂、媒體、教育等眾多場景。目前產品公測陸續開放中。
極簡輸入、高質輸出:一張圖實現分鐘級數字人生成
可靈AI數字人極大降低了行業的制作門檻,用戶隻需提供一張角色圖(支持寫實人物、動漫、動物等多種角色),輸入一段文字或音頻,即可一鍵生成最高達1080p分辨率、48FPS高幀率的高質量數字人視頻。
該功能可支持生成最長達1分鐘的數字人視頻,可輕鬆滿足產品講解、新聞播報、在線教育等多種場景需求,結合會員優惠最低價僅0.12元/秒(標准價格:高品質模式8靈感值/秒,標准模式4靈感值/秒),讓高品質數字人技術不再是少數專業機構的專利,真正賦能廣大內容創作者與中小企業。
此外,為了實現“開箱即用”的便捷體驗,可靈AI還提供了一站式解決方案。既支持用戶上傳自有素材,也可以使用內置的官方形象庫、AI生圖功能以及近百種TTS音色,輕鬆完成從角色創建到配音的全流程。
角色演繹“神形兼備”
在數字人的核心能力——“表現力”上,可靈AI展示了其深厚的技術功底,不再滿足於同類產品簡單的音畫同步,而是追求角色“神形兼備”的生動演繹。
在對口型這一基礎指標上,可靈AI數字人展現出了業界領先的精准度。實測案例中,一位女歌手正演唱英文歌曲,其唇形與快速變化的歌詞音節完美貼合,復雜口型也表現出色。而根據提示詞“眼神專注自信地唱歌”,數字角色更呈現出自信的眼神、持麥的自然姿態,以及與觀眾互動的微笑,生動還原了歌手在舞台上的表演狀態。
同時,憑借可靈視頻模型的強大能力,可靈AI數字人展現出優秀的泛化性能,無論是寫實人物、動漫卡通、動物形象,皆可生成高質量數字人視頻。在卡通貓咪唱英文Rap的案例中,可靈AI精准地捕捉音頻節奏,生成了一隻一邊說唱、一邊隨節奏自然搖擺身體的“Rapper貓”,跨越不同角色風格界限,賦予角色生命力。
提示詞驅動角色表演 情緒與動作精細可控
區別於僅“動嘴皮”的數字人,可靈AI數字人還帶來了對情緒的深刻理解與表達,而且可通過提示詞精細化控制角色情緒與肢體語言,實現“有靈魂的表演”。
在這個表現“憤怒”情緒的案例中,根據音頻內容和提示詞“內心全是氣憤,非常生氣”。模型精准地將這種抽象情緒轉化為具體的面部微表情——緊鎖的眉頭、緊抿的嘴唇和充滿壓迫感的眼神,將角色的內心怒火展現得淋漓盡致。
基於可靈AI視頻模型,依托多模態理解大模型與視頻生成模型的深度融合,可靈AI數字人突破傳統音畫同步的表淺擬合,首次實現從聽聲音到懂意圖的跨越。在口型准確度已達行業領先的基礎上,可精准解析輸入的語音、圖像和提示詞,對長視頻中數字人情緒、動作與運鏡作出精准規劃,確保生成內容緊密呼應敘事意圖與情感脈絡,真正完成從對口型到情節演繹的升級。
技術驅動 打造數字人行業標杆
可靈AI數字人的卓越表現,得益於其背后多模態理解大模型與視頻生成模型的深度融合。通過音畫高度對齊的交叉注意力機制、強化口型的訓練策略以及精細化的數據處理,實現了語音與唇形的精准同步,即使面對多語種、歌唱或極快語速的台詞,仍能保証唇形與發音嚴絲合縫。而採用關鍵幀控制的架構,模型先構建高層次敘事骨架,再並行生成多個片段的數字人視頻,可在保持身份一致的前提下,實現無限長度視頻生成。
專業測試中,可靈AI數字人與行業知名產品Heygen及即夢數字人(Omnihuman-1方案)進行了效果對比。結果顯示,可靈 AI 數字人在整體效果及多個細分維度上均表現優異,與即夢數字人(Omnihuman-1 方案)對比的整體 GSB 得分達到 2.39,與 Heygen 對比的整體 GSB 得分達到 1.37,位居行業領先。
可靈AI作為全球領先的視頻生成大模型,自2024年6月發布以來已完成超30次迭代,用戶規模突破4500萬,生成視頻數量超2億,為超過2萬家企業提供API服務,覆蓋廣告、影視、游戲等多個領域。隨著可靈AI數字人的推出,將進一步降低行業創作門檻、提升制作標准,推動其在短視頻、電商直播、在線教育、企業服務等領域的規模化應用。

分享讓更多人看到
- 評論
- 關注