首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 台灣
- 教育
- 科普
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
舉報專區
登錄

退出

人民網>>經濟·科技

隻需一段提示文本，就能生成60秒連貫性視頻——

Sora火了，通用人工智能要來了？

2024年02月27日09:03 | 來源：科技日報

小字號

原標題：Sora火了，通用人工智能要來了？

　　圖為Sora生成的視頻截圖。

　　【AI世界】

　　◎本報記者崔爽

　　2024年開年，Sora的橫空出世，給AI界投下一枚重磅炸彈。

　　這個由美國人工智能公司OpenAI發布的文生視頻模型，隻需要一段提示文本，就能生成具有多個角色和特定動作類型，且主題和背景基本准確的高清視頻。相較於Runway Gen 2、Pika等AI視頻生成應用幾秒鐘連貫性的視頻產出，Sora可生成長達60秒的連續、穩定、高品質視頻，且提示文本越充分、細節越精確，生成的視頻越真實。

　　不過，出於可能被濫用的擔憂，OpenAI表示目前並沒有公開發布Sora的計劃。模型有限的訪問權限隻被授予小部分研究人員和創意人士等群體，以便OpenAI獲取他們的使用反饋。

　　目前，官網上已更新了48個Sora生成的演示視頻。這些視頻清晰且真實的細節和超高的精度不禁引發人們思考：這是否意味著具備人類同等智能或超越人類智能的通用人工智能（AGI）的到來？

　　對研究AGI意義重大

　　Sora問世后，360集團創始人周鴻祎發表了看法：Sora的出現讓AGI到來的時間提前了。原來估計需要十來年，現在可能隻要兩三年。他認為，Sora雖然看起來只是個文生視頻工具，但實際上是AI認知世界並與之進行交互的裡程碑，會給整個產業帶來巨大進步。

　　“實現AGI的技術路線多樣，涉及不同的研究方法和應用方向。”中國科學院自動化研究所副總工程師、紫東太初大模型中心常務副主任王金橋向科技日報記者介紹，目前，學術界和工業界廣泛討論的AGI技術路線主要有三條。一是信息智能，即“大數據+自監督學習+大算力”。這種方法依賴大量數據，通過自監督學習算法來訓練模型，同時需要巨大的計算能力來處理復雜任務。二是博弈智能。這種技術路線強調在人機交互中通過強化學習的方式訓練智能體，使其能進行自主學習和決策。三是類腦智能。這種方法試圖通過模仿人腦的運行方式實現AGI。

　　在王金橋看來，根據官網的演示視頻，Sora至少在畫質、長視頻生成、多鏡頭一致性、學習世界規律、多模態融合等方面實現突破。

　　“Sora能引發如此轟動，並不只是因為它生成的視頻時間更長、清晰度更高，而是因為它能在一定程度上模擬物理世界中的物體運動和交互。”王金橋說，“這種能力對於AGI的研究具有重要意義，因為它涉及機器對現實世界的深入理解和高度模擬，而這些是實現AGI的核心挑戰。”

　　記者了解到，為了准確模擬物理世界，Sora被投喂了極大規模的訓練數據，並使用了擴散模型等先進的算法。“對於AGI而言，Sora讓大家看到，規模效應不隻在文字模態上成立，在視頻模態上也成立。”北京月之暗面科技有限公司（Moonshot AI）聯合創始人周昕宇認為，“通過擴展視頻生成模型可以建立通用物理世界模擬器。這是實現AGI的必要過程。”

　　距真正實現AGI仍有距離

　　雖然進步顯著、令人驚艷，但Sora仍然存在一些技術缺陷。

　　從目前Sora生成的視頻來看，它在處理某些細節時可能會出錯，例如混淆物體的左右方向。同時，它也無法完全理解復雜的因果關系，或在長時間跨度內保持故事線的高度一致連貫。這些技術缺陷導致生成的視頻內容可能出現與邏輯錯誤，或與常識、真實情形不符的情況。

　　“Sora模擬真實物理世界的方式，是通過對給定的文字、圖像、參考視頻進行建模，然后預測想要生成的視頻數據的條件概率分布。這與語言模型的原理沒有本質區別，同樣是在做無損壓縮。”周昕宇說，“隻要壓縮得足夠好，就可以模擬出足夠真實的物理世界。”

　　王金橋強調，盡管Sora能夠通過學習了解表層的運動和交互關系，但是還沒有學習到物理規律的本質。比如，它不知道多大的風能吹滅蠟燭，不了解玻璃掉到地上會碎、掉到地毯上不會碎的本質原因。這也是Sora目前最為人詬病之處。

　　“從Sora為數不多的公開資料來看，它仍是數據驅動下的擬合，也就是模擬人類所能看到的物理世界。但真實的物理世界遠不僅包含人類視覺信息。”北京中關村科金技術有限公司技術副總裁張杰認為，Sora的創意來自大數據量下的概率擬合，它並沒有產生新知識，距離“深度模擬真實物理世界”這一目標還有很長的路要走。

　　中國社會科學院哲學研究所科技哲學研究室主任、研究員段偉文同樣表達了審慎的觀點。“Sora這種近乎人類的表達實際上是一種基於現有數據和語料的合成智能。”他說，“它給實現AGI找到了一種可行的路徑，但距真正的AGI還有很長的距離，且對實現AGI的價值相對有限。”

　　事實上，實現AGI這一目標可謂道阻且長。王金橋談到了幾大挑戰。首先是數據瓶頸。盡管像GPT-4這樣的預訓練語言模型在數據標注上取得了進展，但數據依然是深度學習中的一個關鍵限制因素﹔其次是泛化瓶頸。目前的AI系統往往在特定任務上表現出色，但在面對新任務時難以有效適應﹔最后是能耗瓶頸。隨著AI模型變得越來越復雜，所需的計算資源和能源消耗也越來越大。這對硬件設備提出了更高要求。

　　或將率先落地傳媒領域

　　Sora的發布不僅推動了技術的發展，也引發了對AI治理和倫理的探討。

　　段偉文提到，OpenAI採取了相關手段來阻止不當視頻的發布。王金橋進一步解釋道， Sora內置的文本提示過濾器可篩選發送給模型的所有提示，阻止對暴力、色情內容、仇恨言論以及名人肖像等敏感或不適當內容的請求。視頻內容過濾器能檢查生成的視頻幀，屏蔽違反OpenAI安全政策的內容。

　　另外，OpenAI團隊可能會定期對Sora進行優化和更新，以改進其過濾機制，確保模型能夠更好地識別和處理敏感內容。同時，團隊可能會監控系統的使用情況，以便及時發現並解決新出現的問題。

　　“從技術上看，Sora避免極端暴力、色情、名人肖像等內容出現的方式，主要依靠的是模型的對齊能力。”周昕宇說，“這一點和語言模型的區別不大，也已經有比較多的實踐經驗。”

　　據國際數據公司預測，Sora將率先在短視頻、廣告、互動娛樂、影視制作和媒體等傳媒領域得到應用。Sora的諸多能力，可以輔助這些領域的工作者更高效地進行視頻創作，加快生產速度，提高產出數量。這將助力相關行業降低成本、提升效率，進一步優化用戶體驗。

(責編：羅知之、陳鍵)

關注公眾號：人民網財經

關注公眾號：人民網財經

分享讓更多人看到

推薦閱讀

中消協發布春節消費維權輿情報告: 　　人民網北京2月27日電（記者孫博洋）26日，中消協發布了《2024年春節消費維權輿情分析報告》，報告顯示，交通出行、景區旅游、文化娛樂、消費服務等方面維權熱度較高。中消協此次發布的報告在2月9日至2月18日共計10天監測期內，共收集到“消費維權”相關信息21,575,207條，日均約216萬條。…

2024年中國航天預計實施100次左右發射任務: 　　人民網北京2月26日電（記者趙竹青）2月26日，中國航天科技集團有限公司發布《中國航天科技活動藍皮書（2023年）》（以下簡稱藍皮書），介紹2024年宇航任務整體情況。藍皮書指出，2024年，中國航天全年預計實施100次左右發射任務，有望創造新的紀錄。…

客戶端下載

熱門排行

微信掃一掃提供新聞線索

微信掃一掃
提供新聞線索

人民日報社概況| 關於人民網| 報社招聘| 招聘英才| 廣告服務| 合作加盟| 供稿服務| 數據服務| 網站聲明| 網站律師| 信息保護| 聯系我們

人民日報違法和不良信息舉報電話：010-65363263 舉報郵箱：jubao@people.cn

人民網服務郵箱：kf@people.cn 違法和不良信息舉報電話：010-65363636 舉報郵箱：rmwjubao@people.cn

互聯網新聞信息服務許可証10120170001 | 增值電信業務經營許可証B1-20060139 | 廣播電視節目制作經營許可証（廣媒）字第172號 | 京ICP備12004265號-13

信息網絡傳播視聽節目許可証0104065 | 網絡文化經營許可証京網文[2020]5494-1075號 | 網絡出版服務許可証（京）字121號 | 京ICP証000006號 | 京公網安備11000002000008號

人民網股份有限公司版權所有，未經書面授權禁止使用
Copyright © 1997-2024 by www.people.com.cn. all rights reserved

評論
分享
關注
微信微博快手
第一時間為您推送權威資訊

報道全球傳播中國

關注人民網，傳播正能量

返回頂部