人民網
人民網>>經濟·科技

拓寬行業應用場景 多模態大模型加速通用AI進程

2024年02月26日08:35 | 來源:人民網
小字號

人民網北京2月26日電 (焦磊)隻需輸入文本指令,便可生成60s的視頻內容,並在畫面效果、視頻時長、流暢度和邏輯性等方面具備驚人效果……近日,OpenAI發布的文生視頻大模型Sora迅速引發人們關注。業內分析認為,該項新產品或將促使大模型廠商加大對多模態大模型的研發投入,並進一步推動AGI(通用人工智能)進程。

一直以來,視頻領域便是被普遍看好的AI應用落腳點之一。繼可生成圖文的ChatGPT之后,Sora的發布迎合了業內對多模態大模型的期待。

模態即每一種信息的來源或形式。人們在信息獲取、環境感知、知識學習與表達等方面都是採用多模態的輸入、輸出方式。

華福証券研報表示,相比單模態,多模態大模型同時處理文本、圖片、音頻以及視頻等多類信息,與現實世界融合度高,更符合人類接收、處理和表達信息的方式,與人類交互方式更加靈活,表現得更加智能,能夠執行更大范圍的任務,有望推動AI邁向AGI。

此前,大模型在各個領域的應用主要集中在文生文、文生圖之上,而在文生視頻領域卻進步緩慢。業內分析表示,此次Sora的發布,將促使多模態大模型成為生成式AI的重點發展方向。未來人機交互將通過文字、視覺、語音等多維度溝通,進而提升效率,逐漸向AGI方向邁進。

值得一提的是,國務院國資委日前召開“AI賦能產業煥新”中央企業人工智能專題推進會。會議提出,開展AI+專項行動,強化需求牽引,加快重點行業賦能,構建一批產業多模態優質數據集,打造從基礎設施、算法工具、智能平台到解決方案的大模型賦能產業生態。

視頻大模型的創新進步,也引起人們對相關內容行業變革的思考。

浦銀國際分析認為,對於短視頻,Sora提升了內容供給及創作質量,並有效降低了門檻和成本,或將進入“全民創作”時代。而長視頻對內容質量等專業化要求較高,AI生成視頻在精准度、可編輯性等方面仍需進一步打磨,長期發展空間廣闊。

IDC中國研究總監盧言霞認為,Sora將最先應用於短視頻、廣告、互娛、影視、媒體等領域。在這些領域採用多模態大模型能力,輔助人類員工生成視頻,既可以提高生產速度又可以提高生產數量,還可以創造全新的視覺感受,能夠幫助企業真正實現降本增效、提升用戶體驗。

與圖文相比,視頻內容所包含的數據量巨大,因而引發人們對算力需求的關注。業內分析認為,AI視頻對算力的需求將會是幾何式增長,算力限制可能是影響文生視頻類應用開放使用的重要因素。

盧言霞表示,多模態大模型對算力的消耗更高,算力的可獲取性以及成本將是挑戰之一。此外,多模態大模型將帶來更嚴峻的安全挑戰。一方面多模態大模型將讀取更多的圖像、視頻類數據,這些圖像視頻數據是否合規是否安全,需要得到保障﹔另一方面,生成視頻與真實世界之間的差異,需評估是否會影響到人身安全、社會穩定、企業安全等。

根據華泰証券研報,2023年實際誕生文生視頻大模型達到數十個,全球用戶數量超過百萬級別,但目前多數視頻模型仍處於產品早期階段。從創作端看,市場上已公開的大多數模型出自初創公司和小型技術開發團隊,包括Runaway、Pika等,且目前已呈現較為可觀的完成效果和商業模式。(實習生張泊洋對此文亦有貢獻)

(責編:王連香、呂騫)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

返回頂部