人民網
人民網>>經濟·科技

多模態大模型將重塑行業格局

吳純新
2025年05月07日08:47 | 來源:科技日報
小字號

原標題:多模態大模型將重塑行業格局

眼神表情、語氣動作與台詞內容、周邊環境可實時調整,情緒轉折和肢體行為切換順暢,直播間裡超擬真數字人的表現力甚至超越真人﹔果農打開AI助手,語音說出想法,一個集合產品展示、線上下單、收款發貨功能的定制化應用即在3分鐘內生成,實現無代碼編程,每個人都可以成為程序員……

這些是科技日報記者在Create2025百度AI開發者大會上看到的多模態大模型應用場景。

近日,百度發布文心大模型4.5Turbo及深度思考模型X1Turbo。作為多模態大模型,前者實現了文本、圖像和視頻的混合訓練,大幅提升跨模態學習效率和多模態融合效果,使學習效率提高近2倍,多模態理解效果提升超過30%。

創新應用賦能多業態

超擬真數字人的“超能力”從何而來?其驚艷表現的背后是多模態AI技術的強力支持。

百度首席技術官王海峰所在的團隊研制了“劇本”驅動多模協同的超擬真數字人技術,可實現語言、聲音、形象的協調一致。

“打開電腦,拿起手機,讓文物講述它的故事。”當天,中國文物交流中心與百度文心大模型發布首個文博智能體——文夭夭文博智推官,為公眾提供國內外博物館文物、展覽、數字化應用等文博專業知識的科普講解、傳播推廣。

如何提高文物展示水平,重塑與激活文物承載的文化內涵和精神價值?AI給出了科技答案,賦予文物新的創造力。

中國文物交流中心黨委副書記、副主任周宇表示,中國文物交流中心與百度文心大模型合作,希望通過AI技術賦能文博事業發展,借助智能體讓人們更方便、更快捷、更全面地了解文物背后的歷史、故事以及價值。

通過整合文本、圖像、視頻等數據,多模態大模型實現了跨模態理解與生成,突破了傳統單模態模型的局限性。王海峰表示,未來,大模型的能力和效率將進一步提升,人們可以探索更前瞻、更有想象力的創新應用。

在大模型賦能下,文物更鮮活,也更吸引人了。百度文心大模型與中國文物交流中心將繼續探索AI大模型技術在文博領域的應用,打造多元化、數字化、智能化文博內容新場景,助力文物和文化遺產保護傳承。

非遺傳承有了新方式

非遺武術是五千年中華文明的活態載體,然而其傳承傳播正遭遇嚴峻挑戰。數據顯示,傳統武術拳種僅存129種。

事實上,非遺武術離人們的生活並不遙遠,太極拳、形意拳、八卦掌,這些特色拳種早已通過武俠小說、電影、電視等融入生活。如何讓更多人學到非遺武術知識,參與非遺武術傳承傳播?大模型給出了新答案。

“非遺武術—百度文心大模型”應運而生。該應用基於百度文心大模型,融合上海體育大學武術學院、中國武術博物館的專業積澱,將武術技法與算法結合,通過3D動作建模、AI動態糾錯等技術,把非遺武術技術動作以數字化的形式保存和記錄下來。

例如,練拳時,AI可以捕捉用戶動作軌跡,與標准模型智能比對,實現動態打分評測和實時反饋指導﹔學習時,系統可解析發力原理,提供科學優化建議,讓“紙上招式”變為“立體教學”。

“大模型豐富了非遺武術的教育形式,也創新了非遺武術的傳承方式,未來我們將積極打造新場景。”王海峰說。

未來,多模態大模型將重塑多個行業格局。例如在制造業中,模型可通過視覺檢測與自然語言指令結合,實現缺陷自動標注與工藝優化﹔在金融領域,其可整合財報、輿情與市場數據,提供更精准的風險評估。

(責編:羅知之、陳鍵)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

推薦閱讀
返回頂部