首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 台灣
- 教育
- 科普
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
舉報專區
登錄

退出

財經觀察：提升人機交互效率多模態大模型易用性進一步推進

2024年05月14日13:19 | 來源：人民網

小字號

人民網北京5月14日電（焦磊、實習生張泊洋）陪人聊天、幫助分析工作中的問題並給出解決方案，甚至和人建立起情感羈絆……在科幻電影《Her》中，聊天機器人“Samantha”用充滿智慧和幽默的回答展示出高度的智能性和適應性。當下，這些來自過去的科幻想象正加速照入現實中。

北京時間5月14日凌晨，美國科技公司OpenAI在春季發布會上發布了最新GPT-4o多模態大模型。據OpenAI公司首席技術官米拉·穆拉蒂（Mira Murati）介紹，GPT-4o可以接收文本、音頻和圖像的任意組合作為輸入，並實時生成文本、音頻和圖像的任意組合進行輸出，其中“o”代表“omni全能”。

一直以來，多模態人機交互便是AI領域重點研究發力方向之一。繼文生視頻大模型Sora之后，GPT-4o的發布迎合了業內對多模態大模型的更多期待。

模態即每一種信息的來源或形式。人們在信息獲取、環境感知、知識學習與表達等方面都是採用多模態的輸入、輸出方式。業內分析認為，相比單模態，多模態大模型同時處理文本、圖片、音頻以及視頻等多類信息，與現實世界融合度高，更符合人類接收、處理和表達信息的方式，與人類交互方式更加靈活，表現得更加智能，能夠執行更大范圍的任務。

作為面向未來人機交互范式的全新大模型，GPT-4o具有文本、語音、圖像三種模態的理解力，並可以綜合對話者語氣和所處環境空間等因素進行回答，展現出了高度智能性。

發布會上，GPT-4o展示了多項多模態交互能力。在進行實時語音交流時，其響應極快，並且可以識別用戶的語音情緒，語音有情感，還能用不同語言和多人同時交互。在語音的同時可以與視頻實時交互，演示了一邊聊天一邊解答手寫數學問題，以及實時交流閱讀代碼，指導編程、視頻聊天等能力。

米拉·穆拉蒂表示，“這是我們第一次在易用性方面真正向前邁出了一大步。”

此前，大模型在各個領域的應用主要集中在文生文、文生圖之上，今年初Sora的發布則推動文生視頻領域進一步發展。業內分析表示，此次GPT-4o的發布，將促使多模態綜合交互成為生成式AI的重點發展方向，進而提升人機交互效率，逐漸向AGI方向邁進。

國盛証券研報分析，GPT-4o是邁向更自然的人機交互的重大進步，新功能帶來了嶄新的多模態交互能力，通過新的端到端模型實現了體驗上的新突破，有望在各類終端實現用戶體驗的最大化。

多模態大模型包含的圖文、音頻、視頻內容數據量巨大，進而引發人們對算力供應的關注。業內分析認為，未來AI的發展對算力的需求將會是幾何式增長，算力限制可能是影響生成式AI應用開放使用的重要因素，而算力的可獲取性以及成本將是挑戰之一。此外，多模態大模型還將帶來更嚴峻的安全挑戰。

米拉·穆拉蒂表示，在安全性問題上，GPT-4o通過過濾訓練數據和通過訓練后細化模型行為等技術，在跨模態設計中內置了安全性。OpenAI還創建了新的安全系統，為語音輸出提供防護。

據介紹，用戶可有數量限制地免費使用GPT-4o模型來進行數據分析、圖像分析、互聯網搜索、訪問應用商店等操作。

OpenAI CEO山姆·奧特曼在發布會后表示，“我們將創造人工智能，然后其他人將使用它來創造各種令人驚奇的事物，我們所有人都會從中受益。”此外，他還表示OpenAI其他業務收入將幫助公司向數十億人提供免費的人工智能服務。

(責編：喬業瓊、高雷)

關注公眾號：人民網財經

分享讓更多人看到

人民日報報系

旗下網站

創新服務平台

財經觀察：提升人機交互效率多模態大模型易用性進一步推進

推薦閱讀

客戶端下載

熱門排行

人民日報報系

旗下網站

創新服務平台

財經觀察：提升人機交互效率 多模態大模型易用性進一步推進

推薦閱讀

客戶端下載

熱門排行

財經觀察：提升人機交互效率多模態大模型易用性進一步推進