財經觀察:提升人機交互效率 多模態大模型易用性進一步推進

人民網北京5月14日電 (焦磊、實習生張泊洋)陪人聊天、幫助分析工作中的問題並給出解決方案,甚至和人建立起情感羈絆……在科幻電影《Her》中,聊天機器人“Samantha”用充滿智慧和幽默的回答展示出高度的智能性和適應性。當下,這些來自過去的科幻想象正加速照入現實中。
北京時間5月14日凌晨,美國科技公司OpenAI在春季發布會上發布了最新GPT-4o多模態大模型。據OpenAI公司首席技術官米拉·穆拉蒂(Mira Murati)介紹,GPT-4o可以接收文本、音頻和圖像的任意組合作為輸入,並實時生成文本、音頻和圖像的任意組合進行輸出,其中“o”代表“omni全能”。
一直以來,多模態人機交互便是AI領域重點研究發力方向之一。繼文生視頻大模型Sora之后,GPT-4o的發布迎合了業內對多模態大模型的更多期待。
模態即每一種信息的來源或形式。人們在信息獲取、環境感知、知識學習與表達等方面都是採用多模態的輸入、輸出方式。業內分析認為,相比單模態,多模態大模型同時處理文本、圖片、音頻以及視頻等多類信息,與現實世界融合度高,更符合人類接收、處理和表達信息的方式,與人類交互方式更加靈活,表現得更加智能,能夠執行更大范圍的任務。
作為面向未來人機交互范式的全新大模型,GPT-4o具有文本、語音、圖像三種模態的理解力,並可以綜合對話者語氣和所處環境空間等因素進行回答,展現出了高度智能性。
發布會上,GPT-4o展示了多項多模態交互能力。在進行實時語音交流時,其響應極快,並且可以識別用戶的語音情緒,語音有情感,還能用不同語言和多人同時交互。在語音的同時可以與視頻實時交互,演示了一邊聊天一邊解答手寫數學問題,以及實時交流閱讀代碼,指導編程、視頻聊天等能力。
米拉·穆拉蒂表示,“這是我們第一次在易用性方面真正向前邁出了一大步。”
此前,大模型在各個領域的應用主要集中在文生文、文生圖之上,今年初Sora的發布則推動文生視頻領域進一步發展。業內分析表示,此次GPT-4o的發布,將促使多模態綜合交互成為生成式AI的重點發展方向,進而提升人機交互效率,逐漸向AGI方向邁進。
國盛証券研報分析,GPT-4o是邁向更自然的人機交互的重大進步,新功能帶來了嶄新的多模態交互能力,通過新的端到端模型實現了體驗上的新突破,有望在各類終端實現用戶體驗的最大化。
多模態大模型包含的圖文、音頻、視頻內容數據量巨大,進而引發人們對算力供應的關注。業內分析認為,未來AI的發展對算力的需求將會是幾何式增長,算力限制可能是影響生成式AI應用開放使用的重要因素,而算力的可獲取性以及成本將是挑戰之一。此外,多模態大模型還將帶來更嚴峻的安全挑戰。
米拉·穆拉蒂表示,在安全性問題上,GPT-4o通過過濾訓練數據和通過訓練后細化模型行為等技術,在跨模態設計中內置了安全性。OpenAI還創建了新的安全系統,為語音輸出提供防護。
據介紹,用戶可有數量限制地免費使用GPT-4o模型來進行數據分析、圖像分析、互聯網搜索、訪問應用商店等操作。
OpenAI CEO山姆·奧特曼在發布會后表示,“我們將創造人工智能,然后其他人將使用它來創造各種令人驚奇的事物,我們所有人都會從中受益。”此外,他還表示OpenAI其他業務收入將幫助公司向數十億人提供免費的人工智能服務。

分享讓更多人看到
推薦閱讀
- 2024中國互聯網大會將於7月9日至11日在北京舉辦
- 人民網北京5月14日電 (記者許維娜)記者從中國互聯網協會了解到,2024(第二十三屆)中國互聯網大會將於7月9日至11日在北京舉行,大會將以“互聯三十載 智匯新質變”為主題,圍繞“會、展、賽、特色活動”主線,開展豐富多彩的系列活動。 記者了解到,2024(第二十三屆)中國互聯網大會將舉辦開幕式、閉幕式、主論壇及特色分論壇等20余場論壇﹔精品展覽部分設置綜合展區、人工智能展區、創新大賽展區、新品發布區等,匯聚全球前沿互動科技產品﹔創新大賽部分聚焦信息技術應用創新、人工智能、數字政府、數據要素、數字教育、企業合規、新型工業化、數據安全、國際合作9個賽道,探索數字經濟發展的創新成果。…
- 評論
- 關注