王海峰:語言與知識布局始終要把握兩大趨勢
人民網北京8月25日電(記者畢磊)8月25日,百度CTO王海峰解讀百度語言與知識技術的發展歷程與最新成果。他表示,在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,並力爭引領趨勢。
王海峰指出,語言與知識技術是人工智能認知能力的核心,以語言和知識為研究對象,讓機器像人一樣掌握知識、理解語言的自然語言處理技術,對於人工智能發展至關重要。歷經近十年發展,百度已經構建了完整的語言與知識技術布局,包括知識圖譜、語言理解與生成技術,以及上述技術所支持的包含智能搜索、機器翻譯、對話系統、智能寫作、深度問答等在內的的應用系統。
其中,知識圖譜是機器認知世界的基礎。機器認知能力的突破,越來越依賴對知識和大規模知識圖譜的運用。百度打造的多源異構知識圖譜,擁有超過50億實體和5500億事實,並在不斷演進和更新,已應用於各行各業,每日調用次數超過400億次。
不僅如此,針對不同應用場景和知識形態,百度還建立起多樣化的知識圖譜類型,既有基礎的實體知識圖譜,也有行業知識圖譜、事件圖譜、關注點圖譜等,以及融合語音、視頻、圖片的多模態知識圖譜。這背后,是百度創建的包括無標簽大數據開放知識挖掘技術、知識體系自擴展的知識圖譜自學習技術、以及融合多源異構數據的知識補全與整合技術在內一整套知識圖譜構建方法。
在知識的加持下,語言理解相關技術的能力不斷增強,機器也可以逐漸像人一樣不斷學習、不斷進步。百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,具備人類一樣的持續學習能力,曾一舉登頂全球權威數據集GLUE榜單,首次突破90分大關,並且超越人類得分。而通過融入知識、語義理解、以及增強小樣本學習能力,機器的閱讀理解和對話能力也在迅速增強。
王海峰認為,和人類認知世界的形式類似,機器認知世界時,也不僅是運用自然語言,而往往是對語音、視覺、語音等多模態信息的綜合應用。
為此,百度研制了知識增強的跨模態深度語義理解方法,通過知識關聯跨模態信息,運用語言描述不同模態信息的語義,進而讓機器實現從“看清”到“看懂”、從“聽清”到“聽懂”,即圖像和語言、語音和語言的一體化理解。而融合場景圖知識的跨模態語義理解預訓練技術,則大幅提升了跨模態推理能力。
王海峰指出,在機器理解自然語言之外,要與人進行交互,語言生成的任務也必不可少。百度基於多流機制的語言生成預訓練技術,在語言生成的過程中,兼顧詞、短語等不同粒度的語義信息,提升了生成效果。而多文檔摘要生成,則通過圖結構語義表示,引入篇章結構知識,增強長文本語義表示能力的同時,解決了跨文檔領域關系建模難題。
“語言與知識技術的全面突破,在搜索、翻譯、對話系統等各類產品、應用中得到突出體現。”王海峰介紹,通過知識圖譜、語言理解和跨模態語義理解等技術,智能搜索幫助用戶更加高效、精准、便捷地獲取知識和信息。智能搜索再進一步發展,搜索將無處不在。
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注