AI惹上刑事調查
如何給聊天機器人設護欄引發熱議
222
訂閱已訂閱已收藏
收藏點擊播報本文,約
今年4月底,美國佛羅裡達州總檢察長詹姆斯·烏斯邁爾宣布,州級檢察官辦公室已對人工智能(AI)公司OpenAI及其聊天機器人ChatGPT啟動刑事調查,焦點在於ChatGPT是否在去年4月佛羅裡達州立大學一起慘烈的校園槍擊案中充當了“幫凶”。對此,OpenAI稱,公司正與當局合作,ChatGPT不應對這起可怕的罪行負責。
英國《自然》網站在近日的報道中指出,盡管OpenAI目前尚未受到任何指控,但這項調查直指AI公司面前的一道核心難題:為什麼打造一個契合人類法律、道德和價值觀的聊天機器人竟如此艱難?
澳大利亞麥格理大學大語言模型聯盟研究員烏斯曼·納西姆認為,不管佛羅裡達州的調查是否會給OpenAI招致法律后果,但會促使各家公司証明自身安全措施是否有效。與此同時,科學家也在全力以赴,試圖將人類價值觀“編碼”進AI模型,即實現人機價值對齊,以助其既有用又安全。
安全措施尚顯薄弱
近年來,人們對大語言模型聊天機器人輸出危險乃至非法建議的憂慮與日俱增,從慫恿自殺、炮制非法內容到財經欺詐,不一而足。可眼下,AI系統的安全防線依然脆弱。
納西姆透露,當前聊天機器人的安全標准基本由各公司自行定奪,外部監督少之又少。許多公司坦承問題所在,也表態已採取安全措施阻止輸出可能誘發危險行為的建議,但一些研究人員呼吁應引入獨立的安全檢測。
目前,一些公司採取的一項防護手段是內容過濾器,其能讓AI工具拒絕回應含有特定敏感詞的請求。不過,澳大利亞新南威爾士大學AI研究員托比·沃爾什指出,用戶完全可以繞過這個坎。他們隻需重新組織提問方式,把不良意圖包裝成假設或虛構情境,AI工具便很難從看似無害的請求裡甄別出危險的端倪。
納西姆補充說,包括內容過濾、行為訓練和政策規則在內的許多安全措施,說到底還是一種外部控制,而非系統對道德或意圖真真切切地領悟。這些手段並非全然無用,但也並不完美,執著的用戶仍能找到破綻鑽空子。
安全與實用不易兼得
聊天機器人為啥總不能規規矩矩守法?部分症結在於,那些驅動最熱門聊天機器人的大語言模型,其學習方式是“依樣畫葫蘆”,而非遵循一套明晰的規則。
這些大語言模型在海量互聯網文本上接受訓練。當用戶提問或給出提示詞時,模型便會預測最有可能依次出現的詞匯序列。沃爾什認為,這種設計讓這些大語言模型幾乎什麼都能回應,成為“萬事通”,但反過來,要想給那些不該說的話設下牢靠的護欄,也就變得倍加困難。
納西姆強調,大語言模型給出的答案,只是一種模式拼湊,它們並不真正理解話語的含義或后果。
沃爾什回顧道,科研人員曾試圖教AI系統遵循規則。上世紀五六十年代風靡一時的符號AI,便是教計算機恪守規則。但澳大利亞阿德萊德大學AI研究員西蒙·盧西直言,這套辦法應付不了大規模的現實世界問題,因為開發者根本無法編寫足夠多的規則來囊括所有情形。
沃爾什建議,想讓現有大語言模型更安全,可借助基於人類反饋的強化學習。具體而言,人類評估模型的輸出,並手把手引導它形成更可取的回答,但這套做法極耗資源,成本高昂。
另一種思路,是從訓練AI模型最初的數據集裡剔除有害信息,可研究表明,這招未必總奏效。沃爾什說,對科技公司而言,人工梳理如此龐大的數據集,花費同樣驚人。他還強調,在安全與實用之間,必須拿捏好分寸。如果給系統戴上過緊的枷鎖,它也就失去了用武之地。
底層算法亟待重新考量
納西姆表示,投身“人機對齊”研究的科學家,正放眼比內容檢測器更寬廣的視野,致力於開發能精准識別整段對話中有害意圖的系統,而不只是孤立地標記某個問題。
盧西透露,一些科學家還在打造“神經符號AI”。它將老派符號AI與神經網絡方法融於一身,這類模型在計算機編程和數學領域已嶄露頭角,一旦輸出不靈光,大語言模型就能立即獲得反饋並據此改進。可在倫理和法律領域,這種立竿見影的反饋並不容易實現,因為它來得太慢,而且過程中可能已經造成了傷害。
盧西還指出,眼下多家公司正嘗試砸巨資去獲取並管理更多數據來優化系統,也雇佣更多人提供更優質的反饋。但他強調,AI研究者需要重新審視大語言模型的底層算法,才能構建起真正能夠體悟人類倫理與法律的AI系統。
關注公眾號:人民網財經
分享讓更多人看到
- 評論
- 關注































微信掃一掃


第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量