大型數據集可糾正AI在視覺任務中的偏見

2025年11月09日08:55 | 來源：科技日報222

小字號

點擊播報本文，約

據最新一期《自然》發表的研究，科學家建立了超過一萬張人類圖像的數據庫，以評估並糾正人工智能（AI）模型在視覺領域存在的偏見。這一“公平的以人類為中心的圖像基准”（FHIBE）由索尼AI開發，採用符合倫理手段獲取、基於用戶同意的數據集，可精確評估以人為中心的計算機視覺任務，從而識別、糾正偏見和刻板印象。團隊認為，這是邁向更可信AI的重要一步。

計算機視覺廣泛應用於自動駕駛車輛、面部識別等技術領域。許多計算機視覺使用的AI模型，其訓練數據存在缺陷，可能未經同意收集，經常來自網絡大規模圖像抓取。人們也發現，AI模型可能會反映出延續性別歧視、種族歧視或其他刻板印象的偏見。

此次，研究團隊構建了一個圖像數據集，在同意機制、多樣性和隱私等多方面採取了最佳實踐。FHIBE包含81個國家和地區中1981名個體的10318張圖像。該數據庫包括了人口統計和生理特征的全面標注，包括年齡、代詞類別、祖先血統、發色與膚色等。參與者獲得了關於項目和潛在風險的詳細信息，幫助他們做出知情同意，過程符合全面數據保護法規。這些特征使該數據庫成為評估AI偏見的可靠資源。

團隊將FHIBE和27個現有以人類為中心的計算機視覺應用數據集做了比較，發現FHIBE數據集在多樣性與AI評估的可靠同意方面標准更高。它還有效減少了偏見，包含的參與者自我申報標注信息超過其他數據集，還包括了相當比例通常代表性不足的人群。該數據集可用於評估現有的AI模型在計算機視覺任務中的表現，能揭示更多此前無法了解的偏見。

不過，團隊也承認，目前創建數據集的過程充滿挑戰且成本十分高昂。

【總編輯圈點】

本報近期推出了多篇關於AI易出現偏差與其尚不可靠的相關報道。本文的這項研究，則是一次對AI倫理建設具有標杆意義的實踐。它最核心的價值在於，將“公平”這一抽象原則，轉化為一套可操作、可驗証的技術標准與工作流程。AI的偏見已經是行業頑疾，但現在可能有了一把標准量尺，使得量化評估與比較不同模型的公平性成為可能，這將直接推動算法的研發與優化。盡管其高昂成本提示了推廣的難度，但這一探索本身，正是推動AI從單純追求性能強大，轉向值得人類托付之伙伴的關鍵點。（記者張夢然）

(責編：郝帥、李源)

關注公眾號：人民網財經