OpenAI 公司今天(4 月 16 日)發(fā)布博文,宣布為更好追蹤和應(yīng)對前沿 AI 能力可能帶來的嚴重危害風險,發(fā)布新版《準備框架》(Preparedness Framework)。
IT之家注:《準備框架》是 OpenAI 在開發(fā)和部署環(huán)節(jié),用于評估 AI 模型安全性的內(nèi)部系統(tǒng)。
新框架通過更聚焦的方式,識別并緩解具體風險,同時強化風險最小化的要求,為組織如何評估、治理和披露安全措施提供明確指引。OpenAI 還承諾,隨著技術(shù)進步,將投入更多資源,確保準備工作更具行動力、嚴謹性和透明度。
新框架為高風險能力設(shè)定了清晰的優(yōu)先級標準,通過結(jié)構(gòu)化的風險評估流程,判斷某項前沿能力是否可能導致嚴重危害。每項能力根據(jù)定義標準被歸類,并追蹤符合五項關(guān)鍵標準的能力。
此外,框架引入了更細化的能力分類,包括追蹤類別(Tracked Categories)、網(wǎng)絡(luò)安全能力(Cybersecurity capabilities)和 AI 自我改進能力(AI Self-improvement capabilities)等。
OpenAI 認為,這些領(lǐng)域?qū)?AI 在科學、工程和研究中最具變革性的益處。同時,新增的研究類別(Research Categories)涵蓋可能造成嚴重危害但尚未達到追蹤標準的領(lǐng)域,如長距離自主性(Long-range Autonomy)、故意低表現(xiàn)(Sandbagging)和自主復(fù)制與適應(yīng)(Autonomous Replication and Adaptation)等。
框架進一步明確了能力等級,簡化為“高能力”(High capability)和“關(guān)鍵能力”(Critical capability)兩個門檻。無論哪一等級,在開發(fā)和部署前均需采取足夠的安全措施,以降低嚴重危害風險。
OpenAI 內(nèi)部的安全顧問小組(Safety Advisory Group)負責審查這些措施,并向領(lǐng)導層提出建議。此外,框架引入了可擴展的評估機制,支持更頻繁的測試,并通過詳細的 Safeguards Reports 報告安全措施的設(shè)計強度和驗證效果。若其他 AI 開發(fā)者發(fā)布缺乏同等安全措施的高風險系統(tǒng),OpenAI 可能調(diào)整自身要求,但會先確認風險形勢變化,公開承認調(diào)整,確保不增加整體風險。