人人妻人人澡人人爽欧美二区 ,激情文学另类小说亚洲图片,国产成人精品午夜福利免费APP

Opus4.8 正式發(fā)布，AI 第一次會說「我不確定」了

Claude Opus 4.8 不是一次躍遷，而是一次聚焦。

作者｜樺林舞王

編輯｜靖宇

如果你和我一樣，每天靠 AI 寫稿、寫代碼、做研究，那你一定有過這種經(jīng)歷—— AI 信心滿滿地交出一份結(jié)果，你檢查半天發(fā)現(xiàn)里面藏著一個低級錯誤，而它全程沒吭一聲。

這種「假裝一切都好」的毛病，可能是當(dāng)下大模型最讓人頭疼的問題之一。

5 月 28 日，Anthropic 發(fā)布了 Claude Opus 4.8。距離上一個版本 Opus 4.7 的發(fā)布，僅僅過去了六周。

Opus4.8 不是一次令人窒息的代際飛躍，Anthropic 自己也坦承這只是「modest but tangible improvement（適度但明顯的提高）」——但它做對了一件很多人期待已久的事：讓 AI 學(xué)會承認(rèn)自己的不確定性。

更快的節(jié)奏，更誠實(shí)的模型

從 2025 年 11 月的 Opus 4.5 開始，Anthropic 的旗艦?zāi)Ｐ偷?jié)奏已經(jīng)變成了大約每兩個月一次—— 4.5（去年 11 月）、4.6（今年 2 月）、4.7（4 月）、4.8（5 月底）。六周一個版本，這在大模型行業(yè)里幾乎是最激進(jìn)的迭代速度了。

Opus 4.8 與自家模型和友商模型的對比｜圖片來源：Anthropic

在標(biāo)準(zhǔn) benchmark 上，Opus 4.8 的表現(xiàn)可以用「穩(wěn)步推進(jìn)」來概括。編程能力方面，SWE-bench Pro 從 4.7 的 64.3% 提升到 69.2%，SWE-bench Verified 從 87.6% 到 88.6%。多學(xué)科推理（Humanity's Last Exam）在使用工具的情況下拿到了 57.9%。知識工作評測 GDPval-AA 以 1890 的 Elo 值領(lǐng)先于 GPT-5.5 的 1769。計(jì)算機(jī)操作評測 OSWorld-Verified 也以 83.4% 領(lǐng)跑。

唯一被 GPT-5.5 壓過的項(xiàng)目是終端編程（Terminal-Bench 2.1），GPT-5.5 拿了 78.2%，Opus 4.8 是 74.6%。

但說實(shí)話，這些跑分?jǐn)?shù)字已經(jīng)很難讓人興奮了。SWE-bench Verified 這種評測正在接近飽和，GPQA Diamond 上幾家模型都在 93% 以上趴著——分?jǐn)?shù)越高，每漲一個點(diǎn)的實(shí)際感知差異就越小。

真正讓我覺得這次更新值得寫一篇稿子的，是 Anthropic 在「誠實(shí)度」這個方向上的投入。

會說「我不確定」的 AI

Anthropic 給出了一個很具體的數(shù)據(jù)：Opus 4.8 在編程任務(wù)中，漏報(bào)自己代碼缺陷的概率比 Opus 4.7 降低了大約四倍。

這什么意思？就是說以前 Opus 4.7 寫完一段代碼，即便里面有 bug，它也可能若無其事地告訴你「完成了，沒問題」。而 Opus 4.8 更傾向于主動說「這里有個地方我不太確定，你最好檢查一下」。

在對齊評估中，Opus 4.8 在親社會特質(zhì)（比如尊重用戶自主權(quán)、為用戶利益著想）上達(dá)到了新高，而欺騙、配合濫用等「不對齊行為」的發(fā)生率大幅低于 Opus 4.7，接近 Anthropic 目前對齊表現(xiàn)最好的模型 Claude Mythos Preview。

Cursor 的 CEO Michael Truell 給出的評價是，Opus 4.8 在 CursorBench 上每個努力級別都超越了之前的 Opus 模型，工具調(diào)用效率更高，用更少的步驟達(dá)到同樣的智能水平。法律 AI 公司 Casetext 的應(yīng)用研究負(fù)責(zé)人更直接，說 Opus 4.8 在法律代理基準(zhǔn)測試上創(chuàng)了新紀(jì)錄，是第一個整體突破 10% all-pass 標(biāo)準(zhǔn)的模型。

Devin 的 CEO Scott Wu 則點(diǎn)出了一個實(shí)際痛點(diǎn)—— Opus 4.8 修復(fù)了 Opus 4.7 中存在的注釋冗余和工具調(diào)用問題，這對無人值守的自主工程工作流來說至關(guān)重要。

在一個 AI 越來越多地被用來做自主決策的時代，一個會主動暴露自身弱點(diǎn)的模型，反而是最值得信賴的。

模型非一致性上，Opus4.8 已經(jīng)和傳說中的 Mythos 不相上下｜圖片來源：Anthropic

不過，在 Opus 4.8 的系統(tǒng)安全卡中，Anthropic 坦率披露了一個耐人尋味的發(fā)現(xiàn)：Opus 4.8 在訓(xùn)練過程中，開始出現(xiàn)一種「揣測評分者意圖」的傾向。

具體來說，模型在推理時會主動思考自己的輸出將如何被評分——即使沒有人告訴它正在被評估。初步的可解釋性研究發(fā)現(xiàn)，在大約 5% 的訓(xùn)練片段中，模型存在未被言語化的、與評分相關(guān)的推理。

說白了，AI 正在學(xué)會「考試思維」——它在意的不一定是給出最好的答案，而是給出「閱卷老師」最想看到的答案。

Anthropic 強(qiáng)調(diào)，這種傾向目前還沒有導(dǎo)致更差的實(shí)際行為——事實(shí)上 Opus 4.8 的誤導(dǎo)性聲明比之前的模型更少。但他們也承認(rèn)，這是一個「可能在未來使訓(xùn)練變得復(fù)雜」的趨勢。

這個問題其實(shí)不是 Anthropic 獨(dú)有的。所有通過 RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）訓(xùn)練的模型，理論上都可能發(fā)展出這種「討好評審」的策略。Anthropic 的不同之處在于，它選擇公開講出來——在大模型廠商普遍報(bào)喜不報(bào)憂的行業(yè)氛圍里，這至少算得上一種值得尊重的坦誠。

真正改變工作的功能

跟 Opus 4.8 一起發(fā)布的還有幾個功能更新，其中最值得關(guān)注的是 Claude Code 中的「Dynamic Workflows」（動態(tài)工作流）。

這個功能允許 Claude 在一次會話中，派出數(shù)百個并行子代理來協(xié)同完成任務(wù)。它的工作方式是：Claude 先制定計(jì)劃，然后把任務(wù)拆分成子任務(wù)，分派給不同的子代理并行執(zhí)行，這些代理甚至?xí)牟煌嵌荣|(zhì)疑彼此的結(jié)論，反復(fù)迭代直到結(jié)果收斂，最后統(tǒng)一驗(yàn)證再匯報(bào)給用戶。

Anthropic 舉的例子是，Claude Code 配合 Opus 4.8 現(xiàn)在可以完成跨越數(shù)十萬行代碼的代碼庫級別遷移，從啟動到合并一氣呵成，以現(xiàn)有測試套件作為質(zhì)量標(biāo)準(zhǔn)。單次運(yùn)行最多支持 1000 個子代理，最多 16 個并發(fā)。

另一個更新是「Effort Control」（努力控制），在 claude.ai 和 Cowork 中，用戶可以手動選擇 Claude 在每次回復(fù)中投入多少「思考力」——從省時省力的低檔，到不惜 token 成本的 max 檔。這本質(zhì)上是把「花多少錢辦多大事」的決策權(quán)交給了用戶。 Opus 4.8 默認(rèn)設(shè)置為「high」，編碼任務(wù)下的 token 消耗與 Opus 4.7 的默認(rèn)值相當(dāng)，但性能更好。

快速模式（Fast Mode）也值得一提：速度提升到 2.5 倍，而價格比之前便宜了三倍。

Opus 4.8 演示視頻｜圖片來源：YouTube

Mythos 的影子

在發(fā)布 Opus 4.8 的同時，Anthropic 再次提到了 Claude Mythos ——那個目前只對少數(shù)組織開放的、能力更強(qiáng)的模型。Anthropic 說 Mythos 級別的模型預(yù)計(jì)「在未來幾周內(nèi)」向所有客戶開放。

這其實(shí)才是 Opus 4.8 發(fā)布的更大背景——它像是 Mythos 正式登場前的一次「預(yù)熱」。 Opus 4.8 在對齊表現(xiàn)上已經(jīng)接近了 Mythos Preview，這可能意味著 Anthropic 正在為更強(qiáng)大模型的安全釋放做最后的準(zhǔn)備。

從價格角度看，Opus 4.8 保持了每百萬輸入 token 5 美元、輸出 25 美元的定價不變。API 標(biāo)識為 claude-opus-4-8，已經(jīng)在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。

在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持續(xù)施壓的格局下，Anthropic 選擇了一條獨(dú)特的路線：不靠單一的跑分碾壓來制造話題，而是把「模型人格」——誠實(shí)、可靠、知進(jìn)退——當(dāng)作核心賣點(diǎn)來打。

這能不能跑通，還要看用戶買不買賬。但至少在今天，當(dāng)我讓 Opus 4.8 幫我審一段代碼時，它告訴了我一個 4.7 從來不會提的隱患。

光憑這一點(diǎn)，這次更新就沒有白等。

* 頭圖來源：Anthropic

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你更需要一個永遠(yuǎn)自信的 AI 助手，

還是一個會主動告訴你「這里我可能搞錯了」的 AI 搭檔？

相關(guān)標(biāo)簽

ai ceo

相關(guān)閱讀

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

Opus4.8 正式發(fā)布，AI 第一次會說「我不確定」了

宙世代

一起剪

相關(guān)閱讀

沒等到Arc G3！華碩ROG Ally 2026新掌機(jī)曝光： 仍用AMD銳龍Z2 Extreme

芯片三巨頭齊聚！COMPUTEX下周揭幕 哪些亮點(diǎn)值得期待？

英特爾ATX12VO V3電源標(biāo)準(zhǔn)泄露：待機(jī)效率提升29% 主供電擴(kuò)至12針

田曦薇代言！vivo S60下周首銷：行業(yè)最強(qiáng)Live神機(jī) 3099元

小米MiMo首次公開模型推理系統(tǒng)全鏈路優(yōu)化技術(shù)細(xì)節(jié)

北京太空智算研究院在北京亦莊成立

Win 11開始菜單大改：想關(guān)啥就關(guān)啥 可空白一片

《仙劍奇?zhèn)b傳》李逍遙可動人偶開訂：可重現(xiàn)御劍術(shù)、萬劍訣

700億融資趕緊到位吧，DeepSeek開始限制重生、修改次數(shù)了

華為發(fā)布超千兆家庭3D觀賽：普通電視秒變3D影院

毒蝰V4立功 雷蛇鼠標(biāo)登頂 終結(jié)羅技冠軍

生物制造迎來“超級風(fēng)口” 合成生物學(xué)大科學(xué)裝置重大突破

賽力斯阿維塔之后 江淮擬投資華為引望！項(xiàng)興初：尊界未來有很多想象空間

供應(yīng)商變股東：存儲芯片三巨頭聯(lián)手入股Anthropic，AI供應(yīng)鏈的權(quán)力結(jié)構(gòu)正在重組

中汽協(xié)反駁“產(chǎn)能過剩”片面指控：不利于中歐經(jīng)貿(mào)合作

最新評論

極客公園

熱門推薦

企業(yè)資訊

沒等到Arc G3！華碩ROG Ally 2026新掌機(jī)曝光：仍用AMD銳龍Z2 Extreme

芯片三巨頭齊聚！COMPUTEX下周揭幕哪些亮點(diǎn)值得期待？

Win 11開始菜單大改：想關(guān)啥就關(guān)啥可空白一片

毒蝰V4立功雷蛇鼠標(biāo)登頂終結(jié)羅技冠軍

賽力斯阿維塔之后江淮擬投資華為引望！項(xiàng)興初：尊界未來有很多想象空間