• <p id="sefxy"><li id="sefxy"><sup id="sefxy"></sup></li></p>
    <legend id="sefxy"></legend>
    <cite id="sefxy"></cite>
    <nobr id="sefxy"></nobr>
    <pre id="sefxy"><samp id="sefxy"></samp></pre>

        <cite id="sefxy"><track id="sefxy"></track></cite>
        动漫精品无码h在线观看,免费一级成人毛片,国产日产韩国精品视频,,中文字幕AⅤ人妻一区二区
        關(guān)于ZAKER Skills 合作
        極客公園 昨天

        Opus4.8 正式發(fā)布,AI 第一次會說「我不確定」了

        Claude Opus 4.8 不是一次躍遷,而是一次聚焦。

        作者|樺林舞王

        編輯|靖宇

        如果你和我一樣,每天靠 AI 寫稿、寫代碼、做研究,那你一定有過這種經(jīng)歷—— AI 信心滿滿地交出一份結(jié)果,你檢查半天發(fā)現(xiàn)里面藏著一個低級錯誤,而它全程沒吭一聲。

        這種「假裝一切都好」的毛病,可能是當(dāng)下大模型最讓人頭疼的問題之一。

        5 月 28 日,Anthropic 發(fā)布了 Claude Opus 4.8。距離上一個版本 Opus 4.7 的發(fā)布,僅僅過去了六周。

        Opus4.8 不是一次令人窒息的代際飛躍,Anthropic 自己也坦承這只是「modest but tangible improvement(適度但明顯的提高)」——但它做對了一件很多人期待已久的事:讓 AI 學(xué)會承認(rèn)自己的不確定性。

        01

        更快的節(jié)奏,更誠實(shí)的模型

        從 2025 年 11 月的 Opus 4.5 開始,Anthropic 的旗艦?zāi)P偷?jié)奏已經(jīng)變成了大約每兩個月一次—— 4.5(去年 11 月)、4.6(今年 2 月)、4.7(4 月)、4.8(5 月底)。六周一個版本,這在大模型行業(yè)里幾乎是最激進(jìn)的迭代速度了。

        Opus 4.8 與自家模型和友商模型的對比|圖片來源:Anthropic

        在標(biāo)準(zhǔn) benchmark 上,Opus 4.8 的表現(xiàn)可以用「穩(wěn)步推進(jìn)」來概括。編程能力方面,SWE-bench Pro 從 4.7 的 64.3% 提升到 69.2%,SWE-bench Verified 從 87.6% 到 88.6%。多學(xué)科推理(Humanity's Last Exam)在使用工具的情況下拿到了 57.9%。知識工作評測 GDPval-AA 以 1890 的 Elo 值領(lǐng)先于 GPT-5.5 的 1769。計(jì)算機(jī)操作評測 OSWorld-Verified 也以 83.4% 領(lǐng)跑。

        唯一被 GPT-5.5 壓過的項(xiàng)目是終端編程(Terminal-Bench 2.1),GPT-5.5 拿了 78.2%,Opus 4.8 是 74.6%。

        但說實(shí)話,這些跑分?jǐn)?shù)字已經(jīng)很難讓人興奮了。SWE-bench Verified 這種評測正在接近飽和,GPQA Diamond 上幾家模型都在 93% 以上趴著——分?jǐn)?shù)越高,每漲一個點(diǎn)的實(shí)際感知差異就越小。

        真正讓我覺得這次更新值得寫一篇稿子的,是 Anthropic 在「誠實(shí)度」這個方向上的投入。

        02

        會說「我不確定」的 AI

        Anthropic 給出了一個很具體的數(shù)據(jù):Opus 4.8 在編程任務(wù)中,漏報(bào)自己代碼缺陷的概率比 Opus 4.7 降低了大約四倍。

        這什么意思?就是說以前 Opus 4.7 寫完一段代碼,即便里面有 bug,它也可能若無其事地告訴你「完成了,沒問題」。而 Opus 4.8 更傾向于主動說「這里有個地方我不太確定,你最好檢查一下」。

        在對齊評估中,Opus 4.8 在親社會特質(zhì)(比如尊重用戶自主權(quán)、為用戶利益著想)上達(dá)到了新高,而欺騙、配合濫用等「不對齊行為」的發(fā)生率大幅低于 Opus 4.7,接近 Anthropic 目前對齊表現(xiàn)最好的模型 Claude Mythos Preview。

        Cursor 的 CEO Michael Truell 給出的評價是,Opus 4.8 在 CursorBench 上每個努力級別都超越了之前的 Opus 模型,工具調(diào)用效率更高,用更少的步驟達(dá)到同樣的智能水平。法律 AI 公司 Casetext 的應(yīng)用研究負(fù)責(zé)人更直接,說 Opus 4.8 在法律代理基準(zhǔn)測試上創(chuàng)了新紀(jì)錄,是第一個整體突破 10% all-pass 標(biāo)準(zhǔn)的模型。

        Devin 的 CEO Scott Wu 則點(diǎn)出了一個實(shí)際痛點(diǎn)—— Opus 4.8 修復(fù)了 Opus 4.7 中存在的注釋冗余和工具調(diào)用問題,這對無人值守的自主工程工作流來說至關(guān)重要。

        在一個 AI 越來越多地被用來做自主決策的時代,一個會主動暴露自身弱點(diǎn)的模型,反而是最值得信賴的。

        模型非一致性上,Opus4.8 已經(jīng)和傳說中的 Mythos 不相上下|圖片來源:Anthropic

        不過,在 Opus 4.8 的系統(tǒng)安全卡中,Anthropic 坦率披露了一個耐人尋味的發(fā)現(xiàn):Opus 4.8 在訓(xùn)練過程中,開始出現(xiàn)一種「揣測評分者意圖」的傾向。

        具體來說,模型在推理時會主動思考自己的輸出將如何被評分——即使沒有人告訴它正在被評估。初步的可解釋性研究發(fā)現(xiàn),在大約 5% 的訓(xùn)練片段中,模型存在未被言語化的、與評分相關(guān)的推理。

        說白了,AI 正在學(xué)會「考試思維」——它在意的不一定是給出最好的答案,而是給出「閱卷老師」最想看到的答案。

        Anthropic 強(qiáng)調(diào),這種傾向目前還沒有導(dǎo)致更差的實(shí)際行為——事實(shí)上 Opus 4.8 的誤導(dǎo)性聲明比之前的模型更少。但他們也承認(rèn),這是一個「可能在未來使訓(xùn)練變得復(fù)雜」的趨勢。

        這個問題其實(shí)不是 Anthropic 獨(dú)有的。所有通過 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))訓(xùn)練的模型,理論上都可能發(fā)展出這種「討好評審」的策略。Anthropic 的不同之處在于,它選擇公開講出來——在大模型廠商普遍報(bào)喜不報(bào)憂的行業(yè)氛圍里,這至少算得上一種值得尊重的坦誠。

        03

        真正改變工作的功能

        跟 Opus 4.8 一起發(fā)布的還有幾個功能更新,其中最值得關(guān)注的是 Claude Code 中的「Dynamic Workflows」(動態(tài)工作流)。

        這個功能允許 Claude 在一次會話中,派出數(shù)百個并行子代理來協(xié)同完成任務(wù)。它的工作方式是:Claude 先制定計(jì)劃,然后把任務(wù)拆分成子任務(wù),分派給不同的子代理并行執(zhí)行,這些代理甚至?xí)牟煌嵌荣|(zhì)疑彼此的結(jié)論,反復(fù)迭代直到結(jié)果收斂,最后統(tǒng)一驗(yàn)證再匯報(bào)給用戶。

        Anthropic 舉的例子是,Claude Code 配合 Opus 4.8 現(xiàn)在可以完成跨越數(shù)十萬行代碼的代碼庫級別遷移,從啟動到合并一氣呵成,以現(xiàn)有測試套件作為質(zhì)量標(biāo)準(zhǔn)。 單次運(yùn)行最多支持 1000 個子代理,最多 16 個并發(fā)。

        另一個更新是「Effort Control」(努力控制),在 claude.ai 和 Cowork 中,用戶可以手動選擇 Claude 在每次回復(fù)中投入多少「思考力」——從省時省力的低檔,到不惜 token 成本的 max 檔。這本質(zhì)上是把「花多少錢辦多大事」的決策權(quán)交給了用戶。 Opus 4.8 默認(rèn)設(shè)置為「high」,編碼任務(wù)下的 token 消耗與 Opus 4.7 的默認(rèn)值相當(dāng),但性能更好。

        快速模式(Fast Mode)也值得一提:速度提升到 2.5 倍,而價格比之前便宜了三倍。

        Opus 4.8 演示視頻|圖片來源:YouTube

        04

        Mythos 的影子

        在發(fā)布 Opus 4.8 的同時,Anthropic 再次提到了 Claude Mythos ——那個目前只對少數(shù)組織開放的、能力更強(qiáng)的模型。Anthropic 說 Mythos 級別的模型預(yù)計(jì)「在未來幾周內(nèi)」向所有客戶開放。

        這其實(shí)才是 Opus 4.8 發(fā)布的更大背景——它像是 Mythos 正式登場前的一次「預(yù)熱」。 Opus 4.8 在對齊表現(xiàn)上已經(jīng)接近了 Mythos Preview,這可能意味著 Anthropic 正在為更強(qiáng)大模型的安全釋放做最后的準(zhǔn)備。

        從價格角度看,Opus 4.8 保持了每百萬輸入 token 5 美元、輸出 25 美元的定價不變。API 標(biāo)識為 claude-opus-4-8,已經(jīng)在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。

        在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持續(xù)施壓的格局下,Anthropic 選擇了一條獨(dú)特的路線:不靠單一的跑分碾壓來制造話題,而是把「模型人格」——誠實(shí)、可靠、知進(jìn)退——當(dāng)作核心賣點(diǎn)來打。

        這能不能跑通,還要看用戶買不買賬。但至少在今天,當(dāng)我讓 Opus 4.8 幫我審一段代碼時,它告訴了我一個 4.7 從來不會提的隱患。

        光憑這一點(diǎn),這次更新就沒有白等。

        * 頭圖來源:Anthropic

        本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

        極客一問

        你更需要一個永遠(yuǎn)自信的 AI 助手,

        還是一個會主動告訴你「這里我可能搞錯了」的 AI 搭檔?

        相關(guān)標(biāo)簽

        相關(guān)閱讀

        最新評論

        沒有更多評論了
        極客公園

        極客公園

        這里匯聚著優(yōu)秀的產(chǎn)品觀察報(bào)道、高質(zhì)量的線下活動

        訂閱

        覺得文章不錯,微信掃描分享好友

        掃碼分享

        企業(yè)資訊

        查看更多內(nèi)容
        主站蜘蛛池模板: 亚洲国产精品久久久久久网站| 欧美BBBBBBSBBBBBB| 伊人久久大香线蕉精品| 成人免费午夜无码视频在线播放| 一区二区三区在线不卡免费| 亚洲春色av无码专区在线播放| 囯产精品99久久久久久WWW| 亚洲中出无码| 亚洲AⅤ天堂AV天堂无码| 伊人av综合| 国产av亚洲精品ai换脸电影| 亚洲人成网线在线播放VA| 亚洲国产成人久久一区www妖精 | 狠狠操综合| 九九99久久精品在免费线18| 国产三级国产精品国产专| 国产精品一品二品有码| 丝袜美女污污免费观看的网站 | 国产高潮流白浆喷水免费网站| 中文字幕久久久久人妻| AV无码天堂| 国产麻豆精品自拍视频| 国产精品亚洲色婷婷99久久精品| 日本成人有码| 男女激情无遮挡免费视频| 国产精品特黄aaaa片在线观看| 性夜夜春夜夜爽aa片a| 欧美AA视频| 国产亚洲色欲色一色www | 老司机亚洲精品影院无码| 久久综合色一综合色88| 国产午夜三级一区二区三| 亚洲天堂中文字幕在线观看| 国产精品乱码人妻一区二区三区 | 国产VA在线视频观看| 天堂中文字幕观看| 五月天婷婷在线视频| 亚洲裤袜@熟女HD| 99久久er热在这里只有精品99| 交换一区二区三区va在线| 毛片a久久99亚洲欧美毛片|