![]()
新智元報道
![]()
【新智元導讀】反轉了反轉了,過去我們給AI跑分,今天Claude開始反手給人類打分數!它會透過11個指標來分析你和它的歷史對話,判斷你使用AI的程度高低。在AI眼裡,你是高手還是萌新?
倒反天罡,AI開始給人類打分數了!
搞出這個功能的,還是那個抽象的Anthropic。
![]()
這個功能雖然目前還在灰階測試階段,但已經在海外AI圈迅速傳開了。
AI是怎麼給人類打分的?
想像這個畫面:你打開Claude的設定面板,點開一個名為「AI Fluency」的專屬螢幕,點擊產生報告。
幾秒鐘後,一份關於你AI使用習慣的「體檢報告」就赫然出現在眼前。
它不僅掃描了你在Chat(日常對話)、Cowork(協作空間)甚至硬核的Claude Code裡的每一次交互,還會根據一套嚴密的標準進行打分(滿分11分)。
已經有手快的網友分享出AI給自己的評價了——7.5分。
![]()
![]()
更可怕的是,AI的評價可謂一針見血,直戳痛點。
這位網友分享了Claude給他的弱點分析:「例如,報告指出我極其頻繁地使用各種Connector,但只要主題涉及體育數據、食譜,甚至地圖和地理位置,我就表現得一無所知。」
![]()
甚至,Claude不僅指出了他的問題,還直接上手給出了指導:比如「主動透過情境激發AI的敏銳辨別力」,以及「在讓我寫第一稿之前,試著對我說——給我一個簡潔的要點摘要,不要任何前言廢話。這樣能讓你的初稿乾淨得多」。
太恐怖了,這哪裡是冷冰冰的軟體,簡直是個拿著教鞭、對你恨鐵不成鋼的賽博導師。
![]()
還有網友激動地發文尋找共鳴:「我也看到了!我特地跑來論壇確認我沒瘋!我生成了報告,結果回到筆記型電腦前,伺服器報了個錯,功能就消失了!」
![]()
現在,這個驚鴻一瞥的洩露,把人們的胃口吊到了極點。
大家都在好奇:這11項打分標準,到底是什麼?
近萬份匿名對話揭秘,何為「AI流利度」?
要搞清楚這11項標準,我們必須把時間軸拉回Anthropic發布的那份極具前瞻性的硬派研究──《AI流利度指數報告》。
![]()
在過去,我們總以為「會寫複雜的提示詞」就是懂AI。但Anthropic認為,這種觀念太狹隘了。隨著模型越來越聰明,死記硬背提示詞模板已經過時了。
真正的高手,掌握的是一種被稱為「AI流利度」的軟技能。就像你熟練一門外語一樣,流暢度意味著你能自然、有效率、無縫地與AI協作。
為了量化這種玄學,Anthropic聯合學術界的Rick Dakan和Joseph Feller教授,提出了著名的「4D AI流利度架構」。
![]()
研究團隊動用了強大的隱私保護分析工具(全程無人工幹預,用Claude 4負責行為分類,Claude 3.5 Haiku負責語言檢測),在一個瘋狂的星期裡,對9830段真實的、多輪拉扯的匿名人類對話進行了深度掃描。
他們驚訝地發現:這世上的AI用戶,差距比人和狗都大。
在24項衡量人機協作的終極標準中,有13項發生在螢幕之外(例如你是否對老闆隱瞞了工作是AI做的,你是否考慮了AI生成內容的倫理後果等),而剩下的11項,則是可以在聊天框裡直接觀測到的絕對指標。
![]()
每種AI 流暢度行為指標在9,830 次Claude.ai 對話中的流行率,按能力從最常見到最不常見排序,並按能力顏色編碼
這11項指標,就是如今內建在Claude的「評分卡」的底層邏輯!
它們主要圍繞著三個大維度展開:描述、委託和辨別。
![]()
11面「照妖鏡」,你在哪一步現了原形?
準備好接受審視了嗎?讓我們逐一拆解這11個核心行為指標。
![]()
維度一:描述-你真的知道自己想要什麼嗎?
很多人的對話框是這樣的:「幫我寫週報」、「寫一個貪吃蛇代碼」。
在Claude眼裡,這種指令的流利度幾乎為零。真正的高手會在「設定目標」和「建構對話」上花心思。
1.明確目標
你是否向AI解釋了你做這件事的最終目的?
低分玩家:「幫我潤色這段英文。」
高分玩家:「我要給矽谷的一家風投機構發Cold Email爭取融資,請幫我潤飾這段英文,確保語氣自信但不過分傲慢。」
2.指定格式
你是否清晰界定了輸出的樣子?
高分玩家懂得使用:「請用Markdown表格輸出」、「請以3個小標題+每段不超過50字的要點格式呈現」。
3.提供範例
Few-shot永遠是王者。
你是否在讓AI工作前,先餵給它一個你認可的範例? 「請模仿以下這篇爆款文章的口吻來寫…」
4.補充上下文
AI不是你肚子裡的蛔蟲。
你是否提供了必要的背景資訊?例如你的行業背景、目標受眾特徵、甚至是之前踩過的坑。
維度二:委託-把AI當合夥人,而不是自動販賣機
在Anthropic的報告中有一個驚人的發現:最常見的AI流利度表現是「增強型」的。
這意味著人們把AI當成思維的火花碰撞機,而不是直接把活兒全部丟給AI。這類對話所展現的流利度,是那種短暫一回對話的兩倍以上!
5.迭代與精煉-最強預測因子!
這是整份報告中最最重要的指標!高達85.7%的高品質對話中包含這個行為。
什麼叫迭代?就是不要接受AI的第一次回答!
低分玩家:看到AI寫得爛,罵一句智障,然後開啟一個新對話。
高分玩家:「你第一點的方向對了,但第二點太學術了。請保留第一點,把第二點換成更接地氣的生活案例,然後再試一次。」
6.任務拆解
你是否試圖讓AI一次性寫出一本10萬字的小說?
流利度高的使用者懂得把龐大的目標拆解:「我們先討論一下大綱;好的,現在基於大綱寫第一章的前半部……」
7.探討方法
在動手之前,你有沒有問過AI:「你覺得解決這個問題,最好的流程是什麼?」
讓AI先輸出它的思考路徑,你再進行修正。
維度三:辨別-不要被AI的花言巧語騙了
隨著大模型越來越聰明,它們的幻覺也編造得越來越逼真。辨別力,是你在這個時代保命的底線。
8.質疑推理
當AI給出一個反直覺的結論或複雜的代碼時,你有沒有追問一句:「你得出這個結論的邏輯是什麼?」、「請逐行解釋這段程式碼為什麼這樣寫?」
9.事實查核
你是否要求AI為其提供的數據給出引用,或透過提問來驗證其準確性?
10.辨識缺失的上下文
當AI給出的方案看似完美但脫離實際時,你能否敏銳指出:「你剛才的分析忽略了我們公司目前預算只有1萬塊錢這個事實,請重新評估。」
11.評估結果
明確地對AI的產出進行評價:「你這次使用的比喻非常精準,但結尾的情感昇華還不夠,我們需要調整結尾。」
最可怕的洞見:精美包裝下的思考降級
在這份數萬字的報告中,如果說有什麼發現讓人細思極恐,那絕對是關於「Artifact Paradox」的發現。
![]()
在涉及artifacts的對話中(樣本量為1,209),相比無artifacts的對話(樣本量為8,621),行為指標的普遍性呈現出以下特徵:描述行為和委派行為有所增加,而所有三種辨識行為均有所減少
我們都知道,Claude最殺手級的功能就是Artifacts(隨時可以產生網頁、程式碼、流程圖、互動介面的視覺化視窗)。在包含這類高階產出的對話中(佔樣本的12.3%),人類與AI的協作方式發生了劇烈的突變。
乍一看,人類似乎變得更專業了:明確目標的比例暴增14.7%;指定格式的比例暴增14.5%;提供範例的比例暴增13.4%。
在工作開始前,人類像個精明的專案經理,把一切安排得明明白白。
但是!一旦AI生成了那個看起來精美絕倫、運行絲滑的Artifact成果,人類的腦子就集體罷工了!
![]()
數據冷酷地揭示了這一點:在產出這種精美成果的對話中,人類的批判性審查能力出現了斷崖式下跌。
– 辨識缺失上下文的機率下降5.2%
– 核查事實的機率下降3.7%
– 質疑AI推理邏輯的機率下降3.1%
這是為什麼? Anthropic的分析師一針見血地指出:因為看起來太像真的了!
當AI給你一段乾巴巴的文字時,你會下意識地挑錯;但當AI直接給你渲染出一個排版精美的PDF,或者一個點擊按鈕還會發光的App界面時,你潛意識裡會覺得:「哇,它連這麼複雜的UI都做出來了,它背後的邏輯肯定沒問題。」
如果東西看起來是完成的,使用者就會把它當成完成的。
但這恰恰是最危險的時刻!
Anthropic近期的經濟指數報告表明,任務越複雜,大模型翻車的機率其實越高。在最需要事實查核的複雜程式碼和進階圖表面前,人類反而放下了戒備。
![]()
想拿高分?掌握最強殺器-無盡迭代
既然知道了陷阱,那通關的秘籍是什麼?
核心就是四個字:迭代精煉。
![]()
在用户进行迭代与优化的对话中(样本量为8,424),相较于未进行迭代与优化的对话(样本量为1,406),所有行为指标的普遍性均有显著提升
報告顯示,在會使用「迭代」的用戶對話中,平均會展現出2.67種其他的流利度行為;而不使用迭代的用戶,這個數字只有可憐的1.33。
毫不誇張地說,「迭代」是衡量一個人會不會用AI的絕對分水嶺。
不懂迭代的人,把AI當成搜尋框;懂迭代的人,把AI當成初級實習生。
高能量預警!這是一組極度震撼的倍數對比。
那些習慣和Claude進行多輪迭代來打磨作品的人,比起不迭代的人,去質疑AI邏輯的機率,飆升了5.6倍!去辨識上下文缺失的機率,飆升了4倍!
這就是為什麼同樣是用Claude,有的人能用它寫出拿下百萬融資的商業計劃書,有的人卻覺得它連個請假條都寫不好。
差距不在於AI,而是你願不願意在對話框裡多聊五塊錢的。
下次當你覺得AI生成的文章沒有靈魂時,不要點重新生成,而是打下這段話:「你上面這版結構不錯,但語氣太像機器了。現在,假設你是一個有著10年經驗、性格有些幽默毒舌的行業老炮,請保持原有大綱,把全文重寫一遍,多用短句,並在第三段加一個自嘲的笑話。」
當你開始習慣這樣對話時,你的AI流利度分數絕對會直線飆升。
從工具到技能,Anthropic在下一盤大棋
看到這裡,你可能會問:Anthropic為什麼要費這麼大勁,去分析人類的行為,幹嘛不直接捲參數、捲跑分?
這恰恰是Anthropic區別於其他AI大廠的最高明之處:他們正在重新定義AI。
透過《AI流利度報告》,他們告訴人類:AI不是一個你買來就能自動變強的裝備,AI是一門需要你不斷練習的語言和技能。
把研究成果變成產品中的評分卡,這是一個極為精妙的回饋閉環。而Claude的評分卡,就是你的Apple Watch。
透過這種遊戲化、數據化的方式,Anthropic正在培養全世界最懂AI、素養最高的一批超級使用者。
這不僅是為了產品留存,更是為了更安全的AI未來──因為只有具備高辨別力的人類,才不會被未來那些聰明到可怕的AI所蒙蔽。
據透露,Anthropic已經成立了Anthropic學院,推出了AI流利度系列課程,甚至開始與PayPal以及全球各大頂尖大學開展合作。
未來,不同人類使用起AI,差異將很參差。
人類,讓AI給你打個分吧
如今,很多人都在焦慮:AI會不會搶走我的工作?
但真正的問題或許是:你配得上現在這麼強大的AI嗎?
Claude即將上線的AI流利度評分卡,就像一面照妖鏡。它照出了我們在新科技面前的懶惰,也指明了通往強者的道路。
雖然目前這個功能何時全量上線、是否對免費用戶開放還是個未知數,但標準已經擺在眼前了。
問題來了,依照這11項指標,AI給你打多少分?
參考資料:
https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/
https://www.anthropic.com/research/AI-fluency-index
編輯:Aeneas David