AI 正在騙你? 你卻不知道

教你用這招避免

歡迎熱愛AI 的你

大家週三好,

這週我們來探討一個問題,相信可能很多人根本還沒用就被禁了

那也就是CClaude 最新模型發布不到 48 小時,就因為能力過於強大而引發監管討論。這也讓我開始思考:

未來最重要的能力,或許不是會不會用 AI,而是能不能判斷什麼時候該相信 AI。



今天要分享的重點:

  • 上線不到 48 小時就被盯上的最新模型

  • 如何發現 AI 開始對你說謊

  • Claude 三種模式到底差在哪

那我們開始吧!


閱讀時間 5 分鐘


🗞️最新消息

 🚨 強到被美國政府盯上的模型?

上週一,Anthropic 發布了 Claude Fable 5——一款被稱為 Mythos 級別(Mythos-class)的模型,也是目前公開發布過最強大的 AI 之一

然而,就在發布三天後,Amazon 的資安團隊發現了一種越獄(Jailbreak)方式,理論上可能被用來協助發動網路攻擊
據報導,Amazon 執行長甚至親自聯繫白宮說明情況。

接著,令人震驚的事情發生了。
美國商務部在數小時內向 Anthropic 發出通知,要求立即停止提供該模型的存取權限。由於 Anthropic 無法在短時間內區分美國與海外使用者,因此最終選擇直接關閉服務。


所有人都無法使用。

更值得注意的是,美國政府這次使用的並不是一般科技監管規範,而是「出口管制法」。也就是過去用來限制武器、軍事技術與敏感科技出口的同一套法規。

有些人認為政府反應過度,有些人認為這是必要措施。
有一件事已經非常明確:我們正在見證一個新的時代。

AI 的能力已經強大到足以讓政府開始用「管理武器」的方式來管理它。
說明 AI 正在走向一個全新的階段。

🤖 如何發現 AI 開始對你說謊?


AI 很少突然從「完全正確」變成「完全錯誤」。

更多時候,它會慢慢偏離。

通常會出現以下幾個徵兆:

  • 開始忘記你前面交代的要求

  • 不再遵守原本的格式規則

  • 停止詢問澄清問題

  • 開始自行腦補你沒提供的資訊

  • 對不確定的事情給出過度肯定的答案

如果你發現其中兩三個現象同時出現,代表這段對話可能已經開始失真。

這件事發生有四個具體原因(像是上下文限制、指令稀釋、注意力飄移、錯誤累積)


如果大家有興趣了解可以傳訊息給我 , 下次可以詳細說明 :)
因為這也有助於大家理解 AI 的運作以及如何判斷錯誤

有一個很有趣的方法可以提早發現這件事,叫做 Canary(金絲雀機制)

以前煤礦工人下礦時,會帶著金絲雀。

當有毒氣體出現時,金絲雀會比人類更早出現異常。

AI 也可以用同樣的概念。

你可以在 ChatGPT 或 Claude 的自訂指令裡加入一條固定規則:

可直接複製貼上的

金絲雀提示詞


每次回覆都要以我的名字開始:[你的名字 ]。這是一個 對話健康檢查。如果你停止這樣做,我就知道這段對話正在退化,該開始新的對話 了。

這最容易觀察。

如果某天突然不叫你名字了,

代表它可能已經開始忽略前面的指令。

研究金絲雀提示詞(適用於高風險工作)

研究型對話規則:

  1. 每次回覆都要以我的名字開始:[你的名字]

  2. 在每次回覆最後給出 1–10 分的信心評分

  3. 任何你不確定的主張,都要明確標註為 [不確定]

如果你違反其中任何一條,我就知道這段對話已經不再可靠。

當 AI 開始忘記遵守這些規則時,代表這段對話可能已經太長,模型開始忽略前面的指令。

這時候最有效的方法不是繼續修正它

而是:

第一種:直接開啟新的對話

第二種

1/ 請 AI 先總結目前的重要資訊

2/ 把摘要貼到新對話後繼續進行



AI 最危險的時候,不是它不知道答案。

而是它不知道答案,卻回答得很有自信。

 🤖 Claude三種模式差在哪?

這大概是我最近最常被問到的問題之一:
Claude 現在有這麼多產品,我到底該用哪個?

其實可以用一句話理解:

Chat 負責思考、Code 負責建構、Cowork 負責執行。

Claude Chat:你的 AI 思考夥伴

這就是大部分人熟悉的 Claude 網頁版或 App。

適合:

  • 發想創意

  • 撰寫內容

  • 規劃專案

  • 分析文件

  • 學習新知識

你可以把它想像成一個非常聰明的朋友。

遇到問題時,你可以和它一起討論、拆解與思考。

範例:

幫我分析這份商業計畫的優缺點。

Claude Code:幫你建構與開發

Claude Code 運行在 Terminal 中。

它可以讀取整個專案、修改檔案、執行指令、撰寫程式碼,甚至建立 Pull Request。

適合:

  • 建立網站

  • 開發 App

  • 修復 Bug

  • 撰寫技術文件

  • 自動化工作流程

最大的差別是:

Claude Chat 告訴你怎麼做

Claude Code 直接幫你做

範例:

幫我建立一個會員管理網站。

Claude Cowork:幫你完成工作

如果說 Chat 是顧問,Code 是工程師。

那 Cowork 更像是一位數位助理。

它可以存取你的檔案、連接 Email、Slack 等工具,整理文件、製作報告、建立簡報,甚至定期執行任務。

你不需要一步一步操作。

只要給它目標,它就會自己完成。

範例:

幫我整理收件匣,並依照重要程度分類。

推薦搭配 Chrome 擴充功能使用。

因為這樣 Claude Cowork 可以直接操作瀏覽器,自動完成許多重複性工作,例如:

  • 整理 Email

  • 排程貼文

  • 填寫表單

  • 網頁資料整理


最簡單的記法

🧠 Chat:

幫我一起思考這個商業模式。

💻 Code:

幫我建立一個具備這個功能的網站。

🤖 Cowork:

幫我處理這件事,做好之後告訴我結果。

建議三個模式都使用看看

把思考、建構與執行交給不同的 AI 角色分工合作。

恭喜你讀完了!今天又成長了一些

在你離開之前,我們想聽聽你的想法!
希望能讓你的體驗更好 🤖

你覺得今天的電子報怎麼樣?

Login or Subscribe to participate in polls.

下期再見囉!

Selina

1