S的 AI 研究所
Posts
AI 正在騙你? 你卻不知道

AI 正在騙你? 你卻不知道

教你用這招避免

Selina Liu
June 17, 2026

訂閱 | 合作｜線上課

歡迎熱愛AI 的你

大家週三好，

這週我們來探討一個問題，相信可能很多人根本還沒用就被禁了

那也就是CClaude 最新模型發布不到 48 小時，就因為能力過於強大而引發監管討論。這也讓我開始思考：

未來最重要的能力，或許不是會不會用 AI，而是能不能判斷什麼時候該相信 AI。

今天要分享的重點：

上線不到 48 小時就被盯上的最新模型
如何發現 AI 開始對你說謊
Claude 三種模式到底差在哪？

那我們開始吧!

閱讀時間 5 分鐘

🗞️最新消息

🚨 強到被美國政府盯上的模型？

上週一，Anthropic 發布了 Claude Fable 5——一款被稱為 Mythos 級別（Mythos-class）的模型，也是目前公開發布過最強大的 AI 之一

然而，就在發布三天後，Amazon 的資安團隊發現了一種越獄（Jailbreak）方式，理論上可能被用來協助發動網路攻擊。
據報導，Amazon 執行長甚至親自聯繫白宮說明情況。

接著，令人震驚的事情發生了。
美國商務部在數小時內向 Anthropic 發出通知，要求立即停止提供該模型的存取權限。由於 Anthropic 無法在短時間內區分美國與海外使用者，因此最終選擇直接關閉服務。

所有人都無法使用。

更值得注意的是，美國政府這次使用的並不是一般科技監管規範，而是「出口管制法」。也就是過去用來限制武器、軍事技術與敏感科技出口的同一套法規。

有些人認為政府反應過度，有些人認為這是必要措施。
有一件事已經非常明確：我們正在見證一個新的時代。

AI 的能力已經強大到足以讓政府開始用「管理武器」的方式來管理它。
說明 AI 正在走向一個全新的階段。

🤖 如何發現 AI 開始對你說謊？

AI 很少突然從「完全正確」變成「完全錯誤」。

更多時候，它會慢慢偏離。

通常會出現以下幾個徵兆：

開始忘記你前面交代的要求
不再遵守原本的格式規則
停止詢問澄清問題
開始自行腦補你沒提供的資訊
對不確定的事情給出過度肯定的答案

如果你發現其中兩三個現象同時出現，代表這段對話可能已經開始失真。

這件事發生有四個具體原因（像是上下文限制、指令稀釋、注意力飄移、錯誤累積）

如果大家有興趣了解可以傳訊息給我，下次可以詳細說明：）
因為這也有助於大家理解 AI 的運作以及如何判斷錯誤

有一個很有趣的方法可以提早發現這件事，叫做 Canary（金絲雀機制）。

以前煤礦工人下礦時，會帶著金絲雀。

當有毒氣體出現時，金絲雀會比人類更早出現異常。

AI 也可以用同樣的概念。

你可以在 ChatGPT 或 Claude 的自訂指令裡加入一條固定規則:

可直接複製貼上的

金絲雀提示詞 ：

每次回覆都要以我的名字開始：[你的名字 ]。這是一個對話健康檢查。如果你停止這樣做，我就知道這段對話正在退化，該開始新的對話了。

這最容易觀察。

如果某天突然不叫你名字了，

代表它可能已經開始忽略前面的指令。

研究金絲雀提示詞（適用於高風險工作）

研究型對話規則：

每次回覆都要以我的名字開始：[你的名字]
在每次回覆最後給出 1–10 分的信心評分
任何你不確定的主張，都要明確標註為 [不確定]

如果你違反其中任何一條，我就知道這段對話已經不再可靠。

當 AI 開始忘記遵守這些規則時，代表這段對話可能已經太長，模型開始忽略前面的指令。

這時候最有效的方法不是繼續修正它。

而是：

第一種：直接開啟新的對話

第二種：

1/ 請 AI 先總結目前的重要資訊

2/ 把摘要貼到新對話後繼續進行

AI 最危險的時候，不是它不知道答案。

而是它不知道答案，卻回答得很有自信。

🤖 Claude三種模式差在哪？

這大概是我最近最常被問到的問題之一：
Claude 現在有這麼多產品，我到底該用哪個？

其實可以用一句話理解：

Chat 負責思考、Code 負責建構、Cowork 負責執行。

Claude Chat：你的 AI 思考夥伴

這就是大部分人熟悉的 Claude 網頁版或 App。

適合：

發想創意
撰寫內容
規劃專案
分析文件
學習新知識

你可以把它想像成一個非常聰明的朋友。

遇到問題時，你可以和它一起討論、拆解與思考。

範例：

幫我分析這份商業計畫的優缺點。

Claude Code：幫你建構與開發

Claude Code 運行在 Terminal 中。

它可以讀取整個專案、修改檔案、執行指令、撰寫程式碼，甚至建立 Pull Request。

適合：

建立網站
開發 App
修復 Bug
撰寫技術文件
自動化工作流程

最大的差別是：

Claude Chat 告訴你怎麼做。

Claude Code 直接幫你做。

範例：

幫我建立一個會員管理網站。

Claude Cowork：幫你完成工作

如果說 Chat 是顧問，Code 是工程師。

那 Cowork 更像是一位數位助理。

它可以存取你的檔案、連接 Email、Slack 等工具，整理文件、製作報告、建立簡報，甚至定期執行任務。

你不需要一步一步操作。

只要給它目標，它就會自己完成。

範例：

幫我整理收件匣，並依照重要程度分類。

推薦搭配 Chrome 擴充功能使用。

因為這樣 Claude Cowork 可以直接操作瀏覽器，自動完成許多重複性工作，例如：

整理 Email
排程貼文
填寫表單
網頁資料整理

最簡單的記法

🧠 Chat：

幫我一起思考這個商業模式。

💻 Code：

幫我建立一個具備這個功能的網站。

🤖 Cowork：

幫我處理這件事，做好之後告訴我結果。

建議三個模式都使用看看

把思考、建構與執行交給不同的 AI 角色分工合作。

恭喜你讀完了！今天又成長了一些

在你離開之前，我們想聽聽你的想法！
希望能讓你的體驗更好 🤖

你覺得今天的電子報怎麼樣？

下期再見囉！

Selina