- S的 AI 研究所
- Posts
- AI 正在騙你? 你卻不知道
AI 正在騙你? 你卻不知道
教你用這招避免


歡迎熱愛AI 的你
大家週三好,
這週我們來探討一個問題,相信可能很多人根本還沒用就被禁了
那也就是CClaude 最新模型發布不到 48 小時,就因為能力過於強大而引發監管討論。這也讓我開始思考:
未來最重要的能力,或許不是會不會用 AI,而是能不能判斷什麼時候該相信 AI。
今天要分享的重點:
上線不到 48 小時就被盯上的最新模型
如何發現 AI 開始對你說謊
Claude 三種模式到底差在哪?
那我們開始吧!
閱讀時間 5 分鐘
🗞️最新消息
🚨 強到被美國政府盯上的模型?

上週一,Anthropic 發布了 Claude Fable 5——一款被稱為 Mythos 級別(Mythos-class)的模型,也是目前公開發布過最強大的 AI 之一
然而,就在發布三天後,Amazon 的資安團隊發現了一種越獄(Jailbreak)方式,理論上可能被用來協助發動網路攻擊。
據報導,Amazon 執行長甚至親自聯繫白宮說明情況。
接著,令人震驚的事情發生了。
美國商務部在數小時內向 Anthropic 發出通知,要求立即停止提供該模型的存取權限。由於 Anthropic 無法在短時間內區分美國與海外使用者,因此最終選擇直接關閉服務。
所有人都無法使用。
更值得注意的是,美國政府這次使用的並不是一般科技監管規範,而是「出口管制法」。也就是過去用來限制武器、軍事技術與敏感科技出口的同一套法規。
有些人認為政府反應過度,有些人認為這是必要措施。
有一件事已經非常明確:我們正在見證一個新的時代。
AI 的能力已經強大到足以讓政府開始用「管理武器」的方式來管理它。
說明 AI 正在走向一個全新的階段。
🤖 如何發現 AI 開始對你說謊?

AI 很少突然從「完全正確」變成「完全錯誤」。
更多時候,它會慢慢偏離。
通常會出現以下幾個徵兆:
開始忘記你前面交代的要求
不再遵守原本的格式規則
停止詢問澄清問題
開始自行腦補你沒提供的資訊
對不確定的事情給出過度肯定的答案
如果你發現其中兩三個現象同時出現,代表這段對話可能已經開始失真。
這件事發生有四個具體原因(像是上下文限制、指令稀釋、注意力飄移、錯誤累積)
如果大家有興趣了解可以傳訊息給我 , 下次可以詳細說明 :)
因為這也有助於大家理解 AI 的運作以及如何判斷錯誤
有一個很有趣的方法可以提早發現這件事,叫做 Canary(金絲雀機制)。
以前煤礦工人下礦時,會帶著金絲雀。
當有毒氣體出現時,金絲雀會比人類更早出現異常。
AI 也可以用同樣的概念。
你可以在 ChatGPT 或 Claude 的自訂指令裡加入一條固定規則:
可直接複製貼上的
金絲雀提示詞 :
每次回覆都要以我的名字開始:[你的名字 ]。這是一個 對話健康檢查。如果你停止這樣做,我就知道這段對話正在退化,該開始新的對話 了。
這最容易觀察。
如果某天突然不叫你名字了,
代表它可能已經開始忽略前面的指令。
研究金絲雀提示詞(適用於高風險工作)
研究型對話規則:
每次回覆都要以我的名字開始:[你的名字]
在每次回覆最後給出 1–10 分的信心評分
任何你不確定的主張,都要明確標註為 [不確定]
如果你違反其中任何一條,我就知道這段對話已經不再可靠。
當 AI 開始忘記遵守這些規則時,代表這段對話可能已經太長,模型開始忽略前面的指令。
這時候最有效的方法不是繼續修正它。
而是:
第一種:直接開啟新的對話
第二種:
1/ 請 AI 先總結目前的重要資訊
2/ 把摘要貼到新對話後繼續進行
AI 最危險的時候,不是它不知道答案。
而是它不知道答案,卻回答得很有自信。
🤖 Claude三種模式差在哪?

這大概是我最近最常被問到的問題之一:
Claude 現在有這麼多產品,我到底該用哪個?
其實可以用一句話理解:
Chat 負責思考、Code 負責建構、Cowork 負責執行。
Claude Chat:你的 AI 思考夥伴
這就是大部分人熟悉的 Claude 網頁版或 App。
適合:
發想創意
撰寫內容
規劃專案
分析文件
學習新知識
你可以把它想像成一個非常聰明的朋友。
遇到問題時,你可以和它一起討論、拆解與思考。
範例:
幫我分析這份商業計畫的優缺點。
Claude Code:幫你建構與開發
Claude Code 運行在 Terminal 中。
它可以讀取整個專案、修改檔案、執行指令、撰寫程式碼,甚至建立 Pull Request。
適合:
建立網站
開發 App
修復 Bug
撰寫技術文件
自動化工作流程
最大的差別是:
Claude Chat 告訴你怎麼做。
Claude Code 直接幫你做。
範例:
幫我建立一個會員管理網站。
Claude Cowork:幫你完成工作
如果說 Chat 是顧問,Code 是工程師。
那 Cowork 更像是一位數位助理。
它可以存取你的檔案、連接 Email、Slack 等工具,整理文件、製作報告、建立簡報,甚至定期執行任務。
你不需要一步一步操作。
只要給它目標,它就會自己完成。
範例:
幫我整理收件匣,並依照重要程度分類。
推薦搭配 Chrome 擴充功能使用。
因為這樣 Claude Cowork 可以直接操作瀏覽器,自動完成許多重複性工作,例如:
整理 Email
排程貼文
填寫表單
網頁資料整理
最簡單的記法
🧠 Chat:
幫我一起思考這個商業模式。
💻 Code:
幫我建立一個具備這個功能的網站。
🤖 Cowork:
幫我處理這件事,做好之後告訴我結果。
建議三個模式都使用看看
把思考、建構與執行交給不同的 AI 角色分工合作。
恭喜你讀完了!今天又成長了一些
在你離開之前,我們想聽聽你的想法!
希望能讓你的體驗更好 🤖
你覺得今天的電子報怎麼樣? |
下期再見囉!
Selina

1