此篇文章並不是要跟大家說不要用 AI 或者不要用 AI Search 等等的,主要是大家要有點警覺心,不要以為 AI 講的頭頭是道,就隨意相信了~
這篇新聞是 2025年3月份的資料,未來進步後,應該持續改善的~
知道 AI 的錯誤類型,就多注意點,避開這個問題,或者是在多驗證檢查一下~
AI 搜尋錯誤率高達60%
此篇主要是測試幾大 AI 搜尋引擎的錯誤率,大概問題是什麼,在近年使用上可以多加注意~
- 註:目前看來付費錯誤率更高,主因是 答不出來也會想辦法掰出答案,所以常會是錯誤的
原文:AI Search Has A Citation Problem - Columbia Journalism Review
重點結論
- AI搜尋工具普遍表現不佳,錯誤回答率高達60%以上
- 不要以為付費AI模型就很安全,研究發現,這些高級模型提供的錯誤答案比免費版更有信心且更多
- AI搜尋工具常無視發布商的機器人排除協議,未正確引用原始內容
AI 搜尋引擎的錯誤率研究、檢測方法
- 該研究團隊從20家新聞機構隨機選取了200篇文章(每家10篇),確保每篇文章摘錄的內容在 Google搜尋 中,都能在前三個結果中找到原始來源
- 研究人員向每個AI搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址
- 研究人員根據三項屬性:
- 正確文章
- 正確發布來源
- 正確網址
- 手動評估了聊天機器人的回應。按照這些參數,每個回應被標記為以下標籤之一:
- 完全正確
- 正確但不完整
- 部分不正確
- 完全不正確
- 未提供或爬蟲被阻止
AI搜尋 常犯的幾項錯誤
- 未能正確連結原始來源:
- AI聊天機器人經常錯誤引用文章
- 付費模型「更有自信」胡說八道:
- 付費版本如Perplexity Pro(每月20美元,約新台幣639元)或Grok 3(每月40美元,約新台幣1,278元)雖然比免費版答對了更多問題,但它們整體錯誤率反而更高
- 主要是因為它們傾向於提供明確但錯誤的答案,而非拒絕直接回答
- 虛構或損壞的網址:
- 超過一半來自 Gemini 和 Grok 3 的回應引用了虛構或損壞的網址,導致錯誤頁面
各大 AI 工具的錯誤率結果
- 聊天機器人:錯誤率、引用錯誤來源的次數
- Perplexity:約37%、57 (錯誤文章) + 27 (404錯誤連結) = 84
- Perplexity Pro:約40%、72 (錯誤文章)
- Grok 2:約53%、62 (錯誤文章) + 10 (404錯誤連結) = 72
- DeepSeek:約57%、115 (錯誤文章)
- Copilot:約60%、72 (錯誤文章)
- ChatGPT:約61%、79 (錯誤文章) + 42 (缺失連結) = 121
- Gemini:約76%、127 (404錯誤連結) + 22 (錯誤文章) = 149
- Grok 3:94%、117 (404錯誤連結) + 26 (錯誤文章) = 143
上述整理自此篇:AI搜尋錯誤率高達60%!人工智慧搜尋工具哪款最準確?