AI 搜尋錯誤率高達60% - 2025

此篇文章並不是要跟大家說不要用 AI 或者不要用 AI Search 等等的,主要是大家要有點警覺心,不要以為 AI 講的頭頭是道,就隨意相信了~

這篇新聞是 2025年3月份的資料,未來進步後,應該持續改善的~

知道 AI 的錯誤類型,就多注意點,避開這個問題,或者是在多驗證檢查一下~

AI 搜尋錯誤率高達60%

此篇主要是測試幾大 AI 搜尋引擎的錯誤率,大概問題是什麼,在近年使用上可以多加注意~

  • 註:目前看來付費錯誤率更高,主因是 答不出來也會想辦法掰出答案,所以常會是錯誤的

原文:AI Search Has A Citation Problem - Columbia Journalism Review

重點結論

  1. AI搜尋工具普遍表現不佳,錯誤回答率高達60%以上
  2. 不要以為付費AI模型就很安全,研究發現,這些高級模型提供的錯誤答案比免費版更有信心且更多
  3. AI搜尋工具常無視發布商的機器人排除協議,未正確引用原始內容

AI 搜尋引擎的錯誤率研究、檢測方法

  1. 該研究團隊從20家新聞機構隨機選取了200篇文章(每家10篇),確保每篇文章摘錄的內容在 Google搜尋 中,都能在前三個結果中找到原始來源
    • 研究人員向每個AI搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址
  2. 研究人員根據三項屬性:
    1. 正確文章
    2. 正確發布來源
    3. 正確網址
  3. 手動評估了聊天機器人的回應。按照這些參數,每個回應被標記為以下標籤之一:
    • 完全正確
    • 正確但不完整
    • 部分不正確
    • 完全不正確
    • 未提供或爬蟲被阻止

AI搜尋 常犯的幾項錯誤

  1. 未能正確連結原始來源:
    • AI聊天機器人經常錯誤引用文章
  2. 付費模型「更有自信」胡說八道:
    • 付費版本如Perplexity Pro(每月20美元,約新台幣639元)或Grok 3(每月40美元,約新台幣1,278元)雖然比免費版答對了更多問題,但它們整體錯誤率反而更高
    • 主要是因為它們傾向於提供明確但錯誤的答案,而非拒絕直接回答
  3. 虛構或損壞的網址:
    • 超過一半來自 Gemini 和 Grok 3 的回應引用了虛構或損壞的網址,導致錯誤頁面

各大 AI 工具的錯誤率結果

  • 聊天機器人:錯誤率、引用錯誤來源的次數
  • Perplexity:約37%、57 (錯誤文章) + 27 (404錯誤連結) = 84
  • Perplexity Pro:約40%、72 (錯誤文章)
  • Grok 2:約53%、62 (錯誤文章) + 10 (404錯誤連結) = 72
  • DeepSeek:約57%、115 (錯誤文章)
  • Copilot:約60%、72 (錯誤文章)
  • ChatGPT:約61%、79 (錯誤文章) + 42 (缺失連結) = 121
  • Gemini:約76%、127 (404錯誤連結) + 22 (錯誤文章) = 149
  • Grok 3:94%、117 (404錯誤連結) + 26 (錯誤文章) = 143

上述整理自此篇:AI搜尋錯誤率高達60%!人工智慧搜尋工具哪款最準確?

作者: Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活.

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料