添多一個世界: AI搜尋測試，Grok 3錯誤達94%

2025年3月12日星期三

AI搜尋測試，Grok 3錯誤達94%

2025年3月12日 - 信報

美國哥倫比亞大學旗下「托姆數碼新聞中心」，測試了8種工具即時搜尋功能的生成式人工智能（GenAI）工具，分別是ChatGPT Search、Perplexity、Perplexity Pro、DeepSeek Search、Copilot、Grok 2 Search、Grok 3 Search及Gemini，以驗證其準確檢索及引用新聞的能力。

8種工具　逾六成錯引文章

為評估聊天機械人是否準確，研究人員採取一項控制實驗，首先從20個出版商隨機抽出10篇新聞。下一步，人手從每篇文章中，提取特定段落用作查詢。每個AI的任務是識別文章的標題、原始發布者、出版日期及網址。測試後發現，六成以上查詢結果，引用了錯誤的文章；Perplexity有37%查詢答錯，Grok 3錯誤率高達94%。

研究人員同時發現，無法準確回應的問題，聊天機械人通常不會回答，反而以驚人的信心，提供不正確或推測性的答案，卻很少使用「看起來」、「有可能」、「也許」等字眼，令用戶難以分辨準確與否的資訊。

此外，多個聊天機械人在測試時，似乎繞過「機械人排除協議」，令出版商對內容失去決定權，例如是否被納入搜尋，或用作AI模型的訓練資料。以《今日美國報》（USA Today）為例，該報社封鎖了ChatGPT爬蟲機械人，但機械人仍引用雅虎重新發布的文章。

來源：

https://www1.hkej.com/dailynews/finnews/article/4020234/AI%E6%90%9C%E5%B0%8B%E6%B8%AC%E8%A9%A6+Grok+3%E9%8C%AF%E8%AA%A4%E9%81%9494%25

添多一個世界

2025年3月12日星期三

AI搜尋測試，Grok 3錯誤達94%

沒有留言:

發佈留言

作者

網誌封存

Daddy Pow專欄

人生

新時代‧靈性‧趣味

健康

投資、理財

市場‧商業‧經濟

文化‧學術

成長‧家庭

政府‧政治