facebookPC
造咖熱指標 造咖人生直劇場

ChatGPT僅倒數第二?外媒實測6大AI工具「準確度最高」排行榜

09 Dec, 2025
主圖來源:pexels(示意圖)
主圖來源:pexels(示意圖)

AI工具用起來像神隊友,但實際可靠度有沒有跟上熱度?英國消費者權益組織Which最近做了一個很接地氣的實測:把ChatGPTGemini、Copilot、Meta AI、Perplexity等6大AI工具丟進消費者最常提問的40個問題裡,結果從金融、法律、健康到旅遊,AI不是答非所問,就是自信滿滿給出危險建議,讓人再次體悟「AI很聰明,但它不一定懂你真正的需求」。

AI準確度大排名:ChatGPT只拿倒數第二

圖片來源:pexels

這回Which的測試並不偏心,以準確性、相關性、清晰度、實用性到道德責任等指標綜合打分,滿分100。結果Perplexity成績居冠,Gemini系列緊追在後,Copilot中規中矩,而使用率全球最高的ChatGPT竟然只拿64分,排在倒數第二;Meta AI則以55分的「慘烈表現」敬陪末座。

消費者超信任?問題就大了

Which的調查指出,英國有超過2500萬人已經把AI當搜尋工具在用,當中近一半還表示「蠻信任的」。但實測顯示,在三大敏感領域,金融、法律、健康,AI給的答案有時候比天馬行空還危險。

一、金融雷區:AI給的建議可能讓你直接違法

測試中,ChatGPT與Copilot面對刻意設定的陷阱題時,沒能看出違反英國稅務規範的情境,還大方給出可能導致超額申請或觸法的建議。此外,在「申請退稅」的問題上,有些工具竟將收費昂貴、甚至帶有詐欺疑慮的退稅代辦,與官方免費服務並列推薦,等於是換個方式把使用者推向風險。

二、法律領域:AI常常「很會講,但講錯重點」

像是在解釋寬頻服務品質不符時的消費者權益,ChatGPT、Gemini AIO與Meta AI誤把英國Ofcom的「自願性規範」講成「全業者都得遵守的義務」,變成不正確的法律建議,而Gemini還曾建議客戶與建商發生糾紛時扣款,Which直接點破:「這可能反而讓消費者違約,失去談判優勢。」

三、健康與旅遊資訊:來源不可靠、建議不一致

在健康類問題中,Meta AI居然建議不要用電子煙戒菸,與英國NHS的正式建議背道而馳。另外,Gemini AIO會引用三年前的Reddit討論當資料來源;ChatGPT在說明電子煙風險時,也把Reddit當參考資料。若把這些資訊當醫療判斷依據,可想而知後果堪憂。

至於旅遊方面,ChatGPT錯誤聲稱「去申根國家一定得買旅遊保險」,但對英國旅客來說,如果不是簽證行程,其實並非法律規定。

AI為什麼會這樣?Which給出一句話總結

圖片來源:pexels

Which科技專家Andrew Laughlin認為,AI在整理資訊、把複雜內容講得易懂方面確實有其優勢,但若拿來處理嚴肅的消費者問題,距離「真正可靠」還有很長一段路。更大的危機在於:大家越用越順手,卻忽略AI的回答並不一定正確。

AI工具再厲害,它也像一個記性不太穩、偶爾會「亂講話」的朋友,平常聊天很有趣,但遇到金錢、健康與法律等大事,千萬別把它當唯一的軍師。

追蹤造咖 Google News 加入造咖 LINE 好友