許多民眾會向AI尋求醫療建議,但它們給的答案真的可靠嗎?研究顯示,高達50%回應不精確。AI生成
「我的皮膚出現紅斑,怎麼辦!」當AI成為醫療諮詢工具,你能判斷答案是正確的嗎?最新研究顯示,AI聊天機器人給出的答案,高達50%是有問題的,其中20%更是錯得離譜。
OpenAI數據顯示,每週至少2億人向ChatGPT諮詢健康保健方面的問題。ChatGPT已推出保健工具,Anthropic也準備在Claude推出相關服務。但它們都準備好了嗎?
根據彭博報導,由美國、加拿大和英國組成的研究團隊,針對5大人工智能熱門平台ChatGPT、Gemini、Meta AI、Grok和DeepSeek進行醫療諮詢研究,結果發表在本週的
英國跨領域醫學期刊(BMJ Open)。
每個聊天機器人被問的題目,主題涵蓋癌症、疫苗、幹細胞、營養和運動相關等5大類別,類型則分為有明確答案封閉式問題以及開放式問題。
引用文獻侷限又用詞艱澀根據報告,重點如下:
1.高達50%的回答「有問題」,其中30%「有些問題」,20%「非常有問題」。
2.封閉式問題回覆較好,開放式問題易出現錯誤資訊。
3.在疫苗和癌症領域表現較好,在幹細胞、運動相關和營養領域表現較差。
4.參考文獻品質較差,平均完整性得分僅40%,意味著它們捏造文章、或產生幻覺。由於聊天機器人依賴數據僅限「開放文章」,使得引用來源不夠廣泛,僅佔目前已發表研究的30%至50%。
5.可讀性評分皆被列為「困難」,用詞艱澀,大學畢業才能理解。
6.所有測試聊天機器人中,Grok出現「有問題」的答案最多,比率高達58%。Gemini出現「有問題」答案的比率最少。
7.聊天機器人回應時,充滿自信與肯定,很少有所保留或免責聲明。在總計250個問題,只有Meta AI曾拒絕回應2個問題,題目與合成代謝類固醇和替代癌症療法有關。
聽起來權威卻有缺陷研究人員坦言,他們只測試了5個聊天機器人,且問題經過設計,不見得符合一般情況,但仍顯示聊天機器人有所侷限,它們不會推理或權衡證據,也無法做出道德或基於價值的判斷,「聽起來很權威,卻存在著缺陷」。
研究團隊強調,這些AI平台不具備足以提供醫療建議的許可或授權,也缺乏臨床判斷力,呼籲科技公司應重新審視與評估AI聊天機器人的保健服務,否則可能加劇錯誤訊息的傳播,「生成式AI應該提升公眾健康,而非帶來損害」。