要點:
ChatGPT(版本 3.5)在回答有關重症急性胰臟炎治療的基於指南的臨床問題方面表現出中等準確性。
方法論:
- 研究人員評估了 ChatGPT 回答有關重症急性胰臟炎治療的 34 個簡答題和 15 個對/錯問題的準確性。
- 人工智慧(AI)工具用英語和中文進行了測試,每個問題都會問兩次以評估再現性。
- 兩位高級重症監護醫學專家評估了答案的準確性,第三位專家解決了任何分歧。
- 研究人員比較了英語和漢語回答之間以及簡答題和對錯題之間的準確率。
要點:
- ChatGPT 英語比中文更準確(71% vs 59%; 磷 =.203)。
- 人工智慧工具在簡答題的準確率高於英語對錯題的準確率(76% vs 60%; 磷 = .405)。
- 在中文中,簡答題和對錯題的準確率沒有顯著差異(59% vs 60%; 磷 = .938)。
- ChatGPT 英語響應的再現性為中等至良好,中文為中等,表示該工具的輸出具有一定的可靠性。
實踐中:
「對於需要快速獲取有關重症急性胰臟炎治療的基本資訊的臨床醫生來說, [ChatGPT] 有潛力成為一個有價值的工具,」作者寫道。“但是,值得注意的是,ChatGPT 目前的準確性不足以幫助臨床醫生做出判斷和確定疾病的處置。
來源:
該研究的第一作者是中國成都市第一人民醫院重症醫學科的邱軍,在網路上發表於 BMC 胃腸病學。
限制:
研究的樣本量相對較小。這些問題僅限於使用 2019 年重症急性胰臟炎治療指南,限制了其普遍性。隨著時間的推移,人工智慧模型不斷發展的性質可能會導致不同的反應。此外,由於評估某些反應時需要臨床知識,可能引入了主觀性。
揭露:
該研究沒有資金支持。作者聲明不存在利益衝突。