■大規模言語モデルの対話型AIであるChatGPT-4に米国外科医資格試験問題を解かせることにより,パフォーマンス,エラー,一貫性などを評価した研究が,プレプリントではあるがmedRxivに投稿されていたので紹介する.本研究では,外科的知識評価というよりも,医学/医療分野でChatGPTを利用する上において,エラーや一貫性欠如などの潜在的リスクを示している.まずはAbstractの和訳を提示し,その後解説をつけた.大規模言語モデルの能力評価:米国外科医資格試験問題集に対するGPT4のパフォーマンス Beaulieu-Jones BR, Shah S, Berrigan MT, et al. Evaluating Capabilities of Large Language Models: Performance of GPT4 on American Board of Surgery Qu