[B! 人工知能][テスト] mohnoのブックマーク

mohno id:mohno

人工知能とテストに関するmohnoのブックマーク (1)

人だと正解率92％なのに、GPT-4だと15％になる新型テスト集「GAIA」　米Metaなどが開発
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 米Metaや米HuggingFaceなどに所属する研究者らが発表した論文「GAIA: a benchmark for General AI Assistants」は、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル（LLM）を評価するためのベンチマークを提案している。この研究は、人間が日常で当たり前に実行してほしいタスクを正確にこなすLLM構築を目指すためのテスト集である。現在のベンチマークは、人間にとってより困難なタスクを求めており、LLMには数学や法律などの複雑なタスクや、一貫性のある本を書くなどの複雑な課題が
mohno 2023/12/08
自動運転もそうだけど“自動化”した場合、当然ながらハッキングして“弱点”を探す輩はいるだろうから、そうそう“決断の責任”をAI任せにはできないと思うんだよね。そこをどう解決するのかと思っているよ。

ITmedia

Meta

人工知能

GPT

GAIA

テスト

HuggingFace

研究
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx