サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
WWDC24
ai-data-base.com
参照論文情報 タイトル:MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark 著者:Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen 所属:University of Waterloo, University of Toronto, Carnegie Mellon University 背景 GPT-4、Claude、Ge
因果推論とは、ある出来事が別の出来事にどのように影響するかを理解しようとする分析手法です。要するに「これをしたらあれが起きる」を予測するものです。そのような原因と結果の分析におけるLLMの有効性が日本国内における複数の大学からの研究グループにより研究されています。 参照論文情報 タイトル:Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach 著者:Masayuki Takayama, Tadahisa Okuda, Thong Pham, Tatsuyoshi Ikenoue, Shingo Fukuma, Shohei Shimizu, Akiyoshi Sannai 所属:Shiga University, Tokyo Medical University, Kyoto
LLMエージェントの設計は課題が多い上に分類が整理されていません。なお課題としてはハルシネーション(誤った情報の生成)の存在や推論の道筋が不明瞭な点などが挙げられています。 今回研究者らは、基盤モデルを使ったエージェントの設計パターン16種類をまとめました。例えば、エージェントが目標をどうやって設定するか、計画をどう作るかについての情報が記載されています。 参照論文情報 タイトル:Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents 著者:Yue Liu, Sin Kit Lo, Qinghua Lu, Liming Zhu, Dehai Zhao, Xiwei Xu, Stefan Harrer, Jon Whittle 所属:Dat
背景 LLMは、膨大な量の公開データで学習することにより、幅広い一般知識推論タスクで著しい進歩を遂げてきました。一方で、LLMが特定の分野のタスクに用いられる場合、一般的な知識推論よりも、与えられた文書に対して正確であることが強く求められています。例えば最新のニュースや企業の非公開文書などに適応させることは課題になっています。 LLMを特定分野に適応させる際、検索拡張生成(RAG)を用いたコンテキスト学習と、教師あり微調整(supervised fine-tuning)の2つの手法が主に考えられます。 RAGベースの手法は、LLMが質問に答える際に文書を参照するものです。この手法では、モデルが事前に学習しているわけではありません。外部のナレッジベースから関連情報を取得することで問題解決能力を向上する(比較的リーズナブルな)アプローチです。 教師あり微調整は、文書からより一般的なパターンを学
ホーム LLM, RAG, ファインチューニング, 論文 LLMに外部知識を取り入れる2つの手法としてのファインチューニングとRAGを比較実験した結果
背景 ナレッジグラフとは ナレッジグラフは、ある特定の事実が整理された大きなデータベースです。事実関係が(主語, 述語, 目的語)のトリプレットという形式で構造化されているのが一般的な形式です。既存のナレッジグラフは、保存されている情報に基づいて4つのグループに分類されます。 百科事典型:一般的な知識を網羅。代表例は Wikidataなど。 常識型:日常的な常識や判断に必要な知識をもつ。 特定分野型:特定分野に関する専門的な知識をもつ。 複合型:テキスト, 画像, 音声など複数の形式の情報を統合する。 LLMとナレッジグラフの長所短所 今回研究者らは、LLMとナレッジグラフを合わせて使用すると相互に補完できる関係になると述べています。 LLMの長所は、大規模なコーパス学習により、質問応答、機械翻訳、テキスト生成など様々な自然言語処理タスクで優れた性能を発揮するという点です。 一方で、LLM
大規模言語モデル(LLM)は「ハルシネーション」と呼ばれる、事実とは異なる出力を生成することが問題視されています。 関連研究:LLMの誤り(ハルシネーション)発生原因と、「創造性と事実性のバランス」などの対策ロードマップ ハルシネーションへの対策は、出力を外部データと照合するなどが一般的ですが、対処療法と言えなくもありません。 今回研究者らは、LLMが出力を生成する際に「事実と非事実で異なる内部状態を示す」という仮説に基づき、新しい検証アプローチ『LLMファクトスコープ』を開発しました。実験では、96%以上の精度で事実が判別できたと示されています。 本記事では、課題、アプローチの概要、実験結果を紹介します。 参照論文情報 タイトル:LLM Factoscope: Uncovering LLMs’ Factual Discernment through Inner States Analys
参照論文情報 タイトル:Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models 著者:Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu 所属:カリフォルニア大学 URL:https://doi.org/10.48550/arXiv.2401.01335 コード:https://github.com/uclaml/SPIN データセット:https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a モデル:https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sf
プロンプトの原則26ヶ条をまとめた論文が公開されています。 LLaMA-1/2, GPT-3.5/4を使用してスケール評価をした結果、これらの原則が応答品質を向上させると確認できているとのことです。 本記事では、詳細を見ていきます。 参照論文情報 タイトル:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 著者:Sondos Mahmoud Bsharat, Aidar Myrzakhan, Zhiqiang Shen 所属:VILA Lab, Mohamed bin Zayed University of AI URL:https://doi.org/10.48550/arXiv.2312.16171 GitHub:https://github.com/VILA-Lab/ATLAS
LLMのRAG(外部知識検索による強化)についての調査結果が報告されています。 基本フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。 本記事では、その報告内容を抜粋してお届けします。 参照論文情報 タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey 著者:Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang 所属:Tongji University, Fudan University URL:https://doi.org/10.48550/arXiv.2312.10997 本記事の関連研究:LLMにナレッジグ
参照論文情報 タイトル:PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU 著者:Yixin Song, Zeyu Mi, Haotong Xie, Haibo Chen 所属:Shanghai Jiao Tong University URL:https://doi.org/10.48550/arXiv.2312.12456 GitHub:https://github.com/SJTU-IPADS/PowerInfer 本記事の関連研究:Microsoftの研究者ら、比較的小さなサイズでもタスクによってはOpenAIのGPT-4を凌駕する言語モデル『Orca2』を開発 大規模言語モデル(LLM)運用上の課題 LLMを効率的に運用する上では課題があります。代表的な課題の一つは、モデルを動かすためには
参照論文情報 タイトル:LLM in a flash: Efficient Large Language Model Inference with Limited Memory 著者:Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rastegari, Mehrdad Farajtabar 所属:Apple URL:https://arxiv.org/abs/2312.11514 本記事の関連研究:LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』 研究背景 LLMは高性能ですが、多くの計算能力とメモリ(情報を一時的に保存する部分)を必要とします。 そのためメモリ容量が限られているデバイス
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 「LLMのアライメントは、実はプロンプトで少し指示を与えるだけでも実現できるのではないか?」と考えたワシントン大学とAI2の研究者らは、最低2行のプロンプトから実効性のある新しいアライメント手法『URIAL』を考案しました。 なおアライメントとは、AIが持つべき道徳的価値観や行動指針を定めて、人間社会の倫理に合わせるプロセスです。 本記事では、『URIAL』の手法や効果などを見ていきます。 参照論文情報 タイトル:The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning 著者:Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha
DeepMindの研究チームは、現在の大規模言語モデル(LLM)は人間によって生成されたデータに過度に依存しており、LLMの発展にとって望ましい状況ではないと考えました。 この問題に対処するために、彼らはLLMが自律的に高品質な訓練データを生成し、データセットを自ら拡充する「自己学習」アプローチの有効性を検証しました。 実施された実験では、自己生成データによって、数学やコード生成の分野におけるLLMの能力が顕著に向上したことが確認されました。 本記事では、研究内容を詳しく見ていきます。 参照論文情報 タイトル:Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models 著者:Avi Singh et al.(多数) 所属:Google DeepMind URL:https://doi.o
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Microsoftの研究チームは、従来の大規模言語モデル(LLM)への入力プロンプトを効率的に圧縮し、意味そのものは維持する技術『LLMLingua』を開発しました。 本技術は、長いプロンプトによってLLMの応答速度が遅延したりコストが高くなったりしてしまう問題に対処するものです。 実施された実験では、LLMLinguaが他の手法に比べて優れた性能を示し、さまざまなタスクにおいてもその効果が確認されました。 本記事では詳細を見ていきます。 参照論文情報 タイトル:LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models 著者:Huiqiang Jiang, Qianhui Wu,
UC BerkeleyとJohns Hopkins Universityの研究者らは、「視覚は本来、言語に依存しない」と考え、言語データを使用せずに大規模ビジョンモデル(LVM)を効果的に学習する新しいアプローチを開発しました。 研究者らは、開発したアプローチが大規模なデータセットに対して優れたスケーラビリティを持ち、さまざまなビジョンタスクに適用可能であることを示しました。 本記事では、そのアプローチ、機能、実験結果などの詳細を紹介します。 参照論文情報 タイトル:Sequential Modeling Enables Scalable Learning for Large Vision Models 著者:Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jiten
Googleは12月6日、新しいAIモデル「Gemini」を発表しました。そして同時に、「Gemini」の高い推論能力を活かして大幅にプログラミング能力を向上させたAI「AlphaCode 2」を開発したことも明らかにしました。 AlphaCode 2は、競技プログラミングの参加者の85%以上を上回る性能を実現しています。高度な推論と問題解決能力が要求される分野において、AIが人間の能力に近づいていることを示す技術です。 本記事ではテクニカルレポートをもとにAlphaCode 2の紹介をします。 なお、競技プログラミングではアルゴリズム、データ構造などの知識を極限まで駆使することが求められます。一方で、実務では、プロジェクト管理、チームワーク、保守性といった要素も重視されるため、競技プログラミング能力の水準が実務能力の水準と必ずしも同列ではないかもしれません。 しかし同時に、競技プログラミ
Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。 また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。 なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています(例えばモバイル向けにはNanoなど)。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。 本記事
参照論文情報 タイトル:Scaling deep learning for materials discovery 著者:Amil Merchant, Simon Batzner, Samuel S. Schoenholz, Muratahan Aykol, Gowoon Cheon, Ekin Dogus Cubuk 所属:DeepMind URL:https://doi.org/10.1038/s41586-023-06735-9 GitHub:https://github.com/google-deepmind/materials_discovery プロジェクトページ:https://materialsproject.org/gnome 本記事の関連研究:新しい科学的方程式を導くための機械学習ツール プリンストン大の研究者が発表 材料科学における従来の課題 材料科学には長年にわたる
OpenAIの開発したGPT-4などの基盤モデルは、多様なタスクにおいて高い能力を発揮しています。一方で深い専門知識が試される領域においては、専門知識でトレーニングされた特化型モデルと比較して、汎用モデルの性能は劣るだろうと考えられてきました。しかし、Microsoftの研究者たちが最近行った実験によると、その前提には一考の余地がありそうです。 研究では、医学分野において、特殊なトレーニングを施されていない(と考えられている)GPT-4が、プロンプトの工夫を通して、専門モデルと同等あるいはそれ以上の成績を収めることが示唆されました。研究結果は、単に基盤モデルの性能を評価するだけでなく、プロンプトの工夫がAIの能力をいかに引き出すかという視点を提供しています。 本記事では実験結果を中心に報告内容を見ていきます。 参照論文情報 タイトル:Can Generalist Foundation Mo
ニューヨーク大学をはじめとする研究チームが、Nature誌にて革新的な研究を公表しました。報告によれば、従来型のニューラルネットワークでも、ChatGPTなどの先端的な生成AIを上回る性能を発揮する可能性が示されています。 この新技術は、限られたデータ量であっても高い効果を発揮するとされ、生成AIにおける多くの課題—コスト、資源、データの制約—を解決する新たな進路を開く可能性があります。 研究で提案されたAIモデルは、「人間に匹敵する言語の汎用性」を有すると評価されています。もしそれが真実であれば、現行の大規模言語モデルがまだ達成していない、新次元の能力に到達しています。 参照論文情報 ・タイトル:Human-like systematic generalization through a meta-learning neural network ・著者:Brenden M. Lake,
GPT-4などの大規模言語モデル(LLM)はコード生成においても驚異的な成果を上げています。しかし、モデルが生成するコードは必ずしも完璧ではありません。そこで、DeepMindとUCバークレーの研究者らは新たなフレームワーク『SELF-DEBUGGING(セルフデバッギング)』を開発しました。 追加訓練なしでも、複数のベンチマークにおいて高いパフォーマンスを達成できる手法です。実行プロンプト(の例)は比較的シンプルで、多くのプログラミングタスクで容易に適用できます。 参照論文情報 ・タイトル:Teaching Large Language Models to Self-Debug ・著者:Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou ・所属:Google DeepMind, UC Berkeley ・URL:https://
CoTの特徴と単一で使用する際の限界 Chain-of-Thought(CoT)は、LLMに推論能力を付与するための一般的な手法です。CoTは線形的な(直線的な)推論を実行させます。簡単に言うと「Aが真ならばBが真」といった形の推論を行わせることが多いです。 CoTは、問題解決の過程を一連のステップに分解し、それぞれのステップで特定の推論を行わせます。例えば、「雨が降っているなら、傘を持つべきだ」というような線形的な推論がCoTの一例です。質問応答(QA)タスクなどでよく使用されます。 しかし、このアプローチにはいくつかの問題点があります。 誤差の伝播 CoTは一つの思考のステップが次のステップに影響を与えるという連鎖的な構造を持っています。そのため、中間のステップで生じたわずかな誤差が、連鎖全体に伝播してしまう可能性があります。 CoTの中間ステップの評価は困難であり、最終的な答えだけが
LLMをエージェントとして人間の行動をシミュレートする研究が進んでいます。今回新たに登場したのは、特定の人物、例えばベートーヴェンやクレオパトラなどの行動や感情を模倣させるよう訓練する新しいフレームワーク『Character-LLM(キャラクターLLM)』です。 簡単に言えば「イタコ(霊媒師)」のような技術です。特定の人物のプロフィール、経験、感情状態を学習させ、その人物として行動するエージェントを訓練します。単なる指示に基づく対話よりも、高度な形で人物をシミュレートすることが可能になります。 参照論文情報 ・タイトル:Character-LLM: A Trainable Agent for Role-Playing ・著者:Yunfan Shao, Linyang Li, Junqi Dai, Xipeng Qiu ・所属:School of Computer Science, Fuda
LLMは自然言語処理(NLP)の分野で多くの成功を収めており、その応用範囲は広がりつつあります。ソフトウェアエンジニアリングにおける多くのタスクでも実用が試されています。 しかし、LLMには「ハルシネーション(hallucinations)」と呼ばれる現象、つまり不正確または誤った情報を生成する可能性があり、信頼性に影響を与える可能性があります。 さらに、LLMの非決定的な性質は、科学的評価にも課題をもたらしています。同じプロセスを実行してもその度に結果が異なる可能性があり、この特徴はタスクによっては導入の障壁になっています。 他にも、ソフトウェアエンジニアリングにおけるLLMの具体的な能力やリスクについては、まだ十分に理解されていないというのが現状です。 LLMの論文と、SEにLLMで取り組む論文のトレンド 以上のような背景から、研究者らはLLMのソフトウェアエンジニアリングへの応用に関
大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約など、さまざまなNLPタスクで優れた性能を発揮しています。しかし、モデルはしばしば正確な事実知識を捉えるのが難しく、根拠のない回答を生成することあります。この問題を解決するために、Amazonなどの研究者らが『Graph Neural Prompting(GNP)』という新しいフレームワークを考案しました。このフレームワークは、LLMにナレッジグラフ(知識グラフ)を連携させ、タスク遂行能力を大幅に向上させるものです。 従来の方法では、モデルに学習データを追加するためには高いコストがかかりました。しかし、GNPを用いることで、より低いコストで高い成果を得ることができます。さらに、この方法はカスタマイズが非常に柔軟であり、特定のドメインや業界に合わせて調整することが可能です。 この記事では、この興味深い研究について詳しく解説していきます
ステップバック・プロンプティングは極めてシンプルで具体的なテクニックながら、CoT(Chain-of-Thought prompting)やTake a Deep Breatheといった既存の手法を凌駕する性能を発揮しています。 参照論文情報 ・タイトル:Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models ・著者:Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou ・所属:Google DeepMind ・URL:https://doi.org/10.48550/arXiv.2310.06117 従来の課題 LLMはSTEM(科学、技術、工学、
AIが生成する人物イラストがどれだけリアルになるのかを体感することができます。 参照論文情報 ・タイトル:HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion ・著者:Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov ・所属:The Chinese University of Hong Kong, The University of Hong Kong, Nanyang Technological University, Snap Inc. ・URL:https://doi.org/10.48550/arX
近年、精神療法の領域でAIの活用に注目が集まっています。そんな中、カーネギーメロン大学などの研究者らによって新たなフレームワーク『Diagnosis of Thought (DoT)』が考案されました。このフレームワークは、LLMによって人々の「認知の歪み」を診断する目的に特化しており、専門家によって高く評価されています。 認知の歪みとは、例えば「0か100か」のような極端な考え方や、他人の考えを勝手に推測するなど、不健康な思考パターンのことを指します。 DoTフレームワークを用いた診断結果は、人間の専門家が出す診断結果とも高い一致性を示しており、その有用性が確認されています。 (追記)なお、本フレームワークに基づくMyGPTを作成しました。記事末尾にURLを記載するため、興味のある方はぜひお試しください。 参照論文情報 ・タイトル:Empowering Psychotherapy wit
次のページ
このページを最初にブックマークしてみませんか?
『AIDB | AI論文データベース』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く