サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
ai-data-base.com
近年、精神療法の領域でAIの活用に注目が集まっています。そんな中、カーネギーメロン大学などの研究者らによって新たなフレームワーク『Diagnosis of Thought (DoT)』が考案されました。このフレームワークは、LLMによって人々の「認知の歪み」を診断する目的に特化しており、専門家によって高く評価されています。 認知の歪みとは、例えば「0か100か」のような極端な考え方や、他人の考えを勝手に推測するなど、不健康な思考パターンのことを指します。 DoTフレームワークを用いた診断結果は、人間の専門家が出す診断結果とも高い一致性を示しており、その有用性が確認されています。 (追記)なお、本フレームワークに基づくMyGPTを作成しました。記事末尾にURLを記載するため、興味のある方はぜひお試しください。 参照論文情報 ・タイトル:Empowering Psychotherapy wit
OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル(LLM)の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集(MTAHデータセット)において他のモデルを凌駕し最も優れたパフォーマンスを見せました。 また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。 参照論文情報 タイトル:Let’s Verify Step by Step 著者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman,
ステップバック・プロンプティングは極めてシンプルで具体的なテクニックながら、CoT(Chain-of-Thought prompting)やTake a Deep Breatheといった既存の手法を凌駕する性能を発揮しています。 参照論文情報 ・タイトル:Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models ・著者:Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou ・所属:Google DeepMind ・URL:https://doi.org/10.48550/arXiv.2310.06117 従来の課題 LLMはSTEM(科学、技術、工学、
ホーム 実装 【エッジAI】MITがまた何かすごいのを作ったようです。有名AI学会のNeurIPSで発表した内容を解説(コード・動画あり) 【エッジAI】MITがまた何かすごいのを作ったようです。有名AI学会のNeurIPSで発表した内容を解説(コード・動画あり) 2020/12/18 実装 AIDB Research
LLMのRAG(外部知識検索による強化)についての調査結果が報告されています。 基本フレームワークと各構成要素の詳細、評価、そして今後の発展について言及されており網羅的です。 本記事では、その報告内容を抜粋してお届けします。 参照論文情報 タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey 著者:Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Haofen Wang 所属:Tongji University, Fudan University URL:https://doi.org/10.48550/arXiv.2312.10997 本記事の関連研究:LLMにナレッジグ
Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。 また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。 なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています(例えばモバイル向けにはNanoなど)。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。 本記事
関連研究 ■GPT-4などのLLMに「自らの論理的な整合性をチェック」させるフレームワーク『LogiCoT』と実行プロンプト ■LLMの出力から誤り(ハルシネーション)を減らす新手法『CoVe(Chain-of-Verification)』と実行プロンプト ■LLMに自身のハルシネーション(幻覚)を「自覚」させ、減らす方法 従来の課題 手作りのプロンプト戦略 現在、プロンプトエンジニアリングの分野で広く用いられているChain-of-Thought(CoT)やその派生テクニックは、基本的には手作りです。特定のタスクや問題に対して最適なプロンプトを設計する際に、人の専門家が手動でプロンプトを生成しています。 自動化の必要性 手作りのアプローチは効果的である場合も多いですが、スケーラビリティに欠けるという問題があります。大規模言語モデル(LLM)が多様なタスクで使用される現代においては、プロン
大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約など、さまざまなNLPタスクで優れた性能を発揮しています。しかし、モデルはしばしば正確な事実知識を捉えるのが難しく、根拠のない回答を生成することあります。この問題を解決するために、Amazonなどの研究者らが『Graph Neural Prompting(GNP)』という新しいフレームワークを考案しました。このフレームワークは、LLMにナレッジグラフ(知識グラフ)を連携させ、タスク遂行能力を大幅に向上させるものです。 従来の方法では、モデルに学習データを追加するためには高いコストがかかりました。しかし、GNPを用いることで、より低いコストで高い成果を得ることができます。さらに、この方法はカスタマイズが非常に柔軟であり、特定のドメインや業界に合わせて調整することが可能です。 この記事では、この興味深い研究について詳しく解説していきます
科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem
異種LLM同士の議論 米ノースカロライナ大学の研究者らは、異なる種類の大規模言語モデル(LLM)同士に議論させるというアプローチを採りました。 このアイデアの背後には、異なるモデルがそれぞれの強みと弱みを持っているという認識があります。例えば、GPT-4は一般的なテキスト生成に優れている一方で、Bardは物語生成に特化しています。これらのモデルを組み合わせることで、より高度な推論が可能になると考えられています。 研究者らは、複数の異なるLLM(GPT-4、Bard、Claude2など)を円卓会議のような形で議論させるアイデアを形にしました。各モデルは独自の視点と推論能力を持ち寄り、最終的な回答や結論を出す過程が検証されました。 異種LLMs円卓会議ツール 研究者らはただ実験を行って報告するだけでなく、LLM同士に議論させて答えを提出させるプロセスを自動化するツールも提供しています。このツー
関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり 従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。 テキスト中心の処理能力 従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。 しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。 画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が
光学式文字認識(OCR)システムは、文書の電子化・工場での文字自動検出・オンライン教育・地図作成など幅広く使用されています。 中国の巨大テック企業BaiduのYuning Duらは今回新たに、超軽量のOCRシステムである「PP-OCR」を提案しています。
国や文化に関係なく平等に機能するシステムの必要性 AI技術の中でもとりわけ躍進中の技術が、物体認識だ。物体認識は様々な分野に応用可能であり、医療、視覚障害者の支援、画像アルバム編成ソフトウェア、画像検索など、幅広い場面ですでに利用されている。さらに、 物体認識システムの利用場所も、先進国に限らず世界中に広がっている。 どんな分野においても、技術の進歩に伴って開発者側には責任が生じることが多いが、物体認識においても同様の責任が発生している。物体認識の開発者には、国や所得レベルの高低によらず機能するシステムの開発が求められているのだ。 アメリカの Facebook AI Researchの T. d. Vriesら研究者は、物体認識システムが文化的背景や社会・経済的地位に関係なく機能することが求められているという課題に注目した。そこで、現在の物体認識システムが国や所得レベルに関係なく機能するか
本研究は、一時停止トークンという新しい手法を導入することでLLMに追加で計算を行わせ、推論を深めさせることに成功しています。本記事ではその詳細をご紹介します。 また、プロンプトを工夫することで、一時停止トークンのような効果を模倣する可能性も考察しました。一般のユーザーも高度なプログラミングスキルや専門的な知識なしに、LLMの性能を向上させることができるかもしれません。 さらに記事の最後では、人間の挙動との類似性にも触れました。 参照論文情報 タイトル:Think before you speak: Training Language Models With Pause Tokens 著者:Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan 所属:
CoTの特徴と単一で使用する際の限界 Chain-of-Thought(CoT)は、LLMに推論能力を付与するための一般的な手法です。CoTは線形的な(直線的な)推論を実行させます。簡単に言うと「Aが真ならばBが真」といった形の推論を行わせることが多いです。 CoTは、問題解決の過程を一連のステップに分解し、それぞれのステップで特定の推論を行わせます。例えば、「雨が降っているなら、傘を持つべきだ」というような線形的な推論がCoTの一例です。質問応答(QA)タスクなどでよく使用されます。 しかし、このアプローチにはいくつかの問題点があります。 誤差の伝播 CoTは一つの思考のステップが次のステップに影響を与えるという連鎖的な構造を持っています。そのため、中間のステップで生じたわずかな誤差が、連鎖全体に伝播してしまう可能性があります。 CoTの中間ステップの評価は困難であり、最終的な答えだけが
関連研究 LLMの出力から誤り(ハルシネーション)を減らす新手法『CoVe(Chain-of-Verification)』と実行プロンプト 推論能力をさらに強める戦略『AoT』で、LLMが「直感」に似た能力を示すようになった メタ認知をさせてLLMの能力を上げる手法「メタ認知プロンプティング」 従来の課題と背景 LLMの推論能力の限界 大規模言語モデル(LLM)は、短い質問や単純なタスクに対してはゼロショットで高い性能を発揮しますが、ステップバイステップの推論が必要な長い質問や複雑なタスクに対しては、通常はその性能に限界があります。複数の前提条件や仮定に基づいて論理的に推論する必要がある場合、LLMはしばしば不正確な結論に至ることがあります。 CoTフレームワークの限界と利点 Chain-of-Thought(CoT)フレームワークは、このような複雑な問題に対する一つの解決策として提案され
関連研究 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 LLMを活用した機械学習ソリューション自動提案フレームワーク:MLCopilotの紹介 AudioGPT:音声認識から歌声合成まで SkinGPT:大規模言語モデルがビジョンベースで診断を下す皮膚科ツール 概要から仕組みまで 大規模言語モデルの毒に用心を データポイズニングのリスク 目次 LATMとは何か フレームワークの構成 ツール作成とツール使用の詳細 LATMのメリット コストと品質のバランス フレキシビリティと拡張性 実証実験の結果 LATMの可能性 高度な問題解決能力 活用の幅の拡大 LATMの具体的な使用例 論理的な推論タスク ツールの再利用 ツールの適応性 まとめ LATMとは何か LATM(Large Language Models as Tool Makers)は、GPT-4などの大規模言語モ
Tencentなどの研究者チームが開発した「DreamDiffusion」は、脳の視ている光景を脳波から視覚化する、まるでSF映画のような技術です。本記事では、この画期的な技術について紹介します。 参照論文情報 タイトル:DreamDiffusion: Generating High-Quality Images from Brain EEG Signals 著者:Yunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, Ying Shan 所属:Tencent AI Labなど URL:https://doi.org/10.48550/arXiv.2306.16934 DreamDiffusionは、脳波(EEG)から映像を生成する技術です。具体的には、頭の外側に付ける非侵襲型の電極からEEG信号を読み取り、その信号を元に拡散
科学研究において、大量の文献から必要な情報を抽出することは非常に重要な作業です。しかし、手動での抽出は非常に時間がかかる上、誤りが発生する可能性もあるため、自動化が求められていました。 そこで、ウィスコンシン大学の研究者らは対話型AIを活用したデータ抽出手法「ChatExtract」を提案し、ChatGPTを使用した高精度なデータ抽出を実証しました。 プロンプトを工夫することによって前提条件の入力なしに論文から高精度なデータ抽出を行うのは、ChatGPTだけでなく他の対話型AIでも使えるテクニックとのことです。 注目すべきポイント 科学研究において、大量の文献から必要な情報を抽出することは非常に重要な作業である。 手動での抽出は非常に時間がかかる上、誤りが発生する可能性もあるため、自動化が求められていた。 対話型AIを活用したデータ抽出は、プロンプトとフォローアップの質問を工夫し、情報の正
★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, K
Google DeepMindの最新研究によれば、Large Language Models(LLM)が最適化問題を解決する新たな手法として利用できる可能性が示されました。この研究は、自然言語を用いて最適化タスクを説明し、それに基づいてLLMが新しい解を生成するという方法を提案しています。 さらに、LLMがプロンプト自体を最適化する能力も示されています。LLMはプロンプトの形式に敏感であり、意味的に類似したプロンプトでも性能が大きく異なる可能性があります。したがって、プロンプトエンジニアリングはLLMが良好なパフォーマンスを達成するために重要です。 参照論文情報 タイトル:Large Language Models as Optimizers 著者:Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Z
GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに 2023/8/29 LLM プロンプト 論文 AIDB Research 今回紹介する研究は、大規模言語モデル(LLM)であるGPT-4が、多肢選択問題(MCQ)において選択肢の順序に敏感であるという事実を明らかにしています。 この研究は、リクルートのAI研究所であるMegagon Labsのグループによって発表されました。研究者たちは、GPT-4とInstructGPTの2種類のモデルを用いて、5つの異なるMCQベンチマークで実験を行いました。その結果、選択肢の順序を単純に入れ替えるだけで、モデルの性能に13%から75%もの大きな変動が生じることが確認されました。 この記事では、この研究の詳細とその意義、そして今後どのような対策が考えられるのかについて、深く掘り下げていきます。 参照論文情報 タイ
背景 LLMは、膨大な量の公開データで学習することにより、幅広い一般知識推論タスクで著しい進歩を遂げてきました。一方で、LLMが特定の分野のタスクに用いられる場合、一般的な知識推論よりも、与えられた文書に対して正確であることが強く求められています。例えば最新のニュースや企業の非公開文書などに適応させることは課題になっています。 LLMを特定分野に適応させる際、検索拡張生成(RAG)を用いたコンテキスト学習と、教師あり微調整(supervised fine-tuning)の2つの手法が主に考えられます。 RAGベースの手法は、LLMが質問に答える際に文書を参照するものです。この手法では、モデルが事前に学習しているわけではありません。外部のナレッジベースから関連情報を取得することで問題解決能力を向上する(比較的リーズナブルな)アプローチです。 教師あり微調整は、文書からより一般的なパターンを学
注目されるサッカーベッティング サッカーは老若男女を問わず、世界中の幅広い年人々から注目を集めているスポーツだ。そうした中、試合の勝敗を予測して賭けを行う「サッカーベッティング(サッカー賭博)」も盛り上がりを見せている。個人の好みのチームにベッティングする人もいれば、ランダムにベッティングする人もいるなど、チームの選び方は人それぞれだ。 ドイツのエルランゲンニュルンベルク大学のヨハネス・シュテビンガーら研究者は、サッカーベッティングにおける予測精度を向上して、金銭的なリターンを増やすということに着目し、機械学習アルゴリズムの組み合わせを用いて予測を試みた。結果、1試合あたり1.58%の金銭的リターンを得られることが、統計的に有意に示された。 機械学習で試合結果を予測、金銭的リターンが増加 シュテビンガーらの研究のポイントは以下の通りだ。
参照論文情報 タイトル:LLM in a flash: Efficient Large Language Model Inference with Limited Memory 著者:Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rastegari, Mehrdad Farajtabar 所属:Apple URL:https://arxiv.org/abs/2312.11514 本記事の関連研究:LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』 研究背景 LLMは高性能ですが、多くの計算能力とメモリ(情報を一時的に保存する部分)を必要とします。 そのためメモリ容量が限られているデバイス
関連研究(続きは記事末尾にあります) ■OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 ■Microsoftの画像セグメンテーション新技術「SEEM(Segment Everything Everywhere Model)」の凄さ、Meta AIのSAMとの違い 従来の課題 視覚情報の処理能力不足 従来のLLMは、言語タスクに対する能力は優れていましたが、多モーダル(視覚と言語)のアップデートはあまり行われていませんでした。要するに、視覚的な情報を処理する能力には限界がありました。 高性能な画像分析LLMの需要 多くの開発者や研究者が高性能な画像分析LLMを求めていましたが、これまでのところそのようなモデルは一般に提供されていませんでした。 これらの課題を解決するために、LLaVA-1.5が開発されました。このモデルは、視覚エ
DeepMindの研究チームは、現在の大規模言語モデル(LLM)は人間によって生成されたデータに過度に依存しており、LLMの発展にとって望ましい状況ではないと考えました。 この問題に対処するために、彼らはLLMが自律的に高品質な訓練データを生成し、データセットを自ら拡充する「自己学習」アプローチの有効性を検証しました。 実施された実験では、自己生成データによって、数学やコード生成の分野におけるLLMの能力が顕著に向上したことが確認されました。 本記事では、研究内容を詳しく見ていきます。 参照論文情報 タイトル:Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models 著者:Avi Singh et al.(多数) 所属:Google DeepMind URL:https://doi.o
GPT-4などの大規模言語モデル(LLM)はコード生成においても驚異的な成果を上げています。しかし、モデルが生成するコードは必ずしも完璧ではありません。そこで、DeepMindとUCバークレーの研究者らは新たなフレームワーク『SELF-DEBUGGING(セルフデバッギング)』を開発しました。 追加訓練なしでも、複数のベンチマークにおいて高いパフォーマンスを達成できる手法です。実行プロンプト(の例)は比較的シンプルで、多くのプログラミングタスクで容易に適用できます。 参照論文情報 ・タイトル:Teaching Large Language Models to Self-Debug ・著者:Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou ・所属:Google DeepMind, UC Berkeley ・URL:https://
大規模言語モデル(Large Language Models:LLMs)の研究が急速に進展する中、未解決の課題や有望な応用分野を特定することが困難になっています。この記事では、大規模言語モデルの現状を理解するための指針を提供する研究を紹介します。 参照論文情報 タイトル:Challenges and Applications of Large Language Models 著者:Jean Kaddour, Joshua Harris, Maximilian Mozes, Herbie Bradley, Roberta Raileanu, Robert McHardy 所属:ケンブリッジ大学、Stability AI、Meta AIなど URL:https://doi.org/10.48550/arXiv.2307.10169 関連研究 Metaが商用利用可能な大規模言語モデル「Llama
次のページ
このページを最初にブックマークしてみませんか?
『AIDB | AI論文データベース』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く