2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデルの学習や評価などを説明し、日本語に強い大規模言語モデルの現状や課題を議論したい。
こんにちは。エムスリーエンジニアリンググループのコンシューマチームに所属している園田です。 普段の業務では AWS やサーバーサイド、フロントエンドで遊んでいるのですが、最近はもっぱら OpenAI や Claude3 で遊んでます。 今回は、最近巷で話題の LLM ローコード構築ツールである Dify の OSS 版を AWS のマネージドサービスのみを使って構築してみました。 DifyとはオープンソースのLLMアプリ開発プラットフォームで、様々なLLMを使用してChatGPTのGPTsのようなものがノーコードで簡単に作れます。 引用元: DifyでSEO記事作成を試してみる|掛谷知秀 試しにAskDoctorsのガイドラインHTMLをナレッジ登録してみた ローカル環境で Dify を構築する記事はたくさん見かけますが、AWS のマネージドサービスで構築する内容は見かけなかった*1ので公
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L
はじめに 「ゼロからLLMつくりたいなー」と思っていますが、なかなか時間がとれないので、いざというとき(?)のために、参考になりそうなサイトをまとめておきます。 個人的な備忘録です。まだ全然作れていないので、どれが良いという評価もできません。 NLP2024チュートリアル 良さそう。 NLP2024-チュートリアル3-作って学ぶ 日本語大規模言語モデル Neural Networks: Zero to Hero Andrej Karpathyさんの動画。英語ですが、すごい良さそう Llama Llamaの情報 GENIAC その他 LLaVA(画像系) 環境構築 モデルマージ まとめ LLMに限らず、何かをゼロから小さく作ってみるのは、回り道のようで理解を深める最短経路と思っています。すぐ効果があるようなものではないですが、こういうのはまとめて取り組んでいきたいですね。 日本語の良い書籍が
こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。 構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。 実際こんな記事も話題になりましたね。 本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。 誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。 また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの 外部知識資源 を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'
こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。 出口の見えない日本のLLM開発に光? 昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。 私も東工大の岡崎先生と、NII
米Microsoftが支援する仏Mistral AIは5月29日(現地時間)、同社としては初のコーディング向け生成AIモデル「Codestral」を発表した。 コード生成タスクを明示的に設計されたオープンウェイト(モデルの重みを公開している)の生成AIモデルで、HuggingFaceからダウンロードし、MistralのAPIプラットフォームを通じて利用できる。 Python、Java、C、C++、JavaScript、Bashを含む80以上のプログラミング言語の多様なデータセットでトレーニングされている。また、SwiftやFortranでも「優れた性能を発揮する」という。 3万2000トークンのコンテキストウィンドウを持つ220億パラメータモデル。コード生成の長期評価のRepoBenchでは、競合する米MetaのCode Llama(4000/700億)や中国DeepSeekのDeepSe
先日行われた、米Microsoftの開発者向けイベント「Microsoft Build 2024」。AI系技術を中心にさまざまな発表があったが、目玉の一つだったのが、SLM(Small Language Model)関連の新製品だ。ITmediaでも紹介記事が公開されているので、具体的な情報は以下を参照してほしい。この記事では、そもそもSLMとは何か、何が期待されているのかを整理してみよう。 (関連記事:Microsoft、Windowsローカルで実行可能なSLM「Phi Silica」を全「Copilot+ PC」に搭載へ) (関連記事:Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー) “大は小を兼ねない”「小規模言語モデル」(SLM)とは? SLMは日本語で「小規模言語モデル」と訳されている。名前から分かるように、ChatGPTを始めとした生成AIア
注意: Modelfile の構文は開発中です。モデルファイルは、Ollamaでモデルを作成・共有するための設計図です。おススメ記事フォーマットModelfile のフォーマット:# コメントINSTRUCTION 引数インストラクション説... モデルプロバイダーの追加 モデルタイプを選択: 「ollama」を選択します。 必要な情報を入力: モデル名: llm-jp-13b-v2 Base URL: http://host.docker.internal:11434 Completion Mode: 「Chat」 モデルコンテキストサイズ: 4096 最大トークン数の上限: 4096 Vision Support: 「No」を選択 ワークフローの作成 4人のエージェントのシステムプロンプトを設定: 楽観的AI研究者、慎重派経済学者、AIジャーナリスト、倫理学者の4人のエージェントを作成
中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程 https://www.mthreads.com/news/171 アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。 そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しま
「RAGはそんなに簡単じゃない」──AIエンジニア主導でLLMを導入すると失敗に? 日本語特化のELYZA・曽根岡CEOに聞く、LLM開発&活用のいま(1/2 ページ) GPT-3.5 Turboと同水準の日本語特化型LLMを開発したELYZA。4月にはKDDIグループの傘下となり、注目を集めている。日本語性能トップクラスのLLMをどう作っているのか。KDDI傘下になったのはどんな狙いが? LLM活用でいま注目のポイントは? 気になることを、曽根岡侑也CEOにインタビューした。 「ChatGPTがやってることを全部やりきった」 3月に発表した700億パラメータモデル「ELYZA-japanese-Llama-2-70b」は、OpenAIの「GPT-3.5 Turbo」やGoogleの「Gemini 1.0 Pro」に匹敵する日本語タスク処理性能を備える。性能向上をどのように実現したのか。
MetaとGoogle DeepMindの元従業員が立ち上げたAI開発企業のMistral AIが、同社初のコーディング用AIモデル「Codestral」を発表しました。Codestralはコーディングタスク専用に設計された生成AIモデルで、ソフトウェア開発者が高度なAIアプリケーションを設計するのに役立ちます。 Codestral: Hello, World! | Mistral AI | Frontier AI in your hands https://mistral.ai/news/codestral/ Mistral releases Codestral, its first generative AI model for code | TechCrunch https://techcrunch.com/2024/05/29/mistral-releases-its-first-
判定者が使った戦略を分析すると、36%が雑談を通じて相手の人となりを探ろうとした。また、25%が感情や経験、ユーモアのセンスを尋ねるなど、社会的・感情的なアプローチを取っていた。論理的思考や一般知識を問うたのは13%にとどまった。 判定理由を分析した結果、43%が言語的スタイル(スペル、文法、語調など)に関するもので、24%が社会的・感情的要因(ユーモアのセンス、人格など)に関するものであった。知識や論理的思考に関する理由(知りすぎている、知らなさすぎているなど)は10%にとどまった。 AIだと判定した理由として「わざとらしい人格を演じている」「過度にくだけすぎている」「個性に欠けている」ことが挙げられた。逆に人間だと判定された主な理由は「人間らしく、くだけた言葉遣い」「もっともらしい受け答え」「スペルや文法の間違いを含むこと」などであった。以上の結果から、判定者は知性よりも言語的・社会的
Codestral: Hello, World!Empowering developers and democratising coding with Mistral AI. We introduce Codestral, our first-ever code model. Codestral is an open-weight generative AI model explicitly designed for code generation tasks. It helps developers write and interact with code through a shared instruction and completion API endpoint. As it masters code and English, it can be used to design ad
こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇(@catshun_)です。 本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。 社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。 以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。 おことわり 本記事では対象とする研究棟の 詳細な解説は含みません。詳細は元の論文を参照ください。 不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本記事の目次 Google I/O '24 での Gemini Nano × Android の発表
はじめに 5月13日にGPT-4oがOpenAIから発表されました。 この発表以降、Xでも多くの方がGPT-4oを試した感想を書いていました。 その中で画像認識の精度が上がって、かなり使える機能になってきているとの話があり、気になったのでまずはAPIから使えるようにしてみました。 OpenAIのモデルがVisionに対応したのはだいぶ前になりますが、 値段の割にあんまり精度が良くなさそうだったので、お恥ずかしながら今まで試したことがありませんでした。 なので今回は、 VisionのAPIドキュメントを一通り読む Chainlitのマルチモーダル機能の挙動を確認する 以前作成したChainlitとLangGraphのAgentアプリで画像認識をできるようにする という手順でやっていきたいと思います。 Vision APIのドキュメント確認 まずはVisionの使い方やコストについて、Open
Amazon Web Services(AWS)は2023年4月に、大規模言語モデル(LLM)のフルマネージドサービス「Amazon Bedrock」のプレビュー版を公開した。プレビュー版の公開時点で導入を決め、1年にわたって同サービスを活用してきた企業の担当者らが、アプリケーション開発に生成AI(人工知能)を利用する際のポイントを語った。 語ったのは、カナダのトロントを拠点とする顧客調査プラットフォームプロバイダーAlidaでチーフアーキテクトを務めるシャーウィン・チュー氏と、米国ニューヨーク州メルビルのContact center as a ServiceプロバイダーVerint Systemsでチーフサイエンティストを務めるイアン・ビーバー氏だ。 AlidaはなぜAmazon Bedrockを選んだのか 関連記事 最適な学習方法は? 安全にデータを使うには? AWSが解説する「生成A
IBMは2024年5月7日(米国時間)、同社が開発した生成AI(人工知能)モデル「Granite」ファミリーにおいてコーディングタスクに特化した「Granite Codeモデル」と、指示学習(インストラクションチューニング)済みの「Granite Code Instructモデル」をオープンソース化したと発表した。これらのモデルはApache License 2.0でリリースされている。 IBMは、これらのモデルをオープンソースで公開した背景を、次のように述べている。 「生成AIの人気が急上昇する一方、企業での採用は遅れている。その理由の一つは、コストが高いことだ。多くのモデルは数百億のパラメーターを持っており、汎用(はんよう)的なチャットbotを構築するには有用だが、推論と実行に多くの計算リソースが必要となる。コスト以外にも、大規模言語モデル(LLM)のライセンスが不明確であることや、モ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く