タグ

開発とモデルに関するdeejayrokaのブックマーク (28)

  • LLM テクニックの習得: LLMOps

    Reading Time: 3 minutes 企業は、イノベーションを起こし、顧客に価値を提供し、競争力を維持するために、これまで以上にデータと AI に依存しています。機械学習 (ML) の導入は、信頼性が高く、コスト パフォーマンスがよく、スケーラブルなコード、データ、モデルを管理するためのツールやプロセス、組織原則の必要性を生じさせました。これは MLOps として広く知られています。 世界は、特に基盤モデルと大規模言語モデル (LLM) を活用した新しい生成 AI 時代に急速に突入しています。ChatGPT のリリースにより、この変化はさらに加速されました。 GenAIOps と LLMOps の新しい専門領域は、番環境での生成 AI および LLM を利用したアプリの開発と管理の課題に対処するための MLOps の進化として登場しました。 この投稿では、生成 AI アプリ開発

    LLM テクニックの習得: LLMOps
  • カラクリの700億パラメーターLLM、国産モデルの中で最高性能を獲得 | KARAKURI

    ~「AWS LLM開発支援プログラム」で開発、近日公開予定~ カスタマーサポートDXを推進するカラクリ株式会社(東京都中央区:代表取締役CEO 小田志門、以下カラクリ)は、アマゾン ウェブ サービス ジャパン合同会社(以下、AWSジャパン)の「AWS LLM 開発支援プログラム」を活用し、2023年9月より国内最大規模となる700億パラメーターのLLMを開発いたしました。2024年1月18日に、LLMのベンチマークテスト「Japanese MT-Bench」で性能評価を実施し、国産LLMモデルとして最高性能(※)の評価が採点されました。世界市場での競争力を持った国産AIモデルの構築を加速するため、モデルを公開可能な形に修正して、近日中に公開する予定です。 ※ 「Japanese MT-Bench」はStability AI社が提供しているベンチマークテストです。2024年1月18日に性能

    カラクリの700億パラメーターLLM、国産モデルの中で最高性能を獲得 | KARAKURI
    deejayroka
    deejayroka 2024/01/31
    ”700億パラメーターのLLMを開発いたしました。2024年1月18日に、LLMのベンチマークテスト「Japanese MT-Bench」で性能評価を実施し、国産LLMモデルとして最高性能(※)の評価が採点”
  • 簡単な製品設計はAIにお任せの時代に、オートデスクが大規模モデル開発

    米Autodesk(オートデスク)は、設計作業を自動化する人工知能AI)の「大規模製品モデル(Large Product Model)」を開発する取り組みを開始した。2023年7月19日に同社の製造業担当シニアディレクターのデトレフ・ライヒネーダー(Detlev Reicheneder)氏が東京都内で会見し、明らかにした。大規模製品モデルは製品の3D形状や設計技術、生産技術技術上の問題の解決法といった情報を学習したモデルという。 同社は既に、一定の制約条件と目的のもとで多数の設計案を自動生成する「ジェネレーティブ・デザイン」の機能を製品化している。しかし現状の機能では、ユーザーが制約条件などを細部の数値に置き換えて指定する必要がある。これに対して大規模製品モデルでは、設計概念を直接扱えるようにするとともに、現状よりも多様な設計案を生成できる機能の実現を目指す。 大規模言語モデルが文章や

    簡単な製品設計はAIにお任せの時代に、オートデスクが大規模モデル開発
    deejayroka
    deejayroka 2024/01/29
    “ユーザーに提供する際の大規模製品モデルは、インターネットで一般に入手できる3D製品情報によって事前学習させておく。さらにユーザー企業ごとの製品を追加で学習させ、設計業務に適用する”
  • OpenAIが開発中の次世代AI「Q*(キュースター)」とは | AI新聞 | exaBase コミュニティ(エクサベースコミュニティ)

    編注:画像はAdobe Fireflyで生成 OpenAIがどうやらものすごい次世代AIモデルを開発中らしい。このAIモデルに関してはOpenAIはまだ発表していないが、ロイター通信によると、その名前は「Q*(キュースター)」と呼ばれているらしい。(ソース ロイター通信 英語) 最初にそのモデルの存在を明らかにしたのはOpenAICEO、Sam Altman氏人だった。Altman氏が解雇された日の前日、同氏はAPEC(アジア太平洋経済協力)のパネル討論会で「来年、AIは誰も予想しなかったレベルにまで大きくジャンプして進化する」と開発中の次世代AIモデルのブレークスルーについて語っている。また「(そのブレークスルーは)過去2、3週間の間に起こった」と言う。気になるのが同氏の「われわれはAIモデルを作ったのだろうか。新たな生物を作ったのだろうか」という発言だ。そこまですごいブレークスルー

    deejayroka
    deejayroka 2024/01/11
    “AIの研究者の間では、このAIモデル「Q*(キュースター)」がどのようなものであるのかに関し、いろいろな説が飛び交っている。ほとんどすべての説に共通しているのが、このAIモデルは計画エンジンを搭載した言語モデ
  • 【switch-c-2048】GoogleがついにGPT-4レベルのLLMをオープンソースで公開!概要〜使い方まで | WEEL

    ホーム生成AIずかんパラメーター数1兆以上【switch-c-2048】GoogleがついにGPT-4レベルのLLMをオープンソースで公開!概要〜使い方まで メディア事業部リサーチャーのいつきとメディア事業部AIエバンジェリストの藤崎です。この記事は専門的な内容を含むため、AIスペシャリストとの共同執筆となっています。 今回ご紹介するのは、Googleがオープンソース化したMOEモデルの「switch-c-2048」について。 なんと、こちらのMOEモデルは、1.6兆個のパラメーターと3.1TBサイズのデータでトレーニングされた大規模言語モデルで、あの「GPT 4」と同等のサイズだと話題になっています! switch-c-2048を使用すれば、より高速な学習が可能になるとのことですが、新しく公開されたモデルなので使い方がわからないという方も多いでしょう。 そこで今回の記事では、switch

    deejayroka
    deejayroka 2023/11/26
    “いくらswitch-c-2048がオープンソースでGPT 4に匹敵する能力を持っているとしても、動作するスペックのマシンを用意するのが大変ですからね・・・ switch-c-2048はかなり利用シーンが限られるLLMと言えるでしょう”
  • LLM 勉強会

    LLM 勉強会 勉強会では、自然言語処理および計算機システムの研究者が集まり大規模言語モデルの研究開発について定期的に情報共有を行っています。 具体的には、以下の目的で活動しています。 オープンソースかつ日語に強い大規模モデルの構築とそれに関連する研究開発の推進 上記に関心のある自然言語処理および関連分野の研究者によるモデル構築の知見や最近の研究の発展についての定期的な情報交換 データ・計算資源等の共有を前提とした組織横断的な研究者間の連携の促進 モデル・ツール・技術資料等の成果物の公開 詳細は趣旨説明をご覧ください。 News

  • ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

    Research部門の近江崇宏です。 ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開しました。 モデルはHuggingface Hubからダウンロードいただけます。 https://huggingface.co/stockmark/stockmark-13b このモデルは、合計2200億トークンの日語のテキストデータにより事前学習が行われました。 一般に事前学習でよく使われるWikipediaやCommonCrawl由来のコーパスだけではなく、当社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いました。 そのため、既存のモデルに比べると、最新の情報やビジネスのドメインに対応したようなモデルになっております。 実際に、ビジネスに関連する知識を問うタスクで

    ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開
  • OpenAI、改良版生成AIモデル「GPT-4 Turbo」を「GPT-4」より安価に提供へ

    OpenAIは開発者会議DevDayで生成AIモデル「GPT-4 Turbo」を発表した。パフォーマンス最適化でGPT-4と比較してトークンの価格を大幅に値下げした。また、トレーニングデータを2023年4月までにした。 米OpenAIは11月6日(現地時間)、初の開発者会議「OpenAI DevDay」で、主力のテキスト生成AIモデル「GPT-4」の改良版「GPT-4 Turbo」を発表した。 パフォーマンスを最適化したため、GPT-4と比較して入力トークンの価格は3分の1に、出力トークンの価格は半額にできたとしている。

    OpenAI、改良版生成AIモデル「GPT-4 Turbo」を「GPT-4」より安価に提供へ
  • NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」

    国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。 計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。 NIIが主宰するLLM勉強会(LLM-jp)で7月

    NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
    deejayroka
    deejayroka 2023/11/06
    “国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオー
  • 大規模言語モデルを企業ごとに最適化 KDDIが数十億円規模投資

    KDDIの高橋誠社長が、自動で文章などを作成する生成AIの基盤となる大規模言語モデルを、利用する業界や企業ごとにファインチューニング(最適化)するためのスタートアップとの連携などに数十億円規模の投資を行う考えを明らかにした。 KDDIの高橋誠社長は11月2日の決算会見で、自動で文章などを作成する生成AIの基盤となる大規模言語モデルを、利用する業界や企業ごとにファインチューニング(最適化)するためのスタートアップとの連携などに数十億円規模の投資を行う考えを明らかにした。一方、ソフトバンクなどが取り組む汎用性の高い大規模言語モデルの開発については「1社だけで作るのは辛い」と否定的な考えを示した。 高橋氏は、10月に社内で専門人材を集めたAIやデータ活用の専門部署を設置したことを明らかにした。その上で、国内企業が生成AIを利用するためには、米OpenAIなどの既存の大規模言語モデルを「どうファイ

    大規模言語モデルを企業ごとに最適化 KDDIが数十億円規模投資
    deejayroka
    deejayroka 2023/11/06
    “業界や企業ごとにファインチューニング(最適化)するためのスタートアップとの連携などに数十億円規模の投資を行う考えを明らかにした。一方、ソフトバンクなどが取り組む汎用性の高い大規模言語モデルの開発につ
  • 画像生成AI「Stable Diffusion XL(SDXL)」の使い方 初めてなら「Fooocus」がオススメです (1/3)

    複雑化するStable Diffusion界隈 前回からずいぶん間が空いてしまったが、ようやく第3回である。 届いたパソコンに「Python」、「Git」、動作環境「WebUI(A1111版、以下「WebUI」と略記)」をインストールして、1枚目の画像を生成したところで前回は終わってしまったのだが、もちろんその後なにもせずに1ヵ月が過ぎてしまったわけではない。 実はこの後、プロンプトの研究、各種パラメーターの把握、モデルとVAE(オートエンコーダーの一種)の探求、様々なExtension(拡張機能)の導入、Custom Script、LoRA、ControlNet、LyCORISなどなど様々なことを調べ、試してはいたのだが……。 とにかく調べなきゃいけないことが多すぎる!!! そもそもStable Diffusion自体が登場から1年もたっていないうえに、オープンソースで公開されているため

    画像生成AI「Stable Diffusion XL(SDXL)」の使い方 初めてなら「Fooocus」がオススメです (1/3)
  • リポジトリ全体のコーディング作業を一気に自動編集する生成AI「CodePlan」 米Microsoftが開発

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 Microsoft Researchに所属する研究者らが発表した論文「CodePlan: Repository-level Coding using LLMs and Planning」は、単なる一部のコード編集にとどまらず、リポジトリ全体のコーディング作業を計画的に自動編集するための大規模言語モデル(LLM)を使用したフレームワークを提案する研究報告である。 近年、LLMによるプログラミングの自動化が進展を見せている。「Amazon Code Whisperer」「GitHub Copilot」「Replit」などのツールは、自然言語の意

    リポジトリ全体のコーディング作業を一気に自動編集する生成AI「CodePlan」 米Microsoftが開発
    deejayroka
    deejayroka 2023/10/06
    "グラフ構造を用いることで、CodePlanは編集作業の流れや依存関係を効率的に追跡・管理できる。このグラフは動的に更新されるため、CodePlanはコード編集をリアルタイムで監視し、必要に応じ"
  • 生成AI基盤モデルの開発に係る事前調査を開始します (METI/経済産業省)

    経済産業省は、生成AIの開発を加速させる観点から、競争力ある基盤モデル開発を行う企業等への支援スキームを検討してきましたが、支援スキームの大枠が固まったことから、NEDOが10月下旬(予定)から基盤モデル開発企業等を公募することとなりました。公募に先立ち、公募・採択をより円滑に進めるため、事前調査を実施いたします。 1.概要 生成AIは、情報のアクセシビリティの向上や労働力不足、生産性向上など社会課題の解決を担うとも言われている革新的な技術であり、産業活動や国民生活に大きな影響を与えると考えられています。 世界各国で生成AIの開発が進む中、特に、生成AIのコア技術である基盤モデルの開発が急速に進展しており、日としてもその開発能力を確保することが重要です。 そのため、経済産業省では、生成AIの開発を加速させる観点から、競争力ある基盤モデル開発を行う企業等への支援スキームを検討する有識者委員

  • LLMOps:基盤モデルに基づくアプリケーション開発のワークフロー|Weights & Biases Japan

    Weights & Biasesnoteをフォローしてください大規模言語モデル(LLM)の可能性を引き出し、その機能を拡張してアプリケーションを開発・提供するためのワークフローは、どのようなものなのでしょうか。私たちはここ数ヶ月、様々な場所でこの課題を耳にしてきました。 これまで機械学習モデルの開発と運用を統合するMLOps(Machine Learning Operations)のワークフローの構築において最も信頼されてきたWeights & Biasesは、OpenAIやStability AIなど、生成AIの開発で最先端をいく企業に活用されてきました。 この経験をもとに、稿ではMLOpsのベストプラクティスをレビューし、この概念がどのようにLLMOpsに適用されていくのか、現時点のベストプラクティスを示していきます。 特にLLMOpsにおいては、多くの場合社外で開発された基盤モ

    LLMOps:基盤モデルに基づくアプリケーション開発のワークフロー|Weights & Biases Japan
  • 無料GPT-4アプリの公開とクリーンデータセットの作成について|kun1emon

    どうもこんにちは。最近、大規模言語モデル(LLM)の個人開発に取り組んでいる@kun1em0nと申します。この度、最近話題のChatGPTの最新モデルGPT-4を無料で使用できるアプリを作成したので公開いたします。今回アプリを無料で公開する意図についてこの記事で説明したいと思います。 Japanese-Alpaca-LoRAの作成前回の記事ではスタンフォード大学が作成したStanford Alpacaの日語対応モデル Japanese-Alpaca-LoRAを作成し公開した話を紹介しました。 このモデルの作成に使ったデータの大元(Alpacaデータ)はText-davinci-003というOpenAIサービスで出力した結果になりますが、OpenAIの利用規約ではコンテンツ生成者はOpenAIサービスで出力した結果を競合モデルの開発用途に使用してはならないと記載されています。ただ、コンテン

    無料GPT-4アプリの公開とクリーンデータセットの作成について|kun1emon
    deejayroka
    deejayroka 2023/08/04
    “本来GPT-4を利用するにはAPI料金が発生しますがこのAPI料金については当方が全額負担いたします。その代わりにアプリの入出力結果データはLLMの開発等に利用させていただきます”
  • LLM開発のために200万円以上無駄にしたエンジニアの話|sonodaatom

    はじめにこんにちは、Lightblueの園田です。 四畳半のオフィスで70億パラメータのLLMを事前学習した話ではエンジニアの樋口さんがlightblue/japanese-mpt-7bの開発・性能評価について報告しました。 記事では、四畳半のオフィスで70億パラメータのLLMを事前学習した話で語りきれなかったしくじりも含めた開発裏話について紹介します。 LLM開発に必要なリソース一般的に、LLMの開発にはA100やH100といった最新の高性能のGPUが使われます。 日公開されたLlama2の70Bモデルでは、A100を1,720,320時間分利用し学習されています。 このようなリソースはGPUボードの費用だけでなく、電気代も高額になることから、LLMの開発には資力が必要とされています。 H100はパブリッククラウドでほとんど提供されていないことから、LightblueでもA100を

    LLM開発のために200万円以上無駄にしたエンジニアの話|sonodaatom
  • 「LLM」を活用したプロダクト開発に必要な能力とは何か “機械学習の民主化”でますます注目される「MLPdM」の重要性

    大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント第二弾。今回のテーマは「大規模言語モデルがつくる新しい顧客体験」。ここで登壇したのは、株式会社LayerXの松村優也氏。機械学習の民主化とMLPdMの重要性について発表しました。 LayerX社・機械学習チームのマネージャーの松村優也氏 松村優也氏:それでは、LayerXの松村優也が「機械学習エンジニアから見るプロダクト開発におけるLLM」を副題として、「機械学習の民主化とMLPdMの重要性」というタイトルで10分お話しします。お願いします。 簡単な自己紹介ですが、あらためて、松村です。(スライドの)右上の黒いアイコンでよくSNSをやっています。「Twitter」などのIDはご覧のとおりです。 バックグラウンド的には、もともと京都大学で情報検

    「LLM」を活用したプロダクト開発に必要な能力とは何か “機械学習の民主化”でますます注目される「MLPdM」の重要性
    deejayroka
    deejayroka 2023/06/26
    "機械学習を活用するプロダクトを作るために必要な能力、あるいは職種をMLPdMと呼ぶと思っていて、一般的なプロダクトマネジメントの観点にML、機械学習特有な観点を加えたものをこう呼"
  • サイバーエージェント、日本語の大規模言語モデルを一般公開 最大68億パラメータ 商用利用可能

    同社は5月、独自の日語LLMを開発していると発表。すでに130億パラメータまで開発が完了し、広告の制作などに活用していると説明していた。また、同社は「既存のLLMのほとんどは英語を中心に学習されており、現状では日語および日文化に強いLLMは少ない状況」と指摘。国内の自然言語処理技術の発展に貢献していく考えを示していた。 関連記事 “和製GPT”競争勃発か サイバーエージェント、独自の日語LLM発表 「活用を始めている」 サイバーエージェントは11日、独自の日語LLMを発表した。すでに130億パラメータまで開発が完了し、広告の制作などに活用を始めているという。 サイバーエージェント、新卒配属にマッチングシステム(AIではない)採用 一番活躍できる部署を提案 サイバーエージェントが、新卒社員の配属に独自開発のマッチングシステムを採用した。人の希望に加え、適性や特性といった情報を入力

    サイバーエージェント、日本語の大規模言語モデルを一般公開 最大68億パラメータ 商用利用可能
    deejayroka
    deejayroka 2023/05/23
    “同社は「既存のLLMのほとんどは英語を中心に学習されており、現状では日本語および日本文化に強いLLMは少ない状況」と指摘。国内の自然言語処理技術の発展に貢献していく考えを示していた。”
  • サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―

    株式会社サイバーエージェント社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、最大68億パラメータの日語LLM(Large Language Model、大規模言語モデル)を一般公開したことをお知らせいたします。 近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMは急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。 一方、既存のLLMのほとんどは英語を中心に学習されているため、日語および日文化に強いLLMは少ない状況です。 ■最大68億パラメータの日語LLM(大規模言語モデル)の公開について こうした背景のもと、当社は日語LLMの開発に取り組んでおり、このたび一部モデルをHugging Face Hubにて公開いたしました。公開されたモデルはオープンな日語データ※2で学習したもので

    サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―
    deejayroka
    deejayroka 2023/05/17
    “これまで培った知見を活かしチャットボットやRPAをはじめとする業界特化型のLLMの構築や、各企業と連携したLLMを活用したビジネス開発の推進等を予定しております”
  • ChatGPTの運用コストは1日70万ドル…費用削減へマイクロソフトは専用チップを開発中

    Aaron Mok [原文] (翻訳:仲田文子、編集:井上俊彦) Apr. 28, 2023, 10:30 AM テックニュース 13,217 ChatGPTを稼働させるには1日最大70万ドル必要だとアナリストが試算している。 Pavlo Gonchar/SOPA Images/LightRocket via Getty Images ChatGPTは「高価なサーバー」を使っているため、OpenAIがそれを稼働させるのに1日最大70万ドルのコストがかかっているようだと、あるアナリストがThe Informationに語っている。 ChatGPTは、クエリに答えるために高価なサーバー上で大量の計算をしなくてはならない。 マイクロソフトは、密かにコストを削減するためのAIチップを製造しているとThe Informationが報じている。 ユーザーがChatGPTを使ってカバーレターを書いたり、

    ChatGPTの運用コストは1日70万ドル…費用削減へマイクロソフトは専用チップを開発中
    deejayroka
    deejayroka 2023/04/29
    "「実際、ChatGPTの推論にかかるコストは、週単位ではトレーニングコストを上回っている"