並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 645件

新着順 人気順

モデルの検索結果1 - 40 件 / 645件

  • 「AIずんだもん」3Dモデルが使用中止に 制作者が「不快な内容」と抗議

    YouTubeチャンネル「AIずんだもん」を運営するきらっちさんがXで、東北ずん子・ずんだもんプロジェクトのキャラクター・ずんだもんの3Dモデルの使用を中止すると発表した。 3Dモデルの制作者から「不快な内容に利用されているため、利用をやめてほしい」と抗議を受けたという。併せて、きらっちさんは運営に不備があったとして謝罪した。 なお、5月13日に事情を説明するために行われた配信では、3Dモデルを無断で使用していたと発言している。 事情を説明するために行った配信 チャット欄のコメントに反応するAIずんだもんYouTubeチャンネル「AIずんだもん」では、チャット欄のコメントにAIVTuber・AIずんだもんが応答する配信を行っていた。 AITuberとは、視聴者のコメントに反応して応答を行うキャラクターコンテンツのこと。AI技術を用いることで、まるでVTuberのようなやり取りが疑似的に行わ

      「AIずんだもん」3Dモデルが使用中止に 制作者が「不快な内容」と抗議
    • GPT-4o の概要|npaka

      以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

        GPT-4o の概要|npaka
      • 画像生成AIに“照明”革命 ControlNet開発者が作った「IC-Light」

        画像生成AI関連の著名な開発者、lllyasviel(イリヤスフィール)氏が5月7日、生成AI画像の照明を自在に操作できるツール「IC-Light(Imposing Consistent Light)」を公開した。 2種類のモデルを公開 IC-Lightは画像の照明を操作するプロジェクト。前景画像(人物やオブジェクトなど)を入力し、プロンプトにテキストや背景画像を指定するだけで、まるで別の環境で撮影したかのような画像を得ることができるという。 現在、「テキスト条件付きリライティングモデル(text-conditioned relighting model)」と「背景条件付きモデル(background-conditioned model)」の2種類がGitHubで公開されており自由に試すことができる。 なお、作者のlllyasviel氏は「Stable Diffusion」のWebUIであ

          画像生成AIに“照明”革命 ControlNet開発者が作った「IC-Light」
        • 無料でハイクオリティなCC0の3Dモデルやテクスチャをダウンロードしまくれる「ShareTextures」

          写真家とアセットクリエイターによるサイト「ShareTextures」では、実際に撮影した写真やロイヤリティフリーの写真から作成した3Dモデルやテクスチャを配布しています。コンテンツはすべてCC0ライセンスのため、個人・商業問わず自由にダウンロードして活用することができます。 CC0 Textures & Models | Share Textures https://www.sharetextures.com/ サイトをスクロールしていくと、ShareTexturesの説明を見ることができます。ShareTexturesではAtlases(複数のテクスチャをひとつにまとめた自然素材)、Textures(テクスチャ)、Models(3Dモデル)の3カテゴリがあります。Atlasesは木や石、貝など、記事作成時点では37種類。 テクスチャは1502種類から選ぶことができます。 また、3Dモデ

            無料でハイクオリティなCC0の3Dモデルやテクスチャをダウンロードしまくれる「ShareTextures」
          • 【随時更新】主要な大規模言語モデル比較表

            これはなに? ひょんなことからOpenAI・Anthropic・GoogleのLLMの一覧表を作りました 手前味噌ながら便利だなと思ったのでZennにも載せておきます 各社のモデルの主要諸元・費用に加えて、自分の印象を書いてあります。 性能の目安としてChatbot Arenaのスコアを参考までに添付しています これはあくまで参考用かつ英語での評価なので、スコアが一番高いものがいい、もしくは低いからダメというわけではありません。 少なくともこの記事に掲載されているモデルは、スコアが低いものでも単純な翻訳などでは十分な性能を持っています。そして何より高性能モデルとは比較にならないほど高速です。 用途や使用言語によって試してみて最適なものを選ぶのが良いでしょう OpenAI 歴史的経緯もあり、以下の表に掲載するもの以外にも大量のモデルがあります。 一旦は最新のモデルを列挙します。 モデル名 A

              【随時更新】主要な大規模言語モデル比較表
            • 商用利用ができる高品質AIアート用画像生成AI、Emi 2を無償公開|AI Picasso

              はじめにこんにちは、AI Picasso社の開発チームです。ふたたび、皆様に重要なお知らせがあります。高品質AIアート用画像生成AI、Emi 2 を商用利用可能で無償公開します。この画像生成AIは商用利用が可能であり、追加学習において無断転載画像を学習していません。 Emi 2 は以下のURLにて無料で利用することができます。 Emi 2の特徴1.AIアートへさらに特化このモデルは、イラストやアニメ、マンガのようなAIアート生成に特化しています。GMOインターネットグループが提供する「ConoHa byGMO」のトライアル版の採用により最先端の開発機材NVIDIA H100によって作られた画像生成Emi、モデルマージやフルファインチューニングといったAI Picasso社のノウハウを用いて高品質な画像が生成されるように尽力しました。参考として簡単な生成例を以下に紹介します。 比較のために、

                商用利用ができる高品質AIアート用画像生成AI、Emi 2を無償公開|AI Picasso
              • 【OpenELM】iPhone・iPadでも動作できるApple最新小型オープンLLM | WEEL

                WEELメディア事業部LLMライターのゆうやです。 2024年4月24日、ついにあのAppleからオープンソースLLMである「OpenELM」が登場しました! Appleが「OpenELM」なるAIモデルファミリーをオープンソースでリリース! ネットに接続なしで、完全にデバイス上で動く前提でを重視して作ったとのこと。 これはスマホ上で動く大本命LLMになる可能性大! pic.twitter.com/N25jNwQzq5 — とーます|AIX人材育成|AIコーチ開発|可能性開花をAIX (@Xroid_Lab) April 24, 2024 このモデルは、4つの異なるサイズ(270M、450M、1.1B、3B)で公開され、軽量で実行コストが低いためAppleデバイスでも動作します。また、「layer-wise scaling戦略」を使用し、効率的にパラメータを活用することで他の同規模モデルよ

                  【OpenELM】iPhone・iPadでも動作できるApple最新小型オープンLLM | WEEL
                • AppleがiPhoneやiPadでローカルに動作するオープンソースの言語モデル「OpenELM」をリリース

                  Appleの研究チームが、オープンソースの言語モデル「OpenELM(Open-source Efficient Language Models)」を公開しました。公開されたモデルにはAppleデバイスで動作できるように変換するコードも用意されており、「言語モデルをAppleデバイス上でローカルに実行させる」ことが可能になっています。 [2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework https://arxiv.org/abs/2404.14619 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framewo

                    AppleがiPhoneやiPadでローカルに動作するオープンソースの言語モデル「OpenELM」をリリース
                  • 1枚の画像から3Dモデルを生成できる「TripoSR」をローカルに構築する方法を解説【Blender ウォッチング】

                      1枚の画像から3Dモデルを生成できる「TripoSR」をローカルに構築する方法を解説【Blender ウォッチング】
                    • いちばんやさしいローカル LLM|ぬこぬこ

                      概要ローカル LLM 初めましての方でも動かせるチュートリアル 最近の公開されている大規模言語モデルの性能向上がすごい Ollama を使えば簡単に LLM をローカル環境で動かせる Enchanted や Open WebUI を使えばローカル LLM を ChatGPT を使う感覚で使うことができる quantkit を使えば簡単に LLM を量子化でき、ローカルでも実行可能なサイズに小さくできる 1. はじめに大規模言語モデル(LLM)の数は数年前と比べてたくさん増えました。有名な LLM を使ったチャットサービスとして、OpenAI の ChatGPT や Anthropic の Claude、Google の Gemini などがありますが、これらのサービスの中で利用されている大規模言語モデルは公開されていません。 現状、様々な評価指標により LLM の性能が測定されていますが、

                        いちばんやさしいローカル LLM|ぬこぬこ
                      • 無料で商用利用可能なオープンモデル「Mixtral 8x22B」が登場、高いコーディングと数学の能力を持つ

                        GoogleやMetaの研究者によって設立されたAIスタートアップのMistral AIが、オープンソースの大規模言語モデル「Mixtral 8x22B」をリリースしました。モデルはオープンソースライセンスのApache 2.0で提供されており、商用利用も可能となっています。 Cheaper, Better, Faster, Stronger | Mistral AI | Frontier AI in your hands https://mistral.ai/news/mixtral-8x22b/ Mixtral 8x22Bのモデルは4月10日に公式Xアカウントにて公表・配布されていましたが、詳細な情報は不明となっていました。今回はMixtral 8x22Bモデルについての公式リリースが発表されたというわけです。 Mistral AIが突如として新しい大規模言語モデル「8x22B MOE

                          無料で商用利用可能なオープンモデル「Mixtral 8x22B」が登場、高いコーディングと数学の能力を持つ
                        • 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!|AICU media

                          4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。 参考:SD黄色本 そこで AICU media では、「AI で漫画を作ってみたいけど、どのモデルを使えばいいんだろう…」という方向けに、白黒漫画制作に適した Stable Diffusion のモデルを調査しました! Animagine 3.1まずはアニメ系 SDXL の主流モデルとなっている「Animagine」の最新バージョンである Animagine 3.1 でモノクロイラストを生成してみましょう。 プロンプト「best quality , monochrome , lineart,1girl, bob cut, flat chest , short hair , school uniform, round_

                            漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!|AICU media
                          • ⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について

                            Zero Waste, Radical Magic, and Italian Graft – Quarkus Efficiency Secrets

                              ⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について
                            • 【Command R+】オープンソース界最強LLMがGPT-4レベルの性能を達成 | WEEL

                              WEELメディア事業部LLMライターのゆうやです。 2024年4月4日、CohereForAIから最新のLLMとなるCommand R+が公開されました。 Announcing C4AI Command R+ open weights, a state-of-the-art 104B LLM with RAG, tooling and multilingual in 10 languages. This release builds on our 35B and is a part of our commitment to make AI breakthroughs accessible to the research community. 🎉https://t.co/2UCLl5sfPB pic.twitter.com/R3U2l6eJ0G — Cohere For AI (@Cohe

                                【Command R+】オープンソース界最強LLMがGPT-4レベルの性能を達成 | WEEL
                              • OpenAIのライバル:Cohereが最高にイケている件 - Qiita

                                はじめに Cohere(コーヒア)とは、生成AI関連のスタートアップ企業であり、オラクル、エヌビディア(NVIDIA)、セールスフォース・ベンチャーズ(Salesforce Ventures)、センチネルワン(SentinelOne)などが支援しています。 これまでにCommand-R+などのモデルを公開しています。 今回はCohereのイケている部分について紹介させていただきます。 UIがイケている こちらCohereのダッシュボードです。実際に使ってみるとわかるのですが、全ての画面がわかりやすいです。この画面だけでもやりたいことがすぐ見つけられますし、サイドバー、ヘッダーの選択肢も適切です。(筆者の感想ですが) PlayGroundはChatだけではなく、ClassifyとEmbedも選択できます。 さらにConnectorsでWeb検索を有無を選択できます。 このUIの偉いところは、

                                  OpenAIのライバル:Cohereが最高にイケている件 - Qiita
                                • RAGの性能を高める「Self-RAG」を3分で理解する

                                  本記事では、よく聞く「Self-RAG」についてざっくり理解します。軽めの記事です。 はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。 この記事は何 この記事は、RAGの新手法として昨年発表された「Self-RAG」の論文[1]について、日本語で簡単にまとめたものです。 この論文は「CRAG」[2]など、最近出ている別のRAGアーキテクチャにも影響を与えているので、理解する価値がありそうです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー RAGの性能を高めるための新しい手法です。ワシントン大学などの研究者によって2023年10月に提案されました。Self-RAGという手法を使うメリットは、回答品質を上げられること、ハルシネーション(幻覚)を減らせるこ

                                    RAGの性能を高める「Self-RAG」を3分で理解する
                                  • 顔はAI、体は実物 三越伊勢丹がECにモデル採用 - 日本経済新聞

                                    三越伊勢丹は3月から、自社のオンラインストアで人工知能(AI)モデルの活用を始めた。AIモデルの制作技術をもつ企業と協業し、アパレル企業などに向けた撮影サービスも提供している。AIモデルは人を起用するより、コストを抑えて効率的に着用画像を作ることができる。電子商取引(EC)販売を強化したいアパレル企業の需要をつかむ狙いだ。3月下旬、三越伊勢丹のECサイト「三越伊勢丹オンラインストア」で、伊勢丹

                                      顔はAI、体は実物 三越伊勢丹がECにモデル採用 - 日本経済新聞
                                    • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

                                      Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

                                        Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
                                      • Webブラウザで3Dモデルを高速に描画する「Babylon.js 7.0」正式リリース。MMD(MikuMikuDance)やApple Vision Proサポート

                                        Webブラウザで3Dモデルを高速に描画する「Babylon.js 7.0」正式リリース。MMD(MikuMikuDance)やApple Vision Proサポート Webブラウザで3Dモデルを高速に描画する「Babylon.js 7.0」正式リリース。MMD(MikuMikuDance)やApple Vision Pro、WebXRなどをサポートし、よりリアルなレンダリングを実現する機能追加も行われた。 マイクロソフトは、Webブラウザ上で2Dや3Dモデルの高速なレンダリングなどを可能にするオープンソースのJavaScriptライブラリ「Babylon.js」の最新版「Babylon.js 7.0」正式版をリリースしました。 We are proud to announce that Babylon.js 7.0 has officially been released! The ne

                                          Webブラウザで3Dモデルを高速に描画する「Babylon.js 7.0」正式リリース。MMD(MikuMikuDance)やApple Vision Proサポート
                                        • スモールデータを用いたデータ解析・機械学習のアプローチのまとめ

                                          分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 小さなデータセットが抱える大きな問題サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。

                                          • 【西川和久の不定期コラム】 自分で撮影したグラビアを使い、Stable Diffusion用美女モデルを作成してみた

                                              【西川和久の不定期コラム】 自分で撮影したグラビアを使い、Stable Diffusion用美女モデルを作成してみた
                                            • 生成AI開発に革新か “自律進化”で目的のAIを自動生成 超低コスト&短期間で高性能モデルも開発済 トップ研究者集団「Sakana AI」

                                              生成AIのトップ研究者らが東京で創業したAIベンチャー「Sakana AI」が、生成AI開発の新たな手法を開発したと3月21日に発表した。従来は人間が手動で設計し、多くの計算資源を使っていたが、同社の手法では設計を機械が自動で行い、“ほぼ無視できるレベル”の計算資源で開発が可能になるという。この手法で開発した日本語基盤モデルをGitHubで公開した。 同社が提案したのは「進化的モデルマージ」という手法。公開されているさまざまな基盤モデル(生成AIを含む、大規模なデータセットによる事前学習で各種タスクに対応できるモデルのこと)を組み合わせて新たなモデルを作る「マージ」に、進化的アルゴリズムを適用したものだ。 マージ自体は現在の基盤モデル開発で使われている手法で、モデルの“神経回路”(アーキテクチャ)の中に別のモデルの神経回路の一部を組み入れたり、入れ替えたり、神経同士のつながりやすさ(重み)

                                                生成AI開発に革新か “自律進化”で目的のAIを自動生成 超低コスト&短期間で高性能モデルも開発済 トップ研究者集団「Sakana AI」
                                              • Sakana AI

                                                概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既

                                                  Sakana AI
                                                • 【ELYZA-japanese-Llama-2-70b】日本語特化モデル最大級の700億パラメーターLLMを使ってみた | WEEL

                                                  WEELメディア事業部LLMライターのゆうやです。 2024年3月12日、ELYZA-japanese-Llama-2-7bなどの日本語特化LLMを開発してきたELYZA社が、最新の700億パラメータの大規模言語モデル (LLM) である「ELYZA-japanese-Llama-2-70b」を公開しました。 【お知らせ】700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、グローバルモデルに匹敵する性能を達成しました。デモサイトも同時に公開しています。 詳細は以下をクリックしてご覧ください。https://t.co/kw8euBuKz5 — ELYZA, Inc. (@ELYZA_inc) March 12, 2024 このモデルは、これまでのモデルと同様に、Meta社の「Llama2」をベースに、日本語の追加事前学習と事後学習を行い、Llam

                                                  • 「NOBROCK TV」で見つかった大喜利の逸材・福留光帆、注目度急上昇  元AKB48→ほぼニート、ボート好きの素顔を直撃<インタビュー> - モデルプレス

                                                    3月2日に公開された動画に、ドッキリ企画のターゲットとして登場し、突然大喜利を無茶振りされた福留。秀逸な回答を連発して仕掛け人のアルコ&ピースらを驚かせ、その衝撃を、佐久間は自身のラジオ『佐久間宣行のオールナイトニッポン0(ZERO)』(ニッポン放送・毎週水曜27時~28時30分)にて、「なんで仕事ないんだよ?っていう(笑)。『なんで売れてないの?』って思いました」と語っていた。 そして、第2弾の動画「福留光帆は大喜利の逸材なのか検証ドッキリ」(3月13日公開)で、滝沢カレン・渋谷凪咲に続く“大喜利力”を調査。フリップに絵を書いて回答する玄人感、「元AKB48のほぼニート」ならではのエピソード、スマホに裏に推しの舟券を入れるほどのボートレース愛あふれるトークでラッキーパンチではなく“確定”と太鼓判を押された。 ― 「NOBROCKTV」で大きな話題になっています。反響はいかがですか? いや

                                                      「NOBROCK TV」で見つかった大喜利の逸材・福留光帆、注目度急上昇  元AKB48→ほぼニート、ボート好きの素顔を直撃<インタビュー> - モデルプレス
                                                    • GPT-4の半分以下の計算でほぼ同等なIQを持つパーソナルAI「Pi」と基盤モデル「Inflection-2.5」が登場

                                                      AI企業・Inflectionが開発している生成AI「Pi」は、ユーザーひとりひとりに最適化された「パーソナルAI」です。そんなPiの能力を飛躍的に向上させた基盤モデルである「Inflection-2.5」をInflectionが発表しました。 Inflection-2.5: meet the world's best personal AI https://inflection.ai/inflection-2-5 PiはAndroidやiOSのスマートフォン、ブラウザなどを通じて会話する事が可能なAIで、日本語にも対応しています。 Inflectionによると、Piはデイリーアクティブユーザー数100万人、月間アクティブユーザー数400万人の利用者を抱えているとのこと。また、平均会話時間は33分で、10人に1人は1時間以上話し込んだり、使ったユーザーの60%は翌週にまたPiを使っていたり

                                                        GPT-4の半分以下の計算でほぼ同等なIQを持つパーソナルAI「Pi」と基盤モデル「Inflection-2.5」が登場
                                                      • Stability AIが画像から3Dモデルを生成できるAI「TripoSR」を発表、簡単に使えるデモも公開されてたので試してみた

                                                        2024年3月5日、画像生成AI「Stable Diffusion」などの開発を行うStablity AIが、3Dモデル生成AIツール「Tripo AI」を開発するTripoと提携し、画像を入力するだけで高品質な3Dモデルを生成できるAIツール「TripoSR」を発表しました。 TripoSRのご紹介:単一画像からの高速3Dオブジェクト生成 — Stability AI Japan https://ja.stability.ai/blog/triposr-3d-generation ????新リリース????@tripoAI とのコラボレーションにより、TripoSR をリリースしました。 TripoSR は、1秒以内に高品質なアウトプットを作成できる新しい image-to-3D モデルです。 詳細はこちら:https://t.co/3vts0AHAh6 pic.twitter.com/

                                                          Stability AIが画像から3Dモデルを生成できるAI「TripoSR」を発表、簡単に使えるデモも公開されてたので試してみた
                                                        • 速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)

                                                          2024-02-27にarXiv公開され,昨日(2024-02-28)あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「1ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。 論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c

                                                            速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)
                                                          • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

                                                            昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

                                                              驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
                                                            • 【ドラクエⅢ】世界の地名の由来・モデルとなった実際の国まとめ

                                                              1988年にファミコンで発売された「ドラゴンクエストⅢ」。ドラゴンクエストシリーズの第3作目。初期の発売から35年以上経った今もリメイクされ続け、多くの人に遊ばれている不屈の名作です。 過去には、スーパーファミコン、ゲームボーイ、Wii、PlayStation4、ニンテンドー3DS、Nintendo Switchなど様々なハードだけでなく、携帯(ガラケー)アプリから、iPhone、iPad、Androidなどのスマホやタブレット用にもリメイクされています。 2024年2月現在では、HD-2D版が開発中で、まだまだリメイクされ続けるドラクエ3です。 そのドラクエ3の世界が、地球の世界地図と重なっていることは有名な話ですね。 地図の位置や地名、ピラミッドや卑弥呼などストーリー中に出てくる内容から、現実の地球との関連を連想させるものも多く、楽しみの要素が増えていたのもこのドラクエ3の特長です。

                                                                【ドラクエⅢ】世界の地名の由来・モデルとなった実際の国まとめ
                                                              • 1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

                                                                1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリース

                                                                  1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
                                                                • 不規則に並んだ物品も精密な動作で処理、NECが「世界モデル」応用したロボットAI技術

                                                                  具体的にはまず、多様な形状の物品に対する最適な動作をロボットが自律的に実行できるようになった。映像データから多様な形状の物品の動きを予測するモデルを学習して、ロボットに精密な動作を取らせる。作業環境に応じた適切な動作順序を高速に生成でき、「置いて、押す」「引いて、取る」といった複数の動作の組み合わせを自律的かつリアルタイムに実行できるという。 「押す」「引く」といった動作による物品の動きは、「つかむ」「置く」などの動きに比べて変化が大きい。そのため、従来のロボット制御技術では高精度に実行させるのが難しかった。加えて、考慮する動作の種類が増えると動作の組み合わせや順序が複雑になり、リアルタイムに計画するのが困難だったという。 加えて新技術では、隠れて見えない物品を予測しながらの動作が可能になった。ラベル付けが不要な教師なし学習を実現し、隠れた物品形状の予測モデルを効率的に学習させられる。この

                                                                    不規則に並んだ物品も精密な動作で処理、NECが「世界モデル」応用したロボットAI技術
                                                                  • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

                                                                    今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

                                                                      最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
                                                                    • 音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場

                                                                      音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。 AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができるという新しいマルチモーダルLLMがAnyGPTです。AnyGPTはデータレベルの前処理のみに依存しており、新しい言語を組み込むのと同様に、新しいモダリティのLLMへのシームレスな統合を促進することが可能。マルチモーダルアライメントの事前トレーニング用に、マルチモーダルテキスト中心のデータセットを構築することで、生成モデルを利用して大規模な「Any-to-Any」(任意のデータ形式から任意のデータ形式に出力できる)

                                                                        音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場
                                                                      • Google、オープンな生成AIモデル「Gemma」公開 商用利用OK、Geminiと同じ技術の軽量LLM

                                                                        また、Gemmaの事前トレーニング済みモデルでは、学習データから特定の個人情報やその他の機密データを除外していると安全性もアピール。開発者や研究者向けに、安全で責任あるAIアプリケーションを構築できるというツールキット「Responsible Generative AI Toolkit」も併せて公開している。 関連記事 Google、“現行最強”の生成AI発表 月2900円で利用可 チャットAIサービスはBard→Geminiに刷新 米Googleは2月8日(現地時間)、「現行最強」をうたう生成AI「Gemini Advanced」を発表した。すでにサービスを提供開始しており、月額2900円で利用可能。2カ月間の無料試用期間も用意する。 Google、「Gemini 1.5 Pro」限定リリース コンテキストウィンドウは100万トークン Googleは、生成AIの次世代モデル「Gemini

                                                                          Google、オープンな生成AIモデル「Gemma」公開 商用利用OK、Geminiと同じ技術の軽量LLM
                                                                        • 「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース

                                                                          米Microsoftは2月20日(現地時間)、大規模言語モデル「GPT-4」などのAPIを同社のクラウド上で使える「Azure OpenAI Service」の外部データ連携機能「On Your Data」を正式リリースした。これまではパブリックプレビュー版として提供していた。 On Your Dataはいわゆる「RAG」(大規模言語モデルに外部データベースの情報を参照させ、機密情報を基にした回答などを可能にする仕組み)の構築に向けた機能。ローカルやAzure上のストレージに保管するテキストファイルやPDF、PowerPointファイルを、GUIの操作でGPT-4などに参照させられる。 参照できるのはクラウド型検索サービス「Azure Cognitive Search」のインデックス(検索対象)にインポートしたデータや、Azureのストレージ「Blob Storage」に格納したデータなど

                                                                            「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース
                                                                          • Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

                                                                            Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。 Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。 下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。 特別に最適化された1MBのモデルでを用いて推論を実行 Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。 このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数

                                                                              Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開
                                                                            • 外国で起用される東洋系モデルに吊り目、一重、頬骨張っている…等の特徴が多いのは「ステレオタイプ、偏見か?」の議論

                                                                              UENO Yohei(上野庸平) @chinyubo 作家/日仏通訳・翻訳/宗教学(博士課程)/仏検1級/TOEIC900点 第17回涙骨賞 本賞「近代フランスにおける仏教受容の一様相」(中外日報、2021年) 『ルポーアフリカに進出する日本の新宗教』(花伝社、2016年) 『奪われたアルメニア』(翻訳)(明石書店、2021年) 永田町の住人。ツイートは個人の見解です。 UENO Yohei(上野庸平) @chinyubo このポスターも、デザイナー(どうせ欧米人だろう)が、北欧系とアフリカ系とアジア系と中東系を登場させて、「多様性」や「人種平等」をアピールしてるつもりなんだろうけど、しょせん、吊り目のアジア人起用してる時点で意識高い系のマイクロアグレッションだから。 pic.twitter.com/nRh7522cG1 2024-02-16 21:39:27

                                                                                外国で起用される東洋系モデルに吊り目、一重、頬骨張っている…等の特徴が多いのは「ステレオタイプ、偏見か?」の議論
                                                                              • 控え目に言って革命。OpenAI、動画生成AIモデル「Sora」発表

                                                                                OpenAIは2月15日(現地時間)、テキストから最大1分間の動画を生成できる動画生成AIモデル「Sora」を大量のデモ動画と共に発表した。複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができるという。 プロンプトから破綻のない動画を生成 Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beautiful, snowy… pic.twitter.com

                                                                                  控え目に言って革命。OpenAI、動画生成AIモデル「Sora」発表
                                                                                • 「ヤバすぎる」動画生成AIの進化、RunwayやSynthesiaら激化する開発競争

                                                                                  ChatGPTが登場して間もないころ、動画生成AIの初期モデルがリリースされて注目を集めたが、クオリティの低さに落胆の声が相次いだ。しかし、約1年が経過しようとしている現在、動画生成AIは目覚ましい進化を見せ、マーケティングやデザイン分野などで実際に利用できる水準にまでクオリティは高まっている。現在、動画生成AIはどのような実力を持つのか、その現状を探ってみた。 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト

                                                                                    「ヤバすぎる」動画生成AIの進化、RunwayやSynthesiaら激化する開発競争