AIに関するbfojのブックマーク (56)

  • OpenAI Sora に使われる技術

    TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

    OpenAI Sora に使われる技術
    bfoj
    bfoj 2024/03/27
  • OpenAIがハリウッドにムービー生成AI「Sora」を売り込んでいると報道される

    大規模言語モデルのGPTや画像生成AIモデルのDALL-Eを開発するOpenAIが、テキストからムービーを生成するAIの「Sora」を2024年2月に発表しました。そんなSoraについて、OpenAIはハリウッドの映画スタジオやメディア幹部、タレントエージェンシーと会合をして、Soraを映画制作に使うよう売り込んでいるとBloombergが報じています。 Bloomberg - Are you a robot? https://www.bloomberg.com/news/articles/2024-03-22/openai-courts-hollywood-in-meetings-with-film-studios-directors Soraはテキストから最長1分間のムービーを生成できるAIで、物理法則をシミュレートしながら「複数のキャラクター、特定のモーション、被写体と背景の正確な詳

    OpenAIがハリウッドにムービー生成AI「Sora」を売り込んでいると報道される
    bfoj
    bfoj 2024/03/26
  • 世界のトップAI研究者の約50%が中国出身であることが判明

    チャットボットや生成AIの開発では、アメリカを中心とする欧米諸国が世界をリードしているという印象があります。ところが、アメリカ・シカゴのポールソン研究所にあるシンクタンクのMacroPoloが行った調査では、AI研究で世界の上位20%に入るようなトップ研究者のほぼ半数が、中国出身であることが報告されました。 The Global AI Talent Tracker 2.0 - MacroPolo https://macropolo.org/digital-projects/the-global-ai-talent-tracker/ In One Key A.I. Metric, China Pulls Ahead of the U.S.: Talent - The New York Times https://www.nytimes.com/2024/03/22/technology/ch

    世界のトップAI研究者の約50%が中国出身であることが判明
    bfoj
    bfoj 2024/03/25
  • AI作曲サービス「Suno」、無料ユーザーにも高品質版V3を開放。1日20曲、1曲2分が生成可能(CloseBox) | テクノエッジ TechnoEdge

    米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。 これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。 無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません(V2も選択できるようになっています)。

    AI作曲サービス「Suno」、無料ユーザーにも高品質版V3を開放。1日20曲、1曲2分が生成可能(CloseBox) | テクノエッジ TechnoEdge
    bfoj
    bfoj 2024/03/22
  • Sakana AI

    概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既

    Sakana AI
    bfoj
    bfoj 2024/03/21
  • ナレッジグラフを用いたRAGの改善 - Ahogrammer

    RAG(Retrieval Augmented Generation)は大規模言語モデル(LLM)の性能を改善するための手法の1つであり、質問に対する回答を生成する際に、外部知識源から情報を取り込みます。 これにより、LLM 自体で学習できる情報量に制限されることなく、より正確で詳細な回答を生成することができます。 よく使われているRAGでは、外部知識源として検索エンジンにテキストをインデックスしておき、質問に関連するテキストをベクトル検索や全文検索を用いて取得します。しかし、構造化データを扱うことには苦労するため、質問によっては回答が不十分、あるいはまったく回答できないことに繋がります。 これらの問題を克服するために、ナレッジグラフを用いたRAGが構築されることがあります。ナレッジグラフでは、エンティティとその間の関係がグラフ構造で表現されており、単純な検索を用いた場合には回答できないよ

    ナレッジグラフを用いたRAGの改善 - Ahogrammer
    bfoj
    bfoj 2024/03/21
  • Animagine XL 3.0 - a Hugging Face Space by Linaqruf

    Discover amazing ML apps made by the community

    Animagine XL 3.0 - a Hugging Face Space by Linaqruf
  • LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog

    はじめに こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。 直近ではコード生成からデバッグ、デプロイまで自律的に行う

    LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog
  • RAGの実装戦略まとめ - Qiita

    それでは以下、簡単なデモを含めながら個別に説明していきます。 1. ハイブリッドサーチ こちらは、性質の異なる複数の検索方式(例えばベクトル検索とキーワード検索)を組み合わせて検索精度を向上させる手法になります。 各検索方式単体の場合に比べ、性質の異なる検索方式を組み合わせ、ある種いいとこ取りをする事で、検索性能の向上が期待できます。 今回はBM25でのキーワードベースの類似度検索と通常のベクトル検索を組み合わせていきます。 BM25について簡単に説明しておくと、文脈や文章構造は完全に無視した上で、文書内の単語を全てバラバラに分割し、文書内の各単語の出現頻度と文書間におけるレア度を加味した特徴量を算出します。 つまり、特定の文書内の各単語の数をカウントしてヒストグラムを作れば、似たような文書には同じような単語がよく出るはずなので(同じようなヒストグラムの形になるので)、類似度が高くなる性質

    RAGの実装戦略まとめ - Qiita
    bfoj
    bfoj 2024/03/20
  • NVIDIA、1パッケージに2ダイの新型GPU「Blackwell」。AI性能は学習4倍、推論30倍に

    NVIDIA、1パッケージに2ダイの新型GPU「Blackwell」。AI性能は学習4倍、推論30倍に
    bfoj
    bfoj 2024/03/19
  • KDDI、東大発AIベンチャー・ELYZAを連結子会社化 春以降、生成AI関連サービスを提供へ

    KDDIは3月18日、東大発のAIスタートアップ企業であるELYZA(東京都文京区)を連結子会社にすると発表した。資業務提携を結び、4月1日をめどにKDDIグループがELYZAの株式の過半数を保有する。これにより、同社らは「生成AIの社会実装を加速させる」としている。 KDDIが43.4%、グループ会社のKDDI Digital Divergenceが10.0%のELYZAの株式を保有する。同社らは今後、生成AIの利用を担う組織を共同設置し、春以降に順次生成AI関連サービスを企業や自治体向けに提供する。具体的には「オープンモデル活用型の日語汎用大規模言語モデル(LLM)開発」「領域特化型のLLM開発」「生成AIを活用したDX支援・AI SaaS」の3つを提供予定。 KDDIは資業務提携の理由について「生成AI活用による業務効率化や生産性向上の実現が期待される一方、グローバルモデルの利

    KDDI、東大発AIベンチャー・ELYZAを連結子会社化 春以降、生成AI関連サービスを提供へ
    bfoj
    bfoj 2024/03/18
  • 似た文書をベクトル検索で探し出したい ~SentenceTransformersとFaissで効率的にベクトル検索~

    はじめに この記事では、ベクトル検索で似た文書を検索するコードを解説します。具体的には、Sentence Transformersライブラリを用いてベクトル化、Faissという近似最近傍探索ライブラリを用いて高速な検索を行います。 用語説明 ベクトル検索 ... 文書の検索にベクトルを使用する方法。例えば、文書に映画に関する内容が 10 %、音楽が 2 %、俳優が30%含まれていた時、シンプルにそれを表すと [0.1, 0.02, 0.3]というベクトルを作ることができる。Googleの説明が詳しい。 Sentence Transformers ... ベクトル検索に必要なベクトル化を行うためのライブラリ Faiss ... ベクトル同士の類似度を高速に検索してくれるライブラリ。以下のHakkyさんのページが詳しい。 コード 入力:検索したい文字のリスト、検索される文字のリスト 出力:どの

    似た文書をベクトル検索で探し出したい ~SentenceTransformersとFaissで効率的にベクトル検索~
  • ZOZOTOWN検索における精度評価手法の運用で見えた課題とその改善アプローチ - ZOZO TECH BLOG

    こんにちは。検索基盤部の橘です。検索基盤部では、ZOZOTOWNのおすすめ順検索の品質向上を目指し、機械学習モデル等を活用しフィルタリングやリランキングによる検索結果の並び順の改善に取り組んでいます。 ZOZOTOWN検索の並び順の精度改善の取り組みについては以下の記事をご参照ください。 techblog.zozo.com 検索基盤部では新しい改善や機能を導入する前にA/Bテストを行い効果を評価しています。A/Bテストの事前評価として、オフラインの定量評価と定性評価を実施しています。これらの評価によりA/Bテストの実施判断をしています。 おすすめ順検索のフィルタリング処理の効果検証として導入したオフライン定量評価の方法については以下の記事をご参照ください。 techblog.zozo.com 以前の記事で紹介したオフライン評価を日々運用する中で、幾つか課題点が見つかりました。記事では、そ

    ZOZOTOWN検索における精度評価手法の運用で見えた課題とその改善アプローチ - ZOZO TECH BLOG
  • Numpyが18年ぶりのメジャーアップデート! 改善点、変更点まとめ - Qiita

    NumPy 2.0.0の主要な変更点 皆さんもお世話になっているであろう科学計算ライブラリNumPyが、2006年以降初めてのメジャーアップデートを発表しました。そこで、変更点をざっくりとまとめてみました。以下は変更点の一部であり、それ以外については実際のドキュメントを参照してください。 免責事項:この記事は、NumPy 2.0.0の変更点について個人的な見解を述べたものであり、NumPyの開発チームや関係者の公式な見解を代表するものではありません。変更点の影響や対応方法については、必ず公式のリリースノートと移行ガイドを参照してください。また、この記事には不正確な情報が含まれている可能性があります。記事の内容を実際のプロジェクトに適用する前に、必ず公式ドキュメントで情報を確認してください。 概要 2006年以来の最初のメジャーリリース 破壊的な変更あり 多くの新機能とPython/C AP

    Numpyが18年ぶりのメジャーアップデート! 改善点、変更点まとめ - Qiita
    bfoj
    bfoj 2024/03/16
  • 検索サジェストにおける多様性評価指標とゴール指標の相関について - ZOZO TECH BLOG

    はじめに こんにちは、検索基盤部の広渡です。検索基盤部では、検索クエリのサジェスト(以下、サジェスト)の改善を行なっています。ここでサジェストは一般的に「Query Auto Completion」と呼ばれる、検索クエリを入力した際に入力の続きを補完したキーワードを提示する機能を指します。 ZOZOTOWNにおいては検索クエリを入力したとき、最大10件の検索クエリのサジェスト(以下、サジェストリスト)が表示されます(なお、ランキングを考慮しない場合はサジェスト集合と呼ぶこととします)。また、サジェストリストのランキングはユーザーの行動ログを用いて計算されたスコアによって決定されます。サジェストの具体的な説明や過去の改善事例は以下の記事を参照してください。 techblog.zozo.com techblog.zozo.com サジェストリストをチーム内で定性評価したところ、類似したサジェス

    検索サジェストにおける多様性評価指標とゴール指標の相関について - ZOZO TECH BLOG
    bfoj
    bfoj 2024/03/16
  • RAGの実案件に取り組んできた今までの知見をまとめてみた | DevelopersIO

    はじめに 新規事業部 生成AIチーム 山です。 ChatGPTOpenAI API)をはじめとしたAIの言語モデル(Large Language Model:以下、LLM)を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が(当然ながら)得られてしまいます。 この問題を解決する方法として、Retrieval Augmented Generation(以下、RAG)という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力(プロンプト)に付け加えて渡すことで、ユーザが欲しい

    RAGの実案件に取り組んできた今までの知見をまとめてみた | DevelopersIO
    bfoj
    bfoj 2024/02/07