並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 1651件

新着順 人気順

機械学習の検索結果281 - 320 件 / 1651件

  • 歴代チャットボットと最近のLLMのまとめ - Qiita

    LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

      歴代チャットボットと最近のLLMのまとめ - Qiita
    • AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】

      TOPコラム海外最新IT事情AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】 2024年1月23日 米Metaと米ニューヨーク大学に所属する研究者らが発表した論文「Self-Rewarding Language Models」は、大規模言語モデル(LLM)が自分自身に報酬を与えることで繰り返し学習する「自己報酬型言語モデル」を提案した研究報告である。このモデルは、自身が生成した問題に対する応答に報酬を割り当て、その結果をトレーニングデータとして使用。自己を反復して訓練することで、精度を向上させられる。 keyboard_arrow_down 研究背景 keyboard_arrow_down 研究内容

        AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る【研究紹介】
      • YouTubeで言葉のカベが消えそう。アドビの「多言語化」技術には夢がある

        YouTubeで言葉のカベが消えそう。アドビの「多言語化」技術には夢がある2023.10.13 12:0012,096 山本勇磨 現在LAで開かれているAdobe(アドビ)のカンファレンス「Adobe MAX」を取材中なのですが、現地でとても面白い技術が発表されました。 その技術の名は「Project Dub Dub Dub」。dubは「吹き替える」という意味なのですが、AIを使って動画クリップを本人の声で、多言語に吹き替える技術なんです。 現地で行なわれたデモでは、Adobe MAXの会場にいる数千人がその凄さに歓喜。ぜひデモのようすをご覧ください。 これは半端ない…全YouTuberが海外対応できてしまう🤯 日本語の動画クリップから多言語化する「Project Dub Dub Dub」#AdobeMAX#MAXSneakspic.twitter.com/Rd6HisOHS3 — ギズ

          YouTubeで言葉のカベが消えそう。アドビの「多言語化」技術には夢がある
        • 3D生成AIサービスの現在地|nakashun

          GenerativeAIをゲーム開発に活用する方法Tipsのマガジンゲーム開発AI Lab. Witchpotに含まれる記事です ゲームづくりを前提に書かれています このnoteでは観測範囲で試すことのできるサービスを実際に使用した結果などを比較していきます 追記1「見た目以外のモデル詳細も知りたい」とのコメントを頂いたので、詳細をこちら↓にまとめました!興味がありましたら合わせてご覧ください! 追記2日本時間8/22にCSMが有料サブスクリプションプランが追加されました CSMでは使用可能な学習モデルが選択可能でこの記事でCSMの項目で紹介している3Dモデルは現在の有料プランに相当する学習モデルを使用して生成されています 要約純粋な3D生成ではCSMが最もクオリティが高そう ただしメッシュはぼこぼこになることが多く後処理が必用 「Swordのみ」など生成可能なオブジェクトタイプを限定した

            3D生成AIサービスの現在地|nakashun
          • 人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発

            このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Metaや米HuggingFaceなどに所属する研究者らが発表した論文「GAIA: a benchmark for General AI Assistants」は、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル(LLM)を評価するためのベンチマークを提案している。この研究は、人間が日常で当たり前に実行してほしいタスクを正確にこなすLLM構築を目指すためのテスト集である。 現在のベンチマークは、人間にとってより困難なタスクを求めており、LLMには数学や法律などの複雑なタスクや、一貫性のある本を書くなどの複雑な課題が

              人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発
            • 生成AIグラビアをグラビアカメラマンが作るとどうなる?第九回:Fooocus-MREでimage-2-imageやControlNetを試す (西川和久) | テクノエッジ TechnoEdge

              今回はそれだけでは面白く無いので、元画像を絵柄そのまま高精細なフルHDにアップスケールしたい、もしくはそのまま使って絵を変えたい、構図やポーズをある程度固定したい、Photoshopのジェネレーティブ塗りつぶし的な機能は?…と言った、もう少しStable Diffusionっぽい使い方を順に説明する。 image-2-image / UpscalePromptから画像を得る方法を一般的にText-2-Imageと呼んでいる(txt2imgやt2iとも)。文字通りテキストから画像を…と言う意味だ。 Stable Diffusionでは、加えて画像から画像を得る方法があり、これをImage-2-Imageと呼んでいる(img2imgやi2iとも)。言葉よりも画像の方がより多くの情報を持っているので、それを使おうと言う意図だ。 これまで生成した画像の解像度は、832✕1,216や1,024✕1,

                生成AIグラビアをグラビアカメラマンが作るとどうなる?第九回:Fooocus-MREでimage-2-imageやControlNetを試す (西川和久) | テクノエッジ TechnoEdge
              • 【必見】画像生成AI「Stable Diffusion」驚きの機能を一挙紹介!こんなことまでできる「NVIDIA 生成AI Day 2023 Summer」講演レポート - ロボスタ ロボスタ - ロボット情報WEBマガジン

                「NVIDIA 生成 AI Day 2023 Summer」で、Stability AI Japan株式会社のJerry Chi氏が登壇し、「Stable Diffusionの活用法と事例」の講演を行った。主に画像生成AI「Stable Diffusion」の機能紹介やビジネス活用の解説や動画デモだったが、その内容は「画像生成AIはこんなことまでできるようになったのか」と、全編が驚きの連続だった。 「Stable Diffusion」は画像生成AIブームを巻き起こすきっかけになったアプリケーション(ソリューション)で、最大の特徴は、絵やイラストを描いたり描画すること。写真のようなフォトリアリスティックやアニメ風に生成することもできる。 Stability AI Japan株式会社は日本支社として、研究開発やコミュニティ活動、ビジネス活動に注力している。ただし、海外のモデルを日本でそのまま使

                  【必見】画像生成AI「Stable Diffusion」驚きの機能を一挙紹介!こんなことまでできる「NVIDIA 生成AI Day 2023 Summer」講演レポート - ロボスタ ロボスタ - ロボット情報WEBマガジン
                • [速報]マイクロソフト、「Bing Chat」を「Copilot」にリブランディング。Copilot公式サイトも公開し全ブラウザで利用可能に。Ignite 2023

                  [速報]マイクロソフト、「Bing Chat」を「Copilot」にリブランディング。Copilot公式サイトも公開し全ブラウザで利用可能に。Ignite 2023 マイクロソフトは開催中の年次イベント「Microsoft Ignite 2023」で、これまで「Bing Chat」および企業向けに「Bing Chat Enterprise」の呼称で提供してきたAIサービスを「Copilot」にリブランディングし、同社のAIサービス全体の体験を「Microsoft Copilot」で統一していくことを明らかにしました。 「We are Copilot Company. We believe in the future where there will be Copilot for everyone, and everything you do.」(我々はCopilotカンパニーだ。あらゆる人

                    [速報]マイクロソフト、「Bing Chat」を「Copilot」にリブランディング。Copilot公式サイトも公開し全ブラウザで利用可能に。Ignite 2023
                  • AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ

                      AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                    • Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.

                      Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 本記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開 性能は「GPT-3.5 (text-davinci-003)」に匹敵、日本語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開 既に社内では、130億、700億パラメータのモデルの開発も進行中 はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。 この度ELYZAは、Metaの「Llama 2」をベースに、日本語による追加事前学習を行なった日本語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

                        Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.
                      • GPT-4oを使って2Dの図面から3DのCADモデルを作る

                        はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma

                          GPT-4oを使って2Dの図面から3DのCADモデルを作る
                        • エンジニアはLLMとどう付き合うか / How engineer get along with LLM

                          2023/7/24のDevelopersIO 2023 福岡での登壇資料です。 https://classmethod.connpass.com/event/286634/

                            エンジニアはLLMとどう付き合うか / How engineer get along with LLM
                          • AI学習元の作家を特定し報酬支払う法案が仏で提出。特定不能なAI生成物には課税

                              AI学習元の作家を特定し報酬支払う法案が仏で提出。特定不能なAI生成物には課税
                            • ChatGPT can now see, hear, and speak

                              We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w

                                ChatGPT can now see, hear, and speak
                              • 生成AIグラビアをグラビアカメラマンが作るとどうなる?第六回:Stable Diffusionの基本2 / LoRAの概要と6つの例を紹介 (西川和久) | テクノエッジ TechnoEdge

                                LoRAとは前回はモデルの1つであるCheckpointについていろいろお話した。今回はStable Diffusionが扱えるモデルの中で次によく使われるLoRAについてがお題となる。 連載の第一回では、自前で撮影した実在モデルの写真を学習させた専用のCheckpointを作り、そちらで生成した作例をいくつか掲載した。 これはCheckpoint自体に学習結果を保存する形式で一般的にはファインチューニングと呼ばれている。このキーワード自体は、LLM(大規模言語モデル)でもよく耳にするので、覚えのある人もいらっしゃるのではないだろうか。

                                  生成AIグラビアをグラビアカメラマンが作るとどうなる?第六回:Stable Diffusionの基本2 / LoRAの概要と6つの例を紹介 (西川和久) | テクノエッジ TechnoEdge
                                • M1MacでOllamaを試したら爆速で驚いた

                                  はじめに いつもNVIDIAが載っているWindowsで楽しくLLMを動かしたり生成AIライフを楽しんでいますが、今回はMacOSでOllamaを入れてLlama3を動かしてみました。 スペック: Apple M1 Pro(16 GB) 少し前だとCUDAのないMacでは推論は難しい感じだったと思いますが、今ではOllamaのおかげでMacでもLLMが動くと口コミを見かけるようになりました。 ずっと気になっていたのでついに私のM1 Macでも動くかどうかやってみました! 結論、爆速で推論できていたのでとても驚きました。OSS開発に感謝です! Ollamaとは OllamaとはローカルでLLMを動かすことができるアプリケーションです。 以下からダウンロードできます。 MacOSとLinuxで使うことができます。Windowsもプレビュー版があるみたいです。 #いざ推論 ダウロードができたらシ

                                    M1MacでOllamaを試したら爆速で驚いた
                                  • GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証

                                    「GPT-4の精度は時間とともに変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。ただし、この論文は査読前のもので第三者によるレビューは受けていない。 GPT-4は、米OpenAIが提供する大規模言語モデル(LLM)。3月の発表後、チャットAI「ChatGPT」にも搭載され、性能の高さが大きな話題を集めた。LLMは、データのフィードバックや設計変更などをすると性能が変化する。しかし、OpenAIはLLMの更新について発表しておらず、公開以後の性能変化も明らかにしていない。そこで研究チームは、3月と6月時点でのGPT-4、前モデルであるGPT-3.5に精度の違いがあるのか検証した。 実験ではChatGPTに対して「数学の問題の回答」「機

                                      GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証
                                    • スト決行の米俳優組合、俳優とAIについてハリウッドのスタジオから行われた衝撃的な提案内容を明かす

                                      SAG-AFTRA(米映画俳優組合)が正式にストライキの決行を発表し、俳優たちが契約交渉において特に懸念している問題について、本日行われた記者会見で組合のリーダーがよりくわしい内容を明かした。その問題とは、AIだ。 俳優の同意や補償なく、AIベースの技術でその肖像を使用することに対する保護が、SAG-AFTRAの大きな争点であることはこれまでも伝えられてきた。しかし、本日の記者会見で、SAG-AFTRAの事務局長を務めるダンカン・クラブツリー=アイルランドは、AIに関するハリウッドのスタジオからの提案ついてさらなる詳細を明かした。これはかなり衝撃的な話だ。 ハリウッドのスタジオを代表して交渉にあたるAMPTP (映画製作者協会)から出された、俳優のデジタルの肖像を保護するための「革新的な」AIの提案とはどういったものなのか、質問を受けたクラブツリー=アイルランドははっきりと答えている。 「

                                        スト決行の米俳優組合、俳優とAIについてハリウッドのスタジオから行われた衝撃的な提案内容を明かす
                                      • AI時代にこそTDDだと思う話

                                        GitHub Copilot、みなさん使ってますか?すでに多くの方が利用しており、「ないと困る」という方から「提案の質に問題がある」「まだまだ使えない」という方まで、様々な意見を聞きます。 筆者はGitHub Copilotに対して非常にポイティブな立場です。GitHub Copilotは使い方次第で開発速度を格段に向上させることを身をもって体験しており、これからの時代においてはGitHub CopilotなどのAIツールを使いこなせるかどうかで、個人の開発速度に非常に大きな差が出ると考えています。 重要なのは使い方次第と言う点です。前述のように様々な感想が溢れているのはAIツールの習熟度が大きく影響しているようにも感じます。AIツールは静的解析同様、利用者側の手腕が大きく問われるツールであると筆者は感じています。コマンドプロンプトエンジニアリングという言葉もあるように、AIツールを使いこ

                                          AI時代にこそTDDだと思う話
                                        • アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

                                          アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。 各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などの

                                            アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
                                          • 日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました — Stability AI Japan

                                            ポイント Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。 JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。 ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルともStability AI メンバーシップで商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。 Japanese Stable LM 2 Base 1.6B

                                              日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました — Stability AI Japan
                                            • PandasからPolarsへ移行した方がいいのか - Qiita

                                              なぜこの記事を書くのか 皆さん、データ解析を行う際にどのようなライブラリを用いているでしょうか。 おそらく大半の人はpandasを使っているのではないでしょうか。 私もpandas使ってます。簡単だよね(´・ω・`) しかし、業務でバカクソでけえデータを読み込もうとしたときに、読み込み時間がとんでもなくかかったり、メモリ不足でそもそも読み込めもしないことが起きていました。 読み込みにメモリ食われすぎて他の作業ができずに待機した挙句、燃え尽きたかのようにノーパソのファンが止まると同時にメモリ不足のエラーが出たときには切れ散らかします。 (画像元:葬送のフリーレン公式Xアカウントのポストより) そんなこともあり、AWSなどのクラウドサービスでメモリに余裕を持たせるためにめちゃくちゃ良いインスタンスを使用していましたが、コストの問題で断念しました。 しかし、どうしても読み込みたいということもあり

                                                PandasからPolarsへ移行した方がいいのか - Qiita
                                              • GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム

                                                はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ 今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。 社内で行われた大規模言語モデル(LLM)ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。 検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム 事の発端 Turingは、ハンド

                                                  GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム
                                                • Llama

                                                  Llama is the next generation of our open source large language model, available for free for research and commercial use.

                                                    Llama
                                                  • AIアニメの作りかた ComfyUI|852話

                                                    AIアニメの作り方を説明していきます。 ざっくりな説明は上の動画を見ていただければわかるんですが、 少し細かい説明がこの記事になります。 完成物これはワンダープロジェクトJ2というゲームの二次創作アニメですが、30年近く前の作品です。 今回の流れは ・AIの一枚立ち絵を用意する ・AnimateAnyone-Evolvedで骨に沿って動かす ・AAEでつくった画像をControlnetをかけつつAIブラッシュアップ ・AfterEffectsで背景抜き ・AI背景一枚絵を用意する ・Runwayで動かす(ComfyUIでもできるが質がいいし時短になる) ・キャラの後ろに配置、キャラの画像を複製して影にして足元に配置 ・完成 です。 作業はComfyUIで行います。 ・AIの一枚立ち絵を用意する ・AnimateAnyone-Evolvedで骨に沿って動かす 骨を抜いたのはこちらのフリー動画

                                                      AIアニメの作りかた ComfyUI|852話
                                                    • Stable Diffusion から特定の概念を忘れさせる学習を行ってみる

                                                      TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の

                                                        Stable Diffusion から特定の概念を忘れさせる学習を行ってみる
                                                      • 画像生成AI「Stable Diffusion」で美麗イラストとQRコードを融合させる試み

                                                        決済手段としても用いられるようになっている「QRコード」は、一部が破損・汚損していたり読み取り時に隠れていても大丈夫なように誤り訂正機能が盛り込まれています。これを活用して、QRコードと美麗なイラストを融合させる試みが行われています。 AI 生成可扫码图像 — 新 ControlNet 模型展示 https://mp.weixin.qq.com/s/i4WR5ULH1ZZYl8Watf3EPw AIGC All in One https://aigc.ioclab.com/index.html Redditor creates working anime QR codes using Stable Diffusion | Ars Technica https://arstechnica.com/information-technology/2023/06/redditor-creates-

                                                          画像生成AI「Stable Diffusion」で美麗イラストとQRコードを融合させる試み
                                                        • Cursor Proを3日間で300回も使い倒してみた所感

                                                          はじめに AI搭載コードエディターCursorが話題なので自分にとって使いやすいのか実験してみました。 まだまだCursorの実験途中ではありますが、CursorProをサブスクしてたった3日でgpt-4に332回聞いてました。 Cursorはプロンプトの会話から現在のコードにDiffで提案してくれたり、エラーを解決してくれたり本当に便利で最高なのですが、頼り過ぎも良くないなと反省することもあったので、やったこと全部と感想をシェアしていきたいと思います。 やったこととしては、Cursorのチャットに質問しながら予備知識のないChatVRMというオープンソースのチャットアプリケーションの追加実装をしました。わりと簡単に実装できたこととうまくできなかったことがあるので例を挙げて紹介していきます。 Cursorとは Cursor(カーソル)とは、VScodeをフォークして作られたOpenAIのg

                                                            Cursor Proを3日間で300回も使い倒してみた所感
                                                          • ChatGPT Code Interpreterで気象データを分析する - Taste of Tech Topics

                                                            最近は、健康系アプリにはまっているkonnoです。 今年は本当に暑いですね...過去〇〇年で最高、などと言われることもありますが、でも、実際のところはどうなんでしょうか? 今回は、データさえ与えればあっという間に分析してくれるCode Interpreterを使って、過去の気象データから気温変化の傾向を見てみたいと思います。 気象データをCode Interpreterで分析 気象データを取得する 今回使用する気象データは、気象庁が公開している「過去の気象データ・ダウンロード」という以下のページから取得しました。 www.data.jma.go.jp 条件としては、以下のようにしています。(※今回は2022年12月31日までのデータを使用しています。) 項目 内容 地点 横浜 項目 日平均気温 期間 1893/01/01 ~ 2022/12/31 表示オプション デフォルト設定のまま ファ

                                                              ChatGPT Code Interpreterで気象データを分析する - Taste of Tech Topics
                                                            • 研究ツールまとめ2023|cvpaper.challenge

                                                              はじめに今年の夏, MIRU 2023 チュートリアルにて「CVPR 2023 速報」[Full ver.] [MIRU ver.]を発表させて頂きました. MIRU2023会期中, 非常に辛(から)かった飲み会の席にて偶然にも面白いB4の学生さん(Oさん)とお話する機会がありました.その出会いをきっかけに, Oさんとは共同主著を前提として共同研究を実施させて頂くことになりました. もちろん, OさんはB4の学生さんということもあり, 初めての研究でコーディング未経験という状態からのスタートです. かねがね, cvpaper.challenge研究メンバーとしても, 極めて変化の激しいコンピュータビジョン分野にてトレンドを創出するためには, どのように効率的に研究を進めていけば良いのか, 研究メンバーのプレゼンスを最大化するための方法論については片岡さんとも相談を重ねていました. また,

                                                                研究ツールまとめ2023|cvpaper.challenge
                                                              • 「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード&デモが公開される

                                                                AIを使って画像を生成する時、「ちょっとだけ修正を加えたい」と思うことは多いもの。そんな人たちの夢をかなえるツールが「DragGAN」です。DragGANは画像の中で動かしたいポイントを指示するだけでAIが自動で修正してくれるというもので、2023年5月に論文だけが提出されていましたが、2023年6月22日にソースコードが公開され、同時にデモも登場しました。 GitHub - XingangPan/DragGAN: Official Code for DragGAN (SIGGRAPH 2023) https://github.com/XingangPan/DragGAN Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold https://vcai.mpi-inf.mpg.

                                                                  「顔を右に」「口を開く」など画像の動かしたい部分をAIがいい感じに修正してくれるツール「DragGAN」のソースコード&デモが公開される
                                                                • 何故日本のAI技術は中国人に完全敗北したのか?|瑞島フェレリ

                                                                  はじめに 自分は去年の今頃(2022年12月)に、「AIアートとMMDについて。金は著作権より重い。」という記事を書いた。 https://archive.is/l9iKV その記事を書いたら、「MMDは日本の3DCGを破壊してしまった 」という記事も合わせてバズった。 「MMDは日本の3DCGを破壊してしまった (2022年度版)2022/08/16加筆」 https://archive.is/DenAN 2018年に日本の3DCGがMMDでガラパゴス化したと指摘され、およそ3年が経過した。 現在の日本の3DCGはどうなってしまったのか? 結論から言えば中国(ビリビリ動画)に日本の3DCG(ニコニコ動画)は完全に追い抜かれてしまった。 日本の白物家電が中国・韓国製に駆逐されたのと同じように、世界から完全に取り残されてしまったのだ。 MMDは日本の3DCGを破壊してしまった (2022年度

                                                                    何故日本のAI技術は中国人に完全敗北したのか?|瑞島フェレリ
                                                                  • 生成AIの「RAG」とは? 知っておきたい重要キーワードを解説する【イニシャルB】

                                                                      生成AIの「RAG」とは? 知っておきたい重要キーワードを解説する【イニシャルB】
                                                                    • OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 | AIDB

                                                                      OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル(LLM)の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集(MTAHデータセット)において他のモデルを凌駕し最も優れたパフォーマンスを見せました。 また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。 参照論文情報 タイトル:Let’s Verify Step by Step 著者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman,

                                                                        OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 | AIDB
                                                                      • 漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ (1/3)

                                                                        発表当初は、画像生成AIに詳しいXユーザーのあいだで「画像生成AI『Stable Diffusion』で、追加学習モデル『LoRA』を使っているだけでは」という疑問の声も出ていたが、エンドルフィンは4月5日にプレスリリースを出し、「私たちが提供しているサービスは、公開されている汎用モデルを活用した生成AIとは一線を画しています」として、画像の生成までに独自のプロセスを踏んでいる旨を説明している。 話題の「ピュアモデルAI」ができた経緯や、その技術的背景について、連載「メタバース・プレゼンス」を執筆している新 清士氏とアスキー編集部で、エンドルフィンの代表と、サービス開発元のスーパーエンジンのCEOに話を聞いた。 生成AIは「アナログからデジタル」の変化と同じ ── 最初にそれぞれの会社について教えてください。 ジェームズ キム・ドンジュン 2022年下半期ごろから、生成AIに関心をもって、

                                                                          漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ (1/3)
                                                                        • OpenAI「GPTs」がもたらす革命 誰でも「自分のコパイロット」時代へ【西田宗千佳のイマトミライ】

                                                                            OpenAI「GPTs」がもたらす革命 誰でも「自分のコパイロット」時代へ【西田宗千佳のイマトミライ】
                                                                          • 大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

                                                                            はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。 分散並列学習がどのよう

                                                                              大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1
                                                                            • ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント

                                                                              GoogleやAmazonが投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス

                                                                                ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
                                                                              • 大規模言語モデルの開発

                                                                                2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデルの学習や評価などを説明し、日本語に強い大規模言語モデルの現状や課題を議論したい。

                                                                                  大規模言語モデルの開発
                                                                                • Bingチャット、画像生成AI「DALL-E3」対応 リアルな画像生成が無料で

                                                                                    Bingチャット、画像生成AI「DALL-E3」対応 リアルな画像生成が無料で