並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 97件

新着順 人気順

NLPの検索結果1 - 40 件 / 97件

  • 最近ローカルLLMがアツいらしい

    最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

    • Hello GPT-4o

      GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

        Hello GPT-4o
      • まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)

        筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

          まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)
        • AIラジオ『zenncast』の技術構成(プロンプトつき)

          先日、個人開発していたzenncastというWebサービスをリリースしました。 Zennでトレンドになっている記事を、毎日AIが10分のラジオにして届けてくれるというサービスです。 ありがたいことに公開後はたくさんの方に試してもらえ、技術的な質問も多数いただきました。 このZennではzenncastの技術構成や仕組みを紹介します(プロンプトつき)。 作ったもの まずはエピソードを一つ選んで1分くらい聴いてみてください! AIラジオの雰囲気が掴めると思います。 主な機能・特徴 毎朝10分のラジオを生成 Zennでトレンドになっている記事を要約して紹介 お便りを投稿すると、翌日のエピソードでAIパーソナリティが拾ってコメントしてくれる BGMをつけて爽やかな聴き心地 これらのステップは人の手を介さずすべて自動化されています。 Spotifyなどの各種プラットフォームへの配信はSpotify

            AIラジオ『zenncast』の技術構成(プロンプトつき)
          • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

            昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

              GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
            • [速報]マイクロソフトが「Team Copilot」発表。生成AIが会議のファシリテーターやプロジェクト管理を実行

              マイクロソフトは、日本時間5月22日未明から開催中のイベント「Microsoft Build 2024」で、生成AIがさまざまな業務を支援してくれる「Microsoft Copilot」の新機能として「Team Copilot」を発表しました。 チームの生産性向上を実現するTeam Copilot Microsoft Copilotは、同社のオフィス製品などに組み込まれた生成AIによって文書やプレゼンテーションの作成などの支援を通じて個人の生産性向上を実現する機能として登場し……

                [速報]マイクロソフトが「Team Copilot」発表。生成AIが会議のファシリテーターやプロジェクト管理を実行
              • iPhone、iPad、MacにApple Intelligenceが登場

                カリフォルニア州クパティーノ Appleは本日、生成モデルのパワーと個人的な背景を組み合わせて驚くほど有用で関連性のあるインテリジェンスを提供する、iPhone、iPad、MacのためのパーソナルインテリジェンスシステムであるApple Intelligenceを発表しました。Apple Intelligenceは、iOS 18、iPadOS 18、macOS Sequoiaと緊密に統合されています。Appleシリコンのパワーを活用して、言語や画像を理解して生成したり、複数のアプリにわたってアクションを実行したり、個人的な背景にもとづいて、日々のタスクをシンプルにしてよりすばやくこなせるようにします。Private Cloud Computeにより、AppleはAIにおけるプライバシーの新しい基準を打ち立てます。デバイス上の処理から、専用のAppleシリコン搭載のサーバ上で実行する、より大

                  iPhone、iPad、MacにApple Intelligenceが登場
                • M1MacでOllamaを試したら爆速で驚いた

                  はじめに いつもNVIDIAが載っているWindowsで楽しくLLMを動かしたり生成AIライフを楽しんでいますが、今回はMacOSでOllamaを入れてLlama3を動かしてみました。 スペック: Apple M1 Pro(16 GB) 少し前だとCUDAのないMacでは推論は難しい感じだったと思いますが、今ではOllamaのおかげでMacでもLLMが動くと口コミを見かけるようになりました。 ずっと気になっていたのでついに私のM1 Macでも動くかどうかやってみました! 結論、爆速で推論できていたのでとても驚きました。OSS開発に感謝です! Ollamaとは OllamaとはローカルでLLMを動かすことができるアプリケーションです。 以下からダウンロードできます。 MacOSとLinuxで使うことができます。Windowsもプレビュー版があるみたいです。 #いざ推論 ダウロードができたらシ

                    M1MacでOllamaを試したら爆速で驚いた
                  • 大規模言語モデルの開発

                    2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデルの学習や評価などを説明し、日本語に強い大規模言語モデルの現状や課題を議論したい。

                      大規模言語モデルの開発
                    • 【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した

                        【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した
                      • OpenAIのGPT-4oを日本語OCRとして使ってみる

                        昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                          OpenAIのGPT-4oを日本語OCRとして使ってみる
                        • 話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ

                          こんにちは。エムスリーエンジニアリンググループのコンシューマチームに所属している園田です。 普段の業務では AWS やサーバーサイド、フロントエンドで遊んでいるのですが、最近はもっぱら OpenAI や Claude3 で遊んでます。 今回は、最近巷で話題の LLM ローコード構築ツールである Dify の OSS 版を AWS のマネージドサービスのみを使って構築してみました。 DifyとはオープンソースのLLMアプリ開発プラットフォームで、様々なLLMを使用してChatGPTのGPTsのようなものがノーコードで簡単に作れます。 引用元: DifyでSEO記事作成を試してみる|掛谷知秀 試しにAskDoctorsのガイドラインHTMLをナレッジ登録してみた ローカル環境で Dify を構築する記事はたくさん見かけますが、AWS のマネージドサービスで構築する内容は見かけなかった*1ので公

                            話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ
                          • ベクトルデータの容量を96%削減するBinary Embedding

                            導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。 しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。 本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。 サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。 保管するベクトルデータの容量を96%ほど削減で

                              ベクトルデータの容量を96%削減するBinary Embedding
                            • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

                              こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

                                ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
                              • オープンソースのRAGアプリ「RAGFlow」を試す

                                かなり新し目のフレームワークRAGプラットフォームアプリ RAGFlowとは? RAGFlowは、深い文書理解に基づいたオープンソースのRAG(Retrieval-Augmented Generation)エンジンである。LLM(大規模言語モデル)を組み合わせることで、様々な複雑なフォーマットのデータから根拠のある引用に裏打ちされた、真実味のある質問応答機能を提供し、あらゆる規模のビジネスに合理化されたRAGワークフローを提供する。

                                  オープンソースのRAGアプリ「RAGFlow」を試す
                                • AI搭載エディタCursorの紹介と機械学習コンペでの使用レビュー

                                  社内の技術共有会での発表資料です。 AI搭載エディタCursorの機能の紹介とKaggle等の機械学習コンペで使ってみて役立った点などを共有します

                                    AI搭載エディタCursorの紹介と機械学習コンペでの使用レビュー
                                  • OpenAI、次世代AIモデル「GPT-4o」を発表

                                    日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                      OpenAI、次世代AIモデル「GPT-4o」を発表
                                    • GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

                                      画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L

                                        GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
                                      • 「Devin」とは何か?もうITエンジニアは不要か?コーディングから実装まで「人要らず」の実力

                                        米国で世界初の自律型AIソフトウェアエンジニア「Devin」が発表され、衝撃を生んでいる。人間の指示に応えてタスクをサポートする従来型のAIアシスタントとは異なり、Devinはコーディングから実装までの開発プロセス全体を自ら行える、いわゆる自律型の「AIエージェント」だからだ。同ツールは「(サポート型の)Github Copilotなどとはユーザー体験が大きく異なる」という。Devinの登場により、人間のITエンジニアが職を奪われる時代が到来してしまうのか。その具体的な実力とともに解説する。

                                          「Devin」とは何か?もうITエンジニアは不要か?コーディングから実装まで「人要らず」の実力
                                        • Googleが開発したPythonのUIフレームワーク「Mesop」の特徴を開発チームが解説

                                          Googleのチームが開発したPython用のUIフレームワーク「Mesop」の特徴や使い方について、開発チームがブログに投稿しています。 Why Mesop? - Mesop https://google.github.io/mesop/blog/2024/05/13/why-mesop/ 多くのPython用UIフレームワークは簡単に使い始められるものの、標準的な使用方法を超えてカスタマイズを行おうとするとJavaScriptやCSS、HTMLの詳しい知識が必要です。MesopはPython内で動作を完結させることでよりPython開発者にとって扱いやすいUIフレームワークになっています。 MesopはコンポーネントベースのUIフレームワークで、UI全体がコンポーネントと呼ばれるブロックを積み重ねて作成されています。Pythonの関数を呼び出すのと同じ要領でMesopのコンポーネントを

                                            Googleが開発したPythonのUIフレームワーク「Mesop」の特徴を開発チームが解説
                                          • 2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました|デジタル庁

                                            デジタル庁では、デジタル社会の実現に向けた重点計画(令和4年6月7日閣議決定)を踏まえ、AIの実態と動向を把握し、リスクと必要な対応策を特定したうえで、官民における適切な活用の検討を進めています。 昨今の生成 AIなどの技術革新により、さまざまな利点を得られるようになってきており、政府としても、このような技術の動向を見極めつつ、関係省庁における生成AIの業務利用について、第10回デジタル社会推進会議幹事会・書面開催など議論を重ねてきました。 これまでの議論の経緯も踏まえ、デジタル庁では、2023年12月より生成AIの適切な利活用に向けた技術検証を実施しました。2023年度の検証結果の全体的な内容と、検証で得られた具体的な生成AIへの入力文のサンプル、一部検証に用いたテストケースを公開します。 技術検証の目的今後の政府情報システムへの生成AI利活用に向けて以下のような具体的な知見を得ることを

                                              2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました|デジタル庁
                                            • Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も

                                              基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。 生成AI搭載検索エンジン「AI Overview」(旧SGE) 「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。 詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。 AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。 マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。 例として、ピラティスにつ

                                                Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も
                                              • 社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog

                                                こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。 構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。 実際こんな記事も話題になりましたね。 本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。 誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。 また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの 外部知識資源 を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'

                                                  社内文書検索&QAシステムの RAG ではないところ - Algomatic Tech Blog
                                                • ゼロからLLMつくりたくなったときに参考になりそうなサイト

                                                  はじめに 「ゼロからLLMつくりたいなー」と思っていますが、なかなか時間がとれないので、いざというとき(?)のために、参考になりそうなサイトをまとめておきます。 個人的な備忘録です。まだ全然作れていないので、どれが良いという評価もできません。 NLP2024チュートリアル 良さそう。 NLP2024-チュートリアル3-作って学ぶ 日本語大規模言語モデル Neural Networks: Zero to Hero Andrej Karpathyさんの動画。英語ですが、すごい良さそう Llama Llamaの情報 GENIAC その他 LLaVA(画像系) 環境構築 モデルマージ まとめ LLMに限らず、何かをゼロから小さく作ってみるのは、回り道のようで理解を深める最短経路と思っています。すぐ効果があるようなものではないですが、こういうのはまとめて取り組んでいきたいですね。 日本語の良い書籍が

                                                    ゼロからLLMつくりたくなったときに参考になりそうなサイト
                                                  • 「大規模言語モデルの開発」に関するまとめ資料 東工大・岡崎教授が公開 全85ページ

                                                    岡崎教授率いる岡崎研究室と、東京工業大学学術国際情報センターの横田理央教授が率いる横田研究室、産業技術総合研究所による合同研究チームは23年12月、LLM「Swallow」を発表。この開発を通して得たノウハウなども紹介している。 関連記事 生成AIを巡る日本の現状は? 東大・松尾教授の考察資料が無料公開 「1年間、日本は最善手を指し続けている」 内閣府は5月23日、22日に開催した「第9回 AI戦略会議」で取り扱った資料を公開した。公開したのは、AI研究の権威として知られる東京大学の松尾豊教授が作成した「生成AIの産業における可能性」と題した全33ページの資料など。 “大は小を兼ねない”生成AI 注目集める「小規模言語モデル」(SLM) そのメリットとは? 先日行われた、米Microsoftの開発者向けイベント「Microsoft Build 2024」の目玉の一つだった「SLM」(Sma

                                                      「大規模言語モデルの開発」に関するまとめ資料 東工大・岡崎教授が公開 全85ページ
                                                    • プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics

                                                      いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか?菅野です。 生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。 プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。 そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOがMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは? Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。 元来、プロンプトエンジニアリングでは、エンジニアが、様々な

                                                        プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics
                                                      • 最近の7B小型日本語LLMはエージェントになれるのか?

                                                        あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた

                                                          最近の7B小型日本語LLMはエージェントになれるのか?
                                                        • 自由記述のアンケートデータがあったときに実施すべき4つの分析手法 - Qiita

                                                          アンケートには、数値で回答をする設問があったり、自由記述の回答をする設問があったりすることが一般的です。 そして、数値の回答に関しては、集計して性別や年代など回答者の属性ごとにスコアを比べたり、質問間の相関を調べて、分析を進めることが可能です。 一方で、自由記述の回答の場合、膨大なテキストデータを眺めるだけで終わってしまったり、アンケートを見た人の主観的な気付きをまとめただけで分析が終わってしまい、「データに基づいた気付き」を得るまでには至らないことも少なくありません。 そこで、今回は自由記述のアンケートデータがあったときに、有用な情報や気付きを得るために実施すべき4つの分析手法を紹介いたします。 1. 頻出単語のカウント 自由記述のテキストデータがあったときに、データ(文章)は「単語」に分け、それぞれの単語の出現回数を集計(定量化)することで、データの中にあるパターンや特徴を掴めるように

                                                            自由記述のアンケートデータがあったときに実施すべき4つの分析手法 - Qiita
                                                          • OpenAIがGPT-4の思考を1600万個の解釈可能なパターンに分解できたと発表

                                                            GPT-4などの大規模言語モデルは非常に高い性能を有していますが、各モデルがどのような思考を経て応答を出力しているのかは開発者ですら把握できていません。新たに、OpenAIが大規模言語モデルの思考を読み取る手法を開発し、GPT-4の思考を1600万個の解釈可能なパターンに分解できたことを発表しました。 Extracting Concepts from GPT-4 | OpenAI https://openai.com/index/extracting-concepts-from-gpt-4/ Scaling and evaluating sparse autoencoders https://cdn.openai.com/papers/sparse-autoencoders.pdf 一般的なソフトウェアは人間の設計に基づいて開発されているため、各機能の仕組みを理解した上で機能を修正したり安

                                                              OpenAIがGPT-4の思考を1600万個の解釈可能なパターンに分解できたと発表
                                                            • 注目の生成AI関連技術「Knowledge Graph」で、桃太郎の物語を視覚化してみよう【イニシャルB】

                                                                注目の生成AI関連技術「Knowledge Graph」で、桃太郎の物語を視覚化してみよう【イニシャルB】
                                                              • Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第47回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」 2D画像から3Dコンテンツを生成する「CAT3D」をGoogleが開発 大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査 画像とテキストを使った長文生成が得意なAIモデル「Chameleon」をMetaが開発 Transformerを超える「Mamba」は視覚認識タスクに必要か? 開発した「MambaOut」モデルで検証 GPU上でネイティブ動作する並列

                                                                  Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                                • RAGのサービスをリリースして1年が経ちました

                                                                  2024年5月30日に開催されたChatGPT Meetup Tokyo #7で、ChatGPTとIBM Watson Discoveryを連携させたRAGのサービスについてLTした際の資料です。 動画(スライド画面+音声)はこちらです。 https://www.youtube.com/live/ESdtIyMEktU?feature=shared&t=361 ※個人で作成したものであり、内容や意見は所属企業・部門見解を代表するものではありません。

                                                                    RAGのサービスをリリースして1年が経ちました
                                                                  • AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説

                                                                    チャットAI「Claude」などを開発するAI企業「Anthropic」がAIモデルの内部動作について、何百万もの概念がどのように表現されているかという研究結果を報告しました。 Mapping the Mind of a Large Language Model \ Anthropic https://www.anthropic.com/research/mapping-mind-language-model AIモデルの本体である大規模言語モデル(LLM)の出力はブラックボックスとして扱われており、入力に対応して出力が行われた時になぜその特定の応答が出力されたのかは不明となっています。そのため、モデルが有害・偏見・ウソなどの危険な出力をしないことを信頼するのは難しいものです。 Anthropicは以前よりLLMの内部についての研究を行っており、2023年10月には「特徴」単位でまとめるこ

                                                                      AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説
                                                                    • 5分でわかるアップル「WWDC24」発表まとめ--生成AIの「Apple Intelligence」、Vision Pro日本発売など

                                                                      Appleは日本時間6月11日未明に「WWDC24」の基調講演を開催した。初の生成AI関連の取り組みとなる「Apple Intelligence」や、「visionOS 2」「iOS 18」「iPadOS 18」「macOS Sequoia」などを発表した。 Apple Intelligence Apple Intelligenceは、iPhoneやMac、iPadで利用できる無料のAI機能だ。iPhone 15 Pro(無印のiPhone 15は非対応)とMシリーズチップを搭載するMac、iPadで利用できる。米国で2024年秋にiOS 18、iPadOS 18、macOS Sequoiaの一部としてベータ版の提供を開始し、他言語への対応は2025年を予定している。 基調講演では多くの機能が紹介されたが、要約すれば「賢いユーザーの相棒」だ。曖昧な指示だけであらゆる操作を手助けしてくれる。

                                                                        5分でわかるアップル「WWDC24」発表まとめ--生成AIの「Apple Intelligence」、Vision Pro日本発売など
                                                                      • 特化型モデルが日本の生成AI開発の勝ち筋

                                                                        こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。 出口の見えない日本のLLM開発に光? 昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。 私も東工大の岡崎先生と、NII

                                                                          特化型モデルが日本の生成AI開発の勝ち筋
                                                                        • Mistral AI、コーディング用生成AIモデル「Codestral」リリース

                                                                          米Microsoftが支援する仏Mistral AIは5月29日(現地時間)、同社としては初のコーディング向け生成AIモデル「Codestral」を発表した。 コード生成タスクを明示的に設計されたオープンウェイト(モデルの重みを公開している)の生成AIモデルで、HuggingFaceからダウンロードし、MistralのAPIプラットフォームを通じて利用できる。 Python、Java、C、C++、JavaScript、Bashを含む80以上のプログラミング言語の多様なデータセットでトレーニングされている。また、SwiftやFortranでも「優れた性能を発揮する」という。 3万2000トークンのコンテキストウィンドウを持つ220億パラメータモデル。コード生成の長期評価のRepoBenchでは、競合する米MetaのCode Llama(4000/700億)や中国DeepSeekのDeepSe

                                                                            Mistral AI、コーディング用生成AIモデル「Codestral」リリース
                                                                          • “大は小を兼ねない”生成AI 注目集める「小規模言語モデル」(SLM) そのメリットとは?

                                                                            先日行われた、米Microsoftの開発者向けイベント「Microsoft Build 2024」。AI系技術を中心にさまざまな発表があったが、目玉の一つだったのが、SLM(Small Language Model)関連の新製品だ。ITmediaでも紹介記事が公開されているので、具体的な情報は以下を参照してほしい。この記事では、そもそもSLMとは何か、何が期待されているのかを整理してみよう。 (関連記事:Microsoft、Windowsローカルで実行可能なSLM「Phi Silica」を全「Copilot+ PC」に搭載へ) (関連記事:Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー) “大は小を兼ねない”「小規模言語モデル」(SLM)とは? SLMは日本語で「小規模言語モデル」と訳されている。名前から分かるように、ChatGPTを始めとした生成AIア

                                                                              “大は小を兼ねない”生成AI 注目集める「小規模言語モデル」(SLM) そのメリットとは?
                                                                            • LangSmithを活用したRAGの評価・改善フローの整備

                                                                              2024年5月22日 #mlopsコミュニティ

                                                                                LangSmithを活用したRAGの評価・改善フローの整備
                                                                              • 自然言語とVision&Language

                                                                                東京大学大学院の2024年度講義「知能情報論」で使用した資料です. Vision&Language関連の研究について,深層学習初期から大規模モデルにいたるまでを概観しています. なお,資料作成時期は2024年5月下旬であり,内容はその時点で発表されていた研究等に基づいています.

                                                                                  自然言語とVision&Language
                                                                                • 【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

                                                                                  昨日公開された GPT-4o は性能だけでなく処理速度の点からも注目を集めています。その速度に寄与しているのは、モデルの処理速度の改善だけでなく、日本語処理の改善も大きく関わっていると考えられます。 実際、OpenAIのサイトによれば、日本語は平均して 1.4 倍の効率で(1.4倍少ないトークンで)表せるようになったとされています。 これは、GPT-4o が GPT-4 に比べて日本語をより 語彙 (vocabulary) に含むようになったからです。語彙とは LLM における自然言語の処理の最小単位で、1つの語彙が1つの数値トークンに変換され、それがモデルに突っ込まれるという仕組みです。 ところで、GPT-4o では 『風吹けば名無し』 という文字列を 1 つの語彙として扱うのをご存知でしょうか。 このツイートで紹介されているように、GPT-4o では、ネットで多数出現するこういったフレ

                                                                                    【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる