並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 25 件 / 25件

新着順 人気順

nlpの検索結果1 - 25 件 / 25件

  • Hello GPT-4o

    GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

      Hello GPT-4o
    • まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)

      筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

        まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)
      • GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

        昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。 そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。 なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。 比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。 あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。 あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

          GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
        • 日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました — Stability AI Japan

          ポイント Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。 JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。 ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルともStability AI メンバーシップで商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。 Japanese Stable LM 2 Base 1.6B

            日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました — Stability AI Japan
          • OpenAIのGPT-4oを日本語OCRとして使ってみる

            昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

              OpenAIのGPT-4oを日本語OCRとして使ってみる
            • OpenAI、次世代AIモデル「GPT-4o」を発表

              日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                OpenAI、次世代AIモデル「GPT-4o」を発表
              • 実務で生成AIサービスを開発してわかったこと

                生成AIを使ったサービスを開発してわかったことをメモしておきます。 開発したもの 業種 SaaS 課題 提供サービス内でユーザーがアイディアを考えることが難しかった。様々なデータを人力で集めてくる必要があった 解決策 アイディア起案に繋がりそうなデータを自動で集めてきて提示する。手法はベクトル検索、AIによる要約生成。 その他 チャットUIは作っていない。ユーザーの入力は最初の検索テキスト入力文のみ。 開発前の検証・プロトタイピング 開発する前に生成AIの出力を検証することが必要 生成AIの出力の質はサービスの肝だから 生成AIの出力は事前の予想と違うこともあり早い段階で出力を確認しておかないと後々の仕様変更があったときにキツイから AIに渡すデータの中身を確認しておく 例えばRAGを使って社内ドキュメントやDBを検索する場合、それらのデータの中身を吟味する必要がある 必要なデータと不要な

                  実務で生成AIサービスを開発してわかったこと
                • Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も

                  基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。 生成AI搭載検索エンジン「AI Overview」(旧SGE) 「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。 詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。 AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。 マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。 例として、ピラティスにつ

                    Google I/O 2024基調講演まとめ AI一色、GPT-4oのような機能も
                  • 2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました|デジタル庁

                    デジタル庁では、デジタル社会の実現に向けた重点計画(令和4年6月7日閣議決定)を踏まえ、AIの実態と動向を把握し、リスクと必要な対応策を特定したうえで、官民における適切な活用の検討を進めています。 昨今の生成 AIなどの技術革新により、さまざまな利点を得られるようになってきており、政府としても、このような技術の動向を見極めつつ、関係省庁における生成AIの業務利用について、第10回デジタル社会推進会議幹事会・書面開催など議論を重ねてきました。 これまでの議論の経緯も踏まえ、デジタル庁では、2023年12月より生成AIの適切な利活用に向けた技術検証を実施しました。2023年度の検証結果の全体的な内容と、検証で得られた具体的な生成AIへの入力文のサンプル、一部検証に用いたテストケースを公開します。 技術検証の目的今後の政府情報システムへの生成AI利活用に向けて以下のような具体的な知見を得ることを

                      2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました|デジタル庁
                    • 「富岳」で学習した日本語向け国産AI「Fugaku-LLM」公開

                        「富岳」で学習した日本語向け国産AI「Fugaku-LLM」公開
                      • スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通

                        PRESS RELEASE 2024年5月10日 東京工業大学 東北大学 富士通株式会社 理化学研究所 名古屋大学 株式会社サイバーエージェント Kotoba Technolgies Inc. スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed

                          スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通
                        • スパコン「富岳」で開発のAIが完成 報道陣に公開 | NHK

                          世界最高クラスの計算性能を持つスーパーコンピューター「富岳」を使って開発されたAIが完成し、10日、報道陣に公開されました。生成AIの開発の基盤となる大規模言語モデルと呼ばれるAIで、開発の担当者は「今後、日本語に特化した国産の生成AIのさまざまな研究・開発に活用されることを期待したい」と話しています。 開発された大規模言語モデル「FugakuーLLM」は、世界最高クラスの計算能力を持つスーパーコンピューター「富岳」を活用した国産のAIの研究開発プロジェクトとして、去年5月から東京工業大学や東北大学、富士通、理化学研究所などが進めてきたもので、10日、研究成果の発表会が東京 目黒区の東京工業大学で行われました。 発表会では、FugakuーLLMはAIのモデルが一から独自に構築されているため、透明性と安全性に優れていることや学習データのおよそ6割を日本語のコンテンツから学習したことで、日本語

                            スパコン「富岳」で開発のAIが完成 報道陣に公開 | NHK
                          • OpenAI、ChatGPTの望ましい動作を規定する「モデル仕様」を公開 | gihyo.jp

                            OpenAI⁠⁠、ChatGPTの望ましい動作を規定する「モデル仕様」を公開 OpenAIは2024年5月8日、AIモデルの動作に関する議論を深めるため、OpenAI APIとChatGPTにおけるAIモデルの望ましい動作を規定する「モデル仕様(Model Spec⁠)⁠」の最初のドラフトを公開した。 Introducing the Model Spec | OpenAI To deepen the public conversation about how AI models should behave, we’re sharing our Model Spec — our approach to shaping desired model behavior. https://t.co/RJBRwrcTtQ — OpenAI (@OpenAI) May 8, 2024 モデル仕様は、望ま

                              OpenAI、ChatGPTの望ましい動作を規定する「モデル仕様」を公開 | gihyo.jp
                            • GoogleのAIに匹敵するオープンソースのAIモデル「Falcon 2」をUAEがリリース

                              アラブ首長国連邦の政府系研究機関であるテクノロジーイノベーション研究所(TII)が2024年5月13日に、MetaのLlama 3 8Bを上回り、GoogleのGemma 7Bと同等のパフォーマンスを持つオープンソースの大規模言語モデル(LLM)の「Falcon 2」を発表しました。 Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute https://www.tii.ae/news/falcon-2-uaes-technology-innovation-institute-releases-new-ai-model-series-outperforming

                                GoogleのAIに匹敵するオープンソースのAIモデル「Falcon 2」をUAEがリリース
                              • Model Spec (2024/05/08)

                                May 08, 2024 Overview This is the first draft of the Model Spec, a document that specifies desired behavior for our models in the OpenAI API and ChatGPT. It includes a set of core objectives, as well as guidance on how to deal with conflicting objectives or instructions. Our intention is to use the Model Spec as guidelines for researchers and data labelers to create data as part of a technique cal

                                • OpenAI の Model Spec の概要|npaka

                                  以下の記事が面白かったので、簡単にまとめました。 Exampleは省略してるので元記事で確認してください。 ・Model Spec (2024/05/08) 1. Model Spec の概要1-1. Model Spec の概要これは「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダンスが含まれています。 OpenAIの目的は、研究者やデータラベル作成者がRLHF と呼ばれる手法の一部としてデータを作成するためのガイドラインとして「Model Spec」を使用することです。「Model Spec」はまだ現在の形式では使用していませんが、その一部はOpenAIでRLHFに使用したドキュメントに基づいています。また、モデルが「Model

                                    OpenAI の Model Spec の概要|npaka
                                  • 小さくても高性能 日本語AIモデル「Japanese Stable LM 2 1.6B」

                                    Stability AIは5月9日、日本語大規模言語モデル「Japanese Stable LM 2 1.6B(JSLM2 1.6B)」をリリースした。モデルサイズを16億パラメータと軽量化することで必要なハードウェアを小規模に抑えることが可能だという。 スピードと性能を両立した軽量モデル 🎉日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました🎉 Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。 こちらのモデルはStability AI メンバーシップにご加入いただくことで商用利用が可能です。 詳細はこちら💁‍♀️… pic.twitter.com/b35t2Il4lm — Stability AI Japan (@StabilityAI_JP) May 9,

                                      小さくても高性能 日本語AIモデル「Japanese Stable LM 2 1.6B」
                                    • 実用的なLLMアプリケーションを作るための大規模アップデート 「LangChain 0.1」「LlamaIndex 0.10」になって変わったこと

                                      『OpenAI GPT-4V/ChatGPT/GPTs 人工知能プログラミング実践入門』著者の布留川氏は、登壇時点までのOpenAIの最新情報と、最新技術情報のキャッチアップ術について話しました。全4回。前回はこちらから。 「LangChain」と「LlamaIndex」の違い 布留川英一氏:OpenAIの新機能を話したので、次にLangChain 0.1とLlamaIndex 0.10について話そうかと思います。今回のOpenAI本にはこのLangChainとLlamaIndex(の話題)は入れませんでした。その1個前の本にはLangChainとLlamaIndexは入っていたんですが、今回の本には入れられませんでした。 年末ぐらいにLangChainとLlamaIndexの大規模アップデートがありました。より実用的なLLMアプリケーションを作るために大規模アップデートがあったので、本に

                                        実用的なLLMアプリケーションを作るための大規模アップデート 「LangChain 0.1」「LlamaIndex 0.10」になって変わったこと
                                      • LLM評価の落とし穴~開発者目線で気をつけるポイント~

                                        ©2024 CyberAgent Inc. Distribution prohibited JP LM Evaluation Harnessについて 3 ベンチマーク • JGLUE, XLSum, XWinogrand, MGSMなどが含まれるFew-shot形式の日本語ベンチマーク • 旧バージョンと新バージョンがあり、ベンチマークの種類や評価指標に違いがある データ例 https://github.com/Stability-AI/lm-evaluation-harness 与えられた選択肢の中から、最適な答えを選んでください。 質問:街のことは? 選択肢:- タウン - 劇場 - ホーム - ハウス - ニューヨークシティ 回答:タウン 質問:必要な機器などを取り付けることをなんという? 選択肢:- 用意 - ペーパー - 準備 - 装備 - 針金 回答:装備 質問:ブラウザと言え

                                          LLM評価の落とし穴~開発者目線で気をつけるポイント~
                                        • Google、テキストや画像から動画を生成するAI「Veo」発表 OpenAIの「Sora」対抗

                                          マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができる。 また、テキストではなく画像を入力して動画を生成することもできるマルチモーダルだ。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成する。 Googleは、将来的にはVeoの機能の一部をYouTubeショートなどにも導入する計画だ。 関連記事 Androidに“Google AI”の新機能 OSにGeminiを統合、「かこって検索」で問題を解く機能など 米Googleが、Android向けに搭載するAI関連の新機能を発表した。特定の部分を丸で囲って検索ができる「かこって検索」を、学習に活用できるようにする。Androidに生成AIモデルの「Gemini」を統合し、アプリ上のオーバーレイ表示から、より簡単にGeminiを利用可能になる。

                                            Google、テキストや画像から動画を生成するAI「Veo」発表 OpenAIの「Sora」対抗
                                          • Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2|npaka

                                            Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2 以下の記事が面白かったので、簡単にまとめました。 ・Gemini 1.5 Pro updates, 1.5 Flash debut and 2 new Gemma models 1. はじめに昨年12月、「Gemini 1.0」をリリースし、「Gemini API」を「Google AI Studio」および「Vertex AI」で利用できるようにしました。2月に、100万トークンのコンテキストウィンドウを備えた最初のモデルである「Gemini 1.5 Pro」をリリースしました。先月、ネイティブ音声理解、システム指示、JSON モードなどの機能を追加しました。 並行して、「Gemma」を立ち上げました。これは、「Gemini」と同じ研究とテクノロジーに基づいて構

                                              Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2|npaka
                                            • Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure | Microsoft Azure Blog

                                              Explore Azure Get to know Azure Discover secure, future-ready cloud solutions—on-premises, hybrid, multicloud, or at the edge Global infrastructure Learn about sustainable, trusted cloud infrastructure with more regions than any other provider Cloud economics Build your business case for the cloud with key financial and technical guidance from Azure Customer enablement Plan a clear path forward fo

                                                Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure | Microsoft Azure Blog
                                              • CS388

                                                CS388: Natural Language Processing (online MS version) These are the course materials for an online masters course in NLP. All lectures are videos available on YouTube. Note on enrollment for on-campus students: This course is listed in the course catalog as "Natural Language Processing-WB". It is a partially asynchronous course taught for certain online masters programs at UT ("Option III" progra

                                                • Fugaku-LLM/Fugaku-LLM-13B · Hugging Face

                                                  Fugaku-LLM利用規約\n この利用規約(以下「本規約」といいます)は、富士通株式会社、国立研究開発法人理化学研究所、国立大学法人東京工業大学、国立大学法人東北大学、株式会社サイバーエージェント、国立大学法人東海国立大学機構、及び株式会社Kotoba Technologies Japan (以下「開発者」といいます)による、スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発の成果物として公開する大規模言語モデル(以下「Fugaku-LLM」といいます)の利用に関する条件を定めるものです。Fugaku-LLMの利用者(以下「利用者」といいます)は、本規約に同意した上でFugaku-LLMを利用するものとします。 \n\n第1条(利用許諾) Fugaku-LLMの利用者は、本規約に従い、Fugaku-LLMを商用または非商用目的を問わず利用することができ

                                                    Fugaku-LLM/Fugaku-LLM-13B · Hugging Face
                                                  • 米Google、オープンな視覚言語モデル「PaliGemma」公開 「Gemma 2」の登場も予告

                                                    米Googleは5月14日、視覚言語モデル(VLM)「PaliGemma」を公開した。VLMとは視覚的な入力に言語を対応させる言語モデルのことで、画像や動画を入力すると自然言語を出力できる。同社はこれを「オープンなVLM」と位置付けており、Hugging FaceやGitHubなど複数のプラットフォームで公開している。

                                                      米Google、オープンな視覚言語モデル「PaliGemma」公開 「Gemma 2」の登場も予告
                                                    1