タグ

sh2のブックマーク (2,748)

  • RAG(Retrieval Augmented Generation)を用いたPostgreSQLアシスタントAIの試作 - Qiita

    この記事はNTTコムウェア Advent Calendar 2023の4日目の記事です。 こんにちは、NTTコムウェアの平塚です。今月は2023冬 Chill Seasonで手に馴染むブキを探しているところです。 大規模言語モデルが持っていない最新情報や企業内情報を補うためのRAG(Retrieval Augmented Generation、検索拡張生成)というアーキテクチャーがあります。ごく簡単に説明すると、外部データベースを用意してそこで検索した結果を大規模言語モデルに説明させるというものです。以下はRAGのイメージ図です。 現在多くの企業さまがRAGの検証に取り組んでいるところかと思います。今回RAGを用いてPostgreSQLに詳しいアシスタントAIを試作したので、気づいたところをいくつ か共有いたします。 まとめ PostgreSQLアシスタントAIはある程度使えるものになりそ

    RAG(Retrieval Augmented Generation)を用いたPostgreSQLアシスタントAIの試作 - Qiita
    sh2
    sh2 2023/12/04
    MySQLリファレンスマニュアルは私の技術力では前処理できませんでしたm(_ _)m
  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
    sh2
    sh2 2023/12/03
    勉強になった。Windows 10だと「~は10コードポイントで構成されています」のところが4グラフィムクラスタになっている
  • 生成AI Advent Calendar 2023 - Adventar

    生成AIに関することならなんでも構いません。 LLMでも良いですが、LLMに限らずいろんなものを生成した話や哲学の話とかごった煮でお願いします。 参考(去年): https://adventar.org/calendars/7766

    生成AI Advent Calendar 2023 - Adventar
    sh2
    sh2 2023/12/02
    2日目興味深い
  • 情報検索・検索技術 Advent Calendar 2023 - Adventar

    検索に関わることならなんでもOKです! 検索エンジンのアルゴリズムや実装 検索システムの構築・運用・評価 形態素解析・分かち書きなどの自然言語処理 (NLP) 技術 検索に関する UI/UX 地理検索、画像検索、情報推薦など Lucene, Elasticsearch, Solr など検索エンジンOSS 今年も作成してみました! 2021年のアドベントカレンダー 2022年のアドベントカレンダー

    情報検索・検索技術 Advent Calendar 2023 - Adventar
    sh2
    sh2 2023/12/01
    読んで勉強する
  • Azure AI Search(旧: Cognitive Search)のチャンク分割+ベクトル化が簡単になったので試す!(2/2) - Qiita

    Azure AI Search(旧: Cognitive Search)のチャンク分割+ベクトル化が簡単になったので試す!(2/2)AzureCognitiveSearchAISearch はじめに 前回ではAzure AI Searchのチャンク分割+ベクトル化のやり方について解説しました。 この方法では言語アナライザーがデフォルト(英語)になってしまうので、フルテキスト検索の精度が悪くなってしまいます。今回は言語アナライザーを日語にする方法について解説していきます。 やり方 インデックスを作る部分は前回の記事をご参照ください。今回はこちらの作成済みのインデックスを使います。 JSONの編集をクリックし、メモ帳などにコピーします。 既存のインデックスは一度削除します。 インデックスの追加(JSON)をクリックします。 先ほどメモ帳にコピーしたJSON形式のインデックスを貼り付けます。

    Azure AI Search(旧: Cognitive Search)のチャンク分割+ベクトル化が簡単になったので試す!(2/2) - Qiita
    sh2
    sh2 2023/12/01
    力技すぎて笑った
  • ChatGPTに自前の情報を画像込みで返答させてみた 〜実践的なRAGとEmbeddingの使い方〜 - バイセル Tech Blog

    はじめに こんにちは、バイセル23卒エンジニアの臼井です。 今回はChatGPTに社内の情報を答えてもらうために、テキストのEmbedding APIを使用して、社内情報をRAGで扱う方法について紹介します。 社内の情報には画像データなど、テキスト以外のデータもありますので、それらをどのようにしてEmbeddingするかが論点となります。 対象読者は、自前のデータをChatGPTなどのLLMに組み込みたいと考えている開発者です。 特に、多様なデータ形式(テキスト、画像、スライドなど)を組み込みたい方の参考になれば幸いです。 はじめに 背景 Fine-tuningとRAG その他使用した技術 課題 アプローチ キャプション生成について(フロー図の1に該当) 画像に文字があるか判定(フロー図の2に該当) 文字あり画像のOCRとキャプション生成について(フロー図の3、4に該当) Embeddin

    ChatGPTに自前の情報を画像込みで返答させてみた 〜実践的なRAGとEmbeddingの使い方〜 - バイセル Tech Blog
    sh2
    sh2 2023/11/30
    元のドキュメントにURLを埋め込んでベクトルデータベースに格納する
  • GPT-4VをつかったMulti-modal RAGの実装 (1) - Qiita

    はじめに 生成AI系アプリの開発では、LLMが専門的な質問にも回答できるようにするために、RAG(Retrieval Augmented generation)が広く使われています。このRAGのインプットには多様なファイル形式(たとえば、PDF, CSV, TXTなど)がサポートされていますが、最終的にはテキストの形でチャンクに分割し、各々のチャンクをベクトル化してベクトルストアに保存するというのが一般的なやり方となっています。 しかし、実際の文書にはテキストだけでなく、画像やテーブルもたくさんある場合が多く、来ならこれらの情報もベクトルストアに保存するべきで、RAGの精度を高めていく際に質的に重要です。 DALL-E 3で作成したMulti-modal RAGのイメージ画 今回の記事では、異なるデータタイプ(画像、テキスト、テーブル)を横断して、ベクトルストアを構成することが可能なM

    GPT-4VをつかったMulti-modal RAGの実装 (1) - Qiita
    sh2
    sh2 2023/11/29
    あとで作ってみる
  • [速報]古いJavaや.NETのコードを最新のJavaにAIが自動変換する「Amazon Q Code Transformation」、AWSが発表。AWS re:Invent 2023

    [速報]古いJavaや.NETのコードを最新のJavaAIが自動変換する「Amazon Q Code Transformation」、AWSが発表。AWS re:Invent 2023 Amazon Web Services(AWS)は、ラスベガスで開催中のイベント「AWS re:Invent 2023」の基調講演で、生成AIを用いて多様なAIサービスを提供する「Amazon Q」を発表。Amazon Qの機能の一部として、古いJavaや.NETのコードを最新のJavaや.NET対応に自動変換する「Amazon Q Code Transformation」を合わせて発表しました。 参考:[速報]AWS、Copilot対抗となる「Amazon Q」発表。生成AIによるシステム開発支援や業務支援など、多様なAIサービスを提供。AWS re:Invent 2023 Amazon Q Code

    [速報]古いJavaや.NETのコードを最新のJavaにAIが自動変換する「Amazon Q Code Transformation」、AWSが発表。AWS re:Invent 2023
    sh2
    sh2 2023/11/29
    Javaのアップグレードに加えて、サードパーティーライブラリやミドルウェアの破壊的変更に対応してくれるならすごいけど
  • https://www.soumu.go.jp/main_content/000882501.pdf

    sh2
    sh2 2023/11/24
    「偽・誤情報検知等を目的に研究開発されたICTツール例」が参考になる
  • “1グラムで地球破壊”超高エネルギーの宇宙線捉える 大阪公立大など | NHK

    宇宙から降り注ぐ小さな粒子「宇宙線」のうち、計算上、わずか1グラムで地球が破壊されるほどの巨大なエネルギーを持つものを発見したと、大阪公立大学などの国際研究グループが発表しました。観測史上2番目に高いエネルギーの「宇宙線」だということで、グループでは巨大な星が爆発するなどして発生した可能性があるとしています。 砂漠に設置した507台の装置が宇宙線捉える 大阪公立大学の藤井俊博 准教授ら、日アメリカロシアなど8か国が参加する国際研究グループは、宇宙から地球に降り注ぐ小さな粒子「宇宙線」を観測するため、2008年からアメリカ ユタ州の砂漠地帯に設置した507台の検出装置のデータを定期的に解析してきました。 その結果、2021年5月、「244エクサ電子ボルト」という観測史上2番目に高いエネルギーの宇宙線を捉えたということです。 グループは宇宙の謎の解明につなげる期待を込め、この宇宙線を日

    “1グラムで地球破壊”超高エネルギーの宇宙線捉える 大阪公立大など | NHK
    sh2
    sh2 2023/11/24
    宇宙ヤバイ
  • 元OpenAIのサム・アルトマン氏ら、Microsoft入社へ - 日本経済新聞

    【シリコンバレー=山田遼太郎】米マイクロソフトのサティア・ナデラ最高経営責任者(CEO)は19日、米新興企業オープンAICEOを解任されたサム・アルトマン氏がマイクロソフトに加わると明らかにした。同社に新設する人工知能AI)の先進的な研究チームを率いるという。ナデラ氏が19日深夜(米西部時間)にX(旧ツイッター)への投稿で明らかにした。オープンAIの共同創業者の1人で、アルトマン氏とともに

    元OpenAIのサム・アルトマン氏ら、Microsoft入社へ - 日本経済新聞
    sh2
    sh2 2023/11/20
    サティア・ナデラCEOの経営力がすごい
  • Azure OpenAI Service quotas and limits - Azure AI services

    sh2
    sh2 2023/11/20
    gpt-4-1106-previewは最大128K tokensなので、80K tokens per miniteだと一つもリクエスト通せない
  • Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z

    Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。 仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。 しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。 まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。 そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。 なんかフローチャートが出てきて、フローチャート

    Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z
    sh2
    sh2 2023/11/17
    人柱ありがたい
  • ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました - コネヒト開発者ブログ

    はじめに はじめまして、8月にコネヒトに入社したy.ikenoueです。 突然ですがみなさん、生成AIは使っておりますでしょうか? ChatGPTやStable Diffusionといった代表的な生成AIの発表から約1年が経過し、そろそろブームも落ち着くかと思っていたのですが、つい先日もOpenAI DevDayにてChatGPTに関する様々なアップデートが発表されるなど、相変わらず目まぐるしい日々が続いていますね。 弊社における生成AIの活用状況はというと、以前に下記の記事にて、Slack上でChatGPTと会話できる環境を社内提供しているという取り組みをご紹介しました。 tech.connehito.com 日は、上記の社内ツールに新たに追加した「社内文書の参照機能」についてご紹介します。 「社内文書の参照機能」の概要と開発動機 まずは「社内文書の参照機能」の概要と開発にいたった動機

    ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました - コネヒト開発者ブログ
    sh2
    sh2 2023/11/16
    実装を参考にする
  • 先読みを用いたLLMの文章生成の高速化 - NTT Communications Engineers' Blog

    こんにちは、イノベーションセンターの加藤です。普段はコンピュータビジョンの技術開発やAI/機械学習(ML: Machine Learning)システムの検証に取り組んでいます。一方で、兼務1で大規模言語モデル(LLM: Large Language Model)について調査を行なっており、特にLLMの推論や学習の高速化に関心を持っています。 今回は、小さな言語モデルによる先読みを活用してLLMの文章生成を高速化する手法(Assisted Generation2, Speculative Sampling3などと呼ばれています)についてご紹介します。 LLMの推論は計算コストが高く、文章生成の遅さが課題としてよく挙げられています。特に日語はトークンあたりの文字数が少なく、ChatGPTのようなストリーム出力でもかなり生成が遅く感じるかと思います。 これに対して、いくらか余分にメモリを利用し

    先読みを用いたLLMの文章生成の高速化 - NTT Communications Engineers' Blog
    sh2
    sh2 2023/11/15
    すごい
  • Nintendo Switch版『ホグワーツ・レガシー』は、ホグズミードなど一部オープンワールドを崩しエリア化することで最適化。執念の無茶移植 - AUTOMATON

    WB Gamesは11月14日、Nintendo Switch版『ホグワーツ・レガシー』を発売した。幾度の延期を経てついに発売されたNintendo Switch版。移植不可能との声も見られた同作は、他ハードではオープンワールドだったエリアを分割にすることで実現されているようだ。 『ホグワーツ・レガシー』は人気小説映画「ハリー・ポッター」シリーズを題材としたゲームだ。開発を担当したのは、WB Games傘下スタジオAvalanche Software。プレイヤーは5年生として、ホグワーツ魔法魔術学校に入学。授業や探索に励みつつ、世界をめぐる大きなしがらみに巻き込まれていく。ゲーム内には広大なフィールドが存在。学校および学校周辺のエリアを冒険し、誰かの悩みを解決したりしながら、戦いなどを介して成長するのだ。 作は今年2月10日にPC/PS5/Xbox Series X|S向けに発売された

    Nintendo Switch版『ホグワーツ・レガシー』は、ホグズミードなど一部オープンワールドを崩しエリア化することで最適化。執念の無茶移植 - AUTOMATON
    sh2
    sh2 2023/11/15
    ゼビウスやグラディウスなど、昔のアーケードゲームが8bitの家庭用ゲーム機に無理矢理移植されていたことを思い出した。その頃に比べたら「完全移植!」と言ってもいいのでは
  • GitHub - anthropics/anthropic-retrieval-demo: Lightweight demo using the Anthropic Python SDK to experiment with Claude's Search and Retrieval capabilities over a variety of knowledge bases (Elasticsearch, vector databases, web search, and Wikipedia).

    sh2
    sh2 2023/11/13
    AnthoropicのRAGのデモ
  • RAGにおけるドキュメント検索精度向上について(概要編)

    はじめまして。損害保険ジャパン株式会社 DX推進部の眞方です。普段はリードエンジニアとして、新しいサービスのアーキテクチャ検討からローンチまでの作業や、新規技術を用いたアプリのプロトタイプ実装などを行なっています。 弊社では、LLM(Large Language Models)を活用したアプリケーションの開発を積極的に検討し、既に社内でいくつかのプロトタイプをローンチしています。 記事では、その最も一般的?なユースケースの一つとも言えるRAG(Retrieval Augmented Generative)の構築において、ドキュメント検索精度の向上にどのように取り組んだ内容の概要を紹介させていただきます。実際の詳細な手法および結果については、別記事(実践編)で解説予定です。 はじめに RAGとは? この記事を読まれている方の中にはご存知の方も多いでしょうが、RAGとはRetrieval A

    RAGにおけるドキュメント検索精度向上について(概要編)
    sh2
    sh2 2023/11/12
    いろいろと手法はあるけれど、効果を出すのは難しそう
  • [第十一話]サチ録~サチの黙示録~ - 茶んた | 少年ジャンプ+

    サチ録~サチの黙示録~ 茶んた <毎週金曜更新!最新3話無料>悪魔と天使がある人間を審査し、その結果で人類の命運を決める「人間神判」。対象に選ばれたのは、稀代のクソガキ小学生・上野サチ(6歳)だった…!人類の未来をかけた、悪魔と天使と人間のヘンテコ共同生活が今始まる! [JC1巻発売中]

    [第十一話]サチ録~サチの黙示録~ - 茶んた | 少年ジャンプ+
    sh2
    sh2 2023/11/10
    ちょっと感動してしまった。右ハンドル車なのにシフトレバーを右手で操作しているのは単行本で直してほしい
  • OpenAIのCEO、「GPT-5」の開発には「困難な課題」--ハードウェアの可能性にも言及

    OpenAIの大規模言語モデル(LLM)プログラムの次期バージョン、通称「GPT-5」は、非常に困難な科学的課題に直面しているため、リリース時期について明確なスケジュールを設定するのは難しいという。同社の最高経営責任者(CEO)Sam Altman氏が米国時間11月6日に明らかにした。 サンフランシスコで開催された同社初の開発者会議「OpenAI DevDay」後の記者会見で、同氏は「GPT-5と呼ぶモデルを開発する前に、われわれが解決しなければならないことはまだたくさんある」と述べた。 この発言は、同技術の今後の方向性について出された多くの質問に対し、同氏と最高技術責任者(CTO)のMira Murati氏が回答する中で出たものだ。やり取りの中には、OpenAIが独自の消費者向けハードウェアデバイスを開発する可能性に関する話題もあった。 Altman氏はGPT-5までの道のりについて、「

    OpenAIのCEO、「GPT-5」の開発には「困難な課題」--ハードウェアの可能性にも言及
    sh2
    sh2 2023/11/09
    難しいって正直に言えるCEOすごいな