You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
PHP で「文字列に特定のキーワードが含まれているか」や「文字列中に特定の文字列を含むか」を確認したい場合、どのようなコードを書くだろうか? もし、あなたが strpos()やstrstr()を使う方法を思いついたのなら、これだけは覚えて帰ってほしい。 文字列検索には str_contains() を使え。 結論:文字列検索には str_contains() を使う サンプル 昔はstrpos()やstrstr()などを使っていた strpos() や strstr() ではダメなのか? strpos() を使うべきでない理由 strstr() を使うべきでない理由 preg_match()を使うべきでない理由 「いや、キーワードが先頭にあるかを知りたいんだ」という人は 「日本語でも使えるの?」との疑問について もっと詳しく? これでわかっただろう 結論:文字列検索には str_conta
生成 AI を身近に体験いただける Bard の最大の利点のひとつは、ユーザーのニーズに合わせた回答を提供できることです。たとえば、旅行の計画を作成してもらったり、メールの文章を作成してもらったり、子供たちに科学の問題を説明するのを手伝ってもらったりすることができます。さらに、今回のアップデートにより、アイデアをより簡単に実現できるように、Bard の回答のカスタマイズが更に向上しました。本日より、Bard の高性能なモデルを公開します。これまで英語で提供してきた機能をより多くの言語や国に拡大するほか、より役立つ回答を提供できるよう、Bard を Google のアプリやサービスと統合します(英語のみ対応)。また、「Google で検索」機能を改善し、回答をダブルチェックできるようにしました。 複数機能を多言語・多地域で Google は責任を持って Bard の開発を続けており、これまで
本記事では、最近よく聞くようになった「CRAG」についてざっくり理解します。軽めの記事です。 はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。 この記事は何 この記事は、RAGの新手法として最近注目されている「Corrective Retrieval Augmented Generation (CRAG)」の論文[1]について、日本語で簡単にまとめたものです。 「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー RAGの性能を高めるための新しい手法です。Googleなどの研究者によって2024年2月に提案されました。CRAG(日本語にすると「修正型検索拡張生成」)という手法を使うメリットは、ハルシネーション(幻覚)を減らせることです。CRAGが従来の「RAG」より
本記事では、「Adaptive-RAG」についてざっくり理解します。軽めの記事です。 株式会社ナレッジセンスでは普段の業務で、生成AIやRAGシステムを活用したサービスを開発しています。 この記事は何 この記事は、Adaptive系で現在、最も「コスパ」が良いとされる「Adaptive-RAG」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー RAGの回答精度を高めるための手法です。韓国科学技術院(KAIST)の研究者らによって2024年3月に提案されました。「Adaptive-RAG」という手法を使うメリットは、ユーザーからの入力としてシンプルな質問・複雑な質問、どちらも想定される場合に、「そこまで遅くなりすぎずに、ある程度の回答精度がでる」という点
Spotifyのタブバー、いままで5つだったタブが3つになってた。消えたのはBrowseとRadio。BrowseはSearchに統合され、Radioの機能はたぶん消えた。こういうアップデートって勇気がいるが、結果使いやすくなったと思う。 pic.twitter.com/vf1ncj0qjh — 鈴木慎吾 / TSUMIKI INC. (@shingo2000) October 19, 2018 長く使われ続けているサービスでは、新しい機能がどんどん追加されていきます。新しいユーザーを増やしたり、現在のユーザーを引きつけ続けることが主な理由で、Spotifyにも様々な機能が追加されています。それにも関わらず主要なナビゲーションのタブを減らすのは勇気のいる選択だと思いました。プロダクト開発に関わっていると実感しますが、何かを付け加えることよりも何かを削ることのほうがずっと難しいのです。このU
Twitterの“API制限”で別のSNSに移動するユーザーも出ている中で、米Metaが7月6日(日本時間)、Twitterによく似た新SNSアプリ「Threads」(iOS/Android)のサービスを始めた。実際に使ってみて、どのくらいTwitterに近いのか検証してみた。 Instagramをやっているのが前提 Threadsは単体のアプリとしてアプリストアに載っているが、立ち位置としては「Instagramプラットフォームの一部」になっている。登録・ログイン画面には「Instagramでログイン」と書いてある。 一応Instagramアカウントがなくても登録できるようにはなっているが、試してみたところ「あなたのアカウントは現在Instagramに表示されておらず、利用できません」としてアカウントを一時停止(凍結)状態にされた。
ヘンリーの Lead Architect の kohii です。 先日、医療系の個人開発サービス MediXplorer を作ったので、簡単なサービス紹介と技術的に工夫したこととかについて書きます。 作ったもの MediXplorer は厚労省(もしくは社会保険診療報酬支払基金)から提供される 医科診療行為マスター を検索・閲覧するためのWebアプリケーションです。 医科診療行為マスターって? 日本には診療報酬制度というものがあり、病院等が医療サービスを提供した際の医療費の計算ルールが定められています。このシステムのもと、医療機関は提供した医療行為ごとに決められた点数に基づき医療費を計算し、患者や保険組合に請求します。(初診料 = 288点 みたいなやつ。1点10円で、通常そのうちの3割を会計時に支払う。) 「医科診療行為マスター」は、これらの医療行為のデータベースの一つで、列数150、行
1. RAG「RAG」(Retrieval Augmented Generation) は、最新の外部知識の習得とハルシネーションの軽減という、LLMの2つの主要課題に対処するためのフレームワークです。開発者はこの技術を利用して、AI搭載のカスタマーボット、企業知識ベース、AI検索エンジンなどをコスト効率よく構築できます。これらのシステムは、自然言語入力を通じて、さまざまな形態の組織化された知識と相互作用します。 下図では、ユーザーが「アメリカの大統領は誰ですか?」と尋ねると、システムは回答のためにLLMに質問を直接渡しません。代わりに、ユーザーの質問について、知識ベース (Wikipediaなど) でベクトル検索を実施します。意味的な類似性マッチングを通じて関連するコンテンツを見つけ (たとえば、「バイデンは現在の第46代アメリカ合衆国大統領です...」)、LLMに発見した知識とともにユ
イーロン・マスク氏が7月に突如として行った「Twitter」から「X」への名称変更は世間を騒がせた。これに先立って始まったツイートの閲覧制限もあり、愛想を尽かしたTwitterユーザーは他のSNSへの「大移動」を検討していた人もいたようだ。移動先としていくつかのSNSが注目されたが、急先鋒は米メタの対抗サービス「Threads」(スレッズ)だろう。 UIをTwitterにかなり似せてきたThreadsが1億ユーザーを獲得するためにかかった日数はわずか5日。このスピードの要因には、メタが擁するInstagramとの連携が功を奏したのは確かだ。とはいえ、ChatGPTが1億ユーザーに達するまでの「約2カ月」という驚異的なスピードをさらに上回ったことで、Threadsのリリース直後は相当もてはやされていたように思う。 ところが「山高ければ谷深し」という言葉にもあるように、現在ユーザーのThrea
本記事について 2023年10月にSpotifyが新たな近似最近傍探索ライブラリとして「Voyager」を発表した[1]。本記事ではVoyagerについて調べたことや、単語の類似検索をユースケースとした実装サンプル、Annoyとの性能比較の結果を備忘としてメモしておく。 近似最近傍探索とは Voyagerの話に入る前に、近似最近傍探索について説明する。 最近傍探索 (Nearest Neighbor Search)とは、あるベクトルのクエリが与えられたときに、そのクエリと「最も似ているベクトル」をベクトルの集合から見つける技術である。 ナイーブな方法としては、クエリのベクトルと、集合の一つ一つのベクトルとの距離をコサイン類似度などで計算し、最も距離が近いものを抽出する線形探索が考えられる。しかし、このアプローチではO(N)(Nは集合のサイズ)で探索に時間がかかるため、データセットが膨大にな
はじめに 新規事業統括部の山本です。 ChatGPTをはじめとした、大規模言語モデル(Large Language Model)を使用したサービスを利用することで社内の業務効率化をした、というニュースを聞くことが増えてきました。クラスメソッドでもOpenAI APIなど、AIを利用した社内の業務効率化に取り組んでいます。 前回の記事では、OpenAIのAPIを利用した業務効率化のためのはじめの一歩として、自社ブログ(DevelopersIO)の記事を検索するボットを作成してみました。ベーシックな文章検索+応答生成(Retrieval Augmented Generation)ではなく、クエリ自体もLLMに考えさせるChatの機能を付与し、実際の動作を確認しました。 https://dev.classmethod.jp/articles/implement-devio-articles-se
はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野・平野です。 今回は「LLM開発のためにMLOpsチームがやるべきこと」というテーマで、従来のMLOpsとの違い・ツール・構成例等について調査・整理しました。 LLMとはLarge Launguage Model(大規模言語モデル)の略であり、ここでのLLM開発とは、「LLM自体の開発」および「LLMを活用したシステム開発」の両方を含むものとします。LLM開発のフローについては以前にLLM開発のフローで詳細を説明しているので、ぜひ併せてご覧ください。 まず、MLOpsとは「機械学習モデルの実装から運用までを円滑に推進するための手法や考え方」のことです。AIの社会実装が増えるに伴い、MLOpsチームを設ける企業も増えてきました。また、最近ではLLMやその関連技術が急速に発達してきており、今後LLMを用いたアプリケーション
ブログを書くときにポイントとなってくるのは、読者の方がどういった内容を読みたいと思っているのかだと思います。たくさんの方が検索エンジンを通じて、ブログ記事を読みにきていただけると、それだけブログのアクセス数も増加し、ブログが育っていきます。書く内容が明確であれば、すぐに書き始めることもできるのですが、書く内容が迷ったとき、ネタが尽きてしまったときにはどうすればよいのでしょうか?そのようなときには、何かキーワードを探さなければなりません。この記事では、ブログ記事に困ったときのポイントについてお伝えします。 ブログのキーワードを選ぶ際には、検索エンジン最適化(SEO)や読者のニーズを考慮することが重要です。参考にしていただければと思います。 目標の設定 1.ブログ記事の目的明確化 2.ターゲット読者層の把握 ニッチキーワードの特定 1. テーマやジャンルの明確化 2.特化したキーワードの選定
Twitterがアプデで使いづらくなったり、不具合発生やサービス停止となった時のために、避難先や移住先を記入できる掲示板を作成しました。 ①Twitterと同じアイコンを設定することを推奨します ②移住先のSNSは一例なので、URLを全て埋める必要はありません ③投稿編集機能がないので、間違えて記入してしまった場合は削除して投稿し直すか、返信機能で訂正してください ④ユーザーを探したい場合は検索機能をご利用ください 以下記入例テンプレ ※()内を上書きしてください ----- 【アカウント名】(Twitterの名前を記入) 【Twitter URL】https://twitter.com/(IDの@以降を記入) 【プロフィール】(Twitterのbioを貼り付け) 【移住先】 ・Instagram:(必要に応じてID貼り付け) ・Mastodon:(必要に応じてID貼り付け) ・Missk
こんにちは!JADEの垣本です。 最近一気読みしたマンガは『ダンジョン飯』、今いちばん続きが気になるマンガは『忍者と極道』です。 前回の記事「私がSEOのコンテンツプランニングで大切にしていること」では、「コンテンツを作るときに考えるべきことは?」という話を書きました。今回は、その手前の段階である「そもそもどんなコンテンツが必要?」という点を掘り下げたいと思います。 特に「検索クエリってどうやって洗い出すの?」「検索クエリをピックアップしてみたけど、優先順位の付け方が分からない……」という悩みをお持ちの方へ。私なりの回答をご提案します。 ※前回の記事に引き続き、当記事におけるコンテンツは、自然検索流入を増やすことをKPIとしたものを念頭に置いています。 よくある質問「月5本の記事を作りたいのですが、何から着手すべきですか?」 よくある質問への答え「検索ジャーニーから考えましょう」 実践:し
この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。 昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。 例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana
February 05, 2024 · 26 mins · 4728 words Discussion on HackerNews. Last September I hopped on board with Wallapop as a Search Data Scientist and since then part of my work has been working with Solr, an open source search engine based on Lucene. I’ve got the basics of how a search engine works, but I had this itch to understand it even better. So, I rolled up my sleeves and decided to build one fr
官報のデジタル版は現在も「インターネット官報」で公開されているが、無料で閲覧できるのは直近90日間のPDFデータのみ。検索したい場合は有料サービスに登録する必要がある。 新法についてデジタル庁は「インターネットでいつでも・どこでも・無料で閲覧できるよう、官報の電子化と連携して法令立案プロセスのDXを進める」としている。 関連記事 破産者情報サイトに停止命令 個人情報保護委 個人情報保護委員会が、破産者情報サイトに停止命令。従わない場合は、刑事告発を検討する。 個人情報保護委員会、「新・破産者マップ」調査へ 「事実確認の上で適切に対処したい」 自己破産した人の氏名や住所をGoogleマップ上にプロットした「破産者マップ」が公開されている問題に対し、個人情報保護委員会は対応を進めていることを明らかにした。 閉鎖した「破産者マップ」、行政指導されていた 個人情報保護法に違反? 個人情報保護委員会
この記事は 一休.com Advent Calendar 2023 6日目の記事です。 一休レストランの開発チームでエンジニアをしている香西です。 今回は Solr クエリの速度改善についてお話します。 背景 2023年10月、一休レストランのスマートフォン用 レストラン詳細ページをリニューアルしました! UI/UX の見直しとともに、使用技術も一新しました。 バックエンド言語:Python から Rustへ フロントエンドフレームワーク:Nuxt.js から Next.jsへ*1 スマートフォン用 レストラン詳細ページ 課題 「日付を選ぶカレンダーの表示が遅い」 社内限定リリースの直後、多方面からこの声が聞こえてきました... レストランへ行く日付を選ぶカレンダーは予約フローの第一ステップなので、表示速度が遅いことは致命的です。 特に、設定データ(料理のコース種類・席の種類など)が多いレ
google検索の劣化して専門家はdiscordに行ってしまいインターネットには屑情報だけになってしまった https://orangestar2.hatenadiary.com/entry/2024/02/13/174845 google検索の劣化について、首がもげるほど同意した。というか個人的にタイムリーすぎてびびった。 というのも月曜に、子供の自由研究みたいなの手伝って星のベテルギウスについて調べたのね。そしたら重さのところにkg以外にMみたいな記号があったから、なんやろって思ってiPadで「星の重さ M」でぐぐったら↓のサイトが2位ぐらいにひっかかちゃったのよ。(ほんとうはURL貼りたくないのだが) https://planetariodevitoria.org/ja/espaco/quantos-quilos-tem-uma-estrela.html で文章が変なのでAI生成くさ
ユーザーへのアンケートで過半数の人が「旅行の計画が面倒」「行先が単調」といった悩みを抱えていることから開発した。「自分で行き先を考えたり探したりする手間をなくし、選択肢が増えることで旅やお出かけのマンネリ化解消につなげ、より手軽で充実した移動体験を提供できる」(ヴァル研究所)としている。 今後はユーザーの意見や要望を反映して機能を改善する。 関連記事 IBMも生成AI「watsonx」 透明性とカスタマイズ性で“ビジネスに使えるAI”強調 米IBMが、生成AIを含むAIとデータのプラットフォーム「watsonx」を市場に7月から順次投入する。市場のホットワードとなっている生成AIに対し、透明性やカスタマイズ性を付加価値としてビジネス向けの展開を図る。 ChatGPTアプリ日本でも 類似アプリも多く要注意 AIチャットbot「ChatGPT」のiOSアプリが日本でも利用できるようになった。ア
第1 はじめに FAQシステムやチャットボットなど「何か知りたいこと(検索文・質問文)」を入力して検索や回答生成を行うに際して、検索や回答精度を向上させたり、回答根拠を明示させるために、LLM技術と外部データを組み合わせたシステムの研究開発や実装が急速に進んでいます。 LLMが外部データを参照できるようにするには、LLMそのものをFine-tuningする方法、プロンプトで情報を与える方法、RAGによって外部データを保存したデータベース (Data Base; 以下DB) から呼び出す方法の3つがあります。 ここでいう「外部データ」とは、「LLMの外部にあるデータ」という意味でして、その中には社内文書や、書籍・ウェブページ上のデータなどが含まれます。当該「外部データ」の中には、他人が著作権を持つ著作物(以下「既存著作物」といいます)も含まれるため、それら既存著作物を外部データとして利用する
ベクトル検索(Vector Search)とは? キーワード検索との違い:AI・機械学習の用語辞典 用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル(埋め込み)として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。 連載目次 用語解説 AI/機械学習/自然言語処理におけるベクトル検索(Vector Search:ベクター検索)とは、テキストや画像などのデータを数値ベクトルとして表現し、それらのベクトル間の類似度(主にコサイン類似度)を計算することで、関連する情報を見つけ出す検索方法のこと、またその方法による検索のことである。なお、数値ベクトル
生成AIの隆盛に伴い、ベクトル検索やベクトルデータベースが注目されています。 ベクトルについてより理解するために簡単なデモサービスを作ってみました。 この記事では作ったサービスをもとにベクトルについて説明し、後半では生成AIとベクトルの関連について紹介します。 つくったもの 「しもふりサーチ」 - お笑いコンビ「霜降り明星」のYouTubeチャンネル、「しもふりチューブ」の過去動画を検索できるサービスです。 このサービスには以下の2つの機能があります。 1. 文章での動画検索 文章で動画を検索する 「粗品さんがクイズを出題する回」 や 「せいやさんがギターを弾く回」 など、自然言語で動画を検索できます。 2. 関連動画レコメンド 内容の近い動画をレコメンドする 動画を選ぶと、過去動画の中から内容の近い動画をレコメンドします。 これらの機能はベクトル検索で実現されています。詳細を説明していき
ChatGPTをはじめとする生成AIの動きも、実にさまざまな進化が続き、すでに業務改善DXのような形で、ビジネスの現場でも活用されています。そんな中、これまでとは少し変わった形でリリースされたのが、東洋経済新報社の「四季報AI」です。 四季報AIは、米OpenAIのチャットAI、ChatGPTを活用し、会社四季報オンラインに掲載されている記事やデータを主な参考元として、株式投資や銘柄研究に役立つヒントを、対話形式で引き出すことができるサービスです。 なるほど、この四季報AIは、ChatGPTそのものだけに何かしらの回答を求めるのではなく、ChatGPTを経由して、これまで東洋経済新報社が蓄積してきた膨大なデータに辿り着きやすくする試みだと思われました。 実際、サービス設計も、現在はβ版(招待制、無料で提供)として運用されていますが、正式版リリース後は「会社四季報オンライン」の有料プランの付
はじめに 科学分野の5択問題を解くLLMの精度を競うKaggle - LLM Science Exam というkaggleコンペが2023/10/11まで開催されていました。 コンペ終了後に公開された上位チームの解法からたくさん学びがあったので、備忘録も兼ねてまとめていきたいと思います。 コンペ概要 問題文(prompt)とA~Eの選択肢(option)が与えられ、それを解くモデルの精度を競うコンペでした。 テストデータはSTEM分野のWikipedia記事からGPT3.5に作成させたことがDataタブで明言されていました。 上位チーム解法まとめ 1. Approach 全てのチームが、問題の生成元となった記事をwikiテキストデータセットから検索(Retrieval)し、関連するテキスト(context)もモデルに入力するRAGと呼ばれるアプローチを採用していました。 RAGを行わないと
セキュリティチームの ぐっちー です。Azure OpenAI Service において新しくパブリックプレビューが開始された「on your data 機能」を使ってChatGPTに自社データを組み込む方法を紹介したいと思います。 3行サマリー 従来、ChatGPTに自社データを組み込むためには、APIを使った開発が必要であり、開発を専門としない人間が片手間で実施するには難易度の高いものでした。 新しく登場したAzure OpenAI Service「on your data 機能」を使うと、GUI上での簡単な操作で自社データをChatGPTに組み込むことができるようになりました。 精度を高めるには、データセットの整備やPrompt engineeringをキッチリ実施していく必要があり、依然としてそれらは難易度が高いですが、ChatGPTのビジネス活用に大きな前進をもたらしたアップデー
みなさん、こんにちは。サイオステクノロジー武井です。今回は、Azure OpenAI ServiceによるRAG実装ガイドを公開しましたので、ご紹介させてください。 ※ このブログでのご紹介ととも以下のイベントでもガイドに関する詳細なご説明や、ガイドにはないデモなどを実施しますので、ぜひご参加ください。 Azure OpenAI ServiceによるRAG実装ガイドを公開しました https://tech-lab.connpass.com/event/315703 Azure OpenAI ServiceによるRAG実装ガイドとは? 以下のURLで公開しております。執筆しているうちに100ページ超の壮大なものとなってしまいました。 https://dev.noriyukitakei.jp/docs/aoai-rag-dev-guide.pdf 本ガイドの目的は、「シンプル」「強力」「すぐ動
こんにちは。検索基盤部の橘です。検索基盤部では、ZOZOTOWNのおすすめ順検索の品質向上を目指し、機械学習モデル等を活用しフィルタリングやリランキングによる検索結果の並び順の改善に取り組んでいます。 ZOZOTOWN検索の並び順の精度改善の取り組みについては以下の記事をご参照ください。 techblog.zozo.com 検索基盤部では新しい改善や機能を導入する前にA/Bテストを行い効果を評価しています。A/Bテストの事前評価として、オフラインの定量評価と定性評価を実施しています。これらの評価によりA/Bテストの実施判断をしています。 おすすめ順検索のフィルタリング処理の効果検証として導入したオフライン定量評価の方法については以下の記事をご参照ください。 techblog.zozo.com 以前の記事で紹介したオフライン評価を日々運用する中で、幾つか課題点が見つかりました。本記事では、そ
はじめに そもそも debounce 処理って? 本題 今回作りたかったもの 検討したこと useDebounce useDebouncedValue 実装したもの 最後に はじめに テックタッチのフロントエンドエンジニアの ozaan (@shzawa) です。関西 (兵庫県姫路市) 在住のため、普段はフルリモートのメンバーとしてサービス開発に取り組んでいます。 最近はスクラム開発の一環でバックエンドのコード (golang) を触らせてもらっていました。golang だと書き方が統一されているためか GitHub Copilot の補完機能がかなり効くので書いていて面白かったです。 そもそも debounce 処理って? 対象のイベントが発生してから指定した時間が経過するまでは、同じイベントの発生を抑制する仕組みです。 input 要素の onChange イベントのような短い間隔で連
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く