タグ

*algorithmとsearchに関するsh19910711のブックマーク (120)

  • Recommender Systems: The Textbookの要点まとめ(随時更新) – かものはしの分析ブログ

    都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに レコメンド関連の書籍を探していた際に、 Recommender Systems: The Textbook (English Edition)の無料公開されているPDFを見つけたので、それについて読んでは追記するスタイルでメモを残していこうと思います。(すごく長くなる予感) これまで読んできたレコメンド関連のの中では、説明が丁寧だったり事例が豊富に思います。数式はあまり出てこないですが、言葉でちゃんと説明しようとしているのが感じられます。『AIアルゴリズム

    sh19910711
    sh19910711 2024/06/10
    "レコメンド関連の本の中では、説明が丁寧だったり事例が豊富 / 『AIアルゴリズムマーケティング』のレコメンドの章もわかりやすく幅広いトピックが扱われていますが、それに匹敵する本" 2021
  • [IR Reading 2022春 論文紹介] Personalized Transfer of User Preferences for Cross-domain Recommendation (WSDM 2022) /IR-Reading-2022-spring

    sh19910711
    sh19910711 2024/06/09
    "CDを購入したことがないユーザーに対して映画のインタラクションを使ってCDを推薦 / 推薦タスク指向のメタ学習 / ブリッジ: ソースドメインからターゲットドメインへユーザーの興味を伝達" doi:10.1145/3488560.3498392 2022
  • ランキングアルゴリズムにおける効率的なオンライン評価手法 ~インターリービング (Interleaving) の利用~

    2019/2/19 の s-dev talks 〜サービス開発勉強会〜「仮説の立て方」(https://s-dev-talks.connpass.com/event/118037/) での発表内容です. ランキングアルゴリズムをリリースする過程でのオンライン評価について概要をお話させていただきました.

    ランキングアルゴリズムにおける効率的なオンライン評価手法 ~インターリービング (Interleaving) の利用~
    sh19910711
    sh19910711 2024/06/08
    "ABテスト: 有意な差が出るまでに大量のサンプル数 (impression数, PV数)が必要 / Interleaving: 2つのランキングから交互にアイテムを選択 + 同一のユーザー郡に提示して性能を評価 Chapelle'12" 2019
  • ナレッジグラフでスターウォーズファンに映画を推薦する|kiha

    人間の持つ知識を形式的に表現する、知識表現の研究は古くからなされてきており、例えば一つの形としてWebシステムではよくつかわれるリレーショナルモデルなどがある。近年よく着目されているのがナレッジグラフであり、先端的な研究を超えて、実産業での活用事例(例えばGoogleのナレッジグラフサーチ)も多くみられるようになった。 記事では、noteのレコメンドシステムも手がけている筆者がWikidataのエンドポイントを利用して、ナレッジグラフを探索し、スターウォーズファンにおすすめできそうな映画をリストアップしてみる。最終的にこんな感じのリストが得られる。スターウォーズファンのみなさまには、興味が惹かれるタイトルがあっただろうか? ナイト ミュージアム2 インディ・ジョーンズ/クリスタル・スカルの王国 地獄の黙示録 チャーリーズ・エンジェルフルスロットル ブレードランナー 2049 ジャッジ・ド

    ナレッジグラフでスターウォーズファンに映画を推薦する|kiha
    sh19910711
    sh19910711 2024/06/07
    "RDF: リレーショナルモデルとは異なり、主語・述語・目的語からなる / RDFにおいては、主語と目的語はURLのように唯一固有のIDをもち / SPARQLというSQLのようなSyntaxの問い合わせ言語がW3Cで定義"
  • Search Engineering Tech Talk 2024 Springに参加した & ちょっとだけ運営お手伝い - ときどき起きる

    こんにちは、 pakioです この度5/31にLegalOnさんのオフィスで開催された Search Engineering Tech Talk 2024 Spring (検索技術勉強会)に参加、縁あって初めて勉強会の運営側に携わらせていただいたのでその記録です。 search-tech.connpass.com 検索技術勉強会自体は検索エンジニアとしてキャリアをスタートした2019年から参加しており、前回2023年12月には登壇もさせていただいた勉強会で、個人的に思い入れがある会でした。 前回登壇時の記事はこちら => hit-the-sack.hatenablog.com 前回の勉強会後に id:takuya-a さんとお話している中、(自分から猛プッシュした結果)運営にお誘いいただき、今回お手伝いをさせていただく運びとなりました。 各セッションの感想 RAG改善からみたクエリ・ドキュ

    Search Engineering Tech Talk 2024 Springに参加した & ちょっとだけ運営お手伝い - ときどき起きる
    sh19910711
    sh19910711 2024/06/06
    "検索エンジニアというポジションはバックエンドなようで機械学習的な要素も絡んでくる、非常にユニークなポジション / そんな分野で日々各社がどのような課題を抱え対処しているのか"
  • 相互推薦システムの研究動向のサーベイ | Wantedly Engineer Blog

    こんにちは。ウォンテッドリーのデータサイエンティストの市村 (@chimuichimu1) です。ウォンテッドリーでは、テクノロジーの力で人と仕事の最適なマッチングを実現するために、推薦システムの開発に取り組んでいます。この記事では、Wantedly Visit で活用されている「相互推薦システム」という技術に注目し、その概要や近年の研究動向を紹介したいと思います。 相互推薦システムとは?相互推薦システムとは一言で言うと「サービス内のユーザーを互いに推薦し合う」システムのことです。一般的な推薦システムでは、ユーザーからアイテムへの嗜好に基づいて、ユーザーに対してアイテムを推薦します。一方で相互推薦システムでは、推薦されるユーザーと推薦を受け取るユーザーの両方の嗜好に基づき、ユーザーに対してユーザーを推薦します。 相互推薦システムのユースケースとしては、ジョブマッチングやオンラインのデーティ

    相互推薦システムの研究動向のサーベイ | Wantedly Engineer Blog
    sh19910711
    sh19910711 2024/06/04
    "Lai'24: 同じ知識グラフで表される関係であっても候補者側と募集側とでその情報の持つ意味が変わる / 損失関数に ~ 「候補者をスカウトしたが断られた」というような片方向の嗜好の情報を組み込む" doi:10.1609/aaai.v38i8.28708
  • Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

    NTTドコモの久保田です。2度目の登場です。 みなさんItem2Vecという技術をご存じでしょうか。 Item2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。 簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 Item2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にItem2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、item_buskets.tx

    Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita
    sh19910711
    sh19910711 2024/05/30
    "ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019
  • 推薦システム実践入門読んだので簡単に所感 - KIWAM_KEN_DIARY

    書くときは頑張って書く。 以前会社で同僚だったhttps://twitter.com/zr_4から献してもらった推薦システム実践入門を読んだ。 www.oreilly.co.jp 章立ては以下のようになっている。 1章 推薦システム 2章 推薦システムのプロジェクト 3章 推薦システムのUI/UX 4章 推薦アルゴリズムの概要 5章 推薦アルゴリズムの詳細 6章 実システムへの組み込み 7章 推薦システムの評価 8章 発展的なトピック 推薦システムの書籍だとモデルの部分にフォーカスを置いたものが多い印象だけど、この書籍は4,5章でモデルの話をしている以外ではあまり触れられていない。 むしろ推薦システムをどのような目的で導入するべきなのか、どのようにシステムを作るべきなのか、どのように評価して改善をしていくのか、そういった推薦システムの基的な部分を広く網羅したものになっている。 そういっ

    推薦システム実践入門読んだので簡単に所感 - KIWAM_KEN_DIARY
    sh19910711
    sh19910711 2024/05/27
    "個人的に良いなと思った章は3章で、推薦システムの利用シーンのケースとそれに対応するアプローチが網羅 / 6章、7章はレコメンドをサービスに届けるために必要なシステム周りの話と評価方法について" 2022
  • Matrix Factorizationとレコメンドと私 - Qiita

    レコメンドにおける次元削減手法の一つであるMatrix Factorizationについてまとめた自分用メモ的なものです。 なおタイトルは「部屋とYシャツと私」にちなんだだけで、ちなんだ意味はありません。 1. レコメンドシステムにおける次元削減 1.1 レコメンドの設定と協調フィルタリング すでにレコメンドをたくさんされている方にとってはとても当たり前の話かもしれませんが一応前提をば。 今回考えるデータセットはMovieLens100kのように「ユーザ×アイテム」の行列でできているもので、例えば以下のような形のものを想定しています。 レコメンドでおなじみの協調フィルタリング1では相関係数やコサイン類似度を用いてユーザ(orアイテム)同士の類似度を出し、それを用いた評価の予測値に基づきレコメンドをするという趣旨のものでした。 この協調フィルタリングのようなレコメンド手法のことを近傍ベースア

    Matrix Factorizationとレコメンドと私 - Qiita
    sh19910711
    sh19910711 2024/05/27
    "synonymy: 赤い缶のコーラを買う人と青い缶のコーラを買う人はそれぞれ別の色のコーラを買わないと思われ + 通常の協調フィルタではこの赤い缶ユーザと青い缶ユーザの類似性をうまく捉えることができません" 2019
  • VAEによる画像検索システム - Qiita

    ※データセットの配布元: GitHubfashion-mnist/zalandoresearch」。The MIT License (MIT) Copyright © [2017] Zalando SE, https://tech.zalando.com ※出典: Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747 また、ネットワークは以下のようなものを用います。 エンコーダー デコーダー VAEの結果 作成したVAEモデルは以下のような結果になりました。 訓練結果 最初はテストデータの誤差が異常に大きくなっていましたが、正常に訓練できています。 再現画像 上段

    VAEによる画像検索システム - Qiita
    sh19910711
    sh19910711 2024/05/26
    "VAEにより次元圧縮をして、潜在空間上で距離が近いものを検索 / 最初はCIFAR-10でやろうとしていたのですが、カラー画像だとVAEの学習がどうしてもうまくいかないようだった" 2021
  • 特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images

    情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回 研究会 http://www.iot.ipsj.or.jp/news/iot37-program

    特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images
    sh19910711
    sh19910711 2024/05/26
    "ニューラルネットワーク: 入力が層を経過するごとにタスクに特化した識別箇所を強調 + 最も識別箇所を強調する特徴を出力する識別層手前までからの出力を特徴出力器として採用 / mruby-annoy+ngx_mrubyにより近似近傍探索" 2017
  • Elasticsearch LTRプラグインと特徴量キャッシュ機能の基本 - ZOZO TECH BLOG

    はじめに こんにちは、検索基盤部 検索研究ブロックの真鍋です。ヤフー株式会社から一部出向していて、主にZOZOTOWNの検索機能へのランキングモデルの導入に従事しています。 記事では、Elasticsearch上でランキングモデルを扱うための有名なプラグインの仕組みと、同プラグインにZOZOが実装した機能を紹介します。 まず、記事の背景を説明します。ZOZOTOWNでキーワード検索すると、結果の商品が並びます。結果の商品は非常に多数になることも多いので、ユーザ体験を損なわないためには、その並び順も重要です。ここで言うランキングモデルとは、この並び順の決定のために、商品のスコアを計算する式のことを指します。このような式は機械学習によって生成され、非常に複雑になることもあります。そのため、検索エンジンの標準機能では実行できず、プラグインを導入して初めて実行できることもあります。 ZOZOT

    Elasticsearch LTRプラグインと特徴量キャッシュ機能の基本 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/05/25
    "OpenSource Connectionsが提供するLearning to Rank plugin / 本プラグインの主要な機能として、他に特徴量ロギングがあり / 既存のランキングモデルを実行して検索結果を返しつつ、新しいランキングモデルを学習" 2022
  • [python] kd木を使った最近傍探索 - Qiita

    import numpy as np import matplotlib.pyplot as plt import pandas as pd import time class Linear: def __init__(self,pointlist): self.pointlist = np.array(pointlist) def search(self,point,q=1): length = [] for i in self.pointlist: length.append([self.L2(i,point),list(i)]) if q == 1: return [i[1] for i in sorted(length)][0] else: return [i[1] for i in sorted(length)][:q] def L2(self,point1,point2): #

    [python] kd木を使った最近傍探索 - Qiita
    sh19910711
    sh19910711 2024/05/23
    "kd木: データの軸をずらしながら、それぞれの軸の中央値を取る / どれかの軸についての絶対値を比較 + 絶対に最近傍点の存在しない領域を排除する / 次元数を増やすと計算量があまり削減できなくなる" 2022
  • 【推薦システム】レコメンドアルゴリズムまとめ①【入門/協調フィルタリング/NMF】 - Qiita

    一言で表すと、ユーザーの行動履歴に基づいた推薦アルゴリズム。 メモリベースの手法とモデルベースの手法の二種類があります。 メモリベース手法 ユーザ間の類似性やアイテム間の類似性に着目して推薦を生成する手法です。 このうち、さらにユーザーベースの手法とアイテムベースの手法に分類されます。 特徴 ドメイン知識を必要としない(商品の内容を知らなくてもレコメンドできる) 異なるジャンルをまたいだ推薦ができる 利用者が多い場合に有利 推定の都度全データに対して計算を行う(類似度を計算する)アプローチをとるのでデータのサイズに比例して計算コストが高くなる。 ユーザーベース 対象となるユーザーと類似した嗜好を持つユーザーのグループを調べることによって、各ユーザーに適したレコメンデーションを提供する手法です。 メリット アルゴリズムがシンプル、データセットが頻繁に変更されても対応できる。 デメリット 巨大

    【推薦システム】レコメンドアルゴリズムまとめ①【入門/協調フィルタリング/NMF】 - Qiita
    sh19910711
    sh19910711 2024/05/21
    "Cold Start問題: 嗜好に関するデータがある程度集まらないと有意な推薦ができない / NMF: 元行列Vと分解したW,Hの要素の値がすべて非負値 + 基底ベクトルと係数を非負に限定することで、係数が疎になりやすく" 2021
  • 【論文解説】Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary Items - Qiita

    【論文解説】Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary ItemsMachineLearningDNNRecommendation論文読みGNN はじめに 出典: AAAI 2023 Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary Items という、AAAIに提出された論文を紹介します。 この論文は中国のMeituan Maicaiと呼ばれるオンラインスーパーマーケットの研究者が取り組んだ、商品推薦の論文です。 論文を選んだ動

    【論文解説】Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary Items - Qiita
    sh19910711
    sh19910711 2024/05/21
    "E-Commerceサイトの推薦: ユーザーが見ている商品の代替商品だけでなく一緒に買われる補完商品の推定も重要 / 関係の強さも考慮したtriplet loss + 代替商品と補完商品それぞれの埋め込みベクトルを交差" doi:10.1609/aaai.v37i4.25532
  • Baysian Personalized RankingとMatrix Factorizationの比較(実装編) - Higu`s diary

    こんにちは、Wantedlyでデータサイエンティストをしている21新卒の樋口です。 www.wantedly.com 記事はWantedly 21新卒 Advent Calendar 2021の2日目の記事です! 5人で25記事書くの半端なく大変ですが、頑張っていきたいです...! qiita.com 先日Bayesian Personalized Ranking(BPR)という推薦システムの有名な論文(引用数4000程度)を読みました。 [WIP] BPR: Bayesian Personalized Ranking from Implicit Feedback · Issue #51 · zerebom/paper-books · GitHub アイテムの評価値の予測誤差を最小化するのではなく、評価値の順序を最適化することで、精度高くアイテムを推薦しようという趣旨の論文です。しかし、

    Baysian Personalized RankingとMatrix Factorizationの比較(実装編) - Higu`s diary
    sh19910711
    sh19910711 2024/05/19
    "BPR: アイテムの評価値の予測誤差を最小化するのではなく、評価値の順序を最適化 / 評価したアイテム(pos_item) > 評価していないアイテム(neg_item)となるという仮定を置いて、 p(pos_item > neg_item) となる確率" 2021
  • IR Reading 2023 Spring 参加レポート - LegalOn Technologies Engineering Blog

    こんにちは、検索・推薦チームの浅野(@takuya_b / @takuya_a)です。 2023年6月10日に開催された IR Reading 2023春に、弊社の勝田(検索・推薦)、宮里(検索・推薦)と参加しました。 今回は、そちらの様子をレポート形式でお届けします。 IR Reading とは 情報検索に関連する、直近の国際会議で発表された論文の読み合わせを行う勉強会です。5分〜15分の発表+質疑応答、という形式で行われており、ACM SIGIR 東京支部の方々によって運営されています。 今回参加した IR Reading 2023春では、主に以下の国際会議の論文が対象となっていました。 WSDM 2023 CHIIR 2023 ECIR 2023 TheWebConf 2023 セッションレポート Accelerating Learned Sparse Indexes Via Ter

    IR Reading 2023 Spring 参加レポート - LegalOn Technologies Engineering Blog
    sh19910711
    sh19910711 2024/05/18
    "言語横断: クエリを翻訳するだけでは上手くいかない / 小規模な対訳コーパスを利用して言語間で埋め込みの集合同士の距離を近づける(最適輸送問題を解く)ことで埋め込みの対応を学習" doi:10.1145/3539597.3570468 2023
  • embeddingを用いた分析・検索・推薦の技術

    『Future Tech Night #17「embeddingの活用」と「MLOps」のAI勉強会』(https://future.connpass.com/event/231310/)で発表した資料です。

    embeddingを用いた分析・検索・推薦の技術
    sh19910711
    sh19910711 2024/05/13
    "LaBSE: 英語をpivotに109ヵ国語をベクトルへ変換可能 / USE-L: 16ヵ国語に対応 + Transformerを用いており文長Lに対しO(L^2)で動作し重いがその分精度がいい + USEに比べ14倍の実行時間 / faissに実装されているspherical kmeans" 2021
  • Matrix FactorizationとDeep Matrix Factorization(Keras)でのレコメンド - statsuのblog

    レコメンドの手法であるMatrix Factorizationについて勉強したのでその記録です。 以下の検証に関するコードはgithubにあげてあります。 github.com 1. 記事の概要 レコメンドの手法であるMatrix Factorizationについての概要 Matrix FactorizationのNeural Network形式の表現とKerasでの実装 Deep Matrix Factorizationの表現とKerasでの実装 MovieLensでの精度検証 2. Matrix Factorizationの概要 ざっくりと。 Matrix Factorizationはレコメンドの手法のひとつ。 レコメンドの参考サイト レコメンドつれづれ ~1-1. 協調フィルタリングのコンセプトを知る~ - Platinum Data Blog by BrainPad レコメンドつ

    sh19910711
    sh19910711 2024/05/10
    "KerasでDeep Matrix Factorization / Deepにするのは簡単 + どの部分をdeepにするかは工夫のしどころ / Matrix Factorizationめっちゃ強い + Deep Matrix Factorizationはポテンシャルありそうだけど、パラメータチューニングしんどい" 2019
  • 高次元データに対するKNN - Qiita

    特に特殊なライブラリは用いておりません. sklearnを入れているのは,irisによって挙動を確認するためです. コード コードは以下の通りです. import numpy as np import pandas as pd from sklearn.datasets import load_iris from collections import Counter from sklearn.model_selection import train_test_split """ input: train_X: pd.DataFrame(N1, d) test_X: pd.DataFrame(N2, d) train_Y: pd.DataFrame(N1, 1) k: int output: pred_Y: np.ndarrray(N2, k) """ def calculate_simil

    高次元データに対するKNN - Qiita
    sh19910711
    sh19910711 2024/05/07
    "ユークリッド距離: 高次元空間上では,最近傍の点と,最遠傍の点の距離が近くなる + 高次元でもきちんと機能する距離を用いる必要 / ノーフリーランチ定理: 常にこの距離を用いれば良いという指針はなく" 2019