[B! *algorithm][search] sh19910711のブックマーク

Recommender Systems: The Textbookの要点まとめ(随時更新) – かものはしの分析ブログ

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストはじめにレコメンド関連の書籍を探していた際に、 Recommender Systems: The Textbook (English Edition)の無料公開されているPDFを見つけたので、それについて読んでは追記するスタイルでメモを残していこうと思います。（すごく長くなる予感）これまで読んできたレコメンド関連の本の中では、説明が丁寧だったり事例が豊富に思います。数式はあまり出てこないですが、言葉でちゃんと説明しようとしているのが感じられます。『AIアルゴリズム

sh19910711 2024/06/10

"レコメンド関連の本の中では、説明が丁寧だったり事例が豊富 / 『AIアルゴリズムマーケティング』のレコメンドの章もわかりやすく幅広いトピックが扱われていますが、それに匹敵する本" 2021

リンク

[IR Reading 2022春論文紹介] Personalized Transfer of User Preferences for Cross-domain Recommendation (WSDM 2022) /IR-Reading-2022-spring

sh19910711 2024/06/09

"CDを購入したことがないユーザーに対して映画のインタラクションを使ってCDを推薦 / 推薦タスク指向のメタ学習 / ブリッジ: ソースドメインからターゲットドメインへユーザーの興味を伝達" doi:10.1145/3488560.3498392 2022

リンク

ランキングアルゴリズムにおける効率的なオンライン評価手法 ~インターリービング (Interleaving) の利用~

2019/2/19 の s-dev talks 〜サービス開発勉強会〜「仮説の立て方」(https://s-dev-talks.connpass.com/event/118037/) での発表内容です．ランキングアルゴリズムをリリースする過程でのオンライン評価について概要をお話させていただきました．

sh19910711 2024/06/08

"ABテスト: 有意な差が出るまでに大量のサンプル数 (impression数, PV数)が必要 / Interleaving: 2つのランキングから交互にアイテムを選択 + 同一のユーザー郡に提示して性能を評価 Chapelle'12" 2019

リンク

ナレッジグラフでスターウォーズファンに映画を推薦する｜kiha

人間の持つ知識を形式的に表現する、知識表現の研究は古くからなされてきており、例えば一つの形としてWebシステムではよくつかわれるリレーショナルモデルなどがある。近年よく着目されているのがナレッジグラフであり、先端的な研究を超えて、実産業での活用事例（例えばGoogleのナレッジグラフサーチ）も多くみられるようになった。本記事では、noteのレコメンドシステムも手がけている筆者がWikidataのエンドポイントを利用して、ナレッジグラフを探索し、スターウォーズファンにおすすめできそうな映画をリストアップしてみる。最終的にこんな感じのリストが得られる。スターウォーズファンのみなさまには、興味が惹かれるタイトルがあっただろうか？ナイトミュージアム2 インディ・ジョーンズ／クリスタル・スカルの王国地獄の黙示録チャーリーズ・エンジェルフルスロットルブレードランナー 2049 ジャッジ・ド

sh19910711 2024/06/07

"RDF: リレーショナルモデルとは異なり、主語・述語・目的語からなる / RDFにおいては、主語と目的語はURLのように唯一固有のIDをもち / SPARQLというSQLのようなSyntaxの問い合わせ言語がW3Cで定義"

リンク

Search Engineering Tech Talk 2024 Springに参加した & ちょっとだけ運営お手伝い - ときどき起きる

こんにちは、 pakioですこの度5/31にLegalOnさんのオフィスで開催された Search Engineering Tech Talk 2024 Spring (検索技術勉強会)に参加、縁あって初めて勉強会の運営側に携わらせていただいたのでその記録です。 search-tech.connpass.com 検索技術勉強会自体は検索エンジニアとしてキャリアをスタートした2019年から参加しており、前回2023年12月には登壇もさせていただいた勉強会で、個人的に思い入れがある会でした。前回登壇時の記事はこちら => hit-the-sack.hatena blog.com 前回の勉強会後に id:takuya-a さんとお話している中、(自分から猛プッシュした結果)運営にお誘いいただき、今回お手伝いをさせていただく運びとなりました。各セッションの感想 RAG改善からみたクエリ・ドキュ

sh19910711 2024/06/06

"検索エンジニアというポジションはバックエンドなようで機械学習的な要素も絡んでくる、非常にユニークなポジション / そんな分野で日々各社がどのような課題を抱え対処しているのか"

リンク

相互推薦システムの研究動向のサーベイ | Wantedly Engineer Blog

こんにちは。ウォンテッドリーのデータサイエンティストの市村 (@chimuichimu1) です。ウォンテッドリーでは、テクノロジーの力で人と仕事の最適なマッチングを実現するために、推薦システムの開発に取り組んでいます。この記事では、Wantedly Visit で活用されている「相互推薦システム」という技術に注目し、その概要や近年の研究動向を紹介したいと思います。相互推薦システムとは？相互推薦システムとは一言で言うと「サービス内のユーザーを互いに推薦し合う」システムのことです。一般的な推薦システムでは、ユーザーからアイテムへの嗜好に基づいて、ユーザーに対してアイテムを推薦します。一方で相互推薦システムでは、推薦されるユーザーと推薦を受け取るユーザーの両方の嗜好に基づき、ユーザーに対してユーザーを推薦します。相互推薦システムのユースケースとしては、ジョブマッチングやオンラインのデーティ

sh19910711 2024/06/04

"Lai'24: 同じ知識グラフで表される関係であっても候補者側と募集側とでその情報の持つ意味が変わる / 損失関数に ~ 「候補者をスカウトしたが断られた」というような片方向の嗜好の情報を組み込む" doi:10.1609/aaai.v38i8.28708

リンク

Item2Vecを用いて推薦システムを構築するときに気をつけること - Qiita

NTTドコモの久保田です。2度目の登場です。みなさんIt em2Vecという技術をご存じでしょうか。 It em2Vecとは、文章から単語の分散表現を獲得するWord2Vecを推薦システムに適用した技術です。具体的にECサイトでの推薦を考えたときに、Word2Vecの単語を商品に、文章をユーザが評価したアイテム集合として、アイテムの分散表現を獲得し、アイテム間の類似度などをもとに推薦していく感じです。簡単に実装できるので、割とやってみた系の記事が多いですが、実際に推薦システムへの適用を考えたときに気を付けるところがあります。 It em2Vecの実装方針 gensimというトピック分析のライブラリがあり、このライブラリを使えば簡単にIt em2Vecを実装できます。 1行をユーザが評価しているアイテム集合、各アイテムはスペースで区切られたテキストファイル(今回は、it em_buskets.tx

sh19910711 2024/05/30

"ns_exponent (gensim): negative samplingする分布の形状 + デフォルトでは0.75 + 0だとランダムサンプリング + 負の値になると頻度が低いもの / 音楽系のデータセットでデフォルトの2倍ぐらい + Click-Stream datasetでは約10倍の精度向上" 2019

リンク

Matrix Factorizationとレコメンドと私 - Qiita

レコメンドにおける次元削減手法の一つであるMatrix Factorizationについてまとめた自分用メモ的なものです。なおタイトルは「部屋とYシャツと私」にちなんだだけで、ちなんだ意味はありません。 1. レコメンドシステムにおける次元削減 1.1 レコメンドの設定と協調フィルタリングすでにレコメンドをたくさんされている方にとってはとても当たり前の話かもしれませんが一応前提をば。今回考えるデータセットはMovieLens100kのように「ユーザ×アイテム」の行列でできているもので、例えば以下のような形のものを想定しています。レコメンドでおなじみの協調フィルタリング1では相関係数やコサイン類似度を用いてユーザ（orアイテム）同士の類似度を出し、それを用いた評価の予測値に基づきレコメンドをするという趣旨のものでした。この協調フィルタリングのようなレコメンド手法のことを近傍ベースア

sh19910711 2024/05/27

"synonymy: 赤い缶のコーラを買う人と青い缶のコーラを買う人はそれぞれ別の色のコーラを買わないと思われ + 通常の協調フィルタではこの赤い缶ユーザと青い缶ユーザの類似性をうまく捉えることができません" 2019

リンク

VAEによる画像検索システム - Qiita

※データセットの配布元： GitHub「fashion-mnist／zalandoresearch」。The MIT License (MIT) Copyright © [2017] Zalando SE, https://tech.zalando.com ※出典： Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747 また、ネットワークは以下のようなものを用います。エンコーダーデコーダー VAEの結果作成したVAEモデルは以下のような結果になりました。訓練結果最初はテストデータの誤差が異常に大きくなっていましたが、正常に訓練できています。再現画像上段

sh19910711 2024/05/26

"VAEにより次元圧縮をして、潜在空間上で距離が近いものを検索 / 最初はCIFAR-10でやろうとしていたのですが、カラー画像だとVAEの学習がどうしてもうまくいかないようだった" 2021

リンク

特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images

情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回研究会 http://www.iot.ipsj.or.jp/news/iot37-program

sh19910711 2024/05/26

"ニューラルネットワーク: 入力が層を経過するごとにタスクに特化した識別箇所を強調 + 最も識別箇所を強調する特徴を出力する識別層手前までからの出力を特徴出力器として採用 / mruby-annoy+ngx_mrubyにより近似近傍探索" 2017

リンク

Elasticsearch LTRプラグインと特徴量キャッシュ機能の基本 - ZOZO TECH BLOG

はじめにこんにちは、検索基盤部検索研究ブロックの真鍋です。ヤフー株式会社から一部出向していて、主にZOZOTOWNの検索機能へのランキングモデルの導入に従事しています。本記事では、Elasticsearch上でランキングモデルを扱うための有名なプラグインの仕組みと、同プラグインにZOZOが実装した機能を紹介します。まず、本記事の背景を説明します。ZOZOTOWNでキーワード検索すると、結果の商品が並びます。結果の商品は非常に多数になることも多いので、ユーザ体験を損なわないためには、その並び順も重要です。ここで言うランキングモデルとは、この並び順の決定のために、商品のスコアを計算する式のことを指します。このような式は機械学習によって生成され、非常に複雑になることもあります。そのため、検索エンジンの標準機能では実行できず、プラグインを導入して初めて実行できることもあります。 ZOZOT

sh19910711 2024/05/25

"OpenSource Connectionsが提供するLearning to Rank plugin / 本プラグインの主要な機能として、他に特徴量ロギングがあり / 既存のランキングモデルを実行して検索結果を返しつつ、新しいランキングモデルを学習" 2022

リンク

[python] kd木を使った最近傍探索 - Qiita

import numpy as np import matplotlib.pyplot as plt import pandas as pd import time class Linear: def __init__(self,pointlist): self.pointlist = np.array(pointlist) def search(self,point,q=1): length = [] for i in self.pointlist: length.append([self.L2(i,point),list(i)]) if q == 1: return [i[1] for i in sorted(length)][0] else: return [i[1] for i in sorted(length)][:q] def L2(self,point1,point2): #

sh19910711 2024/05/23

"kd木: データの軸をずらしながら、それぞれの軸の中央値を取る / どれかの軸についての絶対値を比較 + 絶対に最近傍点の存在しない領域を排除する / 次元数を増やすと計算量があまり削減できなくなる" 2022

リンク

【推薦システム】レコメンドアルゴリズムまとめ①【入門/協調フィルタリング/NMF】 - Qiita

一言で表すと、ユーザーの行動履歴に基づいた推薦アルゴリズム。メモリベースの手法とモデルベースの手法の二種類があります。メモリベース手法ユーザ間の類似性やアイテム間の類似性に着目して推薦を生成する手法です。このうち、さらにユーザーベースの手法とアイテムベースの手法に分類されます。特徴ドメイン知識を必要としない(商品の内容を知らなくてもレコメンドできる) 異なるジャンルをまたいだ推薦ができる利用者が多い場合に有利推定の都度全データに対して計算を行う(類似度を計算する)アプローチをとるのでデータのサイズに比例して計算コストが高くなる。ユーザーベース対象となるユーザーと類似した嗜好を持つユーザーのグループを調べることによって、各ユーザーに適したレコメンデーションを提供する手法です。メリットアルゴリズムがシンプル、データセットが頻繁に変更されても対応できる。デメリット巨大

sh19910711 2024/05/21

"Cold Start問題: 嗜好に関するデータがある程度集まらないと有意な推薦ができない / NMF: 元行列Vと分解したW,Hの要素の値がすべて非負値 + 基底ベクトルと係数を非負に限定することで、係数が疎になりやすく" 2021

リンク

【論文解説】Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary Items - Qiita

【論文解説】Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary It emsMachineLearningDNNRecommendation論文読みGNN はじめに出典: AAAI 2023 Enhanced Multi-Relationships Integration Graph Convolutional Network for Inferring Substitutable and Complementary It ems という、AAAIに提出された論文を紹介します。この論文は中国のMeituan Maicaiと呼ばれるオンラインスーパーマーケットの研究者が取り組んだ、商品推薦の論文です。論文を選んだ動

sh19910711 2024/05/21

"E-Commerceサイトの推薦: ユーザーが見ている商品の代替商品だけでなく一緒に買われる補完商品の推定も重要 / 関係の強さも考慮したtriplet loss + 代替商品と補完商品それぞれの埋め込みベクトルを交差" doi:10.1609/aaai.v37i4.25532

リンク

Baysian Personalized RankingとMatrix Factorizationの比較(実装編) - Higu`s diary

こんにちは、Wantedlyでデータサイエンティストをしている21新卒の樋口です。 www.wantedly.com 本記事はWantedly 21新卒 Advent Calendar 2021の2日目の記事です! 5人で25記事書くの半端なく大変ですが、頑張っていきたいです...! qiita.com 先日Bayesian Personalized Ranking(BPR)という推薦システムの有名な論文(引用数4000程度)を読みました。 [WIP] BPR: Bayesian Personalized Ranking from Implicit Feedback · Issue #51 · zerebom/paper-books · GitHub アイテムの評価値の予測誤差を最小化するのではなく、評価値の順序を最適化することで、精度高くアイテムを推薦しようという趣旨の論文です。しかし、

sh19910711 2024/05/19

"BPR: アイテムの評価値の予測誤差を最小化するのではなく、評価値の順序を最適化 / 評価したアイテム(pos_item) > 評価していないアイテム(neg_item)となるという仮定を置いて、 p(pos_item > neg_item) となる確率" 2021

リンク

IR Reading 2023 Spring 参加レポート - LegalOn Technologies Engineering Blog

こんにちは、検索・推薦チームの浅野（@takuya_b / @takuya_a）です。 2023年6月10日に開催された IR Reading 2023春に、弊社の勝田（検索・推薦）、宮里（検索・推薦）と参加しました。今回は、そちらの様子をレポート形式でお届けします。 IR Reading とは情報検索に関連する、直近の国際会議で発表された論文の読み合わせを行う勉強会です。5分〜15分の発表＋質疑応答、という形式で行われており、ACM SIGIR 東京支部の方々によって運営されています。今回参加した IR Reading 2023春では、主に以下の国際会議の論文が対象となっていました。 WSDM 2023 CHIIR 2023 ECIR 2023 TheWebConf 2023 セッションレポート Accelerating Learned Sparse Indexes Via Ter

sh19910711 2024/05/18

"言語横断: クエリを翻訳するだけでは上手くいかない / 小規模な対訳コーパスを利用して言語間で埋め込みの集合同士の距離を近づける（最適輸送問題を解く）ことで埋め込みの対応を学習" doi:10.1145/3539597.3570468 2023

リンク

embeddingを用いた分析・検索・推薦の技術

『Future Tech Night #17「embeddingの活用」と「MLOps」のAI勉強会』(https://future.connpass.com/event/231310/)で発表した資料です。

sh19910711 2024/05/13

"LaBSE: 英語をpivotに109ヵ国語をベクトルへ変換可能 / USE-L: 16ヵ国語に対応 + Transformerを用いており文長Lに対しO(L^2)で動作し重いがその分精度がいい + USEに比べ14倍の実行時間 / faissに実装されているspherical kmeans" 2021

リンク

Matrix FactorizationとDeep Matrix Factorization（Keras）でのレコメンド - statsuのblog

レコメンドの手法であるMatrix Factorizationについて勉強したのでその記録です。以下の検証に関するコードはgithubにあげてあります。 github.com 1. 本記事の概要レコメンドの手法であるMatrix Factorizationについての概要 Matrix FactorizationのNeural Network形式の表現とKerasでの実装 Deep Matrix Factorizationの表現とKerasでの実装 MovieLensでの精度検証 2. Matrix Factorizationの概要ざっくりと。 Matrix Factorizationはレコメンドの手法のひとつ。レコメンドの参考サイトレコメンドつれづれ～1-1. 協調フィルタリングのコンセプトを知る～ - Platinum Data Blog by BrainPad レコメンドつ

sh19910711 2024/05/10

"KerasでDeep Matrix Factorization / Deepにするのは簡単 + どの部分をdeepにするかは工夫のしどころ / Matrix Factorizationめっちゃ強い + Deep Matrix Factorizationはポテンシャルありそうだけど、パラメータチューニングしんどい" 2019

リンク

高次元データに対するKNN - Qiita

特に特殊なライブラリは用いておりません． sklearnを入れているのは，irisによって挙動を確認するためです．コードコードは以下の通りです． import numpy as np import pandas as pd from sklearn.datasets import load_iris from collections import Counter from sklearn.model_selection import train_test_split """ input: train_X: pd.DataFrame(N1, d) test_X: pd.DataFrame(N2, d) train_Y: pd.DataFrame(N1, 1) k: int output: pred_Y: np.ndarrray(N2, k) """ def calculate_simil

sh19910711 2024/05/07

"ユークリッド距離: 高次元空間上では，最近傍の点と，最遠傍の点の距離が近くなる + 高次元でもきちんと機能する距離を用いる必要 / ノーフリーランチ定理: 常にこの距離を用いれば良いという指針はなく" 2019

リンク

はてなブックマーク

タグ

関連タグで絞り込む (38)

*algorithmとsearchに関するsh19910711のブックマーク (120)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス