タグ

*algorithmと近傍に関するsh19910711のブックマーク (12)

  • 特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images

    情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回 研究会 http://www.iot.ipsj.or.jp/news/iot37-program

    特徴抽出器の学習と購買履歴を必要としない類似画像による関連商品検索システム/related-product-search-system-based-on-similar-images
    sh19910711
    sh19910711 2024/05/26
    "ニューラルネットワーク: 入力が層を経過するごとにタスクに特化した識別箇所を強調 + 最も識別箇所を強調する特徴を出力する識別層手前までからの出力を特徴出力器として採用 / mruby-annoy+ngx_mrubyにより近似近傍探索" 2017
  • [python] kd木を使った最近傍探索 - Qiita

    import numpy as np import matplotlib.pyplot as plt import pandas as pd import time class Linear: def __init__(self,pointlist): self.pointlist = np.array(pointlist) def search(self,point,q=1): length = [] for i in self.pointlist: length.append([self.L2(i,point),list(i)]) if q == 1: return [i[1] for i in sorted(length)][0] else: return [i[1] for i in sorted(length)][:q] def L2(self,point1,point2): #

    [python] kd木を使った最近傍探索 - Qiita
    sh19910711
    sh19910711 2024/05/23
    "kd木: データの軸をずらしながら、それぞれの軸の中央値を取る / どれかの軸についての絶対値を比較 + 絶対に最近傍点の存在しない領域を排除する / 次元数を増やすと計算量があまり削減できなくなる" 2022
  • 高次元データに対するKNN - Qiita

    特に特殊なライブラリは用いておりません. sklearnを入れているのは,irisによって挙動を確認するためです. コード コードは以下の通りです. import numpy as np import pandas as pd from sklearn.datasets import load_iris from collections import Counter from sklearn.model_selection import train_test_split """ input: train_X: pd.DataFrame(N1, d) test_X: pd.DataFrame(N2, d) train_Y: pd.DataFrame(N1, 1) k: int output: pred_Y: np.ndarrray(N2, k) """ def calculate_simil

    高次元データに対するKNN - Qiita
    sh19910711
    sh19910711 2024/05/07
    "ユークリッド距離: 高次元空間上では,最近傍の点と,最遠傍の点の距離が近くなる + 高次元でもきちんと機能する距離を用いる必要 / ノーフリーランチ定理: 常にこの距離を用いれば良いという指針はなく" 2019
  • Local Outlier Factor (LOF) による外れ値検知についてまとめた - 元コンサルでデータサイエンティスト

    教師なし学習に分類される異常検知技術のなかでも、外れ値検知という分野は近年多くのシステムで導入され始めています。今回は、外れ値検知技術のひとつであるLocal Outlier Factor (LOF) について紹介します。 目次 Local Outlier Factor (LOF) とは 定式化 まとめ Local Outlier Factor (LOF) とは LOF はあるデータの集まりの中から外れ値を見つけ出す外れ値検知アルゴリズムのひとつです。原論文*1は2000年に発表で最新技術とは言えないものの、現在も実務に耐えうる検知性能とシンプルな実装が魅力的な手法です。 LOFは空間におけるデータの密度に着目します。特に、自身の点から近傍 k 個の点といかに密かであるかを表す局所密度 (Local density) という指標に注目します。なお、ここでいう k 近傍とはある点から最も距離

    Local Outlier Factor (LOF) による外れ値検知についてまとめた - 元コンサルでデータサイエンティスト
    sh19910711
    sh19910711 2024/05/06
    "LOF; Local Outlier Factor: 原論文は2000年 + 現在も実務に耐えうる検知性能とシンプルな実装 + 空間におけるデータの密度に着目 / 局所密度: 近傍 k 個の点といかに密かであるか + 近傍点の局所密度が等しいときほど正常" 2018
  • Dynamic Time Warping による時系列データの類似度計算 - y_uti のブログ

    台風の経路情報を題材にして、Dynamic Time Warping (DTW) を用いた時系列データの類似度の計算を試してみます。DTW は二つの時系列データの類似度を測る方法の一つで、英語版の Wikipedia に簡単な説明と実装例があります。 Dynamic time warping - Wikipedia, the free encyclopedia 過去の台風の経路情報は、各国の機関によって公表されているようです。たとえば、気象庁のデータや、米軍の Joint Typhoon Warning Center (JTWC) という機関のデータが、それぞれ以下のウェブページで公表されています。 気象庁|過去の台風資料 Joint Typhoon Warning Center (JTWC) これらのデータは各機関が独自の観測によって取得したもので、同一の台風を表す情報でも少しずつ数値が

    Dynamic Time Warping による時系列データの類似度計算 - y_uti のブログ
    sh19910711
    sh19910711 2024/05/06
    "DTW: 時系列データの類似度を測る / 台風: 各国の機関によって公表 + 同一の台風を表す情報でも少しずつ数値がずれ / 同じ台風であれば似たような経路情報になっているだろうと考え + DTW 距離が最小になるもの" 2015
  • ディープニューラルネットワークと近似最近傍探索で類似画像検索する - Qiita

    この記事はピクシブ株式会社 AdventCalendar 2017 7日目の記事です。 @tamanobiと申します。ピクシブ内ではPHPRuby on Railsを使って開発をしています。 今回は、ディープニューラルネットワークと近似最近傍探索で画像検索を行ってみました。実装にあたって詳しい理論部分まで調べきれていないため、補足や指摘は歓迎します。 はじめに 「あのとき見た画像がどうしても検索できない」「画像はあるけど誰の作品かわからない」というときはないでしょうか? GoogleやTinEye Reverse Image Searchには、テキストから画像を探すのではなく、画像を入力(クエリ)として画像を検索できる機能が存在します。 画像をクエリにすることができると、手元にある冊子を撮影して検索することができたり、似たような画像を探すことができます。画像がクエリであれば、テキストをク

    ディープニューラルネットワークと近似最近傍探索で類似画像検索する - Qiita
    sh19910711
    sh19910711 2024/04/17
    "ImageHash: 画像をダウンスケールしてハッシュを求める / gannoyの元となったspotify/annoyのドキュメントに「ベクトルの次元数が100くらいならうまく動く」と書いてありました。2048次元は多すぎるかも" 2017
  • Non-Euclidean Manifold上での近似最近傍探索(論文紹介) - xiangze's sparse blog

    こんにちは。@xiangze750です。Machine Learning Advent Calendar 2012の13日目の投稿になります。 今回はコンピュータビジョンにおける最近傍探索と幾何学についての論文紹介です。 Fast ANN Methods for Non-Euclidean Manifolds with Applications to Human Activity Analysis in Videos(pdf)という(題名どおり)人間の動作の分類を近似再近傍探索を用いて行うという論文を読んでいたのですが、リーマン幾何などの比較的高度な数学的概念が前提とされ、先行研究も多数あげられていたので内容理解のための個人的な覚え書き,疑問点の整理をかねてその内容をまとめます。 目次 課題、問題点 Locally sensitive Hashing(LSH) Semantic Hashi

    sh19910711
    sh19910711 2024/03/01
    doi:10.1007/978-3-642-15552-9_53 / "特徴点を並べたベクトルやヒストグラムは一般に高次元となるため、近傍探索は困難 (次元の呪い) / いかに効率よく、元の分類の性質を壊さないように低次元に射影、圧縮するか" / 2012
  • SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life

    LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの?と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。 よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。 私の経験では

    sh19910711
    sh19910711 2023/05/02
    "embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つける / 単純なユークリッド距離ではなく、SVMのカーネルトリックを用いた空間を考慮してのスコア算出"
  • 近似近傍探索エンジン Sannyを支える技術/sanny_inside

    Fukuoka.go#11 https://fukuokago.connpass.com/event/87684/

    近似近傍探索エンジン Sannyを支える技術/sanny_inside
    sh19910711
    sh19910711 2022/06/17
    2018 / "クエリと高次元ベクトル集合を任意の次元数で等分した部分ベクトル単位で平行に近傍探索した結果の和集合である近傍候補から,再度近傍探索を行う / 部分ベクトルごとの探索処理は独立 > 分散構成が可能"
  • Python: k-NN Feature Extraction について - CUBE SUGAR CONTAINER

    k-NN Feature Extraction (k-近傍法を用いた特徴量抽出) という手法があるらしい。 これは、文字通り k-NN (k-Nearest Neighbor algorithm: k-近傍法) を特徴量の抽出に応用したもの。 興味深かったので、今回は自分でも Python を使って実装してみた。 手法について知ったのは、以下のブログを目にしたのがきっかけ。 upura.hatenablog.com また、上記は以下のブログに記載のある R の実装を参考にしているとのことだった。 Feature Extraction with KNN • fastknn ただ、先ほどの Python API では、特徴量を付与する対象のデータをパラメータとして指定できない点が気になった。 具体的には、以下のような交差検証を使った性能の計測が難しいのではと感じた。 データセットを学習用と検証

    Python: k-NN Feature Extraction について - CUBE SUGAR CONTAINER
    sh19910711
    sh19910711 2021/11/13
    "k-NN Feature Extraction では、名前の通り k-NN (k-近傍法) を特徴量の抽出に応用 / 最も近い k 点の学習データを探すために、データ間の距離を計算 / このデータ間の距離を特徴量として用いる"
  • perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

    すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi   https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ

    perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary
    sh19910711
    sh19910711 2021/10/10
    2010 / "類似検索なのでLuigi / 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね"
  • 分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。 情報検索論文読み会のスケジュール そこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。 大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書

    分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
    sh19910711
    sh19910711 2021/06/08
    "医療言語は表現揺れが大きく単語頻度ベースだと類似文書を出せない可能性 > 医療言語処理という本が面白い / Vald: NGTを内部で利用するスケーラブルな分散型ベクトル検索エンジン > Helmが公式から提供"
  • 1