情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回 研究会 http://www.iot.ipsj.or.jp/news/iot37-program
情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回 研究会 http://www.iot.ipsj.or.jp/news/iot37-program
import numpy as np import matplotlib.pyplot as plt import pandas as pd import time class Linear: def __init__(self,pointlist): self.pointlist = np.array(pointlist) def search(self,point,q=1): length = [] for i in self.pointlist: length.append([self.L2(i,point),list(i)]) if q == 1: return [i[1] for i in sorted(length)][0] else: return [i[1] for i in sorted(length)][:q] def L2(self,point1,point2): #
特に特殊なライブラリは用いておりません. sklearnを入れているのは,irisによって挙動を確認するためです. コード コードは以下の通りです. import numpy as np import pandas as pd from sklearn.datasets import load_iris from collections import Counter from sklearn.model_selection import train_test_split """ input: train_X: pd.DataFrame(N1, d) test_X: pd.DataFrame(N2, d) train_Y: pd.DataFrame(N1, 1) k: int output: pred_Y: np.ndarrray(N2, k) """ def calculate_simil
教師なし学習に分類される異常検知技術のなかでも、外れ値検知という分野は近年多くのシステムで導入され始めています。今回は、外れ値検知技術のひとつであるLocal Outlier Factor (LOF) について紹介します。 目次 Local Outlier Factor (LOF) とは 定式化 まとめ Local Outlier Factor (LOF) とは LOF はあるデータの集まりの中から外れ値を見つけ出す外れ値検知アルゴリズムのひとつです。原論文*1は2000年に発表で最新技術とは言えないものの、現在も実務に耐えうる検知性能とシンプルな実装が魅力的な手法です。 LOFは空間におけるデータの密度に着目します。特に、自身の点から近傍 k 個の点といかに密かであるかを表す局所密度 (Local density) という指標に注目します。なお、ここでいう k 近傍とはある点から最も距離
台風の経路情報を題材にして、Dynamic Time Warping (DTW) を用いた時系列データの類似度の計算を試してみます。DTW は二つの時系列データの類似度を測る方法の一つで、英語版の Wikipedia に簡単な説明と実装例があります。 Dynamic time warping - Wikipedia, the free encyclopedia 過去の台風の経路情報は、各国の機関によって公表されているようです。たとえば、気象庁のデータや、米軍の Joint Typhoon Warning Center (JTWC) という機関のデータが、それぞれ以下のウェブページで公表されています。 気象庁|過去の台風資料 Joint Typhoon Warning Center (JTWC) これらのデータは各機関が独自の観測によって取得したもので、同一の台風を表す情報でも少しずつ数値が
この記事はピクシブ株式会社 AdventCalendar 2017 7日目の記事です。 @tamanobiと申します。ピクシブ内ではPHPやRuby on Railsを使って開発をしています。 今回は、ディープニューラルネットワークと近似最近傍探索で画像検索を行ってみました。実装にあたって詳しい理論部分まで調べきれていないため、補足や指摘は歓迎します。 はじめに 「あのとき見た画像がどうしても検索できない」「画像はあるけど誰の作品かわからない」というときはないでしょうか? GoogleやTinEye Reverse Image Searchには、テキストから画像を探すのではなく、画像を入力(クエリ)として画像を検索できる機能が存在します。 画像をクエリにすることができると、手元にある冊子を撮影して検索することができたり、似たような画像を探すことができます。画像がクエリであれば、テキストをク
こんにちは。@xiangze750です。Machine Learning Advent Calendar 2012の13日目の投稿になります。 今回はコンピュータビジョンにおける最近傍探索と幾何学についての論文紹介です。 Fast ANN Methods for Non-Euclidean Manifolds with Applications to Human Activity Analysis in Videos(pdf)という(題名どおり)人間の動作の分類を近似再近傍探索を用いて行うという論文を読んでいたのですが、リーマン幾何などの比較的高度な数学的概念が前提とされ、先行研究も多数あげられていたので内容理解のための個人的な覚え書き,疑問点の整理をかねてその内容をまとめます。 目次 課題、問題点 Locally sensitive Hashing(LSH) Semantic Hashi
LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの?と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。 よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。 私の経験では
k-NN Feature Extraction (k-近傍法を用いた特徴量抽出) という手法があるらしい。 これは、文字通り k-NN (k-Nearest Neighbor algorithm: k-近傍法) を特徴量の抽出に応用したもの。 興味深かったので、今回は自分でも Python を使って実装してみた。 手法について知ったのは、以下のブログを目にしたのがきっかけ。 upura.hatenablog.com また、上記は以下のブログに記載のある R の実装を参考にしているとのことだった。 Feature Extraction with KNN • fastknn ただ、先ほどの Python API では、特徴量を付与する対象のデータをパラメータとして指定できない点が気になった。 具体的には、以下のような交差検証を使った性能の計測が難しいのではと感じた。 データセットを学習用と検証
すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。 情報検索論文読み会のスケジュール そこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。 大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く