タグ

DataMiningに関するtanakaBoxのブックマーク (12)

  • 情報抽出入門 〜非構造化データを構造化させる技術〜

    【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP

    情報抽出入門 〜非構造化データを構造化させる技術〜
  • BLOG::broomie.net: 機械学習の勉強を始めるには

    thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

  • SIGMOD日本支部第42回支部大会 講演資料 - 大規模検索エンジンとレコメンドシステムを支える仕組み - DO++

    昨日、東工大で開催されたSIGMOD日支部第42回支部大会の発表資料です。 * 大規模検索エンジンとレコメンドシステムを支える仕組み [pdf] [pptx] - 近年の全文索引手法の解説 -- 転置ファイル, N-gram,半転置ファイル,格納 (VarByte, Rice, Simple9, NewPFOR)、接尾辞配列、圧縮全文索引 - レコメンデーションの内積の高速な計算, -- 単純な計算から、LSH, 補正付サンプリング - PFIの製品紹介 -- Sedue, Hotate, Reflexa ---- SIGMOD日支部大会は以前オープンソース全文検索エンジンの会に参加したことはあったのですが、コミュニティが強いなという気がします。喜連川先生の受賞記念講演も重みのある話、音の話がきけて大変ためになりました。 この一年は武者修行ということでいろんな分野の会にいくようにして

    SIGMOD日本支部第42回支部大会 講演資料 - 大規模検索エンジンとレコメンドシステムを支える仕組み - DO++
    tanakaBox
    tanakaBox 2009/09/22
    素晴らしい資料。
  • 論文 頻出パターン発見アルゴリズム入門 - アイテム集合からグラフまで -

    2024.01.05: 【記事更新】私のブックマーク「ファジィ理論」   →詳細 2024.01.05: 【会誌発行】人工知能学会誌 Vol.39 No.1 (2023/1)   →詳細 2024.01.04: 【募集案内】第3回教育データ分析コンテスト   →詳細 2023.12.27: 【締切延長】2023年度論文賞 推薦のお願い, 2024/1/4 締切   →詳細 2023.12.25: 【募集案内】超知能がある未来社会シナリオコンテスト   →詳細

    tanakaBox
    tanakaBox 2009/09/19
    頻出パターン発見アルゴリズム入門 - アイテム集合からグラフまで -
  • PHP で Google 第一回 Google の PageRank を PHP で実装 - 横転プログラミング

    Google の検索エンジンがページのランク付けのために PageRank という指標を使っているというのは聞いたことがあるかと思います。 今日はそのアルゴリズムを PHP で軽めに実装してみました。 ちなみに PHP で実装しても何もいいことがないので、やめたほうがいいでしょう。 まず PageRank というのは簡単に説明すると、 Google が考案したページのランク付けアルゴリズムでページへリンクがそのサイトの評価だという視点でランク付けを行うために作られたものです。 詳細については Google の秘密 - PageRank 徹底解説 を参考にしてみて下さい。 その内部アルゴリムですが、おおざっぱにいえば下の箇条書きにあるよう生成された確率行列の、最大固有値(確率行列はだいたいの場合において1)の固有ベクトルをべき乗法で求めることになります。 なぜ確率行列の主固有ベクトルを求める

    PHP で Google 第一回 Google の PageRank を PHP で実装 - 横転プログラミング
    tanakaBox
    tanakaBox 2009/09/19
    図がわかりやすい。
  • Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failure

    画像内に映り込んだ所望のオブジェクトを排除し、違和感の無い画像を生成するシーン補完技術に関しては近年複数の研究成果が発表されている。しかし中でも2007年のSIGGRAPHにて米カーネギメロン大のJames HaysとAlexei A. Efrosが発表した手法*1はブレークスルーとなりうる画期的なものだ。 論より証拠、早速適用例を見てみよう。エントリで利用する画像はPresentationからの引用である。元画像の中から邪魔なオブジェクト等の隠蔽すべき領域を指定すると、その領域が補完された画像が自動的に生成される。 アルゴリズム 効果は抜群だがアイデア自体は単純なものだ。Web上には莫大な数量の画像がアップされており、今や対象となる画像の類似画像を一瞬にして大量に検索することができる。そこで、検索された類似画像で隠蔽領域を完全に置き換えてしまうことで違和感の無い補完画像を生成するのだ。

    Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failure
    tanakaBox
    tanakaBox 2009/09/15
    集合知による補完。エロへの応用しか思いつかんw
  • steps to phantasien(2008-08-14) Netflix Prize 外野席

    "集合知プログラミング" というが出たらしい. 私の積読には元の "Programming Collective Intelligence" があって, 途中まで読んだまま放置していたら日語訳が出てしまった. (オライリーのアンチパターンと命名.) 悔しいのでは処分. そのうち日語版で続きを読もう.... 興味を持っていたのは推薦エンジン(協調フィルタ)だった. 私の中では検索エンジンに匹敵するウェブのハイテクという位置付けなんだけど, 草の根には普及しておらず悲しい. 検索エンジンでの Hyper Estraier や senna に相当する協調フィルタの立ち位置は デッドヒートが予想される...とだいぶ前から思ってるんだけど, いまのところ閑古鳥気味. まったく, 出し抜くだけの実力があればなあ. 先の皇帝ペンギンでは, 一章にさっそく協調フィルタが登場する. 読んでみると

    tanakaBox
    tanakaBox 2009/09/15
    集合知プログラミングについて。
  • 『Blogopolisの裏側』発表資料 - kaisehのブログ

    昨日のSeasar Conference 2009 Autumnで発表させていただいた『Blogopolisの裏側』の資料を公開します。 Blogopolisの裏側View more documents from kaiseh. 資料の28枚目に、重み付きボロノイ図の重心ベースレイアウトの説明用動画がありました。その動画は以下にアップしました。 講演者の皆さん、運営の皆様、当にお疲れ様でした! 追記 id:mi-changさん p14ででてる「頂点数」、「多角形数」って何を意味してるんだろう?頂点数が多いということはより多くのタグと結びついているってこと? これは、1つ1つのエントリーやブログ、地区(カテゴリ)に対応する土地の幾何データのことです。例えば、5角形の土地の場合は5個の頂点座標が必要になります。土地の頂点数はレイアウト上の理由で決まるもので、タグとは直接関係はありません。

    『Blogopolisの裏側』発表資料 - kaisehのブログ
    tanakaBox
    tanakaBox 2009/09/15
    数値化手法がお役立ち。
  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

    tanakaBox
    tanakaBox 2009/09/02
    情報論的学習理論,機械学習,統計,統計物理,データマイニング
  • @IT Special PR:- 中堅スーパーのデータ活用物語 第1回

    中堅スーパーのデータ活用物語 ~はじまりはExcelのデータだった~ 「BIなんて人ごと」と思っていたシステム管理者の挑戦 第1回 いままでどおりのExcel分析じゃ足りないの? 県内で全10店舗を運営する地方の中堅スーパー「フクフクドー」。ここでも、ITを積極活用する重要性は認識されているものの、どうすればいいのか、という具体策となるといい手が浮かばず、「いずれは、やらないと」という段階で足踏みしている。IT部門でシステム管理を担当する番次郎と、その下で目下修行中のいぶきも、「攻めのIT投資」や「差別化と競争優位のためのIT」などのうたい文句は気になるものの、目の前にあるシステムの運用管理作業に追われて、なかなか新しいことに着手できずにいる。そんなとき、営業現場からIT部門に「支援要請」が寄せられた。現場の切なる要望には応えたいが、いったいどうしたらよいのか……。いぶきの奮闘が始まった。

    tanakaBox
    tanakaBox 2009/09/02
    SQL Server 2005 Data Mining + Excelでデータマイニング。中堅スーパーなら経験でなんとかなっちまうという話もあるw
  • 軽量データクラスタリングツールbayon - mixi engineer blog

    逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

    軽量データクラスタリングツールbayon - mixi engineer blog
    tanakaBox
    tanakaBox 2009/09/02
    クラスタリングツール
  • プログラマーに最適なデータマイニングの教科書 『集合知プログラミング』 - 図書館情報学を学ぶ

    集合知プログラミング 作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る当初はサンプルコードがPythonということで購入した書ですが、読んでみると内容の素晴らしさに驚嘆しました。私が今までに読んだオライリーシリーズでも屈指の名作だと思います。 『集合知プログラミング』とは 『集合知プログラミング』は、Amazonの協調フィルタリングのように、ウェブ上のデータを収集してユーザーの嗜好にあったコンテンツを推薦したり、大量のデータを分かりやすく分類・可視化するプログラムを簡単に実装する技術を解説した書籍です。Webプログラミングをかじったことのある方でしたら、だれしもAmazonのような推薦サービスを作ってみたいと思ったこと

    プログラマーに最適なデータマイニングの教科書 『集合知プログラミング』 - 図書館情報学を学ぶ
    tanakaBox
    tanakaBox 2009/09/01
    データマイニング関連書籍。
  • 1