gologo13のブックマーク - はてなブックマーク

機械学習界隈の情報収集方法 - kisa12012の日記

こんにちは．Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します，[twitter:@kisa12012]です．普段は博士学生として，各地を放浪しながら機械学習の研究をしてます．今回の記事はボストンで執筆しています．現地時間(EST)での締切は守ったのでセーフ…ですよね？本日は機械学習の技術的な内容の話ではなく，筆者が実践している機械学習関連の情報収集方法について纏めます*1．大きく分けて，学会情報の管理・論文情報の収集・その他の三種について述べたいと思います．今回のトピックの多くは他の分野にも通用する話になっているかと思います．他の分野の方がどのように情報収集されているのかも気になるところです．学会情報の管理まずは学会情報の管理についてです．機械学習に関連するカンファレンスは（特に近年乱立気味で）非常に沢山あります．全てをチ

gologo13 2013/12/16

リンク

ICML2012読み会で発表しました && SVMの性能をガタ落ちさせるためには - kisa12012の日記

本日サイボウズラボさんの会場で開催されたICML2012読み会に発表者として参加しました．主催者のnokunoさん，会場係のshuyoさん，また参加者の皆様，ありがとうございました！非常に勉強になりました．今回発表したのは，Poisoning Attacks against Support Vector Machines (Biggio+) です．発表資料 PoisoningAttackSVM (ICMLreading2012) from Hidekazu Oiwa 元論文 http://icml.cc/2012/papers/880.pdf 概要論文の名前通り，SVMの訓練データに毒を盛るためのアルゴリズムを提案毒を盛るとは，すでに学習されたSVMのパフォーマンスを劇的に下げるためのデータを生成して，SVMの新たな教師データとして潜り込ませること手書き文字認識での実験では，た

gologo13 2012/07/31

what are interesting. Problem

リンク

Exact Soft Confidence-Weighted Learning (ICML2012) 読んだ - kisa12012の日記

概要オンラインでの分類学習の世界では，CWが非常に強力なアルゴリズムとして注目されています．特に，その圧倒的な分類精度及び収束速度は圧巻の一言であり，自然言語処理を中心に様々な分野で応用例や派生アルゴリズムが提案されています*1．一方で，ノイズデータのが混入していた場合に精度がガタ落ちする性質がCWの重大な欠点として多くの人から指摘されていました．ノイズが予め取り除かれている実験設定ならば良いのですが，ノイズが含まれている可能性の高い実データにはCWは中々不便．この問題を解決するため，ノイズ耐性の強いCW系アルゴリズムの決定版（？）として，SCW (Soft Confidence-Weighted)アルゴリズムがICML2012という会議で提案されました．本エントリでは，SCWの紹介を行います． Exact Soft Confidence-Weighted Learning, Wang

gologo13 2012/07/17

machinelearning

リンク

能動学習入門的な話をしました - kisa12012の日記

修論の原稿提出と国際学会の論文締切が１日違いなため，両方の作業を同時で進める日々を送っております今日この頃，皆様いかがお過ごしでしょうか．今回は，先日PFIセミナーにて発表しました能動学習入門的な話の補足を少し述べたいと思います．（レイアウトが崩れている場合，スライドをダウンロードしてから開くと治る可能性が高いです．）能動学習セミナー View more presentations from PFI Marketing 発表のUstream 能動学習能動学習とは，教師データを作成する際に最大の効果を発揮するように教師とするデータを選択する方法についての研究分野であり，機械学習の一分野です．一般的にデータに正解を振るのは高いコストが要求されるため，どのデータに正解ラベルを付与すればより高精度な学習器が作成出来るか，を知る事が出来ればラベル付けのコストが格段に低減できます．基本的な枠組

gologo13 2012/03/20

能動学習。モデルの学習に効率的なアノテーションを教えてくれる。

MachineLearning

リンク

Yahoo!のニュースコメント欄からスパムを排除するには - kisa12012の日記

論文紹介のコーナー．*1 今回紹介するのは，KDD'2011のUnbiased Online Active Learning in Data Streams (Wei Chu, Martin Zinkevich, Lihong Li, Achint Thomas, and Belle Tseng)． Yahoo! Labsのグループによる研究です．(その後，第一著者はMicrosoftへ移動しています) 本論文は，ユーザーがコンテンツを生成できるウェブサービスから効率的にスパムやアダルトコンテンツを排除する手法について提案されています．このようなサービス形態はUser-Generated Content(UGC)と呼ばれ，ニュースサイトのコメント欄や掲示板・SNS・ソーシャルゲーム・ユーザー投稿型動画サイトが主な例として挙げられます． 3行概要ストリームデータ環境下において，学習に有用