でかいチーズをベーグルする[B!]新着記事・評価

HaskellでB-treeを実装 - でかいチーズをベーグルする
5 users
yamaguchiyuto.hatenablog.com

すごいHaskell本を読んだのでなにか練習したいなと思っていたところ、某会*1で「B-treeなんて誰でも簡単に実装できますよね」と煽られたので実装してみた。すごく直感的に書けたので Haskell すごいなーと思った。実装方針は "Introduction to Algorithms" に書いてあるとおり。すごいHaskellたのしく学ぼう! 作者: Miran Lipovača,田中英行,村主崇行出版社/メーカー: オーム社発売日: 2012/05/23メディア: 単行本（ソフトカバー）購入: 25人クリック: 580回この商品を含むブログ (73件) を見るアルゴリズムイントロダクション第3版総合版 (世界標準MIT教科書) 作者: T.コルメン,R.リベスト,C.シュタイン,C.ライザーソン,Thomas H. Cormen,Clifford Stein,Ronald
- テクノロジー
- 2018/01/03 15:54

2017年まとめ - でかいチーズをベーグルする
3 users
yamaguchiyuto.hatenablog.com

研究者からエンジニアに転職個人的にはかなり悩んだんだけど、結局これといった "かっこいい理由" みたいなものも特になくて、研究者だけじゃなくていろいろやってみたかったからという感じで転職してみた。研究者もエンジニアもどっちも楽しい！論文が３本出た論文がIJCAIでファースト２本、CIKMで学生さんファーストのポスターが１本出た。とりあえず自分の研究者としての仕事は一旦ここまで。また機会を見て戻ってきたい。 When Does Label Propagation Fail? A View from a Network Generative Model @ IJCAI2017 論文ラベル伝搬法がネットワーク生成モデルの一つである確率的ブロックモデルと理論的につながっていることを示し、ネットワーク生成モデルの見地からラベル伝搬法の性質を解析する論文。 When Does Label Pr
- テクノロジー
- 2018/01/01 01:30
学振PDでカーネギーメロン大学に留学 - でかいチーズをベーグルする
8 users
yamaguchiyuto.hatenablog.com

研究留学 Advent Calender 2017 の19日目です。特にこれといったテーマも思いつかなかったので、エッセイ的に書きます。テンプレいついったか：2014年4月から2015年3月どこに行ったか：カーネギーメロン大学の Christos Faloutsos 教授のところ（ペンシルベニア州ピッツバーグ）何をやったか：ソーシャルデータとかグラフデータに対するデータマイニングの研究どうやって行ったか：出身研究室の教授の紹介（つまりコネ）行くまで（だけ）が辛かった Dとった直後に行くことが決まっていたので、博論を書きつつビザ取得とか家探しとかの留学準備をしなくちゃいけなくて、さらにちょうどその時期に結婚したのでその辺の諸々も含めすべて同時にこなさなきゃいけなくてそれはそれは辛かった。人生の節目となるイベントを２つ以上同時にこなすのはやめたほうが良い！ピッツバーグで暮らすピ
- 学び
- 2017/12/19 10:13
- 研究
- 大学
Stochastic Block Model を Edward で実装する - でかいチーズをベーグルする
10 users
yamaguchiyuto.hatenablog.com

前回の記事で Edward を使ってみたらすごく良かったので、もう一回遊んでみる。今回はグラフクラスタリングによく使われる Stochastic Block Model (SBM) を実装する。前回の記事はこれ。 yamaguchiyuto.hatenablog.com ちなみにプルリク送ったらマージされたので、コードはリポジトリの edward/examples/stochastic_block_model.py にある。 github.com Stochastic Block Model Stochastic Block Model (SBM) はグラフの確率的生成モデルの一つ。グラフの確率的生成モデルと言うと、有名どころでは Erdos-Renyi model とか Barabasi-Albert model とかあるけど、そういうやつ。 SBM がどういうモデルなのか、すごく簡単
- テクノロジー
- 2017/07/31 08:51
- edward
- Python
Probabilistic Matrix Factorization を導出して Edward で実装する - でかいチーズをベーグルする
8 users
yamaguchiyuto.hatenablog.com

Edward っていう確率モデリングのためのライブラリがよさげって話を聞いたので入門してみたら良かったという話。せっかくなので、行列分解を確率モデルとして定義した Probabilistic Matrix Factorization を実装してみた。 Edward – Home 行列分解 (Matrix Factorization) 前にも書いた気がするけど、行列分解ってのは N x M 行列 X を、適当な K に対して N x K 行列 U と M x K 行列 V（の転置）との積に分解する手法のこと。つまり、となるような U と V 見つければOK。ここで、とが近くなる（になる）というのは例のごとく二乗誤差で評価する。つまり、が最小となるような U と V を求める。は U の i 番目の（K次元）行ベクトルで、は V の j 番目の（K次元）行ベクトルを表す。要素ごと
- テクノロジー
- 2017/07/13 18:35
- edward
クロネッカー積とvec作用素とRoth's column lemma - でかいチーズをベーグルする
1 user
yamaguchiyuto.hatenablog.com

クロネッカー積とvec作用素は見た目簡単なんだけど、各要素のインデックスを書き下すと頭の中こんがらがってわけわからなくなるから一旦整理した。インデックスに関する記事ってほとんどないね。あとそれに関連して Roth's column lemma っていうのが便利なのでちょっと紹介する。まとめクロネッカー積の定義とインデックス vec作用素の定義とインデックス Roth's column lemma クロネッカー積とはクロネッカー積 - Wikipedia 下の式を見ればひと目で分かるけど、 IxJ 行列と KxL 行列から IKxJL 行列を作る。 Wikipediaの例を見ると分かりやすい。クロネッカー積のインデックスクロネッカー積の定義は一目見ればすぐ分かるのに、各要素の定義を見ると途端にめんどくさくなる。行のインデックスを見ると、K進数みたいになってるのが分かる。の行
- 学び
- 2017/06/23 21:19
- 数学
Correspondence Topic Model の導出と実装 - でかいチーズをベーグルする
2 users
yamaguchiyuto.hatenablog.com

引き続き青いトピックモデル本から、対応トピックモデル（Correcpondence Topic Model; CTM）を実装した。サンプリング式の導出が詳しく載っていなかったので、詳しめに導出してみる。トピックモデル (機械学習プロフェッショナルシリーズ) 作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本（ソフトカバー）この商品を含むブログ (2件) を見る CTM の出典は以下の論文。 http://www.cs.columbia.edu/~blei/papers/BleiJordan2003.pdf Correspondence Topic Model 前回書いた結合トピックモデル（Joint Topic Model; JTM）と同じで、文書のモデリングをするときに文書についている付加情報も考慮するモデル。 JTMとCTMが違うのは以下の点だ
- テクノロジー
- 2017/05/21 15:52
研究と開発のはざま - でかいチーズをベーグルする
122 users
yamaguchiyuto.hatenablog.com

博士を取ってからの3年間はアカデミックで仕事をしていたけど、4月から民間企業に移ることにした。転職するかどうかそうとう悩んだわけだけど、その時に研究についていろいろと考えたのでちょっと書いてみたい。工学では研究と開発の違いなんて無い誰もが納得するような明確な違いは無いと思う。あったら教えて欲しい。実際、ほとんどの研究（論文）が何かを開発しているし、それが世の中の役に立たないと評価されない。逆に、ほとんどのプロダクトには新規性（もしくは他のプロダクトとの差異）がある。確かに、工学において研究と呼ばれるものは開発と呼ばれるものより平均的には基礎的なことをやっているとは思うけど、とはいえ明確な線引は出来ない。研究を神格化しすぎる風潮があるんじゃないかな。「研究者です」というと「すごい！」と言われることがよくある。そう言ってもらえるのは嬉しいけど、べつにすごくないよ。99%の研究者は世の
- 学び
- 2017/04/02 10:43
- 研究
- 開発
- 考え方
- あとで読む
- キャリア
- research
Author Topic Model の導出と実装 - でかいチーズをベーグルする
6 users
yamaguchiyuto.hatenablog.com

またまた引き続き青いトピックモデル本から。今回は Author Topic Model を導出して実装してみる。とりあえずこのシリーズは一旦今回で最後。トピックモデル (機械学習プロフェッショナルシリーズ) 作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本（ソフトカバー）この商品を含むブログ (2件) を見る出典は以下の論文。これまで実装してきたモデルと比べるとずば抜けて有名っぽい。 https://arxiv.org/ftp/arxiv/papers/1207/1207.4169.pdf Author Topic Model Author Topic Model (ATM) は文書に付加情報として著者情報が付いているデータのモデリングをするのに使われる*1。一つの文書に複数（一人以上）の著者がいるときに、文書中のそれぞれの単語についてどの著者
- テクノロジー
- 2017/03/30 10:21
Noisy Correspondence Topic Model の導出と実装 - でかいチーズをベーグルする
5 users
yamaguchiyuto.hatenablog.com

さらに引き続き青いトピックモデル本から。今回はノイズ有り対応トピックモデル (Noisy Correspondence Topic Model; NCTM) を導出して実装する。トピックモデル (機械学習プロフェッショナルシリーズ) 作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本（ソフトカバー）この商品を含むブログ (2件) を見る出典は以下の論文。 http://www.kecl.ntt.co.jp/as/members/iwata/nips2009.pdf Noisy Correspondence Topic Model このモデルは Correspondence Topic Model (CTM) の拡張になっていて、CTM と同様に付加情報を考慮しながら文書のモデリングが出来る。どう拡張されているかというと、付加情報の中からノイズとノ
- テクノロジー
- 2017/03/28 13:10
Joint Topic Modelを実装した - でかいチーズをベーグルする
2 users
yamaguchiyuto.hatenablog.com

LDAの簡単な拡張になっている Joint Topic Model を実装した。青いトピックモデル本で紹介されてた。この本はいろんなモデルが載ってるのでいいね。トピックモデル (機械学習プロフェッショナルシリーズ) 作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本（ソフトカバー）この商品を含むブログ (2件) を見る実装したあとで気づいたけど既にnzw君が実装して実験してたのでこちらも参考に。 nzw0301.github.io Joint Topic Model Joint Topic Model (JTM) はLDAとほとんど同じなんだけど、文書に付加情報（カテゴリとか）がついてる場合、それも使うことができる。どんな付加情報を扱えるかというと、基本的にはカテゴリ変数だけ。生成過程を見ると分かるように、付加情報の生成にはカテゴリカル分布が使
- テクノロジー
- 2017/03/22 10:48
- Python
Robust Large-Scale Machine Learning in the Cloud [KDD'16] を読んだ - でかいチーズをベーグルする
8 users
yamaguchiyuto.hatenablog.com

KDD16で発表されてた論文。著者はかの有名なFactorization Machinesの人。Googleに行ってたのね。いままでとはちょっと違う研究をしてるように感じる。論文はここから読める。 www.kdd.org 勉強会で紹介したので念のため、その時のスライドはこちら。 Robust Large-Scale Machine Learning in the Cloud from Yuto Yamaguchi 一言まとめ一般化線形モデルの学習を Coordinate Descent で、めっちゃスケールさせるよ。概要 Coordinate Descent (CD) はシングルマシン上では収束が早いアルゴリズムとして知られてるんだけど、分散には向かない。なぜなら、アルゴリズムの特性上、分散させると１つのワーカーに割り当てられる work load が小さくなってしまって、オーバヘッ
- テクノロジー
- 2017/03/20 00:47
無限混合ガウスモデルを実装した - でかいチーズをベーグルする
4 users
yamaguchiyuto.hatenablog.com

ノンパラベイズ面白いね。佐藤一誠先生のノンパラメトリックベイズの本を読んで自分なりに理解できたので実装してみた。本読んで理解して、自分で導出して、実装・実験するの本当に重要。定着度がぜんぜん違う。ノンパラメトリックベイズ点過程と統計的機械学習の数理 (機械学習プロフェッショナルシリーズ) 作者: 佐藤一誠出版社/メーカー: 講談社発売日: 2016/04/20メディア: 単行本（ソフトカバー）この商品を含むブログを見る無限混合ガウスモデルは上の本の5.2節で説明されてるモデルで、ディリクレ過程混合ガウスモデル（Dirichlet Process Gaussian Mixture Model; DPGMM)とも呼ぶらしい。面倒くさいので以下DPGMMと書く。 DPGMM 普通の混合ガウスだと分割数（クラスタの数）K を事前に決めなきゃいけないんだけど、これが面倒くさいし、よほどそのデー
- テクノロジー
- 2017/03/19 15:54
無限潜在特徴モデルを実装した - でかいチーズをベーグルする
4 users
yamaguchiyuto.hatenablog.com

引き続きノンパラベイズ。今回はノンパラベイズ本の7.4節で説明されてる無限潜在特徴モデル（Infinite latent feature model; ILFM)を実装した。ノンパラメトリックベイズ点過程と統計的機械学習の数理 (機械学習プロフェッショナルシリーズ) 作者: 佐藤一誠出版社/メーカー: 講談社発売日: 2016/04/20メディア: 単行本（ソフトカバー）この商品を含むブログを見る無限潜在特徴モデル一言で言えば、潜在次元に無限次元を仮定する行列分解。与えられたデータ行列をバイナリ行列と特徴行列の積に分解する。バイナリ行列の要素はサンプル n が k 番目の潜在特徴を持つか持たないかを表している。k番目の潜在特徴はのk番目の行ベクトルで表されている。つまり、あるサンプルのデータベクトルは無限個ある潜在特徴のうちのいくつかの和になっている。通常の行列
- テクノロジー
- 2017/03/17 12:18
- python
自分がふぁぼったツイートをランダムに表示するスクリプト書いた - でかいチーズをベーグルする
1 user
yamaguchiyuto.hatenablog.com

スライド作りが進まないから現実逃避してちょっとしたスクリプトを書いて遊んだ。題して「自分がふぁぼったツイートをランダムに表示するスクリプト」モチベーション自分は後で読む的な意味合いでツイートをふぁぼるんだけど、例のごとく「後で読む」はどんどん溜まっていって、昔のツイートは全く日の目を見ないことになってしまう。そこで最近のものから一番古いものまでランダムに表示できたら暇つぶしにいいかなと思って作ったのがこれ。必要なもの自分のTwitterアプリケーションキー達 (consumer key, consumer secret, access token, access token secret) Tweepy 使い方 1. まず自分のTwitterアプリケーションキー達を適当なファイルに以下の形式で保存する。 $ cat keys [consumer key] [consumer s
- 暮らし
- 2017/03/05 07:08
Tucker分解の導出と実装 - でかいチーズをベーグルする
16 users
yamaguchiyuto.hatenablog.com

CP分解の次はTucker分解を導出して実装する。丁寧にTucker分解の導出を説明してる文献（Web含め）が全然なかったので、自分で書く。CP分解についてはある程度知ってる前提とする。CP分解についてはこちらから。 yamaguchiyuto.hatenablog.com まとめ Tucker分解とは ALSでTucker分解の更新式の導出 PythonでTucker分解を実装人工データを使って実験 Tucker分解とは Tucker分解は、テンソルを１つのテンソル（コアテンソルと呼ぶ）と、それぞれのモードに対して一つずつの行列に分解する。上の図の例では、もとのテンソルのサイズは IxJxK だけど、これをコアテンソルのサイズの RxSxT (R<=I, S<=J, T<=K) まで小さくしている。また、あとで説明するけど、行列 U、V、W は全て直行行列となるように分解する。このコ
- テクノロジー
- 2016/11/30 08:25
- 機械学習
- machine learning
Alternating Least Square (ALS) でCP分解 - でかいチーズをベーグルする
9 users
yamaguchiyuto.hatenablog.com

テンソル分解の基本中の基本のCP分解を導出して実装した。最適化の方法は色々あるらしいけど多分いちばんよく使われる Alternating Least Square (ALS) を使った。ちなみにここでテンソルって呼んでるのはただの多次元配列のこと。まとめ CP分解とは AlSによるCP分解の更新式を導出 ALSによるCP分解をpythonで実装人工データを使って実験 CP分解とは CP分解が何かを知るためには、まず Matrix factorization (MF) について知ると良い。 MFでは、N x M 行列 X を以下のように分解するここで、は N x R 行列で、は M x R 行列。この分解を要素ごとに書くとこうなるつまり要素をなんかよくわからない次元のベクトルとの内積で表現することにしましょうと言っているわけ。じゃあこのとっていうベクトルたちをどうやって求
- テクノロジー
- 2016/11/12 12:45
- algorithm
scikit-learn準拠で Label propagation とか実装した - でかいチーズをベーグルする
14 users
yamaguchiyuto.hatenablog.com

scikit-learn準拠で Label propagation 的なアルゴリズム達を実装した。なんで実装したかというと、グラフそのもの（隣接行列）を入力したい。 scikit-learnには既にsklearn.semi_supervised.LabelPropagationが実装されてるけど、これはグラフを入力するんじゃなくて、普通にサンプル数×特徴数のデータ行列を与えて、そこから類似度グラフを作るようになってる。これだと例えば手元にソーシャルグラフがあって、そのユーザ（ノード）の属性（興味とか）を Label propagation で推定するということができない。ハイパーパラメータを楽に決めたい。自分でグリッドサーチとかやるのはめんどくさいので、sklearn.grid_search.GridSearchCVとかを使いたい。そのためにsklearn準拠にした。自分の研究成果
- テクノロジー
- 2016/09/22 01:59
TransE [NIPS'13] を実装（と実験再現）した - でかいチーズをベーグルする
14 users
yamaguchiyuto.hatenablog.com

Graph embedding を調べる上で避けては通れないっぽいTransEを実装して実験再現してみた。モデルがシンプルでカッコイイし実装も簡単だった。データもパラメータも公開されてて実験を再現できたのもポイント高い。 TransE NIPS'13で提案されたGraph embeddingをする手法。Google scholarで既に100以上引用されていろんな拡張モデルが提案されてる。論文は以下。 papers.nips.cc TransEはKnowledge graph（Freebaseとか）をベクトル空間上にembeddingする。入力としてKnowledge graphを与えると、全てのsubject, predicate, objectに対してそれぞれk次元のベクトルを出力する。ポイントは出力されたベクトル空間に構造があること。例えば、 v(Kei Nishikori) + v
- テクノロジー
- 2016/02/25 12:52
- graph
- 勉強
- python
- あとで読む
Graph embedding の RESCAL [ICML'11] を実装した - でかいチーズをベーグルする
9 users
yamaguchiyuto.hatenablog.com

最近Graph embeddingに興味があって調べてるので有名っぽいRESCAL [ICML'11] をとりあえず実装してみた。さすが結構引用されてるだけあって簡単お手頃に実装できた。やっぱシンプルさ大事。 Graph embedding 入力グラフ G = (V,E) 出力それぞれの頂点に対して r次元ベクトルを１つずつ要するにグラフ上の頂点の特徴を表す特徴ベクトルがほしいってこと。Representation learningとも言える。グラフ（上の頂点）をベクトル空間上に "埋め込む" からGraph embeddingと呼ばれている。この特徴ベクトルを使うことで普通のベクトルベースの機械学習手法をグラフにそのまま適用できるからうれしいねということになる。 RESCAL ICML'11で提案されて、WWW'12でちょっと修正＆拡張されてちょっとでかめの実データで実験されてる
- テクノロジー
- 2016/02/14 14:29
- graph
CMU教授直伝の論文の書き方 - でかいチーズをベーグルする
135 users
yamaguchiyuto.hatenablog.com

CMUに留学している時にFaloutsos教授に教わった論文の書き方をまとめる。この書き方に従うことで論文の採択率がかなり上がった。今となっては自分的に当たり前のことだし、できる研究者の皆様は自然と守っていることも多いと思うけど良い論文を書きたいと思っている学生とかに参考にしてもらえたらと思う。ただし、Faloutsos教授に教えてもらったことを一旦自分で噛み砕いてからまとめたものなので自分の主観とかが混じってしまっているかもしれない。主語が大きくならないように予め断っておくけど、この書き方はもちろんすべての論文に対して当てはまるわけじゃなくて以下の前提条件がある。国際会議論文であるデータマイニング関連分野の論文である論文誌とか卒論とかもっと長めの論文を書くときは当てはまらない項目もあるし、データマイニング関連分野以外の論文を書いたことが無いのでそれ以外の分野の論文に当てはまるかも
- テクノロジー
- 2016/01/18 18:54
- 論文
- research
- 研究
- paper
- writing
- 書き方
- あとで読む
- 英語
EMアルゴリズムでPLSAとSSNBを導出 - でかいチーズをベーグルする
1 user
yamaguchiyuto.hatenablog.com

Machine Learning Advent Calendar 2015 の10日目です。 EMアルゴリズム自体の説明は溢れてるけど実際にEMアルゴリズムを使って何かを解いてみたっていう例題はGMM（Gaussian Mixture Model）以外あまり見ない気がする。なので今日は二つの例題を使って具体的にEMアルゴリズムを使ってみる。導出してみるのはかの有名なPLSA（Probabilistic Latent Semantic Analysis）とあまり有名じゃないSSNB（Semi-Supervised Naive Bayes）。二つとも例題としてはかなり優秀だと思う。論文 "Unsupervised learning by probabilistic Latent Semantic Analysis", JMLR, 2001 "Text Classification from
- テクノロジー
- 2016/01/12 16:42
Personalized PageRankとLabel Propagationが等価という話 - でかいチーズをベーグルする
3 users
yamaguchiyuto.hatenablog.com

無向グラフの時のPersonalized PageRank*1とLabel Propagation*2（LGCとも呼ばれる）が本質的に等価というお話。つまりLabel Propagationを計算したいときはPersonalized PageRankを計算すれば等価な結果が得られる。Personalized PageRankとLabel Propagationを知ってる人向けに書くのでわからない人はブラウザの戻るボタンを押してね。まず、Label Propagationは以下のように書ける。ただし、で、Wはデータ間の類似度行列、Dは次数の対角行列を示す。また、yはlabeled exampleのラベルを格納するベクトルで、positiveなら1、そうでなければ0を格納する（unlabeledも0）。αは0から1のパラメータ。この等式を満たすfが求められればLabel Propagati
- テクノロジー
- 2016/01/12 16:41
- network
ICWSM2015で発表した - でかいチーズをベーグルする
3 users
yamaguchiyuto.hatenablog.com

ICWSM2015で発表してきた。タイトルは"Patterns in Interactive Tagging Networks"。2年前にポスター発表していて、今回はフルペーパーで発表できた。この会議は面白いから今後も参加したいなー。今回の発表は初めての「分析しました論文」だった。WWW2015での発表でも使ったデータと同じもの（規模は違う）を使って、Twitterにおけるユーザのタグ付け関係（リストをタグとみなした）について基礎的な分析をした。正直、当たり前とも思える結果を示しただけなんだけど、それを「しっかり示す」ことに意義があると認められたんだとおもう。メタレビュアもそう言っていた。ICWSMは特にこの辺を重視している印象で、他の論文もこういう感じのものが多かった気がする。Research questionを明確に示して、それにしっかりと答えるのが何よりも大事ということかな。 P
- テクノロジー
- 2015/06/08 23:46
WWW2015でポスター発表した - でかいチーズをベーグルする
4 users
yamaguchiyuto.hatenablog.com

WWW2015でポスター発表してきた。WWWは以前聴講だけで参加したことがあって、今回はポスターだったので、次回はフルペーパーで発表したい。今回のポスターのタイトルは"Why Do You Follow Him? Multilinear Analysis on Twitter"。キャッチーなタイトルにしたいなーと思ってあれこれ考えた結果結局ありがちなタイトルになった笑今回の発表はTwitterにおいてユーザが他のユーザをフォローする理由を分析しましょうというもの。以前から@ceekzさんと一緒にTwitterのデータ使った研究しましょうと言ってたのでようやく一つ発表できた。基本的には@ceekzさんにデータの収集と基本的な分析をしてもらって、僕が持ってたちょっとしたアイデア（テンソル分解）を試してみた感じ。この発表に関するリソースは以下のとおり。データ：http://dx.doi.o
- テクノロジー
- 2015/05/31 16:04
PAKDD2015で発表し（てもらっ）た - でかいチーズをベーグルする
3 users
yamaguchiyuto.hatenablog.com

PAKDD2015に論文が通っていたので発表した。タイトルは"SocNL: Bayesian Label Propagation with Confidence"。自分で参加して発表したかったんだけどちょうど同じ日程でWWW2015が開催されていて、そっちでの発表もあったので、PAKDDには参加できなかった。残念。なので共著のFaloutsos教授の知り合いの方にかわりに発表してもらった。大変お世話になりました。前回のAAAI2015に引き続き、今回の発表もグラフ上でのノード分類アルゴリズムの提案。やっぱりアルゴリズムを考えていろいろ解析するのは楽しい。今後もこういう研究をしていきたい。 SocNL: Bayesian Label Propagation with Confidence from Yuto Yamaguchi 概要今回の発表はグラフ上でのノード分類アルゴリズムをベイズ推
- 暮らし
- 2015/05/25 17:18
ピッツバーグで暮らす - でかいチーズをベーグルする
4 users
yamaguchiyuto.hatenablog.com

いろいろとあれがあれしてアメリカのピッツバーグにあるカーネギーメロン大学で一年間研究することになった。そろそろ二週間くらいになるけど、ピッツバーグで暮らし始めてから色々と大変だったから今後ピッツバーグに来る人のためにちょっとメモ。ピッツバーグ便利帳メインページ - ピッツバーグ便利帳これがないと始まらない。ホントにお世話になってます。渡米関連飛行機 Air CANADAにした。自分が飛行機に乗った時期（４月）は航空券を買うのが遅かったのもあるのかJALとかANAは４０万円くらいした。目ん玉飛び出そうになったから他のを探したらAir CANADAなら１３万くらいだったから目ん玉戻った。日本からピッツバーグへの直行便はない。ちなみに片道航空券は往復航空券より高い。意味不明だからいろいろ調べてみたら、往復航空券は格安ツアーの航空券を使ってたりするから安くなってるらしい。荷
- 暮らし
- 2015/03/26 17:35
グラフのエッジリストから次数分布等をプロットするスクリプト書いた - でかいチーズをベーグルする
1 user
yamaguchiyuto.hatenablog.com

グラフのデータを手に入れたらまずは次数分布をプロットするのが定石だけど、なぜか毎回毎回実装しなおしててアホだったから反省してちゃんと書いた。次数分布とそのCDF、CCDFをプロットする。要Numpy, Scipy, Matplotlib, Networkx。使い方言わずと知れたEnron email networkで試してみる。まずデータをSNAPから取ってくる。余談だけどSNAPにはいろんなネットワークデータがあって、これ眺めてるだけで楽しくなってくるね。 $ wget http://snap.stanford.edu/data/email-Enron.txt.gz $ gunzip email-Enron.txt.gz 最初の4行は余計なものが入ってるので消す（tailで+5と指定すると5行目から最後までを出力してくれる便利機能があったなんて知らなかった）。 $ head
- 暮らし
- 2015/02/27 13:38
Predicting the Demographics of Twitter Users from Website Traffic Data (AAAI'15) を読んだ - でかいチーズをベーグルする
1 user
yamaguchiyuto.hatenablog.com

AAAI2015のOutstanding paper award honorable mention。発表聞いた時は何でこれが賞とったのかな？と思ったけど実際論文読んだら結構面白かった。概要 Twitterユーザのいろいろな属性（年齢、性別、人種、収入、学位、子持ち）を推定する。面白いのはQuantcastのデータを使うところ。QuantcastはあるWebページに訪れる人の年齢とか性別とかの割合を出してる。例えば「LinkedInに訪れる人達の何％は男性です」とか。ここから得られるWebページとTwitterのアカウントを結びつけて、それをフォローしてる人たちの属性を推定する。具体的には、「あなたはespnとwiredをフォローしてるから男性ですね？」とか、「あなたはPlayStationとsteam_gamesをフォローしてるから18-24歳ですね？」とかいう推定をする。 Rese
- 暮らし
- 2015/02/07 11:17

はてなブックマーク

はてなブックマーク

『でかいチーズをベーグルする』

HaskellでB-treeを実装 - でかいチーズをベーグルする

2017年まとめ - でかいチーズをベーグルする

学振PDでカーネギーメロン大学に留学 - でかいチーズをベーグルする

Stochastic Block Model を Edward で実装する - でかいチーズをベーグルする

Probabilistic Matrix Factorization を導出して Edward で実装する - でかいチーズをベーグルする

クロネッカー積とvec作用素とRoth's column lemma - でかいチーズをベーグルする

Correspondence Topic Model の導出と実装 - でかいチーズをベーグルする

研究と開発のはざま - でかいチーズをベーグルする

Author Topic Model の導出と実装 - でかいチーズをベーグルする

Noisy Correspondence Topic Model の導出と実装 - でかいチーズをベーグルする

Joint Topic Modelを実装した - でかいチーズをベーグルする

Robust Large-Scale Machine Learning in the Cloud [KDD'16] を読んだ - でかいチーズをベーグルする

無限混合ガウスモデルを実装した - でかいチーズをベーグルする

無限潜在特徴モデルを実装した - でかいチーズをベーグルする

自分がふぁぼったツイートをランダムに表示するスクリプト書いた - でかいチーズをベーグルする

Tucker分解の導出と実装 - でかいチーズをベーグルする

Alternating Least Square (ALS) でCP分解 - でかいチーズをベーグルする

scikit-learn準拠で Label propagation とか実装した - でかいチーズをベーグルする

TransE [NIPS'13] を実装（と実験再現）した - でかいチーズをベーグルする

Graph embedding の RESCAL [ICML'11] を実装した - でかいチーズをベーグルする

CMU教授直伝の論文の書き方 - でかいチーズをベーグルする

EMアルゴリズムでPLSAとSSNBを導出 - でかいチーズをベーグルする

Personalized PageRankとLabel Propagationが等価という話 - でかいチーズをベーグルする

ICWSM2015で発表した - でかいチーズをベーグルする

WWW2015でポスター発表した - でかいチーズをベーグルする

PAKDD2015で発表し（てもらっ）た - でかいチーズをベーグルする

ピッツバーグで暮らす - でかいチーズをベーグルする

グラフのエッジリストから次数分布等をプロットするスクリプト書いた - でかいチーズをベーグルする

Predicting the Demographics of Twitter Users from Website Traffic Data (AAAI'15) を読んだ - でかいチーズをベーグルする

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『でかいチーズをベーグルする』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません