rti7743のブックマーク - はてなブックマーク

全てプログラミングで解決しなければならないという思い込みを捨てる - 武蔵野日記

2時間しか眠れなかったが、なんとか起きて出勤。朝はアルゴリズム演習の授業。先日台風で休講になった日の補講なのだが、3限以降は休講にならなかったので、1-2限だけの補講のはずなのに、1限の授業が休講だったので、実質自分の授業のためだけに学校に来ている人がほとんどだったらしい……（出席しなくてよいし、課題を出すだけでもよいと伝えていたところ、1/3の学生が出席。）今年度の講義はこれで全部終了。来年は今年度やる予定でウォーミングアップに3回かかってしまったためにできなかったデータ構造と、ソートアルゴリズムをカバーしたいところである。お昼は学内のお仕事に関係する説明会。どういう分担か事前に知らされていなかったのだが、1時間半あった説明のうち、自分に関するところは1分くらいで、残りは全部自分に関係ないところだった。説明会のあと、コース内の先生方に自分がやる予定の仕事がどういうものか教えていただい

rti7743 2013/12/30

目的と手段の逆転に陥ると大変だかんね

リンク

Microsoft は Google の検索結果なんてコピーしていない - 武蔵野日記

Google、おとり捜査でBingの「カンニング」を発見。マイクロソフトを非難という記事について、Microsoft が悪いことしたのか、という声がけっこうある。 (2011-02-07 訂正) IE の Bing ツールバーを入れただけで検索に関する行動データが送られていた、という点、ツールバーからの検索のときに行動データが送られていた、と誤解していたので、お詫びして訂正します。 @shuyo さんご指摘ありがとうございます。Search Engine Land の元記事も参照されるとよいです。日本語に翻訳される過程でいろいろ情報が落ちています。パッと見ると Microsoft に恨みがある人は坊主憎けりゃ袈裟まで憎い、と言わんばかりに「Microsoft が悪いことしたのか」と思うのだろうが、恐らく話は簡単ではない。ちょっと引用。マイクロソフトのサーチエンジン Bing が Goo

rti7743 2011/02/08

Google

リンク

年収1000億円もらえるならおれは研究者をやめるぞ！ - 武蔵野日記

広島の2日目は朝イチのセッションで座長を頼まれていたのでがんばって起きる。朝早起きして観光しようと思っていたのだが、起きたらそんな時間ないし……。仕方ないので歩いて広島バスセンターに行くまでに少し遠回りして原爆ドームだけ見てくる。「はだしのゲン」を小学生のときに幾度となく読んだのだが、この町はそういうそぶりを全く見せず、ただこの原爆ドームだけが象徴として残っている。記憶し続けることと同様に、忘れることも大事なのかもしれない。早朝の原爆ドームの近くにいた日本人は全員通勤途中のビジネスマンか OL で、観光客は団体の中国人だけだったのは印象的である。日本人はもう平和には興味がないのかなぁ。空気のように平和だからこそ意識しないのかもしれず、それが理想なのかもしれないが、なにやら世の中がきな臭いことに突入しつつあり、こういう意識でこれからの世の中乗り越えられるかどうか分からないのだけど。座長は

rti7743 2010/11/24

リンク

エンジニアを幸福にしないヤフーというシステム - 武蔵野日記

@nokunoさんのYahoo! JAPANを退職しましたという記事を読む。いまはタイトルに「翻訳」と書いてあるので紛らわしくないが、最初は「すわ id:nokuno さんがとうとう辞めたか?!」と釣られたものである (笑) 内容を読んでみると「まあ、そうだろう」という感じで、そんなに目新しいことが書いてあるわけではない (が、Yahoo! JAPAN の労働環境について知らない人が読むと「え、Yahoo! ってそんなところだったの??」とびっくりするかも)。著者も断っているが、これはアメリカの Yahoo! のことではなく、日本の Yahoo! JAPAN のことであり、Yahoo! JAPAN は外資系の会社ではなくコテコテの日本企業である (それが悪いと思うかよいと思うかは人次第)。 (2010-10-31 追記) Yahoo! JAPAN の環境がそんなによくないのは My New

rti7743 2010/10/31

リンク

人間の言語習得はルールの学習ではなく丸覚え？ - 武蔵野日記

natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transf orm」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google 日本語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ？　と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

rti7743 2009/07/22

自然言語処理

リンク

Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

rti7743 2009/05/31

リンク

ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記

SIGIR 2009 の採択論文が発表されていたようだ。SIGIR というのは情報検索に関する世界で一番権威ある国際会議で、情報系の国際会議ランキングでもトップ10にランクインしている。その採択数が一番多いのは Microsoft、二番目が Yahoo! 次いで Google (でも3本だけ)という結果に。なぜ採択数(率)が問題になるかというと、情報系の国際会議というのは最新の研究成果を発表する場であり、投稿された論文に2人以上の査読者がついて各項目について点数をつけ、一定点数以上のものだけを採択するので、国際会議のランクに応じてそれなりのクオリティの論文が書けないとそもそも通らないし、1人で書ける論文の量にも限界があるので大量に通せる研究機関は研究者の層も厚いことが分かるからである。上記リンク先でも書いてあるが再度引用すると、 38% of the papers have at le

rti7743 2009/04/26

リンク

大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどの本を買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

rti7743 2009/02/15

リンク

自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非