タグ

ブックマーク / komachi.hatenablog.com (24)

  • word2vec を超えた異空間 - 武蔵野日記

    今日は第9回最先端 NLP 勉強会参加のためにリクルート MTL カフェへ。 この勉強会は毎年この時期に開催され、最前線で活躍する人たちがみんなが読みたいと思っている論文を紹介する、という趣旨で開催されている勉強会で、読む前に論文の投票があったりなんだりと、独特のプロセスがある。 自分はというと今年は以下の論文を紹介。 Ding et al. Visualizing and Understanding Neural Machine Translation. ACL 2017. 詳しくは紹介スライドを見てもらえるといいのだが、ニューラル機械翻訳を可視化したいというモチベーションで、ニューラル機械翻訳ではデコード時のアテンションを見ることで少しは見当が付くのだが、それでは全然十分ではないのでもっと細かく見たい、という話(アテンションはアライメントとも違うので、解釈しにくい)。 あとで [twi

    word2vec を超えた異空間 - 武蔵野日記
    mzi
    mzi 2017/10/02
    面白い研究。大きく化けるかも。
  • 時々は素性工学してみたい - 武蔵野日記

    朝から必要に迫られて、昼過ぎまで数時間コーディング。ほとんどの環境は Python 3 になっているのだが、ときどき Python 2 のままになっているときがあったりする。 このデータ、数ヶ月に1回しか触らないので、毎回「どういうデータだっけ?」ということを確認しないといけなくて、かつ実験を一通り終えてスライドに数字を入れたあとに間違いに気がついて全部やり直しになったりすることも多く、つらい。今回は、人手でつけたラベルだと思って学習したら予測ラベルで学習していて、全部やり直しになったし……(そんなに学習データはなかったはずなので、当然なんだけど)。 今回は特徴量抽出までやってもらったデータをいただいて、そこから先の学習部分を分担しているのだが(それはそれでとても助かっているのだが)、やはりこういう設定で研究するのは難しく、どうしても開発案件的になってしまう。今回は元データもあるし、素性の

    時々は素性工学してみたい - 武蔵野日記
    mzi
    mzi 2017/06/19
    そのとおり。 「結果は出せるけど、すぐモデルを更新して回す、みたいなサイクルが回せない、というのも大きい」
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • ウェブマイニングと自然言語処理の間 - 武蔵野日記

    今日は WebDB Forum 2014 に参加。名古屋で開催されている IBIS 2014 とどちらに行くか迷ったのだが、すでに2回の補講が決定している月曜火曜の授業を休んで行くのは厳しいなと思ったのと、WebDB Forum は東京開催なので学生も参加するかと思い、こちらにしたのであった。 蓋を開けてみると、現地に来てくれた学生は4人しかおらず、意外。研究室に配属される前のB3学生に聞いたり、学外からうちの研究室の受験を希望するB4学生に聞くと、8割程度の確率でウェブからの情報抽出的なことがしたいと言われるし、実際うちの研究室でもそんな感じなので、半分以上来るのではないかと思っていたのだ。確かに秋口になってから、必ずしもウェブ応用タスクばかりでなく、自然言語処理の要素技術に興味を持つ人も増えてきた気がするし、これはこれで悪くないことかもしれない。 午前中は特別セッションで、ビッグデータ

    ウェブマイニングと自然言語処理の間 - 武蔵野日記
    mzi
    mzi 2014/11/28
  • とりあえず deep learning してみる - 武蔵野日記

    いろいろと年度末に向けた TODO が溜まってきている。娘が生まれてからというもの、仕事の時間を8割に削減しているため、ひとまず年度内は新規の仕事は原則的に引き受けないようにしているのだが、継続の仕事だけでも思ったよりあるものである。 午前中は自然言語処理特論(大学院の授業)。みんなのソースコードを見ていると、特徴が出ておもしろい。「あ、これサンプルに使える!」と思ったりする。大規模化したときの効率なんかについて、ときどき補足を入れたりする(可読性や保守性のためにあえて効率を犠牲にしている場合もあるので、一概に効率をよくする必要はないのだが)。結局計算量を見積もるという意識がないと、あっさり何度も実行される重複した処理を書いたり、疎行列なのに密行列を作って演算したりするので、書いて実行し、直して「速くなった!」という経験を何度もするのが近道なのかな。 午後は SLP(自然言語処理の教科書)

    とりあえず deep learning してみる - 武蔵野日記
  • 日本という死に至る病 - 武蔵野日記

    ある意味昨日の話の続きなのだが、@nokunoさんの Mixi Voice で 稲船敬二氏は,何を思い,何を考え,何を目指してカプコンを辞めていくのか。渦中の氏に直撃インタビューを知る。これもいろいろ考えさせられる記事である。 この人はカプコンの CTO の人で、「ロックマン」や「鬼武者」などの数々のヒット作を生み出してきた(20年以上この業界にいる)人で、日ゲームに足りないのはなにで、それはどうすればいいのか、ということを滔々と述べている。(そのため、とうとうカプコンを辞めることになった、と) 最初に問題にしているのは、日では一生懸命働くのは無駄で、失敗しないことが美徳なのだから、それには成功しようと思わないことが重要、という話。これではゲームに必要不可欠な「もっといいゲームを作らないと」という意識が弱くなる、ということ。はて、どこかで聞いたような話。 もちろん大きな会社なので多数

  • 自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記

    今学期は毎週論文紹介するネタを探すのも疲れるので、適宜論文紹介を入れながら、 Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies) 作者: Jimmy Lin,Chris Dyer出版社/メーカー: Morgan and Claypool Publishers発売日: 2010/08/15メディア: ペーパーバック クリック: 67回この商品を含むブログ (6件) を見るをしばらく読もうかと思っている。ちなみに http://www.umiacs.umd.edu/~jimmylin/book.html から全文の PDF がダウンロードできるので、そちらを使用予定。印刷・製してパラパラとめくっているが、テキスト的には割といいだと思う。みんながこぞ

    自然言語処理における MapReduce の使い方のチュートリアル - 武蔵野日記
  • Google Transliteration IME - 武蔵野日記

    Googe 日本語入力が出たのは記憶に新しいが、Google Transliteration IMEというのもあるらしい。 Arabic, Bengali, Farsi (Persian), Greek, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Punjabi, Tamil, Telugu and Urdu という14の言語をローマ字で入力できるようになる、と。日語と中国語くらいしか統計的インプットメソッドの恩恵がないと思っていたのだが、上記の言語も統計的手法が使えるのでは、という感じ。Transliteration (翻字)というと、たとえば America を「アメリカ」と表すようにある言語の言葉を違う言語の言葉に変換することを指すので、入力がローマ字であるだけで、英語を入力してアラビア語が出力されるわけではないから

    Google Transliteration IME - 武蔵野日記
  • Online EM を実際のタスクに適用するとどうなるのだろうか - 武蔵野日記

    今日の機械学習の勉強会では Percy Liang, Dan Klein. Online EM for Unsupervised Models. NAACL-2009. を @tettsyun くんが紹介してくれた。日語による解説は@hillbigくんのオンラインEMアルゴリズムに詳しい。(ohmm(オンラインEMによるHMM学習)をリリースしましたでソースコードも公開されている) ちなみに@tkngさんがChaIMEの高速化とモデルファイルのサイズを縮小するために、このohmmを用いており、大規模データに対してスケールする、ということを示していた、というのがここまでの経緯。 しかし今回きちんと論文を読んでみると、どうも彼らは新しいことを提案したというよりは、自然言語処理のいくつかのタスクでしっかり実験しました、という話のようである。そして、品詞タグ付けと単語分割、文書クラスタリングと機

    Online EM を実際のタスクに適用するとどうなるのだろうか - 武蔵野日記
  • EMNLP 2009 初日(1): ベストペーパーは Markov Logic を用いた教師なし意味解析 - 武蔵野日記

    機械学習とか統計的自然言語処理の国際会議、EMNLP (Empirical Methods in Natural Language Processing)の初日。EMNLP は基的に単独開催しないので、いつもこうやってなにか他の会議に寄生するのである。 たまにはのんびりしようかなと思って新聞読みながら朝を取り、会場に行くとPatrick Pantel さんが一人でいたので話しかける。いつも誰かと話しているので声をかけづらいが、今日は朝一のセッションの座長らしく、それで招待講演に出ないで会場の空調とか音響を確認したりしていたので、一人でいたようだ(他の人たちは招待講演を聴いている)。 Patrick Pantel さんは、ときどきこの日記でも書いているが、南カリフォルニア大学の特任助教で、現在はサバティカルを利用してシリコンバレーの Yahoo! Labs で働いている。たまたま自分の博

    EMNLP 2009 初日(1): ベストペーパーは Markov Logic を用いた教師なし意味解析 - 武蔵野日記
  • 企業の研究者として生きるということ - 武蔵野日記

    最近出たで読もうと思っていたので東京出張の合間を縫って読む。 企業の研究者をめざす皆さんへ―Research That Matters 作者: 丸山宏出版社/メーカー: 近代科学社発売日: 2009/11/04メディア: 単行購入: 7人 クリック: 105回この商品を含むブログ (16件) を見る丸山さんは元々自然言語処理の研究者(昔 ACL にも通していた)で、IBM の東京基礎研究所の所長を2006年から努めていて、今回は所長として研究所で発行していたニューズレターに連載していたコラムをまとめたを上梓した、ということのようだ。 書き下ろしになっている第1章と第9章以外はそういうわけで大変読みにくい(他の見せ方はなかったのだろうか。手間をかけずに出版するためにこうなったのだろうが)のだが、書き下ろし部分だけでも確かに読んで参考になった。ニューズレター部分も参考になって、たとえばp

    企業の研究者として生きるということ - 武蔵野日記
  • 論文紹介は八百屋で野菜を売るようなもの - 武蔵野日記

    今日は id:smly くんによる論文紹介。週末大学が新しい研究棟を作るために全学停電になってしまうので、最後駆け足になってしまったが、きちんと消化して読んでいてすごいなぁ、と思う。すでに博士の学生くらいの貫禄ある……(入学した当初からそうだったかもしれないけど(笑)) 同じく DMLA 組(データマイニングと機械学習とリンク解析に関する勉強会)の M1 の人としては、id:tettsyun くんも先週進捗報告していて、しっかり研究していてさすがだな、と思う。manab-ki くんと一緒にあーだこーだ言いながら論文読んだりしていて、楽しそうである。 翻って自分のことを考えてみると、自分が論文の読み方、特に勉強会でどの論文を紹介すればいいかという勘所が分かってきたのは、つい最近のことである。少なくとも、Microsoft Research に行って帰ってくる前は分かっていなかった。重要な点と

    論文紹介は八百屋で野菜を売るようなもの - 武蔵野日記
  • マイクロソフト基礎研究所“最強伝説” - 武蔵野日記

    Microsoft Research (研究の世界ではよく MSR と呼ばれる)が「マイクロソフト基礎研究所」になるところに少し恣意的なものを感じるが、内容には全く同意。どこかの国の科学技術行政に向けた取り組みと比べると泣ける(涙もろい)。マイクロソフト基礎研究所“最強伝説”は今も健在か?という記事。登録しないと2ページ目以降読めないのが腹立たしいが、登録して読む価値はあると思う。 (研究部隊は)無分別になって良いと言っているわけではない。研究のコスト構造やお金の使い先については、よりいっそう注意深くなる必要がある。ただ、基礎研究は会社の未来にとって非常にクリティカルなものであり、削減ありきの姿勢で臨まないというのが、われわれの哲学だ。 こういう意見が民間から出るのがアメリカのすごいところであり、これと逆のことを国がするのは日のすごいことだが、MSR は当に信じがたいくらいすばらしい研

  • アカデミックとビジネスを結びつける - 武蔵野日記

    たつをさんの楽天研究開発シンポジウム 2009 の報告がかなりまとまっていて参考になる。Twitter の #rrds2009 もおもしろい。 個人的にはパネルディスカッションの「インターネットに挑む若手研究者」という内容が興味深い。ちょっと長いが引用する。 パネリスト: 岡野原 大輔 氏(@hillbig) 首藤 一幸 氏(@shudo) 中村 聡史 氏(@nakamura) 岡野原氏曰く: 知る努力が重要。 アカデミックの人は外への宣伝が足りない。 小学5年生ごろから接尾辞配列について考えていた。 人生の重要ポイント:未踏プロジェクトGoogleインターン、会社設立。 理論も実践も。研究ができる人が開発も(Google)。 せっかくの研究が現場に生かされていない、使いどころが悪い、というケースが多い。 今後:アカデミックとビジネスのつなぎ役になりたい。博士取得後はPFI。 中村氏曰く

    アカデミックとビジネスを結びつける - 武蔵野日記
  • Learning to Hash! 最新 Locality sensitive hashing 事情 - 武蔵野日記

    高速に類似度計算をしたい場合、典型的に使われるのは Locality sensitive hashing (LSH)という技術であり、元々距離が近いインスタンス同士はハッシュ値が近くなるようにハッシュ関数を作ることで高速に類似度を計算したりできるというお話なのだが、最近 Semantic hashing や Spectral hashing、また Kernelized LSH という手法が登場して盛り上がりつつあるところ、同じグループの人がもっといいのを出しました、ということらしい。ちなみに情報推薦とか画像検索とか大規模クラスタリングとか、いろいろな分野で高速な類似度計算の応用例がある。 そういうわけで、今日は manab-ki くんが Brian Kulis and Trevor Darrell. "Learning to Hash with Binary Reconstructive

    Learning to Hash! 最新 Locality sensitive hashing 事情 - 武蔵野日記
  • ACL-IJCNLP 2009/EMNLP 2009 参加報告まとめ - 武蔵野日記

    5日分の参加報告。 ACL-IJCNLP 2009 会議初日 ACL-IJCNLP 2009 会議2日目: ポスター発表 ACL-IJCNLP 2009 会議最終日: ベストペーパーは構文解析2・強化学習1 EMNLP 2009 初日(1): ベストペーパーは Markov Logic を用いた教師なし意味解析 EMNLP 2009 初日(2): Web 2.0 時代の自然言語処理 EMNLP 2009 2日目: 意味解析が盛り上がりを見せてきた ACL-IJCNLP のほうは自分的にはあまりおもしろい論文はなかったかなぁ(おもしろいと感じるポイントが他の人と違うような気がするので、自分でちゃんとチェックしたほうがいいと思うけど)。応用で評価するという流れが割と今回目についたところかな? 代理発表が多すぎて議論が全然深まらなかったのが残念。アジアでの開催となるとアメリカやヨーロッ

    ACL-IJCNLP 2009/EMNLP 2009 参加報告まとめ - 武蔵野日記
    mzi
    mzi 2009/08/12
  • EMNLP 2009 2日目: 意味解析が盛り上がりを見せてきた - 武蔵野日記

    今年の ACL-IJCNLP の各テーマ別採択件数・採択率一覧は ACL business meeting で資料が配られたので、NLP 若手の会第4回シンポジウムの国際会議報告にて報告があると思うが、今回の EMNLP では意味解析に関する研究発表が割と目につく。盛り上がってきたかな? クリックスルーや検索クエリログを用いた研究は、ポスターセッションでも4,5個あったが、割とメジャーになってきたらしい。朝一のセッションは Information Retrieval and Question Answering に出て、 Huihsin Tseng; Longbin Chen; Fan Li; Ziming Zhuang; Lei Duan; Belle Tseng. Mining Search Engine Clickthrough Log for Matching N-gram Fea

    EMNLP 2009 2日目: 意味解析が盛り上がりを見せてきた - 武蔵野日記
  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
  • 人工知能学会の Twitter アカウント - 武蔵野日記

    論文誌2提出。しかしまだ1残っている。しかしこれは金曜日までに終わりそうにないので、アメリカに持ち越しかも……。 人工知能学会で思い出したが人工知能学会の Twitter アカウント(全国大会用)があるらしい。@jsai09 いろいろつぶやくと返事が返ってくるようだ(笑) @jsai09official は公式連絡(告知)用なので、たぶん参加する人でないとあまり意味がないかもしれないが、非公式版は発表内容の議論も出るのではないかな〜と思うので、人工知能に興味ある人はフォローするといいかも。 同様に、情報検索に関する国際ワークショップ NTCIR の公式アカウントもある(@ntcir)。 こんな感じで学会もどんどん Twitter 利用が盛んになってくるのかもなあ。誰かが言っていたのだが、こうしたアカウントをフォローしている人を見れば、同じ分野に興味がある人を見つけることができるのがいい

    人工知能学会の Twitter アカウント - 武蔵野日記
  • Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

    最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

    Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記