[B! 研究] mkataigiのブックマーク

一風変わった研究論文をまとめてみた - 毛のはえたようなもの

研究活動をしているの、サーベイの途中で「おや？」と思ったり、心わき立つ論文が見つかるものです。リスペクトをこめてまとめてみました。*1 書いてみたらそんなになかったので、他にもこれはというものがあればお知らせくだされば幸いです。はじめにまずは、一風変わった研究論文を受け入れる心の準備として、こちらの記事をご覧ください。 LABプラスとは研究室の教授との“日常”の交際を楽しむゲーム。 http://anond.hatelabo.jp/20091003041908 ぷよぷよ人気ゲームぷよぷよに関する論文はいくつかあるようです。組合せ最適化問題としてのぷよぷよの連鎖数判定問題: http://ci.nii.ac.jp/naid/10017435004/ 一般化ぷよぷよの NP 完全性: http://repository.kulib.kyoto-u.ac.jp/dspace/handl

mkataigi 2010/08/24

リンク

リンク解析とか: 重要度尺度と von Neumann カーネル - smly’s notepad

NAIST の入学手続を終えた. 残りの期間はサーベイするぞーということで shimbo 先生の講義資料「リンク解析とその周辺の話題」を読んでいます. 一日目, 二日目の資料は PageRank, HITS, SALSA などの重要度尺度の紹介と, von Neumann Kernels と HITS の関係についてのお話が中心. これらを実装してみた. 後半に進むほど力尽きて記述が適当になってます:)PageRankポイントはランダム遷移行列による random walk では定常分布に収束しない (エルゴード性 (ergodic) を満たさない) という点. どうして満たさないかというと. sink (出次数のない節点) が存在するとき, 明らかに既約 (irreducible) でないのでエルゴード性を満たさない. 複数の強連結成分を持つケース => 周期性を持つと考えてよい? 周期

mkataigi 2010/07/13

リンク

Baidu Japan（バイドゥ株式会社）

このページをブックマーク登録されていた方は、お手数ですがブックマークの変更をお願いいたします。なお、このページは５秒後に自動的にジャンプします。自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

mkataigi 2010/06/30

研究

リンク

The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ

巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで，ここ3日間ほど夜なべをして作成した輪講用資料を公開します．普段読まない類の論文だったので色々大変でしたが，非常に勉強になりました．ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました． The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり，個々の技術はオーソドックスな技術の組み合わせになっています．それを組み合わせてひとつのサービスという形で提供し，更に実際の

mkataigi 2010/02/17

リンク

TechCrunch | Startup and Technology News

Shoppable Business wants to make it easier for businesses in the Philippines to source and procure branded products and other inventory, with an em phasis on making sure products are authentic. The B2B

mkataigi 2010/02/08

リンク

あなたを次のレベルに押し上げる「集中的訓練」の方法

ただ「できる」だけではない、多くの有能な人と最高レベルで競い合うことのできるスキルを磨くにはどうすればいいのでしょう？一人の「天才」的な才能を生み出すのに必要な時間は、マルコム・グラッドウェルが Outliers で紹介したように、10000 時間と言われています。しかしこれは必要条件であって、十分条件であるとは限りません。普通にチェスを 10000 時間実践していれば、たいていの選手よりは強くなれます。しかしあとになればなるほど時間あたりに得られる経験値は少なくなりますし、強くなればなるほど自分のレベルを高めてくれる相手を探すのが難しくなるので、グランドマスターになりたいのなら、さらに絞り込んだ訓練が必要になります。ゲームでたとえるなら、「スライムばかり倒していてもレベルは上がらない」と言い換えられるでしょうか。ただ秀でているというところから、本当に「天才」というレベルにまで人を

mkataigi 2010/01/28

リンク

連想配列の進化 - DO++

キーに対して値を結びつける連想配列は多くのアプリケーションの肝であり、コンパクトかつ高速な処理が可能な連想配列を追い求め日夜研究が進められています。特に非常に巨大な連想配列を高速に処理するというのが重要な課題となっています。例えば、音声認識・文字認識・機械翻訳などで使われている言語モデルでは、非常に大量のN個の単語列の情報（特に頻度）を格納することが重要になります。この場合、キーが単語列であり、値が単語列のコーパス中での頻度に対応します。例えばGoogle N-gram Corpusからは数十億種類ものN-gramのキーとその頻度などが取得できます。これらを主記憶上に格納し、それに関する情報（頻度や特徴情報）を操作することが必要になります。そのほかにも大規模なデータを扱う問題の多くが巨大な連想配列を必要とします。ここではこのような連想配列の中でも、キーの情報を格納することすら難し

mkataigi 2009/11/20

リンク

Redirecting...

If you are not redirected, click here.

mkataigi 2009/09/15

リンク

ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記

SIGIR 2009 の採択論文が発表されていたようだ。SIGIR というのは情報検索に関する世界で一番権威ある国際会議で、情報系の国際会議ランキングでもトップ10にランクインしている。その採択数が一番多いのは Microsoft、二番目が Yahoo! 次いで Google (でも3本だけ)という結果に。なぜ採択数(率)が問題になるかというと、情報系の国際会議というのは最新の研究成果を発表する場であり、投稿された論文に2人以上の査読者がついて各項目について点数をつけ、一定点数以上のものだけを採択するので、国際会議のランクに応じてそれなりのクオリティの論文が書けないとそもそも通らないし、1人で書ける論文の量にも限界があるので大量に通せる研究機関は研究者の層も厚いことが分かるからである。上記リンク先でも書いてあるが再度引用すると、 38% of the papers have at le

mkataigi 2009/04/27

研究

リンク

自然言語処理における半教師あり学習のテキスト - 武蔵野日記

最近移動続きであまり研究に時間は割けないのだが、本は読めるということで本を2冊、サーベイ的な記事を3本(うち2本はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見るを読む。この本の著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

mkataigi 2009/04/17

リンク

Leo's Chronicle: 学生を成功に導くアドバイス - Ullman先生からのアドバイス

博士課程には、二人として同じ学生はいない。そして、教師がすべきことも個々の学生に応じて変わる。自分のキャリアを振り返ってみて、うまくいったいくつかの方法と、よく使われているけれど実際には学生のためにならないやり方というのがよくわかるようになった。まず初めに述べておくと、教師のゴールとはどうやったら学生が自分自身の力で考え、新しいアイデアを組み立て、問題を解ける人になれるかを教えることだ。

mkataigi 2009/04/05

研究

リンク

情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

昨年書いた教科書編が（僕にとっては）嬉しくて跳ね上がるほどブックマークされたので，調子に乗って第二弾を書いてみました．皆様ありがとうございます（ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです）．今回は研究寄りですが，少しでも誰かの役に立てば幸いです．僕は網羅的にサーベイを，キーワード検索以外に主に二つの方法で行っています．会議毎にサーベイ研究者毎にサーベイ 1.はさておき，2.ですが，僕は研究者のDBLPをチェックしています．気になる論文の著者のDBLPを眺めると，知らなかった要チェックや！論文を拾うことができます．なので，一線で活躍する研究者の論文は定期的にチェックする必要があります．今回はIR研究者の中でも，戦闘力が高く，この人は常にウォッチせねばという研究者の一部を紹介したいと思います．下記は若輩の独断と偏見に基づくものです．一線で活

mkataigi 2009/02/22

研究

リンク

クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

mkataigi 2009/01/17

リンク

研究テーマを探している学生のときに考えた事 | Lifehacking.jp

「どうしたら研究ができるようになるのか？」身近な話で恐縮ですが、大学には研究者の卵である学生もおおぜいいて、数多くの悩みや、疑問や、文句を日々いろんなところから聞きますが、突き詰めればそれはこの質問に集約されます。「研究」「リサーチ」を始めるときは、どこか小説を書く作業に似ていて、いつ終わるともしれない千里の旅の一歩を踏み出すような当ての無さがあります。わくわくもしますが、間違いやすく、不安な一瞬でもあります。なので、「何を研究すればいいのかわからない」「どこから始めればいいのかわからない」「すべてが手を付けられている気がする」という怨嗟の声がよく聞こえてくる訳です。自分も普通の人の倍近い時間をかけて博士号をとったので、これはよく自問自答していました。いまでは自分なりの研究テーマの探し方が確立できましたが、こうした戦略は身に付く前は地道ですが次のような方法で興味の対象を絞るという

mkataigi 2008/01/23

研究

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

mkataigi 2007/12/19

リンク

グーグルが日本語N-gramデータを公開 ― ＠IT

2007/11/01 グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語（例では“グーグル”）と、他の単語の結びつきを予測できる。 N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。公開したのはグーグルがWebサイトから抽出した約200億文（約2550億単語）の日本語データから作成したN-gramデータ（1～7gram）。データは特定非営利活動法人言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。これまで米グーグルは英語について同

mkataigi 2007/12/19

リンク

Yahoo!，分散コンピューティング研究用に演算速度27テラFLOPSのシステムを提供

米Yahoo!は米国時間11月12日，分散コンピューティング用システム・ソフトウエアの研究開発を支援するオープンソース活動を開始すると発表した。インターネット規模のコンピューティング環境を研究するためのシステムを，大学などに提供していく。この活動用に，プロセサ約4000個と3テラバイトのメモリー，1.5ペタバイトのハード・ディスク装置で構成するスーパーコンピューティング・クラスタ「M45」を用意する。同システムの演算速度は最大27テラFLOPSある。 M45では，分散ファイルシステム/並列実行ソフトウエア「Hadoop」の最新版や，Yahoo!の研究組織であるYahoo! Researchが開発した並列プログラミング言語「Pig」といった，分散コンピューティング用のオープンソース・ソフトウエアも利用可能とする。まずカーネギーメロン大学が第1号のユーザー組織となり，M45システムの性能評

mkataigi 2007/12/19

リンク

米ヤフー、分散コンピューティング開発を支援:ニュース - CNET Japan

Yahooは米国時間11月12日、カーネギーメロン大学と協力して分散コンピューティング向けのソフトウェアを開発するオープンソースプログラムを立ち上げる計画であることを明らかにした。Yahooによると、同大学がこのプロジェクトで初めての学術分野のパートナーであるという。 Yahooは、大量のデータを処理することが可能なオープンソースの分散ファイルシステムである「Hadoop」を支援している。同社では、スーパーコンピュータ級のデータセンタでHadoopを学術研究に利用できるようにしたいと語っている。

mkataigi 2007/12/19

リンク

ブログの文体で書き手の性別を自動判別 | スラド

ITproの記事によると、リクルートの子会社であるブログウォッチャーは、2008年2月を目処に「プロファイルパスポート」というシステムを立ち上げるそうだ。東工大の奥村学・准教授の研究をベースにした独自技術で、ブログやSNSといった消費者発信型メディア(CGM)に書き込まれた文章を分析し、書き手の属性や行動パターンを判定。これをプロファイルパスポートに反映させ、書き手に合った広告を配信するという仕組みらしい。「おいしい」「まずい」という言葉の使用から評判の良し悪しを判定したりできるそうだが、タレコミ子が気になったのは、「文体から書き手の性別を90%以上の精度で自動判定できる」というところ。性別によってよく使う言葉、使わない言葉があるということだが、自分が異性だと判定されたらちょっとショックかも。

mkataigi 2007/12/19

研究
blog

リンク

ブログの文体で書き手の性別を自動判別、リクルート子会社が広告配信に応用

リクルート子会社のブログウォッチャー（東京・港区）は、2008年2月をメドに、「プロファイルパスポート」システムを稼働させる。ブログやSNS（ソーシャル・ネットワーキング・サービス）といったCGM（消費者発信型メディア）に書き込まれた文章を基に、インターネット利用者の行動を解析し広告配信などに活用するものだ。独自の日本語解析技術で、CGMの文章から書き手の属性や行動パターンを解析。これを、プロファイルパスポートに対応したゲーム、占い、アンケートサイトなどから得た情報と組み合わせて、CGMの書き手に合った広告を配信する。例えば、「自分のブログに『高級レストランAがおいしかった』と書き込んでいて、かつ、相性占いで恋人の誕生日を入力し、かつ、情報配信を許諾している」人に対象を絞って、「競合の高級レストランBの記念日特別メニュー」の案内を配信できる。誕生日などの個別登録された定型情報だけではな

mkataigi 2007/12/19

blog
研究

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

研究に関するmkataigiのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス