2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309
こんな大変面白い記事が紹介されているのを見かけました。 From PhD to Data Scientist:5 tips for Making the Transition そもそもこのサイト自体が「6週間でポスドクをデータサイエンティストに生まれ変わらせる」*1プログラムの公式サイトのようです。日本でも統数研がそのような試みを始めようとしていますが、さすがは本場アメリカ。もう既にやってるところがあるんですねー。 トップページを見るとこのプログラムの卒業生が一部紹介されていますが、その(元の)専門分野は物理学・数学・応用数理学・オペレーションズリサーチ・天体物理学・生態学*2と、もうまちまちです。こんな「素人目にはとてもデータサイエンスと関係するとは思えない」*3人たちをデータサイエンティストになるべく鍛え上げ、Facebook, YouTube, LinkedInといったシリコンバレー
第4回サイバーエージェントMarketing & Analytics勉強会 http://atnd.org/event/camark04 の講演スライドです。未だにslideshareの使い方が分からなくて、アップロードしたら勝手にフォントが明朝体に変わってしまったり位置がずれてしまったり右側が切れてしまったり。。。表示がおかしかったりダサかったりするのはそのせいです。ごめんなさい。
最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。 おかげさまで、今の僕の立ち位置は「データサイエンティストのエバンジェリスト」みたいな感じになってきておりまして*1、むしろもっと本業*2を頑張らねばと焦っているところです(笑)。ということでそんな中で思うようになってきたことを今回はちろっと。 最近何となく感じてる「データサイエンティスト」の境界線について 実は「データサイエンティスト」そのものと他の職種との境界線も変わってきたのかなという気がしてる一方で、「データサイエンティスト」の「中」にも内部区分としての境界線が引けそうだなぁという気もしてます、という。 データサイエンティストの新・3要素 まず、5月の講演会でお話した「データサ
今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような
The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習/人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ
「どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる」。だから統計学が最強の学問である。著者は本書でこう断言しています。 統計学が本当に最強の学問かどうかは置いておくとしても、以前の記事「次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる」で書いたように、グーグルやマイクロソフトやそのほか多くの企業が統計に着目し優秀な人材を求めていることからも、現代における統計学の重要さは誰もが認めることでしょう。 なぜ統計学はそれほど強力なのか? そして、それをビジネスに活かすにはどうすればいいのか? 本書はそれを、統計学の予備知識のないビジネスマンでも分かるように説明してくれます。 データをビジネスに使うための「3つの問い」 本書は単に統計学を解説するのではなく、ビジネスの視点から統計学の有用性を説いているところに特徴があります。例えば著者
前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される(=仕事を湯水の如くふられる)ために必要なソフトスキルについての経験的なメモ。 せっかくデータマイナーをやるなら、マネーボールのピーター・ブランド(サーバーメトリックスの人)見たいに愛されながら働きたいですよね、ということでそのために必要だと思ったこと: 1.数字をいくらでも見ていられるスキル 膨大なKPIの中からみるべき数字を見つけ出すとか、毎日決まった数字を何個も見続けられるスキル。毎日みているKPIから仮説を構築したり、考察を加えると重宝されます。毎日KPIをみると素早く異変に気づくことができるし、それがあまり得意ではない人も多いので、これをやってあげるとみんなに愛される(見るべきKPIが無限増殖する)人生がスタートします。 2.みんな気づかない数値の関係性が見つけられるスキ
今、WEB業界で最もホットなテーマの一つである“統計学”。だが、一般的にはなかなか馴染みのない分野でもある。そこで、統計解析・データマイニングに基づいた高精度なパーソナルニュースキュレーションサービス《Gunosy》の開発チームを直撃。「はじめての統計学」と題し、統計学の基礎を教えていただいた。 今さら聞けない、統計学の基礎知識。 ここ最近、WEB業界において“統計”がキーワードになっている。だが、そもそも“統計学”は数ある専門分野の一つ。実はよく分かっていなくて…という方も、少なくないのではないだろうか? 今回、その統計学について基礎の基礎から教わるべくお話を伺ったのが、話題のニュースキュレーションサービス《Gunosy》(グノシー)を手がける、福島良典さん、関喜史さん、吉田宏司さんの3名。まずは《Gunosy》について、簡単にご紹介しておこう。 左から、吉田宏司さん、福島良典さん、関喜
ここ半年でIT業界ではビッグデータというバズワードが一気に広がり、データ分析者の需要が急増しています。データサイエンティストは今後10年で最も魅力的な職業になるとも言われており、データ分析に携わる仕事に就きたいと考えている学生も以前よりは増えてきているのではないかと思います。 ビッグデータ、データサイエンティスト、データマイニング、機械学習などのキーワードが散りばめられた記事も連日のように投稿されていますが、新卒の学生がデータ分析の仕事に就くための方法について触れられているものはあまりないようです。IT業界で働いている人たちの間でも、正しい認知が進んでいない状況ですので、データ分析業界の構造を学生さんが理解することは難しいのではないかと思います。 私自身はデータ分析に携わって5年程度で、まだまだ初心者の域を脱していないぺーぺーですが、データマイナーになるためにどんなキャリアを積めばよいかに
こんにちは。下田@研究開発グループです。 前回は、かなりライトな「行って来ました」記事でしたので、今回はデータマイニング技術の活用事例の一つとして「インタレストターゲティング」という広告商品と、そのリニューアル案件についてご紹介します。 あらまし mixiには「インタレストターゲティング」という広告商品があります。まだ僕が入社する前の2009年に研究開発グループが広告の部署と協力して作成したプロダクトになります。 リリース当初は効果が高く、人気の広告商品の一つだったそうですが、メンテナンス性やオペレーション部分に問題等を抱えており、つい最近、再度広告関係の部署と協力して、バックエンドを作り直し、新しい仕組みをリリースするに至りました。 2012年12月現在、販売している広告商品としては、2009年作のプロダクトが動いていますが、間もなく切り替わる予定となっています。 以下、2009年製の今
機械学習(Machine Learning)が近年盛り上がっていますね。 gihyoでも連載されているし、PRML1 読書会も各地で開催され盛り上がっています。 またその入門書として読むべき本のリストのようなものもいろいろ提示されるようになってきました。 何なら無料でも楽しめるかもしれませんね。 連載:機械学習 はじめよう|gihyo.jp … 技術評論社 これからはじめる人のための機械学習の教科書まとめ – EchizenBlog-Zwei BLOG::broomie.net: 無料でよめる機械学習・自然言語処理の教科書 自分も機械学習・データマイニング関係の研究室にいていろいろと悩むことや調べることがあったので そういう背景から機械学習とか少し興味あるけど?な人に自分の視点から薦める本をまとめてみます。 この記事では機械学習、データマイニング、パターン認識を明確に区別
Hadoop ソースコードリーディング第10回での発表資料です。2012年5月23日にラスベガスで開催された Data Science Summit 2012 の講演内容をレポートにまとめました。
岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。 画像認識 LSVRC 2012 [html] 優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識(猫認識として有名)[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR
なげーよ!!!!というわけで、TokyoWebMining という勉強会に参加してきました。 いつも人気の勉強会ですぐに ATND 埋まってしまうんですが、たまたま空いてるタイミングで ポチっとできたので参加させて頂きました。 勉強会の詳しいまとめは主催の@hamadakoichiさんがよくまとめられているので こちらをご覧ください。 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) -2nd Week-方法論・ソーシャル祭り- を開催しました 個人的な感想を書くと、やめちゃった大学院とかでは機械学習とか近いところにいたので もともと興味はあって論文とかも読んだり、OpenCV 使ったりとかしてたんですが、 まぁ素人の知識くらいしかないので会場の Ph.D.率の高さに頭が上がらない感じでした。 学問も中途半端、エンジニアとしても全然コード書けてない
会場のニフティさん*1の最寄り駅は、西新宿。初めて降りる駅だと思っていたら、なんか前に来たことある感じがした。でも地下鉄の駅なんてどこも似たようなつくりだからデジャヴだろうと思って歩いていたら、見覚えのある不動産屋さんの建物が。7年前に院試のためウィークリーマンション借りた時の不動産屋さんが西新宿にあるんだった!懐かしすぎる! という感じで(どんな感じだ)、第23回データマイニング+WEB@東京(以下、東京Webマイニング)に参加してきました。勉強会の内容等については、主催の @hamadakoichi さんのblog 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog にこれ以上ないくらいまとまっているので、そちらを見ていただくとして、ここでは思ってた
Your version of Internet Explorer is not longer supported. Please upgrade your browser.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く