[B! データマイニング] yumu19のブックマーク

さらば！データサイエンティスト

2013/03/28 PFIセミナー「（道具としての）データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309

yumu19 2013/08/26

データマイニング

リンク

「アカデミアの博士がデータサイエンティストに生まれ変わって企業に転身するための5つの秘訣」（海外記事紹介） - 渋谷駅前で働くデータサイエンティストのブログ

こんな大変面白い記事が紹介されているのを見かけました。 From PhD to Data Scientist:5 tips for Making the Transition そもそもこのサイト自体が「6週間でポスドクをデータサイエンティストに生まれ変わらせる」*1プログラムの公式サイトのようです。日本でも統数研がそのような試みを始めようとしていますが、さすがは本場アメリカ。もう既にやってるところがあるんですねー。トップページを見るとこのプログラムの卒業生が一部紹介されていますが、その（元の）専門分野は物理学・数学・応用数理学・オペレーションズリサーチ・天体物理学・生態学*2と、もうまちまちです。こんな「素人目にはとてもデータサイエンスと関係するとは思えない」*3人たちをデータサイエンティストになるべく鍛え上げ、Facebook, YouTube, LinkedInといったシリコンバレー

yumu19 2013/08/04

おー、これ面白い。「博論でやったことと、データサイエンスの世界でやることになるであろう仕事との間に、どれくらい関連があるか」ふむ。

リンク

21世紀で最もセクシーな職業！？「データサイエンティスト」の実像に迫る

第4回サイバーエージェントMarketing & Analytics勉強会 http://atnd.org/event/camark04 の講演スライドです。未だにslideshareの使い方が分からなくて、アップロードしたら勝手にフォントが明朝体に変わってしまったり位置がずれてしまったり右側が切れてしまったり。。。表示がおかしかったりダサかったりするのはそのせいです。ごめんなさい。

yumu19 2013/08/04

リンク

データサイエンティストは「アルゴリズム実装系」と「アドホック分析系」とに分けた方が良いかも - 渋谷駅前で働くデータサイエンティストのブログ

最近色々なデータ分析の現場の方々と意見交換したり一緒に飲んだりするようになり、ますます現場ごとの仕事のやり方の違いや雰囲気の違い、はたまた価値観の違いといったことについてそこそこ深く知るようになってきました。おかげさまで、今の僕の立ち位置は「データサイエンティストのエバンジェリスト」みたいな感じになってきておりまして*1、むしろもっと本業*2を頑張らねばと焦っているところです（笑）。ということでそんな中で思うようになってきたことを今回はちろっと。最近何となく感じてる「データサイエンティスト」の境界線について実は「データサイエンティスト」そのものと他の職種との境界線も変わってきたのかなという気がしてる一方で、「データサイエンティスト」の「中」にも内部区分としての境界線が引けそうだなぁという気もしてます、という。データサイエンティストの新・3要素まず、5月の講演会でお話した「データサ

yumu19 2013/08/04

ふーん。

データマイニング

リンク

統計的消去で擬似相関を見抜こう！ - ほくそ笑む

今日は初心者向け記事です。はじめにある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。身長に対する算数の点数のグラフは次のようになりました。なんと、身長の高い子供の方が、算数の点数が高いという結果になりました！身長が算数の能力に関係しているなんて、すごい発見です！しかしながら、結論から言うと、この結果は間違っています。なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。この関係を図で表すと次のようになります。つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。このような相関を擬似相関と言います。統計解析では、このような

yumu19 2013/07/21

擬似相関は義務教育で教えるべき。他の何を差し置いてでも。マジで。

データマイニング

リンク

次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

The Top Three hottest new majors for a career in techno logy : Microsoft Jobs Blog マイクロソフトの採用活動などを記しているブログ「Microsoft Jobs Blog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in techno logy」（テクノロジー分野でもっとも熱い、3つの専門性とは）では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing （データマイニング／機械学習／人工知能／自然言語処理） Business Intelligence/Competitive Intelligence （ビジ

yumu19 2013/02/17

データマイニング

リンク

書評：「統計学が最強の学問である」、データをビジネスに使う人のための知識が凝縮

「どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる」。だから統計学が最強の学問である。著者は本書でこう断言しています。統計学が本当に最強の学問かどうかは置いておくとしても、以前の記事「次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる」で書いたように、グーグルやマイクロソフトやそのほか多くの企業が統計に着目し優秀な人材を求めていることからも、現代における統計学の重要さは誰もが認めることでしょう。なぜ統計学はそれほど強力なのか？そして、それをビジネスに活かすにはどうすればいいのか？本書はそれを、統計学の予備知識のないビジネスマンでも分かるように説明してくれます。データをビジネスに使うための「3つの問い」本書は単に統計学を解説するのではなく、ビジネスの視点から統計学の有用性を説いているところに特徴があります。例えば著者

yumu19 2013/02/17

この本、気になってた。

リンク

可視化は社会を変えるか？＠ナレッジキャピタル木曜サロン2012

yumu19 2013/01/17

インフォグラフィクスの話や！面白い！

リンク

愛され系データマイニング屋に必要な５個のソフトスキル - dataminer.me

前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される（＝仕事を湯水の如くふられる）ために必要なソフトスキルについての経験的なメモ。せっかくデータマイナーをやるなら、マネーボールのピーター・ブランド（サーバーメトリックスの人）見たいに愛されながら働きたいですよね、ということでそのために必要だと思ったこと： 1.数字をいくらでも見ていられるスキル膨大なKPIの中からみるべき数字を見つけ出すとか、毎日決まった数字を何個も見続けられるスキル。毎日みているKPIから仮説を構築したり、考察を加えると重宝されます。毎日KPIをみると素早く異変に気づくことができるし、それがあまり得意ではない人も多いので、これをやってあげるとみんなに愛される（見るべきKPIが無限増殖する）人生がスタートします。 2.みんな気づかない数値の関係性が見つけられるスキ

yumu19 2013/01/15

ふむー。「定性的な目標を定量的に翻訳するスキル」

リンク

《Gunosy》開発チームから学ぶ、WEB業界人のための“統計学入門” | キャリアハック（CAREER HACK）

今、WEB業界で最もホットなテーマの一つである“統計学”。だが、一般的にはなかなか馴染みのない分野でもある。そこで、統計解析・データマイニングに基づいた高精度なパーソナルニュースキュレーションサービス《Gunosy》の開発チームを直撃。「はじめての統計学」と題し、統計学の基礎を教えていただいた。今さら聞けない、統計学の基礎知識。ここ最近、WEB業界において“統計”がキーワードになっている。だが、そもそも“統計学”は数ある専門分野の一つ。実はよく分かっていなくて…という方も、少なくないのではないだろうか？今回、その統計学について基礎の基礎から教わるべくお話を伺ったのが、話題のニュースキュレーションサービス《Gunosy》（グノシー）を手がける、福島良典さん、関喜史さん、吉田宏司さんの3名。まずは《Gunosy》について、簡単にご紹介しておこう。左から、吉田宏司さん、福島良典さん、関喜

yumu19 2013/01/10

次回が楽しみ。

データマイニング

リンク

TechCrunch | Startup and Technology News

Shoppable Business wants to make it easier for businesses in the Philippines to source and procure branded products and other inventory, with an em phasis on making sure products are authentic. The B2B

yumu19 2013/01/06

リンク

データサイエンティストになりたい学生の為の就職先の選び方 - shakezoの日記

ここ半年でIT業界ではビッグデータというバズワードが一気に広がり、データ分析者の需要が急増しています。データサイエンティストは今後10年で最も魅力的な職業になるとも言われており、データ分析に携わる仕事に就きたいと考えている学生も以前よりは増えてきているのではないかと思います。ビッグデータ、データサイエンティスト、データマイニング、機械学習などのキーワードが散りばめられた記事も連日のように投稿されていますが、新卒の学生がデータ分析の仕事に就くための方法について触れられているものはあまりないようです。IT業界で働いている人たちの間でも、正しい認知が進んでいない状況ですので、データ分析業界の構造を学生さんが理解することは難しいのではないかと思います。私自身はデータ分析に携わって5年程度で、まだまだ初心者の域を脱していないぺーぺーですが、データマイナーになるためにどんなキャリアを積めばよいかに

yumu19 2013/01/04

ふむー。この分野でも研究開発は大企業以外あまりないのかな。「(4)ビッグデータと騒いでいるSIer」ｗ

リンク

「インタレストターゲティング」リニューアルの裏側 - mixi engineer blog

こんにちは。下田@研究開発グループです。前回は、かなりライトな「行って来ました」記事でしたので、今回はデータマイニング技術の活用事例の一つとして「インタレストターゲティング」という広告商品と、そのリニューアル案件についてご紹介します。あらまし mixiには「インタレストターゲティング」という広告商品があります。まだ僕が入社する前の2009年に研究開発グループが広告の部署と協力して作成したプロダクトになります。リリース当初は効果が高く、人気の広告商品の一つだったそうですが、メンテナンス性やオペレーション部分に問題等を抱えており、つい最近、再度広告関係の部署と協力して、バックエンドを作り直し、新しい仕組みをリリースするに至りました。 2012年12月現在、販売している広告商品としては、2009年作のプロダクトが動いていますが、間もなく切り替わる予定となっています。以下、2009年製の今

yumu19 2012/12/28

ふむ。

リンク

[まとめ] 機械学習/データマイニングに興味がある人が読むといいかも？な本をまとめた - パラボラアンテナに立て掛けられた本

機械学習(Machine Learning)が近年盛り上がっていますね。 gihyoでも連載されているし、PRML1 読書会も各地で開催され盛り上がっています。またその入門書として読むべき本のリストのようなものもいろいろ提示されるようになってきました。何なら無料でも楽しめるかもしれませんね。連載：機械学習はじめよう｜gihyo.jp … 技術評論社これからはじめる人のための機械学習の教科書まとめ – EchizenBlog-Zwei BLOG::broomie.net: 無料でよめる機械学習・自然言語処理の教科書自分も機械学習・データマイニング関係の研究室にいていろいろと悩むことや調べることがあったのでそういう背景から機械学習とか少し興味あるけど？な人に自分の視点から薦める本をまとめてみます。この記事では機械学習、データマイニング、パターン認識を明確に区別

yumu19 2012/12/23

ふむ...φ(._.) ←いきなり黄色い本に手を出した人

リンク

Data Science Summit 2012 レポート

Hadoop ソースコードリーディング第10回での発表資料です。2012年5月23日にラスベガスで開催された Data Science Summit 2012 の講演内容をレポートにまとめました。

yumu19 2012/11/06

「さすがにアメリカ、この分野での投資は回り始めている感はあります」なるほど。

リンク

データサイエンティストのつくり方

2012/09/13 PFIセミナー「データサイエンティストのつくり方」資料 Ustreamの録画はこちらです→ http://www.ustream.tv/recorded/25376704Read less

yumu19 2012/11/06

「データサイエンティストに向いてるのはコンピュータサイエンスでなく物理の人」データサイエンティストに俺はなる！

リンク

ニューラルネットの逆襲 - Preferred Networks Research & Development

岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。画像認識 LSVRC 2012 [html] 優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識（猫認識として有名）[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR

yumu19 2012/11/01

これはまたあとから少しずつ読んでく。

リンク

データマイニング+WEB 勉強会第9回に参加してきた - As a Futurist...

なげーよ！！！！というわけで、TokyoWebMining という勉強会に参加してきました。いつも人気の勉強会ですぐに ATND 埋まってしまうんですが、たまたま空いてるタイミングでポチっとできたので参加させて頂きました。勉強会の詳しいまとめは主催の@hamadakoichiさんがよくまとめられているのでこちらをご覧ください。第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) －2nd Week－方法論・ソーシャル祭り－を開催しました個人的な感想を書くと、やめちゃった大学院とかでは機械学習とか近いところにいたのでもともと興味はあって論文とかも読んだり、OpenCV 使ったりとかしてたんですが、まぁ素人の知識くらいしかないので会場の Ph.D.率の高さに頭が上がらない感じでした。学問も中途半端、エンジニアとしても全然コード書けてない

yumu19 2012/10/29

リンク

#TokyoWebmining 第23回データマイニング+WEB＠東京に参加しました - yumulog

会場のニフティさん*1の最寄り駅は、西新宿。初めて降りる駅だと思っていたら、なんか前に来たことある感じがした。でも地下鉄の駅なんてどこも似たようなつくりだからデジャヴだろうと思って歩いていたら、見覚えのある不動産屋さんの建物が。7年前に院試のためウィークリーマンション借りた時の不動産屋さんが西新宿にあるんだった！懐かしすぎる！という感じで(どんな感じだ)、第23回データマイニング+WEB＠東京(以下、東京Webマイニング)に参加してきました。勉強会の内容等については、主催の @hamadakoichi さんのblog 第23回データマイニング+WEB＠東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析祭り− を開催しました - hamadakoichi blog にこれ以上ないくらいまとまっているので、そちらを見ていただくとして、ここでは思ってた