5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
ゴクロ改め、スマートニュース株式会社の大平です。 巷間では「bigdata」の活用が叫ばれて久しいですが、弊社はまだまだ小さい規模のスタートアップのため少なくともデータサイズとしてhugeなdataの活用が行える環境ではありません。 であればデータの活用に対する要求が低いか、というとそうでも無く、サービスサイドでも自然言語処理や機械学習を中心としたデータ解析処理がサービスの生命線となっていますし、サービスの裏側でも戦略を立てる上で効果測定や諸々のデータの分析は非常に重要な位置を占めています。 本記事では主にサービスの裏側で求められるデータ解析において、いかにカジュアルにデータを解析するか、の一例として、掲題のような組み合わせによるデータ可視化の事例を簡単にですがご紹介したいと思います。 データ解析基盤を作る側の視点からすると、システムとして求められる要件は以下のようなものだと理解していま
2013年9月6日(金)、『データサイエンティスト養成読本』出版記念イベント「Data Scientist Casual Talk 」が株式会社ブレインパッド セミナールームにて開催された。 今、話題沸騰中のデータサイエンティストがテーマということもあり、定員の60名を超える75名の参加者が駆けつけ、各社から紹介されたデータ分析・活用事例を学ぶことができる非常に濃い内容のイベントとなっていた。 今回はデータサイエンティストについて有識者が語った全5セッションをまとめたので、参加できなかった方やデータ分析に興味をお持ちの方は是非ご覧頂きたい。また今回の記事は、株式会社リクルートキャリアが運営する、ITエンジニアのための実務スキル評価サービス「CodeIQ」の提供で公開されている。ぜひ、一度アクセスしてみてはいかがだろうか。 まずセッション1では、株式会社ブレインパッドの佐藤氏より「なぜ今、デ
〜準備編〜 まずRをインストールしておくこと(不慣れな人は丁寧に解説したRインストールのページを参照のこと)。 Rでテキストマイニングをするために石田基広氏のウェブサイトよりRMeCab_0.90.zipというファイルをダウンロードする。ファイル名は変更されるかもしれないし、0.90というバージョンも変わるかもしれないので最新のものをダウンロードすること。なおダウンロードされた.zipファイル(圧縮されたファイル)は解凍する必要がなく、.zipファイルをそのまま適当なディレクトリ(フォルダ)に置いておけばよい。 Rのワークディレクトリ(getwd()とコマンドすれば確認できる)に、例えばzip_packagesという名前のフォルダを作成しておき、その中に保存しておくと分かりやすいだろう。 〜R上での準備〜 R上でRMeCabを利用するためには [パッケージ] -> [ローカルにあるzipフ
2年ほど前、私の仕事場に医療会社の社長が血相を変えて駆け込んできました。かつて私がシステムを設計したことがある会社の社長でした。すぐさま現状のヒアリングと現地調査が行われ、問題を発見しようと直ちにデータ分析が行われることになりました。業務上の横領や不正経理の疑いがあったためです。私がやった分析はシステムから作為的なデータ入力のパターンを見つけることでした。やり方には少々コツがありますが1週間もかからずに結果は得られました。横領の証拠こそありませんでしたが、請求額と支払先に一定のパターンが見つけられたので、従業員の中で組織的に不正が行われていて、一部の社員らによる経費の水増し請求が常習化していたことがわかりました。まったくひどい話ですが過去数年間には会計監査が何度も行われているというのに何もわかっていなかったのです。こうなる前に早期の対処ができたかもしれない機会が何度もあったのに。その後、こ
ゴクロの大平です。 私にとって一番大事で替えの効かないミュージシャンはさだまさしさんですが、私にとってクラウドコンピューティングのサービスの中で一番大事で替えが効かないサービスはS3です。 多種多様なAPIを用いて柔軟にファイルの操作が出来る事や、”99.999999999%”と謳われている高い耐障害性、S3にあるデータをElastic MapReduceやRedshiftなどを用いて手軽にデータ解析を行える基盤が提供されていることなど、あまりに便利すぎてS3の代替となるサービスを探しだすのが難しい状態です。 もちろん多くのAWSユーザーが同じようにS3の便利さを享受していると思いますし、インターネット上でも多くのブログ等でその魅力が語られています。その中で本記事は既に存在する記事と似たような内容を書いてしまうかもしれませんが、弊社なりのS3の使い方についてご紹介したいと思います。 なお
知人に、確率・統計を勉強するにはどんなん読んだら良いんかね?と聞かれたので、まとめる。 線形代数 統計を勉強しようと思ったら、先ず、線形代数を勉強するのが良いと思う。回帰分析とか主成分分析とか多次元尺度構成法とか、こういう有名ドコロが一発で分かる。線形代数を知らずに統計の本で「コレコレの計算で出てきた値が第一主成分だよ」みたいな説明を何回くり返し読んでも、多分、一生理解出来無いと思う。対称行列は直交行列で対角化出来るよね、とか、これは射影行列の形だね、とかが自然に分かるようになってから、統計の本を読むとよく理解出来る。 で、線形代数のお奨めはこれ。 プログラミングのための線形代数 作者: 平岡和幸,堀玄出版社/メーカー: オーム社発売日: 2004/10/01メディア: 単行本購入: 27人 クリック: 278回この商品を含むブログ (90件) を見るプログラミングのための…とあるんだけど
夏も終わり、カキ氷屋の清算と後片付けもさめやらぬ中、オリンピック景気の経済余波で謀殺されてたので、今回は世間ズレした血迷いネタです。他でやっとけって話なのは重々承知です。ごめんなさい。ただその、缶詰めな仕事帰りに、魂のスパロボ映画、パシフィック・リムを視て最高だったんですよ。今年ベスト級。頭の中ではどうしても、バグフィックス・ムリに置換されるからきっと疲れているんです。 映画が大好きです。ストレス発散に映画館(私のお気に入りは有楽町界隈です)、仕事の休憩にレンタルと、仕事が多忙だろうとも月に10~20本は見ている暇人です。言い訳すると実務に直結した理由もあるにはあるのですが、さておき、出張時の長い移動時間のお伴だったり、マシンルームでの休息&仮眠がてらだったり、隙を見つけては観ています。 それでも、一日中Youtubeやニコ動で時間潰ししているバーンアウト管理職や、毎日TEDを見てはパワポ
TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。本書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した本書は
はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論
この記事はThe top 20 data visualisation toolsの原著者許諾済みの日本語訳です。 By Brian Suda on September 17, 2012 Translated by Tatsuo Sugimoto 2014年4月28日更新:オリジナル記事が以前のサイトから移転したため発生していた画像の非表示に対応しました。 わたしがもっともよくきかれる質問のひとつが、データビジュアライゼーションを始める方法についてです。このブログの先へ進むには、練習し、さらに実践し、利用できるツールを理解する必要があります。この記事では、シンプルなチャートから複雑なグラフ、地図、インフォグラフィックスまで、ビジュアライゼーションを作成するための20種類のツールを紹介しようとおもいます。ほとんどのツールは無料で利用でき、そのうちいくつかはすでにインストール済みかもしれません。
R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです.さまざまなプラットフォーム(OS)に対応しており,誰でも自由にダウンロードすることができます.それにも関わらず,世界中の専門家が開発に携わっており,日々新しい手法・アルゴリズムが付け加えられています.とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです.このドキュメントは Windows 版 R と Mac OS X 版 R(と一部 Linux 版 R )でコマンドを調べた足跡です. ちなみに,この頁の内容を新しくした書籍は こちら ,電子書籍版は こちら で販売されております.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く