タグ

ブックマーク / antibayesian.hateblo.jp (8)

  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • ブラウザ上でデータ分析が出来る!Clojure/Gorilla入門 - あんちべ!

    概要 この記事は、Gorillaという ブラウザ上でClojureという言語を利用出来るライブラリを利用し、 ブラウザ上でデータ分析環境を構築するための入門記事です。 Clojureの事前知識は一切不要で、 ClojureやGorillaのインストールから、ブラウザ上で各種手法を コピペだけで実践出来るになるまでを説明しています。 なお、各種分析手法の詳細には言及しておりません。 とにかくGorillaを動かす 「説明は良いから、とにかく動かしたい」 という方向けに要点だけ説明します。 leiningenをインストールし、作業フォルダにてlein new gorillaでプロジェクトを作り、 生成されたgoraillaフォルダ直下にあるproject.cljに下記をコピペし保存、 lein gorillaと打ち込み、少し待つと Running at http://localhost:XXX

    ブラウザ上でデータ分析が出来る!Clojure/Gorilla入門 - あんちべ!
  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
  • Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!

    こんにちは!今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子(を目指してる)のあんちべ(23)です!よろしくお願いします!私は普段自社のWebサービスCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました!でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね><;!そんな私に救いの手が!インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました!その名も"Incanter"です!なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを

    Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!
  • 靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!

    やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい? 面白い話がtwitterに流れていたので紹介したい。 日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う? twitterでは皆がこのニュースに対して嘲笑を投げかけていた。 そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。 データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。 そう、データマイニングに必要なのは意外性だ! あの屋は全く馬鹿なことをしたもんだ、ゲラゲラ! OK、笑いが取れたようなので、もう一つ同じような話

    靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!
  • なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか? - あんちべ!

    件名: 主人がオオアリクイに殺されて1年が過ぎました。 差出人: 久光 いきなりのメール失礼します。 久光さやか、29歳の未亡人です。 お互いのニーズに合致しそうだと思い、連絡してみました。 自分のことを少し語ります。 昨年の夏、わけあって主人を亡くしました。 自分は…主人のことを…死ぬまで何も理解していなかったのが とても悔やまれます。 主人はシンガポールに頻繁に旅行に向っていたのですが、 それは遊びの為の旅行ではなかったのです。 収入を得るために、私に内緒であんな危険な出稼ぎをしていたなんて。 一年が経過して、ようやく主人の死から立ち直ってきました。 ですが、お恥ずかしい話ですが、毎日の孤独な夜に、 身体の火照りが止まらなくなる時間も増えてきました。 主人の残した財産は莫大な額です。 つまり、謝礼は幾らでも出きますので、 私の性欲を満たして欲しいのです。 お返事を頂けましたら、もっと詳

    なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか? - あんちべ!
  • 1