タグ

データマイニングに関するchanpon0のブックマーク (6)

  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

    さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを

    機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
  • 相関性を見抜くクロス集計!エクセルで業務データを解析してみよう - エクセルサプリ

    毎日のように上がってくる売上データ。ただ眺めているだけでは、何がどのように売れているのか、何と何の売上に相関性があるのかなど、さっぱりわかりませんよね。 そういう時は、クロス集計と呼ばれる手法を用いて、業務データを解析してみましょう。 クロス集計って何? 質問項目を掛けあわせて集計する手法をクロス集計と呼びます。例えば、営業所別で商品別の売上合計を出したいという時などに用いられます。具体的な使い方としては、「商品A」が売れている事業所はどこか、「担当者A」はどの商品の販売が得意なのか、などの相関性を見出す際に使われています。 ピボットテーブルを使うと簡単! クロス集計を行うときには、「ピボットテーブル」が欠かせません。 このピボットテーブルを使うと、クロス集計をマウスのドラッグ&ドロップ操作で行えるので非常に便利です。 まず、リストを開き、リスト内のセルをクリックします。リスト外の空白セル

    相関性を見抜くクロス集計!エクセルで業務データを解析してみよう - エクセルサプリ
  • データマイニングを仕事にする人の生態系 - dataminer.me

    「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。 グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる: 研究開発をする人 統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他

    データマイニングを仕事にする人の生態系 - dataminer.me
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    chanpon0
    chanpon0 2013/03/13
    形態素解析 分散処理
  • 「Gunosy」開発チーム厳選、“統計学”必読書ベスト5 : 企画&リポート : ネット&デジタル : YOMIURI ONLINE(読売新聞)

    いまWeb業界で最もホットなトレンドの一つである“統計学”の基を学ぶために読んでおくべき書籍を、注目のニュースキュレーションサービス「Gunosy」の開発チーム(福島さん・吉田さん・関さん)に伺った。 Gunosy 開発チームが選ぶ、“統計学”の必読書とは? いま、Web業界で最もホットなトレンドの一つとなっている“統計学”。その基的な知識を学ぶべく、前回(「Gunosy」開発チームから学ぶ、WEB業界人のための“統計学入門”)、“超高精度なレコメンド”で話題のニュースキュレーションサービス「Gunosy」を手がける福島良典さん、関喜史さん、吉田宏司さんに、“Web業界人のための統計学入門”と題して簡単に講義をしていただいた。 その内容を踏まえつつも、より体系だててしっかりと“統計学”を押さえるためには、やはり“”を読むのが一番だという。そこで今回は、Gunosy開発チームの皆さん

  • データマイニング の簡単な解説

    データマイニング データマイニングとは、データの集合の中から、知識を発見しよう、というものです。ここでいう知識とは、データの中に見られるルールとか法則のことです。最近データマイニングの紹介でよく使われるものに、ビールと紙おむつという言葉があります。これは、スーパーでで客の買った物を分析したら、紙おむつを買う人はビールを買うことが多い、という傾向が出てきた、ということです。この、「紙おむつを買う人はビールを買うことが多い」というのがある種の知識なのです。このような知識をデータの中から機械的に、自動的に見つけよう、というのがデータマイニングです。 この、ビールと紙おむつのような関係でしたら、単純にお客さんの買い物リストのデータを見るだけで、発見できます。しかし、例えば、5000円以上の買い物をしてくれる人は、ビールと紙おむつを買うか、トイレットペーパーとティシュペーパーと洗剤を買う(あくまで適

  • 1