タグ

解析に関するyamadarのブックマーク (93)

  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
  • 形態素解析の過去・現在・未来

    [DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP

    形態素解析の過去・現在・未来
  • ソーシャルメディア解析ツール : Facebook解析 / Twitter解析

    SNS上でキャンペーンを実施 複数のSNSアカウントを一括管理 自社と競合アカウントを比較 X(Twitter)公式のEnterprise APIに対応!

    ソーシャルメディア解析ツール : Facebook解析 / Twitter解析
  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
  • Twitter公式のアクセス解析「Twitter Web Analytics」新登場、ツイートボタンの効果測定が可能に

    「自分のサイトがどれぐらいTwitterで共有されているか」「Twitterからどれぐらいのユーザーがサイトに流入しているか」「ページに埋め込んだツイートボタンの効果はどれぐらいあるのか」というような、Twitter関連のアクセス解析が可能になる「Twitter Web Analytics」という新機能がTechCrunch Disruptにて発表されました。 Twitter公式の機能であるというのがポイントで、これは2011年7月にTwitterが買収した「BackType」というTwitterのアクセス解析サービスを利用したもの。 Introducing Twitter Web Analytics | Twitter Developers https://dev.twitter.com/blog/introducing-twitter-web-analytics 発表会の様子 ツイート

    Twitter公式のアクセス解析「Twitter Web Analytics」新登場、ツイートボタンの効果測定が可能に
  • ウェブサイトの課題発見のために、筆者が普段から使っている「解析系ツールボックス」の中身を紹介! - Real Analytics (リアルアナリティクス)

    新しいサイトを分析する際に私がよく利用している無料ツールを紹介いたします!これら良く使う「道具」は私にとっての大切なツールボックスです。今回はその中から15個のツールをピックアップして紹介いたします。どのツールも無料で、私自身定期的に利用しているものばかりです。「定番物」も多いですが、使い方などの関連記事もあわせて紹介していますので、一緒にチェックしてみてください。 1:GoogleAnalytics+GAwithSBM+Excellent Analytics サイト:Google Analytics 言わずと知れた無料のアクセス解析ツールです。関連書籍やオンライン上での情報も豊富で、アクセス解析という分野を広めるのに大きく貢献したツールです。アクセス解析ツールが入っていない場合は、まずはこのツールを必ず導入しています。 そしてGoogleAnalyticsをパワーアップさせるために以下の

    ウェブサイトの課題発見のために、筆者が普段から使っている「解析系ツールボックス」の中身を紹介! - Real Analytics (リアルアナリティクス)
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Web上でヒートマップを簡単に実現するHTML5/JavaScriptライブラリ「heatmap.js」 - MOONGIFT|オープンソース・ソフトウェア紹介を軸としたITエンジニア、Webデザイナー向けブログ

    heatmap.jsはWebベースのヒートマップ表示ライブラリ。 heatmap.jsはHTML5/JavaScript製のオープンソース・ソフトウェア。グラフには様々な種類があるが、とりわけ作るのが難しそうなグラフにヒートマップがある。一定の範囲における影響度を表現したり、ユーザの動きを可視化するのに使われたりする。 デモ 動線を可視化することによってサイトの流れを変えたり、店の商品配置を変えるデータにもなりえる。そんなヒートマップを表示するためのライブラリがheatmap.jsだ。 heatmap.jsはWebブラウザ上で指定した範囲(画像など)の上にヒートマップを表示するライブラリだ。マウスの動きに合わせたり、クリックでヒートマップデータを作ることが出来る。クリック場所をトラッキングしておけば、元データを集積することができるだろう。 地図との組み合わせ 画像だけでなく、地図の上にレイ

  • k-meansクラスタ分析 - サンプルソースコード C/C++

    C言語によるサンプルソースコード : 使用関数名:nag_mv_kmeans_cluster_analysis (g03efc) Keyword: k-means, クラスタ分析, cluster analysis, データマイニング 概要 サンプルはk-meansクラスタリングを行うC言語によるサンプルプログラムです。 サンプルは以下の「分析対象データ」に示される変数が5個、観察数が20のデータを分析対象とします。 このサンプルではk-means法によりデータを3つのクラスタに分割します。 また k-means 法で必要な初期値も以下の「与える初期値」に示す通り与えます。 ※サンプルはNAG Cライブラリに含まれる関数 nag_mv_kmeans_cluster_analysis() のExampleコードです。サンプル及び関数の詳細情報は nag_mv_kmeans_clust

    yamadar
    yamadar 2011/06/09
    k-meansは複数個の変数があってOK。それぞれに初期値を与える。
  • 「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足

    2/6 に 「パターン認識と機械学習」(PRML)読書会 #11 @サイボウズ・ラボに のこのこ行ってきました。お疲れ様>各位 今回は8章「グラフィカルモデル」の後半+9章の K-means まで。 sum-product(積和アルゴリズム) や max-sum で、グラフィカルモデルが周辺化や同時分布の大域最大解を求めるためのツールになる、というお話。 sleepy_yoshi さんの 8.4.1〜3 因子グラフ他の資料 nokuno さんの 8.4.4 sum-product の資料 8.4.5 max-sum の資料。 いつものように、気付いたことその他箇条書きで。 有向グラフを因子グラフに変換するために必要なモラル化の説明で、sleepy_yoshi さんの資料に超ナツカシ漫画が出てきて、ずっこけたw 断じてアメフト漫画ではありませんwww ちなみに、件の漫画は男子校の友人から貸し

    「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足
    yamadar
    yamadar 2011/06/09
    RでK-meansクラスタリングをやっている。
  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
    yamadar
    yamadar 2011/06/09
    X-means法を使うと、データに応じて最適なクラスタ数を推定できます。
  • K-mean法

    yamadar
    yamadar 2011/06/09
    距離を求めるために軸の重みの問題が出てくるわけで、あくまでも近似と割り切って、因子分析で少数の軸にまとめて、それから、K-meanでも良かったのでは?
  • R言語プログラミング: クラスター分析 - k-means - hamadakoichi blog

    4/17(土)の第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語による クラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。 当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 k-means k-meansは、クラスター分析の非階層的手法で代表的な手法。 現実のクラスタリングでもk-meansが使われることが多く、実用的な手法。 ※階層的手法の対極にある「非階層的手法」(分割最適化手法とも呼ばれる)。詳細は次エントリを参照:「はじめてでもわかる R言語によるクラスター分析」 ※アルゴリ

    R言語プログラミング: クラスター分析 - k-means - hamadakoichi blog
  • k-means法 - 機械学習の「朱鷺の杜Wiki」

    k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法. \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし,データ集合 \(X\) は,ベクトルで表現されたデータ \(\mathbf{x}\) の集合. クラスタ \(X_i\) は,データ集合の網羅的で互いに素な部分集合. \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう). \(\|\cdot\|\) はユークリッドノルム. ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\),および最大反復数 maxIter. 初期化:データ集合をランダムに \(

  • Random forest - Wikipedia

    ランダムフォレスト(英: random forest, randomized trees)は、2001年にレオ・ブレイマン(英語版)によって提案された[1]機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。 アルゴリズム[編集] 学習[編集] 学習を行いたい観測データから、ブートストラップ法によるランダムサンプリングにより B 組のサブサンプルを生成する 各サブサンプルをトレーニングデータとし、B の決定木を作成する 指定したノード数 に達するまで、以

    Random forest - Wikipedia
  • 「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11

    Koichi HamadaSenior Staff Research Engineer, Artificial Intelligence at DeNA

    「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11
  • 2100万会員モバゲータウンはデータマイニングの宝の山|【Tech総研】

    蓄積された大量のデータを分析し、隠れた事象や法則を発見していく技法、データマイニング。会員数2100万を超えるモバゲータウンを運営するDeNAは、サービス向上や開発に高度なデータマイニングを使うことで、ソーシャルゲームの世界展開を目指すという。 ソーシャルゲームのトップシェアを握るディー・エヌ・エー(DeNA)。主力である「モバゲータウン」(以下、モバゲー)は今日、ユーザーアカウント数2100万人超、1日のアクション数(ページビュー数)は実に20億超に達する巨大な仮想コミュニティ空間に成長した。DeNAは今、日最大級の規模に成長したモバゲーを舞台として、ある新たな技術的挑戦を始めている。 「われわれがチャレンジしているその技術とは、データマイニングです」 こう語るのは、ソーシャルメディア事業部ソーシャルゲーム統括部のグループリーダーを務める山田憲晋氏。モバゲーのソーシャルゲームを開発す

    yamadar
    yamadar 2011/04/15
    自分ももっと頑張らなければ。
  • 主成分分析の基礎知識

    検索エンジンから直接きたひとは、フレーム目次が便利です。ここは 4章から入ります。 お急ぎで「主成分分析とは」を知りたい方は簡略版へどうぞ。 エクセルで層別散布図・等高線図を描きたい人は(おまけ)へ。 主成分といえば、むずかしそうに聞こえる。でももう君達は高校生のときに学校で教わっているのさ。 X軸とY軸の散布図を書いて、点々の真中ほどに直線を引いたろう?あれが第1主成分。 一番データの点々の広がった部分に直線を引いたはずだね。 第2主成分は、XとYの平均値(重心)を通って、第1主成分である直線に直角の線を引くと出来上がり。 主成分分析の計算過程を数学音痴向けに説明するね。 空中にまとまった点々があるから思い浮かべなさい。カトンボが空中を舞っている姿とか、子魚が群れをなして泳いでいる姿を思い浮かべるのじゃよ。 点々の分布が一番広がったところに、重心をとおってまず最初の直線を引きます。 フラ

    yamadar
    yamadar 2011/02/01
    主成分分析
  • hamadakoichi blog

    2017/10/28 "第60回 データマイニング+WEB @東京( #TokyoWebmining 60th ) ー 機械学習 活用 祭り ー" を開催しました。 第60回 データマイニング+WEB @東京( #TokyoWebmining 60th ) ー 機械学習 活用 祭り ーEventbrite Google グループ 会場提供して下さった FreakOut さん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 参加者セキココ:第60回 データマイニング+WEB @東京 セキココ (作成してくれた [Twitter:@komiya_atsushi] さんに感謝) 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「デー

    hamadakoichi blog
  • yokkunsの日記

    前回の書籍「ビジネス活用事例で学ぶデータサイエンス入門」の姉妹つくりました。 今回のはライト層向けの啓蒙的書籍です。 コードは一切ないです。 統計処理の解説をつけました。 用語解説を充実させました。 データサイエンスってなにしているの?的なことを軽く読みたい方ぜひ! 以下、「はじめに」を抜粋します。 はじめに 人間の感覚はとても優れています。ときにはデータでわかること以上のことに実感を伴って理解していたりします。しかしながら一方で、ある部分ではいいかげんなため、ある一面においてデータ分析がビジネスで効果をあげているのではないかと。 そのある一面とは他人の気持ちを想像するという一面になると考えます。経験することで生まれた感覚がデータを超えた、とても優れている機能であることは間違えないのですが、どこまでいっても自分の感覚という域をでません。ビジネスでは他人の気持ち、みんなの気持ちを上手に理解

    yokkunsの日記