[B! 解析] [4ページ] yamadarのブックマーク

一年で身に付ける！Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも？と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。ステップ1. 分布・検定理論統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人クリック: 3,604回この商品を含むブログ (79件) を見る R本 Rによるやさしい統計学作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行本購入: 64人クリック: 782回この商品を含

yamadar 2012/03/31

リンク

形態素解析の過去・現在・未来

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transf ormers for Language Und...Deep Learning JP

yamadar 2011/10/22

リンク

ソーシャルメディア解析ツール : Facebook解析 / Twitter解析

SNS上でキャンペーンを実施複数のSNSアカウントを一括管理自社と競合アカウントを比較 X(Twitter)公式のEnterprise APIに対応！

yamadar 2011/10/04

リンク

Rを使えるようになるための10のこと - Issei’s Analysis ～おとうさんの解析日記～

Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。・姫路市役所での事例これまでSASは使ってきたけどRは全く使ったことがない！JAVAとかC++とかガリガリ書けるけどRはよく分からない！という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R本体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる（どっちでもいいw） Rjpwiki 日本語で書かれている、これまでのRに関する資料の集大成データの加工技、

yamadar 2011/09/18

リンク

Twitter公式のアクセス解析「Twitter Web Analytics」新登場、ツイートボタンの効果測定が可能に

「自分のサイトがどれぐらいTwitterで共有されているか」「Twitterからどれぐらいのユーザーがサイトに流入しているか」「ページに埋め込んだツイートボタンの効果はどれぐらいあるのか」というような、Twitter関連のアクセス解析が可能になる「Twitter Web Analytics」という新機能がTechCrunch Disruptにて発表されました。 Twitter公式の機能であるというのがポイントで、これは2011年7月にTwitterが買収した「BackType」というTwitterのアクセス解析サービスを利用したもの。 Introducing Twitter Web Analytics | Twitter Developers https://dev.twitter.com/blog/introducing-twitter-web-analytics 発表会の様子ツイート

yamadar 2011/09/15

リンク

ウェブサイトの課題発見のために、筆者が普段から使っている「解析系ツールボックス」の中身を紹介！ - Real Analytics （リアルアナリティクス）

新しいサイトを分析する際に私がよく利用している無料ツールを紹介いたします！これら良く使う「道具」は私にとっての大切なツールボックスです。今回はその中から15個のツールをピックアップして紹介いたします。どのツールも無料で、私自身定期的に利用しているものばかりです。「定番物」も多いですが、使い方などの関連記事もあわせて紹介していますので、一緒にチェックしてみてください。 1:GoogleAnalytics+GAwithSBM+Excellent Analytics サイト：Google Analytics 言わずと知れた無料のアクセス解析ツールです。関連書籍やオンライン上での情報も豊富で、アクセス解析という分野を広めるのに大きく貢献したツールです。アクセス解析ツールが入っていない場合は、まずはこのツールを必ず導入しています。そしてGoogleAnalyticsをパワーアップさせるために以下の

yamadar 2011/09/06

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

yamadar 2011/06/22

リンク

Web上でヒートマップを簡単に実現するHTML5/JavaScriptライブラリ「heatmap.js」 - MOONGIFT|オープンソース・ソフトウェア紹介を軸としたITエンジニア、Webデザイナー向けブログ

heatmap.jsはWebベースのヒートマップ表示ライブラリ。 heatmap.jsはHTML5/JavaScript製のオープンソース・ソフトウェア。グラフには様々な種類があるが、とりわけ作るのが難しそうなグラフにヒートマップがある。一定の範囲における影響度を表現したり、ユーザの動きを可視化するのに使われたりする。デモ動線を可視化することによってサイトの流れを変えたり、店の商品配置を変えるデータにもなりえる。そんなヒートマップを表示するためのライブラリがheatmap.jsだ。 heatmap.jsはWebブラウザ上で指定した範囲（画像など）の上にヒートマップを表示するライブラリだ。マウスの動きに合わせたり、クリックでヒートマップデータを作ることが出来る。クリック場所をトラッキングしておけば、元データを集積することができるだろう。地図との組み合わせ画像だけでなく、地図の上にレイ

yamadar 2011/06/15

リンク

k-meansクラスタ分析 - サンプルソースコード C/C++

C言語によるサンプルソースコード : 使用関数名：nag_mv_kmeans_cluster_analysis (g03efc) Keyword: k-means, クラスタ分析, cluster analysis, データマイニング概要本サンプルはk-meansクラスタリングを行うC言語によるサンプルプログラムです。本サンプルは以下の「分析対象データ」に示される変数が５個、観察数が２０のデータを分析対象とします。このサンプルではk-means法によりデータを３つのクラスタに分割します。また k-means 法で必要な初期値も以下の「与える初期値」に示す通り与えます。 ※本サンプルはNAG Cライブラリに含まれる関数 nag_mv_kmeans_cluster_analysis() のExampleコードです。本サンプル及び関数の詳細情報は nag_mv_kmeans_clust

yamadar 2011/06/09

k-meansは複数個の変数があってOK。それぞれに初期値を与える。

リンク

「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means - 木曜不足

2/6 に「パターン認識と機械学習」(PRML)読書会 #11 ＠サイボウズ・ラボにのこのこ行ってきました。お疲れ様＞各位今回は８章「グラフィカルモデル」の後半＋９章の K-means まで。 sum-product(積和アルゴリズム) や max-sum で、グラフィカルモデルが周辺化や同時分布の大域最大解を求めるためのツールになる、というお話。 sleepy_yoshi さんの 8.4.1〜3 因子グラフ他の資料 nokuno さんの 8.4.4 sum-product の資料 8.4.5 max-sum の資料。いつものように、気付いたことその他箇条書きで。有向グラフを因子グラフに変換するために必要なモラル化の説明で、sleepy_yoshi さんの資料に超ナツカシ漫画が出てきて、ずっこけたｗ　断じてアメフト漫画ではありませんｗｗｗ　ちなみに、件の漫画は男子校の友人から貸し

yamadar 2011/06/09

RでK-meansクラスタリングをやっている。

リンク

適切なクラスタ数を推定するX-means法 - kaisehのブログ

K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は（特に根拠もなく）200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC（ベイズ情報量規準）を比較し、値が改善しなくなるまで分割を続けます。調べたところ、Javaのデータマイニングツー

yamadar 2011/06/09

X-means法を使うと、データに応じて最適なクラスタ数を推定できます。

リンク

K-mean法

yamadar 2011/06/09

距離を求めるために軸の重みの問題が出てくるわけで、あくまでも近似と割り切って、因子分析で少数の軸にまとめて、それから、K-meanでも良かったのでは？

リンク

R言語プログラミング：クラスター分析 - k-means - hamadakoichi blog

4/17(土)の第３回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語によるクラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。第３回データマイニング+WEB 勉強会＠東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 k-means k-meansは、クラスター分析の非階層的手法で代表的な手法。現実のクラスタリングでもk-meansが使われることが多く、実用的な手法。 ※階層的手法の対極にある「非階層的手法」(分割最適化手法とも呼ばれる)。詳細は次エントリを参照：「はじめてでもわかる R言語によるクラスター分析」 ※アルゴリ

yamadar 2011/06/09

リンク

k-means法 - 機械学習の「朱鷺の杜Wiki」

k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法． \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし，データ集合 \(X\) は，ベクトルで表現されたデータ \(\mathbf{x}\) の集合．クラスタ \(X_i\) は，データ集合の網羅的で互いに素な部分集合． \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう)． \(\|\cdot\|\) はユークリッドノルム． ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\)，および最大反復数 maxIter．初期化：データ集合をランダムに \(

yamadar 2011/06/09

リンク

Random forest - Wikipedia

ランダムフォレスト（英: random forest, randomized trees）は、2001年にレオ・ブレイマン（英語版）によって提案された[1]機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。アルゴリズム[編集] 学習[編集] 学習を行いたい観測データから、ブートストラップ法によるランダムサンプリングにより B 組のサブサンプルを生成する各サブサンプルをトレーニングデータとし、B 本の決定木を作成する指定したノード数に達するまで、以

yamadar 2011/04/15

リンク

「R言語による Random Forest 徹底入門－集団学習による分類・予測－」 - #TokyoR #11

Koichi HamadaSenior Staff Research Engineer, Artificial Intelligence at DeNA

yamadar 2011/04/15

*R
解析

リンク

2100万会員モバゲータウンはデータマイニングの宝の山｜【Tech総研】

蓄積された大量のデータを分析し、隠れた事象や法則を発見していく技法、データマイニング。会員数2100万を超えるモバゲータウンを運営するDeNAは、サービス向上や開発に高度なデータマイニングを使うことで、ソーシャルゲームの世界展開を目指すという。ソーシャルゲームのトップシェアを握るディー・エヌ・エー（DeNA）。主力である「モバゲータウン」（以下、モバゲー）は今日、ユーザーアカウント数2100万人超、1日のアクション数（ページビュー数）は実に20億超に達する巨大な仮想コミュニティ空間に成長した。DeNAは今、日本最大級の規模に成長したモバゲーを舞台として、ある新たな技術的挑戦を始めている。「われわれがチャレンジしているその技術とは、データマイニングです」こう語るのは、ソーシャルメディア事業本部ソーシャルゲーム統括部のグループリーダーを務める山田憲晋氏。モバゲーのソーシャルゲームを開発す

yamadar 2011/04/15

自分ももっと頑張らなければ。

リンク

主成分分析の基礎知識

検索エンジンから直接きたひとは、フレーム目次が便利です。ここは４章から入ります。お急ぎで「主成分分析とは」を知りたい方は簡略版へどうぞ。エクセルで層別散布図・等高線図を描きたい人は（おまけ）へ。主成分といえば、むずかしそうに聞こえる。でももう君達は高校生のときに学校で教わっているのさ。 X軸とY軸の散布図を書いて、点々の真中ほどに直線を引いたろう？あれが第1主成分。一番データの点々の広がった部分に直線を引いたはずだね。第2主成分は、XとYの平均値（重心）を通って、第1主成分である直線に直角の線を引くと出来上がり。主成分分析の計算過程を数学音痴向けに説明するね。空中にまとまった点々があるから思い浮かべなさい。カトンボが空中を舞っている姿とか、子魚が群れをなして泳いでいる姿を思い浮かべるのじゃよ。点々の分布が一番広がったところに、重心をとおってまず最初の直線を引きます。フラ

yamadar 2011/02/01

主成分分析

リンク

hamadakoichi blog

2017/10/28 "第60回データマイニング+WEB ＠東京( #TokyoWebmining 60th ) ー機械学習活用祭りー" を開催しました。第60回データマイニング+WEB ＠東京( #TokyoWebmining 60th ) ー機械学習活用祭りーEventbrite Google グループ会場提供して下さった FreakOut さん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：参加者セキココ：第60回データマイニング+WEB ＠東京セキココ (作成してくれた [Twitter:@komiya_atsushi] さんに感謝）以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「デー

yamadar 2011/02/01

リンク

yokkunsの日記

前回の書籍「ビジネス活用事例で学ぶデータサイエンス入門」の姉妹本つくりました。今回のはライト層向けの啓蒙的書籍です。コードは一切ないです。統計処理の解説をつけました。用語解説を充実させました。データサイエンスってなにしているの？的なことを軽く読みたい方ぜひ！以下、「はじめに」を抜粋します。はじめに人間の感覚はとても優れています。ときにはデータでわかること以上のことに実感を伴って理解していたりします。しかしながら一方で、ある部分ではいいかげんなため、ある一面においてデータ分析がビジネスで効果をあげているのではないかと。そのある一面とは他人の気持ちを想像するという一面になると考えます。経験することで生まれた感覚がデータを超えた、とても優れている機能であることは間違えないのですが、どこまでいっても自分の感覚という域をでません。ビジネスでは他人の気持ち、みんなの気持ちを上手に理解

yamadar 2011/02/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (74)

解析に関するyamadarのブックマーク (93)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス