タグ

statisticsに関するmotchangのブックマーク (44)

  • データエンジニアと作るデータ文化

    オープンセミナー広島2022での登壇資料です。 当日のライブ配信です。 Youtube https://www.youtube.com/watch?v=XgVbZZyoFxQ

    データエンジニアと作るデータ文化
  • 【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート

    主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに!」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。 ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。 各代表値の得意・不得意 代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻

    【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート
  • 3-5. 歪度と尖度 | 統計学の時間 | 統計WEB

    ■歪度(わいど) 分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。サンプルサイズをn、各データの平均値を、標準偏差をsとすると歪度は次の式から求められます。 「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値を、「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値をとります。左右対称の分布(例えば正規分布)の場合には0になります。 例えば、3-2章で用いた生徒の身長のデータから歪度を算出すると次のようになります(※この図に示した歪度は、すべてのデータが階級値をとった場合の値です)。 ■尖度(せんど) 分布が正規分布からどれだけ尖っているかを表す統計量で、山の尖り度と裾の広がり度を示します。サンプルサイズをn、各データの平均値を、標準偏差をsとすると尖度は次の式から求められます。 正規分布より尖った分

  • 歪度,尖度の定義と意味 | 高校数学の美しい物語

    分布の特徴を表す指標としては平均 μ\muμ や分散 σ2\sigma^2σ2 が有名ですが,それだけではありません。この記事では歪度,尖度という量を紹介します。 平均や分散が存在しない分布がある(→コーシー分布とその期待値などについて)ことからも分かるように,歪度や尖度が存在しない分布もあります。 尖度に−3-3−3 がついているのは正規分布の尖度が 000 になるように調整するためです。尖度の定義に−3-3−3 をつけない流儀もあります。 歪度(わいど)は平均まわりの三次モーメントを標準偏差で正規化したもので, 分布の歪み具合(どれくらい非対称なのか)を表します。 (単峰型の分布について,一般的に) 歪度が正のときやや左側にコブがあり, 歪度が 000 のとき左右対称 歪度が負のときにやや右側にコブがあります。 平均から遠いところが E[(X−μ)3]E[(X-\mu)^3]E[(X−

    歪度,尖度の定義と意味 | 高校数学の美しい物語
  • スマートフォンにおけるコンテンツ閲覧と共有行動の分析 / share activity analysis in smartphone news app

    人工知能学会全国大会 研究報告

    スマートフォンにおけるコンテンツ閲覧と共有行動の分析 / share activity analysis in smartphone news app
  • サイボウズのサービスを支えるログ基盤

    Cybozu Meetup #6 大規模サービスを支える名脇役たちでの発表 https://cybozu.connpass.com/event/61329/

    サイボウズのサービスを支えるログ基盤
  • graphiteの時系列データをpandasとscikit-learnで予測して月次レポート化する仕組み

    こんにちはCTOの馬場です。 弊社では業種柄、サーバごとのCPU利用率などたくさんの時系列メトリックデータを持っています。 以前はこの収集・閲覧にcactiを利用していましたが、最近はgrafana + graphiteを利用しています。 (ちなみにこれらは全て自社製OSS監視エージェントのhappo経由で収集されます) 今回はこのデータの活用例として弊社で実装している解析・レポーティングについて簡単に紹介します。 できること 全体としては月次レポートを作るしくみです。 月次レポートを自動生成 月次レポートに、前月の実績値が閾値超過しているグラフを掲載 月次レポートに、前月の実績値からの予測値が1ヶ月以内に閾値超過するグラフを掲載 下2つは今回作ったgraphdというアプリケーションで実現しています。 ※オレンジが閾値、赤が予測 動作概要 ハートビーツでは HTTPS(HTTP)+JSON

    graphiteの時系列データをpandasとscikit-learnで予測して月次レポート化する仕組み
  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
  • A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら 汎用人型雑用AIの stakaya です。 たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ&比較記事を発掘したので、 このまま眠らせているのはもったいないぞと、 圧倒的もったいない精神を発揮し、シェアさせていただきます。 あの頃は私も若かった。 社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。 はじめに 記事は、施策の評価手法としてしばしば用いられるA/Bテスト(A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策(通常、A・Bと記載)を比較す

    A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • デブサミ2017「DeNAの機械学習基盤と分析基盤」講演メモ #devsumi - 元RX-7乗りの適当な日々

    sonots先生の話を聞きに行ってきたので、そのメモを残しておきます。 瀬尾 直利 氏 DeNA Co., Ltd. AIシステム部 リードエンジニア DeNAの機械学習基盤 ディープラーニングの基盤 => GPU基盤 という認識 GPUすごくて、CPU使って30日のところ、GPUを使うと4日くらいのオーダー GPUの特徴 並列処理が得意 CPUだと24coreとかのオーダー GPUでは3000〜4000core 分岐処理は苦手 行列演算に向いている GPU製品 NVIDIA Tesla HPC向けにGPUシリーズ NVIDIA GeForce GRID クラウドゲーミング向け AMD FirePro NVIDIA Tesla API CUDA OpenCL DirectCompute CUDAのアーキテクチャ CPU(ホスト)からGPU(デバイス)にデータを転送 GPUで処理 GPUから

    デブサミ2017「DeNAの機械学習基盤と分析基盤」講演メモ #devsumi - 元RX-7乗りの適当な日々
  • 年収を偏差値化した世界

    年収を偏差値で表すと、どんなことが起きるのでしょうか。 「偏差値」という統計量は、受験戦争を通じて日社会に定着しています。 私も受験期にはこの言葉が大嫌いでした。 受験業界ではもはやなくてはならない統計量になっている偏差値ですが、その数値の高低のみで進学先を決定する風習から偏差値至上主義を生み出し、”悪の元凶”のように目の敵にされてしまっている一面があります。 実際、偏差値に振り回されて嫌な思いをされた方も多いのではないでしょうか。 しかし、これだけ長きに渡り、日の受験業界に君臨している指標ですから、使い方次第で大きな恩恵を手にできる優れた面も持ち合わせているはずです。 一方で、この偏差値という数値指標は、受験生時ほぼ毎日のように耳にし、その数値を意識して過ごしていきますが、一旦入試を終え、社会に出ると耳にする機会はほとんど無くなります。 社会人になると自分自身の客観的な立ち居地を把握

    年収を偏差値化した世界
  • 年収を偏差値化した世界 - RepoLog│レポログ 統計データを使って様々な暮らしをレポートするブログ

    年収を偏差値で表すと、どんなことが起きるのでしょうか。 「偏差値」という統計量は、受験戦争を通じて日社会に定着しています。受験期には嫌というほど耳にする数値指標ですよね。 受験業界ではもはやなくてはならない統計量になっている偏差値ですが、その数値の高低のみで進学先を決定する風習から偏差値至上主義を生み出し、"悪の元凶"のように目の敵にされてしまっている一面があります。実際、偏差値に振り回されて嫌な思いをされた方も多いのではないでしょうか。 しかし、これだけ長きに渡り、日の受験業界に君臨している指標ですから、使い方次第で大きな恩恵を手にできる優れた面も持ち合わせているはずです。 一方で、この「偏差値」という数値指標は、受験生時ほぼ毎日のように耳にし、その数値を意識して過ごしていきますが、一旦入試を終えると恐ろしいほど耳にする機会が減るという奇妙な現象が起こります。 変わりに、社会人になる

    年収を偏差値化した世界 - RepoLog│レポログ 統計データを使って様々な暮らしをレポートするブログ
  • 【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート

    主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに!」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。 ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。 各代表値の得意・不得意 代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻

    【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート
  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。

  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
  • Talk about ML and DL for happy engineer's life

    DevFest Tokyo 2016での発表資料 http://gdg-tokyo.connpass.com/event/38927/

    Talk about ML and DL for happy engineer's life
  • Google Analyticsの本気。AIによる無料アドバイス機能『Analytics Assistant』の衝撃 | Ledge.ai

    案の定です。想定通りです。そしてやっぱり完全無料です。 先日の『Google I/O 2016』で、Google格的に「AI人工知能使って色々やっていくよー!」と高らかに宣言したわけですが、やっぱり来ました。 GoogleアナリティクスへのAssistant機能提供です。 Google 純正AIが無料で診断&アドバイスしてくれるAnalytics Appの新タブ『Assistant』 まずは手始めに。ということなのか、Android&iOS版オンリーでの提供となりましたが、すでに提供が開始されています。 現状は英語Googleアナリティクスアプリのみの提供ですが、日国内からでもOSの設定言語を英語に変えればすぐに利用可能。 現状確認されているものとしては、どうやら以下のような感じでアドバイスをくれるっぽいですね。 先月と比較しての新規ユーザーこんくらい増えてるよこの画面、パフォー

    Google Analyticsの本気。AIによる無料アドバイス機能『Analytics Assistant』の衝撃 | Ledge.ai
  • 新サービス立ち上げ時の重要指標のデザイン - クックパッド開発者ブログ

    こんにちは、株式会社ビットジャーニーに出向中の出口 (@dex1t) です。ビットジャーニーでは、社内情報共有ツール Kibela*1のサービス設計やプロダクトマネジメントに責任を持ちつつ、エンジニアとして開発全般に携わっています。 今回は、新サービスの立ち上げ時にどのような考えで重要指標*2を設計し、それを実際の開発のなかでどう使っていくかという話をします。 なぜ検証をするのか そもそもなぜ新サービス立ち上げ時に、重要指標や検証といった考えが必要になるのでしょうか。それを考えるにあたって、クックパッド的なサービス開発の流れを改めて整理してみます。 企画と検証は表裏一体 サービス開発といえば、企画・開発・検証をぐるぐる回すというのが一般的だと思います。指標は検証段階で活用する道具です。企画で考えたことを確かめるのが検証段階であり、企画と検証は表裏一体です。 したがって、指標の設計をするにあ

    新サービス立ち上げ時の重要指標のデザイン - クックパッド開発者ブログ
  • 【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ

    データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。 ログを収集して、ダッシュボードでKPI(重要業績指標)を可視化することは、今では当たり前のことになっていると思います。深夜バッチでKPIを集計して、翌朝に確認することは重要ですが、KPIをリアルタイムに知ることによって、現状把握がさらに進むことがあります。 しかし、リアルタイムにKPIを集計できたとしても、実際にそれらを確認するとは限りません。頻繁にダッシュボードを見るのはとても億劫で、次第に見なくなってしまいがちです。そこで、日常的に開いているチャットにKPIがリアルタイムに通知されると、確認の際の負担を軽減することができます。 Gunosyでは、チャットツールにSlackをダッシュボ

    【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する - Gunosyデータ分析ブログ