オープンセミナー広島2022での登壇資料です。 当日のライブ配信です。 Youtube https://www.youtube.com/watch?v=XgVbZZyoFxQ
主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに!」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。 ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。 各代表値の得意・不得意 代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻
■歪度(わいど) 分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。サンプルサイズをn、各データの平均値を、標準偏差をsとすると歪度は次の式から求められます。 「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値を、「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値をとります。左右対称の分布(例えば正規分布)の場合には0になります。 例えば、3-2章で用いた生徒の身長のデータから歪度を算出すると次のようになります(※この図に示した歪度は、すべてのデータが階級値をとった場合の値です)。 ■尖度(せんど) 分布が正規分布からどれだけ尖っているかを表す統計量で、山の尖り度と裾の広がり度を示します。サンプルサイズをn、各データの平均値を、標準偏差をsとすると尖度は次の式から求められます。 正規分布より尖った分
分布の特徴を表す指標としては平均 μ\muμ や分散 σ2\sigma^2σ2 が有名ですが,それだけではありません。この記事では歪度,尖度という量を紹介します。 平均や分散が存在しない分布がある(→コーシー分布とその期待値などについて)ことからも分かるように,歪度や尖度が存在しない分布もあります。 尖度に−3-3−3 がついているのは正規分布の尖度が 000 になるように調整するためです。尖度の定義に−3-3−3 をつけない流儀もあります。 歪度(わいど)は平均まわりの三次モーメントを標準偏差で正規化したもので, 分布の歪み具合(どれくらい非対称なのか)を表します。 (単峰型の分布について,一般的に) 歪度が正のときやや左側にコブがあり, 歪度が 000 のとき左右対称 歪度が負のときにやや右側にコブがあります。 平均から遠いところが E[(X−μ)3]E[(X-\mu)^3]E[(X−
こんにちはCTOの馬場です。 弊社では業種柄、サーバごとのCPU利用率などたくさんの時系列メトリックデータを持っています。 以前はこの収集・閲覧にcactiを利用していましたが、最近はgrafana + graphiteを利用しています。 (ちなみにこれらは全て自社製OSS監視エージェントのhappo経由で収集されます) 今回はこのデータの活用例として弊社で実装している解析・レポーティングについて簡単に紹介します。 できること 全体としては月次レポートを作るしくみです。 月次レポートを自動生成 月次レポートに、前月の実績値が閾値超過しているグラフを掲載 月次レポートに、前月の実績値からの予測値が1ヶ月以内に閾値超過するグラフを掲載 下2つは今回作ったgraphdというアプリケーションで実現しています。 ※オレンジが閾値、赤が予測 動作概要 ハートビーツでは HTTPS(HTTP)+JSON
前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かった本の紹介、そして読んだ本の簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい本 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitterで相談したら、こちらの本を数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ
リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら 汎用人型雑用AIの stakaya です。 たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ&比較記事を発掘したので、 このまま眠らせているのはもったいないぞと、 圧倒的もったいない精神を発揮し、シェアさせていただきます。 あの頃は私も若かった。 社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。 はじめに 本記事は、施策の評価手法としてしばしば用いられるA/Bテスト(A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策(通常、A・Bと記載)を比較す
2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と
sonots先生の話を聞きに行ってきたので、そのメモを残しておきます。 瀬尾 直利 氏 DeNA Co., Ltd. AIシステム部 リードエンジニア DeNAの機械学習基盤 ディープラーニングの基盤 => GPU基盤 という認識 GPUすごくて、CPU使って30日のところ、GPUを使うと4日くらいのオーダー GPUの特徴 並列処理が得意 CPUだと24coreとかのオーダー GPUでは3000〜4000core 分岐処理は苦手 行列演算に向いている GPU製品 NVIDIA Tesla HPC向けにGPUシリーズ NVIDIA GeForce GRID クラウドゲーミング向け AMD FirePro NVIDIA Tesla API CUDA OpenCL DirectCompute CUDAのアーキテクチャ CPU(ホスト)からGPU(デバイス)にデータを転送 GPUで処理 GPUから
年収を偏差値で表すと、どんなことが起きるのでしょうか。 「偏差値」という統計量は、受験戦争を通じて日本社会に定着しています。 私も受験期にはこの言葉が大嫌いでした。 受験業界ではもはやなくてはならない統計量になっている偏差値ですが、その数値の高低のみで進学先を決定する風習から偏差値至上主義を生み出し、”悪の元凶”のように目の敵にされてしまっている一面があります。 実際、偏差値に振り回されて嫌な思いをされた方も多いのではないでしょうか。 しかし、これだけ長きに渡り、日本の受験業界に君臨している指標ですから、使い方次第で大きな恩恵を手にできる優れた面も持ち合わせているはずです。 一方で、この偏差値という数値指標は、受験生時ほぼ毎日のように耳にし、その数値を意識して過ごしていきますが、一旦入試を終え、社会に出ると耳にする機会はほとんど無くなります。 社会人になると自分自身の客観的な立ち居地を把握
年収を偏差値で表すと、どんなことが起きるのでしょうか。 「偏差値」という統計量は、受験戦争を通じて日本社会に定着しています。受験期には嫌というほど耳にする数値指標ですよね。 受験業界ではもはやなくてはならない統計量になっている偏差値ですが、その数値の高低のみで進学先を決定する風習から偏差値至上主義を生み出し、"悪の元凶"のように目の敵にされてしまっている一面があります。実際、偏差値に振り回されて嫌な思いをされた方も多いのではないでしょうか。 しかし、これだけ長きに渡り、日本の受験業界に君臨している指標ですから、使い方次第で大きな恩恵を手にできる優れた面も持ち合わせているはずです。 一方で、この「偏差値」という数値指標は、受験生時ほぼ毎日のように耳にし、その数値を意識して過ごしていきますが、一旦入試を終えると恐ろしいほど耳にする機会が減るという奇妙な現象が起こります。 変わりに、社会人になる
主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに!」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。 ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。 各代表値の得意・不得意 代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻
作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。
科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』という本の日本語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』という本が勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong
案の定です。想定通りです。そしてやっぱり完全無料です。 先日の『Google I/O 2016』で、Googleは本格的に「AI:人工知能使って色々やっていくよー!」と高らかに宣言したわけですが、やっぱり来ました。 GoogleアナリティクスへのAssistant機能提供です。 Google 純正AIが無料で診断&アドバイスしてくれるAnalytics Appの新タブ『Assistant』 まずは手始めに。ということなのか、Android&iOS版オンリーでの提供となりましたが、すでに提供が開始されています。 現状は英語版Googleアナリティクスアプリのみの提供ですが、日本国内からでもOSの設定言語を英語に変えればすぐに利用可能。 現状確認されているものとしては、どうやら以下のような感じでアドバイスをくれるっぽいですね。 先月と比較しての新規ユーザーこんくらい増えてるよこの画面、パフォー
こんにちは、株式会社ビットジャーニーに出向中の出口 (@dex1t) です。ビットジャーニーでは、社内情報共有ツール Kibela*1のサービス設計やプロダクトマネジメントに責任を持ちつつ、エンジニアとして開発全般に携わっています。 今回は、新サービスの立ち上げ時にどのような考えで重要指標*2を設計し、それを実際の開発のなかでどう使っていくかという話をします。 なぜ検証をするのか そもそもなぜ新サービス立ち上げ時に、重要指標や検証といった考えが必要になるのでしょうか。それを考えるにあたって、クックパッド的なサービス開発の流れを改めて整理してみます。 企画と検証は表裏一体 サービス開発といえば、企画・開発・検証をぐるぐる回すというのが一般的だと思います。指標は検証段階で活用する道具です。企画で考えたことを確かめるのが検証段階であり、企画と検証は表裏一体です。 したがって、指標の設計をするにあ
データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。 ログを収集して、ダッシュボードでKPI(重要業績指標)を可視化することは、今では当たり前のことになっていると思います。深夜バッチでKPIを集計して、翌朝に確認することは重要ですが、KPIをリアルタイムに知ることによって、現状把握がさらに進むことがあります。 しかし、リアルタイムにKPIを集計できたとしても、実際にそれらを確認するとは限りません。頻繁にダッシュボードを見るのはとても億劫で、次第に見なくなってしまいがちです。そこで、日常的に開いているチャットにKPIがリアルタイムに通知されると、確認の際の負担を軽減することができます。 Gunosyでは、チャットツールにSlackをダッシュボ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く