タグ

統計とデータに関するsds-pageのブックマーク (23)

  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    sds-page
    sds-page 2023/12/21
    畑のキャビア
  • 中高年男性向けのJ-POP、若い女性向けのK-POP──ビッグデータが示すガールズグループの日韓差異(松谷創一郎) - エキスパート - Yahoo!ニュース

    勢いを増すK-POP 昨年の『紅白歌合戦』で注目されたのは、K-POPガールズグループが3組も出場していたことだ。TWICE、IVE、LE SSERAFIMである。 対してJ-POPのガールズグループはPerfume、乃木坂46、NiziU、日向坂46の4組。だがNiziUはK-POPのプロダクションが日で生んだ「K-POP版」であることを踏まえれば、K-POPが日でいかに勢いを増しているかがわかるラインナップだった。 そんなガールズグループには、だれが興味を持っているのだろうか。前回のボーイズグループ編(「ビッグデータから読み取るボーイズグループ──ジャニーズK-POP、非ジャニーズ2023年3月6日)に続き、Yahoo! JAPANの検索サービスをもとにしたビッグデータ分析ツール「DS.INSIGHT」を使って調査した。 平穏だった2022年 まず、検索ボリュームから確認し

    中高年男性向けのJ-POP、若い女性向けのK-POP──ビッグデータが示すガールズグループの日韓差異(松谷創一郎) - エキスパート - Yahoo!ニュース
    sds-page
    sds-page 2023/03/08
    自分の好きなアレが若い世代にこんなに人気だぞってデータで殴るバトルかな? https://forbesjapan.com/articles/detail/52879
  • 数理最適化と機械学習を比較してみる - めもめも

    数理最適化 Advent Calendar 2022 の記事です。 何の話かと言うと Pythonではじめる数理最適化 ―ケーススタディでモデリングのスキルを身につけよう― 作者:岩永二郎,石原響太,西村直樹,田中一樹オーム社Amazon 上記の書籍の第7章では、次のような問題を取り扱っています。 細かい点は書籍に譲りますが、まず、生データとして次のようなデータが与えられます。 これは、あるショッピングサイトの利用履歴を集計して得られたもので、あるユーザーが同じ商品を閲覧した回数(freq)と、その商品を最後に閲覧したのが何日前か(rcen)の2つの値から、そのユーザーが次にサイトにやってきた時に、再度、その商品を閲覧する確率(prob)を実績ベースで計算したものです。実績ベースのデータなので、ガタガタしたグラフになっていますが、理論的には、 ・freq が大きいほど prob は大きくな

    数理最適化と機械学習を比較してみる - めもめも
    sds-page
    sds-page 2022/12/19
    オーバーフィッティング問題はデータが少ないうちは人間の手で修正してデータが増えてきたら機械学習に任せる感じで
  • Google Analytics(UA)が使えなくなるのはどのくらいヤバくて、いつまでに何をしたら良いのかの話。 - フジイユウジ::ドットネット

    タイトルにも書いていますが、Google Analytics(UA)がもうすぐ使えなくなるんですよ。 GA4っていうのになるらしいんですが、自動で切り替わったりしないし、何もしてないと単に使えなくなるんですよ。知ってました? ※追記※2023年になって 自動的にGA4プロパティが作成されることになりました。しかし、むしろ手動ではないことで混乱しているようです。切り替えではなくGA4プロパティが追加されるんですが、そのデメリットについてはググって調べてね。 (UA)っていうのはGA4ではない、これまで使われてきたGoogle Analyticsだと思ってください。やや正確ではないのですが「GA4という最新版ではないGoogle Analyticsはすべてサービス終了される」くらいのイメージで捉えてもいいです。 業務で関わってる人たちからはGA4移行についての記事やツイートがたくさん流れてきま

    Google Analytics(UA)が使えなくなるのはどのくらいヤバくて、いつまでに何をしたら良いのかの話。 - フジイユウジ::ドットネット
    sds-page
    sds-page 2022/04/19
    自分の管理下にあるのだとはてなブログぐらいしかない。なんかやってくれてるみたいだし気が向いたら設定する
  • https://twitter.com/hahaguma/status/1455661216563482625

    https://twitter.com/hahaguma/status/1455661216563482625
    sds-page
    sds-page 2021/11/10
    学者なら自分でデータ集めて反論してほしい
  • Steamで配信されている作品に投稿されたレビューを1316作分調査し、本当に日本人が悪評をたくさんつけるクソマナー野郎なのか確かめました。|男鹿梨衣子

    Steamで配信されている作品に投稿されたレビューを1316作分調査し、当に日人が悪評をたくさんつけるクソマナー野郎なのか確かめました。 2021/06/16 04:23 自身の主張である「日人ゲーマーが悪評レビューを投稿しまくるマナーが悪い集団と糾弾するなら、ソースを出すべきだ」という部分が無視され、スマホ市場の話など論点をずらし炎上させられている状況に感情的になり冷静さを欠いていた部分を精査し、意見を正しく書き直しました。 前記事では「コミュニティを批判するならば、データを基にしてほしい」という趣旨のもと、Steam上での状況を軽く説明した。だが、「こんなデータではなにも言えない」「データを出せというが、コミュニティ擁護側のデータがこれでは信用に値しない」など数々のご指摘を頂いた。 そこで記事では前記事で行ったSteamのレビュー数とその不評率の調査を拡大し、Steamにて販売

    Steamで配信されている作品に投稿されたレビューを1316作分調査し、本当に日本人が悪評をたくさんつけるクソマナー野郎なのか確かめました。|男鹿梨衣子
    sds-page
    sds-page 2021/06/16
    「ここのブコメが日本人が低評価しかつかけない事の証明になってる」説すき
  • はてなブックマーク経由PV黄金時代とFACTFULNESS - 本しゃぶり

    質問 はてなブックマーク経由のPV/ブクマ数の比率は、3年前と比べてどうなっているでしょう? A 減少している B 変わらない C 増加している 3年前はすごかった説 この記事に気になることが書いてあった。 それでも3年前なら150ブクマもついてたらさすがに5000pv~10000pvくらいは「はてブからだけで」流入があったりしたものです。 ところが、昨日書いた記事、内容の是非はともかくとして、はてなブックマークが150以上ついているのも関わらず、はてブ経由でのPVはわずか2000でした。 ブコメを見ても人が減っていることについて同意が多く、限界集落はてな村だから仕方ないといった雰囲気である。かつてあった、はてな黄金時代と比べて見る影もない、と。 黄金時代には、人間は神々と共に住み生きていた。「世の中」は調和と平和に満ち溢れて、争いも犯罪もなかった。あらゆるコンテンツが自動的に生成され、手

    はてなブックマーク経由PV黄金時代とFACTFULNESS - 本しゃぶり
    sds-page
    sds-page 2021/05/10
    そんな事ないとは思ってたけど自分には出せるデータが無かったので助かる
  • 感染リスク高い場所は断トツ「レストラン」 会食リスク 9800万人のデータで判明 | AERA dot. (アエラドット)

    感染リスクの高い場所は、会の行われるレストランというデータが出た。今年3月、空席の目立つニューヨークのレストランで(gettyimages) AERA 2020年12月7日号より 米スタンフォード大学の9800万人のスマホ調査で、感染リスクの高い場所の筆頭はやはり断トツでレストランだった。英国でもクラスターの8~17%が英国版イート事業由来という分析があがった。AERA 2020年12月7日号から。 【グラフ】場所ごとの感染者の増加予測 *  *  * 「Go Toトラベルだけが感染リスクではない。飲店での感染もきわめて多い」 11月25日、政府の新型コロナウイルス感染症対策分科会の尾身茂会長は記者会見でこう述べた。 分科会は会見に先立つ会合で、感染者や重症患者が急増し医療崩壊の恐れがある流行段階の「ステージIII」に相当する地域が複数あるとして、流行地ではより強い措置を講じるよう求め

    感染リスク高い場所は断トツ「レストラン」 会食リスク 9800万人のデータで判明 | AERA dot. (アエラドット)
    sds-page
    sds-page 2020/12/03
    イートの方はテイクアウト限定にすれば続行できるんじゃない?あと忘年会とかの会食自粛も呼び掛けて
  • オタクとジェンダー規範に関する研究を読もう

    twitterでたまに、男オタクは女や非オタク男と比べて「男は仕事、女は家事」のような性別役割分業を支持する割合が高く保守的である、という結論の棒グラフが回ってきているのを見かける(例:https://b.hatena.ne.jp/entry/s/twitter.com/phanomenologist/status/1228500960588124163)。あれはしばしばフェミニストによって「男オタクの女性蔑視の表れ」のように引用されるが、そもそもどういう文脈で出てきた棒グラフだったかちゃんと確かめた人はいるのだろうか? そして、あのグラフをめぐって学者同士の意見が対立していることはどのくらい知られているのだろうか? ということで、以下であのグラフが出てきた文脈を紹介してみるよ! なお、増田は男オタクだけど、統計とか専門外だよ! あの棒グラフの出典は、社会学者の北田暁大による若者と趣味に関

    オタクとジェンダー規範に関する研究を読もう
    sds-page
    sds-page 2020/07/22
    二次創作好きを二次オタクって略すの一般的?二次元好きが二次オタだと思ってたけど
  • 人工知能を“正しく”疑え データサイエンティストがNHK「AIに聞いてみた」の違和感を探る (1/3) - ITmedia NEWS

    を読むと健康になる?」──そんな“AI人工知能)の提言”を紹介し、日の社会問題について切り込む番組の第3回がNHK総合で放送された。データ分析の専門家の松健太郎さんが、AIの分析手法について解説。 NHK総合で「AIに聞いてみた どうすんのよ!? ニッポン」の第3回が、10月13日に放送されました。テーマは「健康寿命」。3回目にしてデータサイエンス界隈からのツッコミすらなくなり、個人的には寂しい放送回となりました。皆さんはご覧になられたでしょうか? もちろん私は正座待機でした。 過去にさまざまな批判を受けたからか、番組のトーンがだいぶ変わった印象を受けました。マツコ・デラックスさんら出演者は口をそろえて「決してこれが答えではない」「スタッフが勝手に解釈して言っているだけ」と説明し、健康寿命を延ばすヒントとして挙げられた3つの提言のうち、1つはマツコさんによって却下されました。

    人工知能を“正しく”疑え データサイエンティストがNHK「AIに聞いてみた」の違和感を探る (1/3) - ITmedia NEWS
    sds-page
    sds-page 2018/10/19
    現代版亀甲占い
  • 日本のアニメ主人公に「学生が多い」「社長が少ない」は本当か? - プリキュアの数字ブログ

    最近、こんな記事を読みました。 www.itmedia.co.jp 日ヒーローの主人公に社長が少なく、学生や公務員が多い。それは太平洋戦争の影響である、という謎の?記事でした。 戦争うんぬんは置いておいて、こういう記事見ると、 日のアニメヒーローは米国作品に比べて当に 「社長が少ないのか?」 「学生が多いのか?」 などが気になって気になって仕方が無いのです。 とういわけで、調べてみました。 (上記の記事では「ヒーロー」という定義ですが、日アニメからヒーローもののみを取り出すのは困難だったので「日のアニメ全体」での調査を行いました。 別に上記記事の検証を行っているわけではありません。ただ、どんな程度なのか調査してみただけです。) データ取得 無作為抽出による標調査 抽出データ群 結果 日アニメ主人個の性別 日アニメ主人公の職業 米国(アメコミ)の主人公はどうなのか? アメコミ

    日本のアニメ主人公に「学生が多い」「社長が少ない」は本当か? - プリキュアの数字ブログ
    sds-page
    sds-page 2017/06/26
    世界を救うために旅してても無職扱いになるの悲しい
  • Tatsuya Niioka on Twitter: "「原因と結果の経済学」(中室牧子、津川友介著、ダイヤモンド社)の30ページに書いてあった「全くの偶然による相関関係」の例。こんな比較をよく思いついたと感心する。 https://t.co/8mD0i6u73R"

    「原因と結果の経済学」(中室牧子、津川友介著、ダイヤモンド社)の30ページに書いてあった「全くの偶然による相関関係」の例。こんな比較をよく思いついたと感心する。 https://t.co/8mD0i6u73R

    Tatsuya Niioka on Twitter: "「原因と結果の経済学」(中室牧子、津川友介著、ダイヤモンド社)の30ページに書いてあった「全くの偶然による相関関係」の例。こんな比較をよく思いついたと感心する。 https://t.co/8mD0i6u73R"
    sds-page
    sds-page 2017/06/13
    機械学習で似たようなの見つけてきて悪用できそう
  • 統計読めない人あまりに多すぎない?

    ネットユーザーの中でも10人中2人居ないくらい プログラマーとかなら読めるだろうと思いきや、プログラマーの中でも半分は読めない 旧帝大クラスなら読めるだろと思うが、そうでもない(東大クラスは流石に読める) もちろん程度の差はある でもバイアスを疑えないというか、出てきたデータを鵜呑みにする だから記事のタイトルがウソでもたいてい信じてしまう 信じた上で分かった風な口を利く 考えてみれば俺も疑い始めたのは2chでボロクソに突っ込まれた後からだ 分かった風な口を利いたあとで指摘されて顔真っ赤みたいなのを3年はやった あいつらは騙そう騙そうとしてくるから、データを出されると身構えるようになった やっぱり痛い目を見ないと疑わないようになってしまうんだろうか 当たり前だけど仕事でも統計データというか、数字やデータから事実を読み取るシーンは出てくると思う 増えてる、減ってる、パーセント、割合、色々 じ

    統計読めない人あまりに多すぎない?
    sds-page
    sds-page 2016/10/21
    n=0かよ
  • 日本の産業分類別年収/労働時間ヒートマップ - A Successful Failure

    2016年06月07日 日の産業分類別年収/労働時間ヒートマップ Tweet 厚生労働省は毎年産業分類別に賃金や労働時間の調査を行っている。10名以上の従業員を抱える5万余の民間事業所に対する調査をまとめたものであり、最新の調査結果は今年2月に公表された平成27年賃金構造基統計調査だ。 そこで同調査にもとづき、産業分類別の年収、月間労働時間をヒートマップにしてみた。男性・女性の降順にソートしたバージョンも用意しているのでそちらも見て欲しい。サムネイルをみるだけで、男女に厳然とした差があることが一目瞭然だ。 産業分類別年収テーブル(男性ソート版・女性ソート版) 産業分類別月間労働時間テーブル(男性ソート版・女性ソート版) 産業別明細票 さらに産業分類ごとに調査結果を確認できる検索フォームも用意した。上部のプルダウンメニューを選択することで、所望の産業の給与/労働時間テーブルを参照すること

    日本の産業分類別年収/労働時間ヒートマップ - A Successful Failure
    sds-page
    sds-page 2016/06/07
    ガスの70~とか宗教の~19とか飛びぬけて高い労働時間はなんなんだ
  • エラーページ - ヤフー株式会社

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    エラーページ - ヤフー株式会社
    sds-page
    sds-page 2016/03/09
    埼玉とか神奈川も東京都⇔その他都市圏の中間になるわけじゃないんだな
  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ

    的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。 また、競馬には技術介入の余地(努力次第で勝利できる可能性)がある。 例えばこんな例がある。 160億円ボロ儲け!英投資会社が日の競馬で荒稼ぎした驚きの手法 - NAVER まとめ 彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が

    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
    sds-page
    sds-page 2016/01/04
    こういう本気の人が増えたら税金の取り方も変わるかもしれない
  • 専門家曰く「男性の喫煙率が下がった結果、肺がんで亡くなる人がぐんぐん増加しています」。で、その専門家って誰よ? で始まる「また武田邦彦氏か」的な顛末

    専門家曰く「男性の喫煙率が下がった結果、肺がんで亡くなる人がぐんぐん増加しています」。で、その専門家って誰よ? で始まる「また武田邦彦氏か」的な顛末

    専門家曰く「男性の喫煙率が下がった結果、肺がんで亡くなる人がぐんぐん増加しています」。で、その専門家って誰よ? で始まる「また武田邦彦氏か」的な顛末
    sds-page
    sds-page 2015/08/19
    統計の魔術師に騙されてはいけない
  • 幼なじみ婚の増加から考える日本の社会構造の変化 - ゆとりずむ

    こんばんは。 いつも、通勤電車で『Yahoo!リアルタイム検索』のランキングをウォッチしています。先日も、だらだら眺めていたところ『幼なじみ婚』という耳慣れないキーワードが上位に引っかかりました。 どうやら朝の情報番組ZIPでこんな特集が組まれたみたいですね。 サッカー日本代表の内田選手が、幼なじみと結婚したことを引き合いに、番組独自調査結果を発表。その結果、 20代・30代の夫婦・・・50組中7組 40代・50代の夫婦・・・50組中1組 ほら、大急増!! ・・・うさんくせえ( ´Д`)=3 いや、適当に調べた50組で、そんな微妙な結果持って来られてもねえ┐(´∀`)┌ と、いうわけで折角だからちゃんとしたデータがないものか調べてみました。 確かに幼なじみ婚は増えている さて、今回は厚生労働省の外郭団体である国立社会保障・人口問題研究所のデータを見てみます。同研究所では、人口問題の調査研究

    幼なじみ婚の増加から考える日本の社会構造の変化 - ゆとりずむ
    sds-page
    sds-page 2015/06/19
    見合い結婚の減少がそのまま少子化に繋がってるんじゃないかな
  • プロ漫画家は日本に何人いるのか? - 漫画の真ん中

    この仕事をしていると良く聞かれるのが、 「それで、結局漫画家って何人いるんですか?」という質問です。 一般の取材から、作家、編集者さん、果ては経産省のお役人さんや議員さんまで、みんな同じ質問を私にされるんですが、残念ながら、正確には判らないんですね。 一番知りたいのは「日にマンガでべてる漫画家は、何人いるのか?」ということなわけですが、これを試算する方法がなかなか難しいのです。マンガでべている人ということが言える人とは、だいたい以下でほとんど抑えられると思います。 ・商業誌掲載/連載(その単行印税など) ・Web/アプリなどデジタル媒体掲載(原稿料,DL収入など) ・企画描き下ろし漫画 ・宣伝/広告/記事カットなど、その他目的型のマンガ制作 ・同人誌制作販売 ・プロアシスタント、塗り師などサポート系 ・漫画教育関連の教員など などです。勿論、この中でミックスしている方や、他の仕事

    プロ漫画家は日本に何人いるのか? - 漫画の真ん中
    sds-page
    sds-page 2015/05/24
    Googleの中の人ならベイズ推定とかを駆使して答えてくれそう
  • 10秒以内にウォーリーを探す合理的な方法

    これが大人だ! 「ウォーリーを探せ」って絵、覚えてますか? そう、このごちゃごちゃした人混みから赤と白のボーダーの服を着たウォーリーを探し出すゲーム。子どものころ必死で探した覚えがあります。でも見つけられないときって、ほんとに見つからないんですよね…。試しに今すぐ探してみてください。上の画像のウォーリー、いました? 「…ま、気長に探すしかないよね〜」で許されるのは子どものときだけです。そう、大人というものは、短時間で効率的に結果を出すことが求められます。それはウォーリーを探すことだって同じなのです。 ではウォーリーのいる場所には、規則性があるのでしょうか。実はSlateが、シリーズ7冊中68カ所のウォーリーの居場所をリストアップしています。それがこちら。 …あまり規則性は見えてこないですね。強いて言えば、真ん中よりちょっと上と下にそれぞれ、なんとなく集まっているくらい。でもまだ結論づける

    10秒以内にウォーリーを探す合理的な方法
    sds-page
    sds-page 2015/03/18
    ロト6必勝法みたいな胡散臭さ