データ駆動社会といわれていますが、AIが出てきてさらにデータの重要性が増しています。 データの連携や利活用をしやすいようにデータモデルなどを政府相互運用性フレームワークで整備してきましたが、データモデルは所詮はルールにすぎません。 これを実装するのにスキーマやツールの提供をすることが有効です。 スキーマの提供これはやらなければと考えていますし、デベロッパーの方々からも要望があるのですが、まだ提供ができていません。schema.orgのようにコミュニティ化して検討することも考えたほうがもいいかもしれませんが検討中です。 ツールの提供こちらが先行して取り組んでいます。ルールやガイドラインを普及させるにはツールとセットで提供することが有効で、米国や欧州ではルールやガイド整備とともに常にツール整備が並行して行われています。 一方、日本では多くのルールやガイドなどが出ているもののツールの整備までいか
さがらです。 11月8日20時~22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。 本記事はこのイベントのレポートブログとなります。 イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました! たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。 今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。 おまけ:当イベントの応募者数 このイベントですが、なんと
因果推論の科学 「なぜ?」の問いにどう答えるか 作者:ジューディア・パール,ダナ・マッケンジー文藝春秋Amazonこの『因果推論の科学』は、その名の通り因果推論について、その先駆者の著者が書いた一般向けのサイエンス本である。とはいえ、大半の人の反応は「因果推論ってなんなんだ」であろう。僕も何もわからぬまま読み始めたが、著者がこれは「科学の世界の革命」であると自賛するだけのことはある概念であることはすぐにわかった。 その一方、相当に難しい、とっつきづらい概念でもあり、いかな一般向けの著作といえども本書を読んで理解するハードルは他のサイエンス本と比べても高いといえるだろう。数式も出てくるし、統計学の用語もぽこぽこ出てくるので、素人がスルスルと読み通せる本ではない。とはいえ根気強く読んでいけば理解できるように書かれているし(数式自体は別に読み飛ばしても問題はない)、理解すれば因果推論の科学がいか
滅多に起こらない現象を表すポアソン分布はイチローの安打数にも当てはまるのか? 1994年、プロ3年目のイチローはシーズン210安打、打率.385を記録して、一気にスーパースターになりました。 この年の打率10傑は次の通りです。 (年度別成績 1994年パシフィックリーグ|NPB.JP 日本野球機構 より抜粋) 1位と2位以下の差が凄いですね。 いかにイチローが図抜けていたかが分かります。 今年のパ・リーグの規定打席以上の打者29人の安打数を見ると、試合数より少なくなっていて安打数÷試合数=0.93です。 これくらいだと、1試合当たりの安打数は「滅多に起こらない事象の確率分布」であるポアソン分布に従います。 しかし、普通でない打者のイチローは、1試合当たり1.6本以上の安打を打っています。 そのような場合もポアソン分布に従うのでしょうか? それを調べてみました。 比較対象として1994年打率
はじめに# データビジュアライゼーションとは,数値や文章などのデータに基づいた情報を,人間が理解しやすい形に視覚化する技術を指します. このサイトは,文化庁のメディア芸術データベース・ラボ(MADB Lab)で公開されている四大少年誌( 週刊少年サンデー, 週刊少年ジャンプ, 週刊少年チャンピオン, 週刊少年マガジン )のデータを用いて,データビジュアライゼーションの学習を手助けすることを目指しています. データビジュアライゼーション(に限らずデータ分析全般)の学習において重要なのは,分析対象のデータに興味を持てるかどうかです. 本書では約47年の四大少年誌のマンガ作品データを採用しているため,モチベーションを保ちつつ学習を進めることが可能です.
各校の過去問対策、受験対策のほか、世界史を理解する上で役に立つ視点や勉強法についての情報を随時更新していきます。 Twitter→https://twitter.com/HISTORY_LINKAD7 フォロー大歓迎です♪ ※ 目標に向けて頑張る受験生の皆さんの一助になればと思って頑張って更新し、情報もチェックしておりますが、人間ですのでミスなどが出ることもあります。当サイトの情報をご利用の際はあくまでも自己責任でお願いいたします。 ※ 問題解説では、著作権で怒られても困るので、解説に必要な最小限の問題概要のみを示してあります。あくまでも解答にいたるまでの「考え方」を示すためのものでありますので、過去問の正確な内容については各大学にお問い合わせいただくか、赤本買ってくださいw また、大手予備校のHP等からも閲覧できるかと思います。問題全てが手元にあった方がわかりやすいと思います。 ヘッダー
国交省が統計不正が発覚して大問題になっている。経緯や問題点についてはこの朝日新聞のまとめ記事を見るとよい。新たな情報に合わせて随時更新されるという。 www.asahi.com 調査票の原票を消しゴムで消し、鉛筆で書き換えていたというのだから驚きである。生データを変えてしまっているため、復元もできない。年間1万件ほど行われていたそうである。 なお、これについては私も朝日新聞から取材を受けてちょっとコメントしている。 www.asahi.com そして、以前毎月勤労統計で不正をやらかした厚生労働省は、またも不正をしていたことが発覚した。 nordot.app こんなニュースが続くので、「日本政府は統計をいじくることなどしない」など、もう誰も思っていないだろう。 そこで、この機会に私が拙著で繰り返し指摘している「ソノタノミクス」について、改めて注目していただきたい。 この問題こそが、本丸である
国土交通省の建設工事受注動態統計調査に不正があったと報道されているが、正確に把握している人はほとんどいないと思う。そこで、まとめる。 問題点は、「合算処理」と「二重計上」の2点。 このうち、重要なのが「二重計上」なのだが、先に「合算処理」から説明しよう。 ◆合算処理とは 合算処理とは、提出の遅れた月の調査票の数値を、後の月に合算して計上する処理のことである。 建設工事受注動態統計調査は、対象企業から毎月調査票を提出してもらう。この提出期限が対象月の翌月10日であり、非常に締め切りがタイトである。 だから、締め切りを過ぎて出されることが多々あった。 そうやって遅れて出された月の数値について、遡って修正するのも手間がかかる。 そこで、後の月に合算して計上していたのだ。 これは具体例で考えると分かりやすいので、下記のような例を想定してみよう。 ・ある企業は、1月分の調査票について、締め切り日(2
","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"
こんにちは、しらすです。 統計学では「p値」と呼ばれる値があります。実験結果などに対して「統計的に有意」かを判定する基準となる数字です。 今回はこのp値についてまとめたいと思います。 p値の歴史 p値は1920年代にイギリスの科学者であるロナルド・フィッシャーが「The Design of Experiments」という論文で提唱した統計と確率により結果を分析する手順で提案されました。 この頃、ある女性が「私は、紅茶にミルクを注いだのか、ミルクに紅茶を注いだのか、飲んで見分けることができる」といいました。混ざったら一緒でしょ?そんなことできるわけない!と思いますよね?でも、もしかしたらできるかも、、、、 さて、ここでその女性にその能力があるかどうかを見分ける必要が出てきました。実験をしたところで、偶然運で言い当てられる可能性も十二分に考えられますね。その点に注意して実験を始めましょう。 ま
PLOS Biology: The Extent and Consequences of P-Hacking in Scienceを読んだ。 世の中にはp値が小さい(つまり統計的に有意)なデータが尊ばれる傾向がある。そうすると発表される結果は有意なものばかりだし、悪ければ詐称かもしれない。間違った結果を集めてしまうとメタ解析してもバイアスが残る。そこでp-hackの可能性を検定する方法を扱った論文。 のはずなんだけど、知識がないからか「本当にこれでいい」のかという疑問が残った。以下概要。 1. p-hackingとは? 研究者がやりがちなバイアスとしてselection bias、inflation biasがある。selection biasは有意でない実験結果が世に出ないこと。inflation biasはいわゆるp-hackingで、「効果量」が小さいのにサンプルサイズを大きくしたり
後編 プログラミングを学ぼうと思い立つ行列はVBAなんかじゃ無理っぽいし、なんかプログラミング言語を覚えようと決める。 なんでも、統計やるならRという言語がいいらしい。 最近じゃPythonというのも人気らしい。 とりあえず両方試そうということで、RのためにRとRstudioをインストール。 Pythonはanaconda プログラミングはなんかを製作する目標がないと挫折すると聞いていたので。 深層学習というものが流行ってると聞いて、ちょっと触りを勉強したくなる。 「Excelでわかるディープラーニング超入門」 https://www.amazon.co.jp/Excel%E3%81%A7%E3%82%8F%E3%81%8B%E3%82%8B%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3
2013年の秋、その時の自分は30代前半だった。 衝動的に数学を学び直すことにした。 若くないし、数学を学びなおすには遅すぎると思って尻ごみしていたが、そこを一念発起。 というか軽い気持ちで。ぶっちゃけると分散分析とやらに興味を持ったから。 数学というか統計かな。 統計的に有意差があったといわれてもその意味がさっぱりだった。 一応、理系の大学を出てるので、有意差という単語をちょいちょい耳にはしていたが、 「よくわかんないけどt検定とかいうやつやっとけばいいんでしょ?」 くらいの理解だった。 で、ありがちな多重比較の例で、3群以上の比較にt検定は使っちゃダメだよっていう話を聞いて、なんか自分だけ置いてけぼりが悔しくなって、Amazonをポチッとしたのが全ての始まり。 あと、あの頃はライン作業の工員だったから、脳が疲れてなかったし。 そんなわけで、自分の軌跡を晒してみる。 みんな数学とかプログ
経済的独立すなわち自由は、世の中の仕組みを正しく理解し、最適な人生の戦略をデザインすることで、もっとも確実に達成できる。 世の中(世界)はどんな仕組みで動いているのだろう。そのなかで私たちは、どのように自分や家族の人生を設計(デザイン)していけばいいのだろうか。経済、社会から国際問題、自己啓発まで、さまざまな視点から「いまをいかに生きるか」を考えていきます。質問も随時受け付けます。 橘 玲の最新刊『幸福の「資本」論 あたなの未来を決める「3つの資本」と「8つの人生パターン」』好評発売中! 「幸福な人生」を送るために幸福を定義すると基盤となるのは3つの資本。その組み合わせで8つの人生パターンが考えられる。あなたが目指すべきはどの人生パターンか? ダイヤモンド社から発売中!(1,650円 税込) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 【DIAMOND PREMIU
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く