[B! analytics] keisuke_yamaneのブックマーク

データ分析もChatGPTに“お願い”するだけ!?　探索的データ分析プラグイン「Noteable」を試す【イニシャルB】

keisuke_yamane 2023/06/19

リンク

データ整備にはツールが重要｜たまにメモする人

データ駆動社会といわれていますが、AIが出てきてさらにデータの重要性が増しています。データの連携や利活用をしやすいようにデータモデルなどを政府相互運用性フレームワークで整備してきましたが、データモデルは所詮はルールにすぎません。これを実装するのにスキーマやツールの提供をすることが有効です。スキーマの提供これはやらなければと考えていますし、デベロッパーの方々からも要望があるのですが、まだ提供ができていません。schema.orgのようにコミュニティ化して検討することも考えたほうがもいいかもしれませんが検討中です。ツールの提供こちらが先行して取り組んでいます。ルールやガイドラインを普及させるにはツールとセットで提供することが有効で、米国や欧州ではルールやガイド整備とともに常にツール整備が並行して行われています。一方、日本では多くのルールやガイドなどが出ているもののツールの整備までいか

keisuke_yamane 2023/04/25

AI
analytics

リンク

[レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO

さがらです。 11月8日20時～22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。本記事はこのイベントのレポートブログとなります。イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました！たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。おまけ：当イベントの応募者数このイベントですが、なんと

keisuke_yamane 2022/11/09

リンク

科学の世界に革命をもたらしえる力──『因果推論の科学「なぜ?」の問いにどう答えるか』 - 基本読書

因果推論の科学「なぜ?」の問いにどう答えるか作者:ジューディア・パール,ダナ・マッケンジー文藝春秋Amazonこの『因果推論の科学』は、その名の通り因果推論について、その先駆者の著者が書いた一般向けのサイエンス本である。とはいえ、大半の人の反応は「因果推論ってなんなんだ」であろう。僕も何もわからぬまま読み始めたが、著者がこれは「科学の世界の革命」であると自賛するだけのことはある概念であることはすぐにわかった。その一方、相当に難しい、とっつきづらい概念でもあり、いかな一般向けの著作といえども本書を読んで理解するハードルは他のサイエンス本と比べても高いといえるだろう。数式も出てくるし、統計学の用語もぽこぽこ出てくるので、素人がスルスルと読み通せる本ではない。とはいえ根気強く読んでいけば理解できるように書かれているし(数式自体は別に読み飛ばしても問題はない)、理解すれば因果推論の科学がいか

keisuke_yamane 2022/09/16

リンク

イチローの安打数がポアソン分布にならず正規分布になる理由を考察してみた | ロジギーク

滅多に起こらない現象を表すポアソン分布はイチローの安打数にも当てはまるのか？１９９４年、プロ３年目のイチローはシーズン２１０安打、打率.３８５を記録して、一気にスーパースターになりました。この年の打率１０傑は次の通りです。（年度別成績 1994年パシフィックリーグ｜NPB.JP 日本野球機構より抜粋）１位と２位以下の差が凄いですね。いかにイチローが図抜けていたかが分かります。今年のパ・リーグの規定打席以上の打者２９人の安打数を見ると、試合数より少なくなっていて安打数÷試合数＝０.９３です。これくらいだと、１試合当たりの安打数は「滅多に起こらない事象の確率分布」であるポアソン分布に従います。しかし、普通でない打者のイチローは、１試合当たり１.６本以上の安打を打っています。そのような場合もポアソン分布に従うのでしょうか？それを調べてみました。比較対象として１９９４年打率

keisuke_yamane 2022/09/12

リンク

データマイニング入門

ビックデータ分析技術は情報処理技術を学ぶ上で重要となっている。本講義では、データ分析・データマイニングの基礎について学ぶとともに演習を通して実際にデータを分析するプロセスを学ぶ。特に、前期課程の「データマイニング入門」講義のさらに発展的な内容を学習することで、後期課程や大学院におけるデータサイエンス、人工知能、機械学習、自然言語処理などの関連講義の基礎となる知識を習得することを目標とする。

keisuke_yamane 2022/07/03

リンク

QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "確率・統計をわかりやすく解説した、200ページ超えの長編スライド。図解や具体例をふんだんに盛り込んだ直感的説明が秀逸。数学カフェ確率・統計・機械学習回「速習確率・統計」 https://t.co/8mGWUd8f4D https://t.co/VkDWjFjfWR"

確率・統計をわかりやすく解説した、200ページ超えの長編スライド。図解や具体例をふんだんに盛り込んだ直感的説明が秀逸。数学カフェ確率・統計・機械学習回「速習確率・統計」 https://t.co/8mGWUd8f4D https://t.co/VkDWjFjfWR

keisuke_yamane 2022/03/12

リンク

確率論の歴史【QK×はなでん×ヨビノリ】

keisuke_yamane 2022/03/04

リンク

はじめに — マンガと学ぶデータビジュアライゼーション

はじめに# データビジュアライゼーションとは，数値や文章などのデータに基づいた情報を，人間が理解しやすい形に視覚化する技術を指します．このサイトは，文化庁のメディア芸術データベース・ラボ（MADB Lab）で公開されている四大少年誌（週刊少年サンデー，週刊少年ジャンプ，週刊少年チャンピオン，週刊少年マガジン）のデータを用いて，データビジュアライゼーションの学習を手助けすることを目指しています．データビジュアライゼーション（に限らずデータ分析全般）の学習において重要なのは，分析対象のデータに興味を持てるかどうかです．本書では約47年の四大少年誌のマンガ作品データを採用しているため，モチベーションを保ちつつ学習を進めることが可能です．

keisuke_yamane 2022/02/14

リンク

慶應義塾大学経済学部で1994年に出題された問題が悶絶レベルでイイ問題なので一方的に称賛してみる : 世界史リンク工房

各校の過去問対策、受験対策のほか、世界史を理解する上で役に立つ視点や勉強法についての情報を随時更新していきます。 Twitter→https://twitter.com/HISTORY_LINKAD7　フォロー大歓迎です♪ ※　目標に向けて頑張る受験生の皆さんの一助になればと思って頑張って更新し、情報もチェックしておりますが、人間ですのでミスなどが出ることもあります。当サイトの情報をご利用の際はあくまでも自己責任でお願いいたします。 ※　問題解説では、著作権で怒られても困るので、解説に必要な最小限の問題概要のみを示してあります。あくまでも解答にいたるまでの「考え方」を示すためのものでありますので、過去問の正確な内容については各大学にお問い合わせいただくか、赤本買ってくださいｗ　また、大手予備校のHP等からも閲覧できるかと思います。問題全てが手元にあった方がわかりやすいと思います。ヘッダー

keisuke_yamane 2022/02/09

リンク

今こそ「ソノタノミクス」に注目せよ - モノシリンの３分でまとめるモノシリ話

国交省が統計不正が発覚して大問題になっている。経緯や問題点についてはこの朝日新聞のまとめ記事を見るとよい。新たな情報に合わせて随時更新されるという。 www.asahi.com 調査票の原票を消しゴムで消し、鉛筆で書き換えていたというのだから驚きである。生データを変えてしまっているため、復元もできない。年間１万件ほど行われていたそうである。なお、これについては私も朝日新聞から取材を受けてちょっとコメントしている。 www.asahi.com そして、以前毎月勤労統計で不正をやらかした厚生労働省は、またも不正をしていたことが発覚した。 nordot.app こんなニュースが続くので、「日本政府は統計をいじくることなどしない」など、もう誰も思っていないだろう。そこで、この機会に私が拙著で繰り返し指摘している「ソノタノミクス」について、改めて注目していただきたい。この問題こそが、本丸である

keisuke_yamane 2022/02/03

analytics

リンク

今度の「統計不正」は空前絶後の大問題だぜ - モノシリンの３分でまとめるモノシリ話

国土交通省の建設工事受注動態統計調査に不正があったと報道されているが、正確に把握している人はほとんどいないと思う。そこで、まとめる。問題点は、「合算処理」と「二重計上」の2点。このうち、重要なのが「二重計上」なのだが、先に「合算処理」から説明しよう。 ◆合算処理とは合算処理とは、提出の遅れた月の調査票の数値を、後の月に合算して計上する処理のことである。建設工事受注動態統計調査は、対象企業から毎月調査票を提出してもらう。この提出期限が対象月の翌月10日であり、非常に締め切りがタイトである。だから、締め切りを過ぎて出されることが多々あった。そうやって遅れて出された月の数値について、遡って修正するのも手間がかかる。そこで、後の月に合算して計上していたのだ。これは具体例で考えると分かりやすいので、下記のような例を想定してみよう。・ある企業は、1月分の調査票について、締め切り日（2

keisuke_yamane 2022/02/03

analytics

リンク

統計不正、4兆円過大計上か　20年度の全体5％相当　朝日新聞試算：朝日新聞デジタル

","naka5":"","naka6":"","naka6Sp":"","adcreative72":"\n\n\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

keisuke_yamane 2022/01/25

リンク

【統計学】p値の意味と歴史 - しらすのStudy blog

こんにちは、しらすです。統計学では「p値」と呼ばれる値があります。実験結果などに対して「統計的に有意」かを判定する基準となる数字です。今回はこのp値についてまとめたいと思います。 p値の歴史 p値は1920年代にイギリスの科学者であるロナルド・フィッシャーが「The Design of Experiments」という論文で提唱した統計と確率により結果を分析する手順で提案されました。この頃、ある女性が「私は、紅茶にミルクを注いだのか、ミルクに紅茶を注いだのか、飲んで見分けることができる」といいました。混ざったら一緒でしょ？そんなことできるわけない！と思いますよね？でも、もしかしたらできるかも、、、、さて、ここでその女性にその能力があるかどうかを見分ける必要が出てきました。実験をしたところで、偶然運で言い当てられる可能性も十二分に考えられますね。その点に注意して実験を始めましょう。ま

keisuke_yamane 2021/12/12

analytics

リンク

p値ハッキングについての論文を読んだ - tak0kadaの何でもノート

PLOS Biology: The Extent and Consequences of P-Hacking in Scienceを読んだ。世の中にはp値が小さい(つまり統計的に有意)なデータが尊ばれる傾向がある。そうすると発表される結果は有意なものばかりだし、悪ければ詐称かもしれない。間違った結果を集めてしまうとメタ解析してもバイアスが残る。そこでp-hackの可能性を検定する方法を扱った論文。のはずなんだけど、知識がないからか「本当にこれでいい」のかという疑問が残った。以下概要。 1. p-hackingとは? 研究者がやりがちなバイアスとしてselection bias、inflation biasがある。selection biasは有意でない実験結果が世に出ないこと。inflation biasはいわゆるp-hackingで、「効果量」が小さいのにサンプルサイズを大きくしたり

keisuke_yamane 2021/12/12

リンク

東京工業大学、機械学習の講義ノートが無料公開 Pythonの実装も学べる | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

keisuke_yamane 2021/12/10

リンク

はじめに — 機械学習帳

import torch x = torch.tensor([1., -1.]) w = torch.tensor([1.0, 0.5], requires_grad=True) loss = -torch.dot(x, w).sigmoid().log() loss.backward() print(loss.it em()) print(w.grad)

keisuke_yamane 2021/12/07

リンク

後編プログラミングを学ぼうと思い立つ行列はVBAなんかじゃ無理っぽいし、..

後編プログラミングを学ぼうと思い立つ行列はVBAなんかじゃ無理っぽいし、なんかプログラミング言語を覚えようと決める。なんでも、統計やるならRという言語がいいらしい。最近じゃPythonというのも人気らしい。とりあえず両方試そうということで、RのためにRとRstudioをインストール。 Pythonはanaconda プログラミングはなんかを製作する目標がないと挫折すると聞いていたので。深層学習というものが流行ってると聞いて、ちょっと触りを勉強したくなる。「Excelでわかるディープラーニング超入門」 https://www.amazon.co.jp/Excel%E3%81%A7%E3%82%8F%E3%81%8B%E3%82%8B%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3

keisuke_yamane 2021/12/05

リンク

数学とプログラミングの勉強を開始して、何度も挫折して今に至る軌跡を晒す

2013年の秋、その時の自分は30代前半だった。衝動的に数学を学び直すことにした。若くないし、数学を学びなおすには遅すぎると思って尻ごみしていたが、そこを一念発起。というか軽い気持ちで。ぶっちゃけると分散分析とやらに興味を持ったから。数学というか統計かな。統計的に有意差があったといわれてもその意味がさっぱりだった。一応、理系の大学を出てるので、有意差という単語をちょいちょい耳にはしていたが、「よくわかんないけどt検定とかいうやつやっとけばいいんでしょ？」くらいの理解だった。で、ありがちな多重比較の例で、3群以上の比較にt検定は使っちゃダメだよっていう話を聞いて、なんか自分だけ置いてけぼりが悔しくなって、Amazonをポチッとしたのが全ての始まり。あと、あの頃はライン作業の工員だったから、脳が疲れてなかったし。そんなわけで、自分の軌跡を晒してみる。みんな数学とかプログ

keisuke_yamane 2021/12/05

リンク

世の中の仕組みと人生のデザイン l 橘　玲 | DPM(ダイヤモンド・プレミアム・メールマガジン)

経済的独立すなわち自由は、世の中の仕組みを正しく理解し、最適な人生の戦略をデザインすることで、もっとも確実に達成できる。世の中（世界）はどんな仕組みで動いているのだろう。そのなかで私たちは、どのように自分や家族の人生を設計（デザイン）していけばいいのだろうか。経済、社会から国際問題、自己啓発まで、さまざまな視点から「いまをいかに生きるか」を考えていきます。質問も随時受け付けます。橘玲の最新刊『幸福の「資本」論　あたなの未来を決める「３つの資本」と「８つの人生パターン」』好評発売中！「幸福な人生」を送るために幸福を定義すると基盤となるのは3つの資本。その組み合わせで8つの人生パターンが考えられる。あなたが目指すべきはどの人生パターンか？ダイヤモンド社から発売中！（1,650円税込） ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 【DIAMOND PREMIU

keisuke_yamane 2021/10/15

analytics

リンク

はてなブックマーク

タグ

関連タグで絞り込む (24)

analyticsに関するkeisuke_yamaneのブックマーク (78)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス