タグ

データサイエンスに関するmisshikiのブックマーク (459)

  • データサイエンスにおける本質を理解することの重要性と難しさ - Qiita

    CA Tech Loungeの一期生ML/DSのGoriraTatsuです。この記事はCA Tech Lounge Advent Calendar 2023の8日目の記事になります。普段は都内の私立高校に通いつつ、大規模言語モデルとHallucinationの研究をしています。 背景 CA Tech LoungeというCyberAgentが行う学習コミュニティスペースで、一期生として5月に入会し、CyberAgentの社員からメンタリングを受けつつ機械学習やデータサイエンスについての学習を進めています。記事はCA Tech Loungeでの学習を通じて、「質的に理解することの重要性と難しさ」について感じたことをまとめた記事になります。なんだか主語が大きいですが、私個人の一意見にすぎないため、「若造が何か言っているな」くらいの気持ちで読んでいただけると幸いです。 それはある日の話 東京大

    データサイエンスにおける本質を理解することの重要性と難しさ - Qiita
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    misshiki
    misshiki 2023/12/21
    “要は「仮説を証明さえ出来ればOK...」という安易な姿勢が、無意識のうちに「自説に都合の良い少量のサンプルだけ集めれば良い」という近視眼的なアプローチに繋がってしまったということですね。”
  • 上智「データサイエンス大学院」の現在地と未来像 | 上智大学 | 東洋経済オンライン

    時代に求められるデータサイエンティストを育成する場として、2023年4月に新設した大学院修士課程「応用データサイエンス学位プログラム」。設立から半年強、データを起点としてビジネスの価値を創出する人材養成の環境は、どのような成果を生みつつあるのだろうか。プログラムを主導する運営委員長補佐の大原佳子教授と、講師を務める博報堂DYホールディングス取締役常務執行役員CTOの安藤元博氏、PTCジャパン執行役員専務の山田篤伸氏が、プログラムの現在と未来像、そして今求められているデータ人材育成への思いを語り合った。 大原 初年度入学者の約6割が社会人で、所属する組織は企業や官公庁など幅広く、中には会社を経営している方もいます。多様なバックグラウンドを持つ人が集まっているので、データサイエンスの学びの場のみならず、その学びを更に発展させる情報交換の場としても刺激的な環境になっていると思います。 また近年、

    上智「データサイエンス大学院」の現在地と未来像 | 上智大学 | 東洋経済オンライン
  • データ分析もChatGPTの機能(旧Code Interpreter)でできるか、やったみた【番外編】

    データ分析ChatGPTの機能(旧Code Interpreter)でできるか、やったみた【番外編】:AI・データサイエンス超入門 ChatGPTの「高度データ分析」機能がデータサイエンスを変える? 素人でも簡単にデータ分析ができるようになるのか? 筆者が実際に挑戦し、実体験に基づく感想と洞察をお届けします。連載の流れとは関係がない番外編です。

    データ分析もChatGPTの機能(旧Code Interpreter)でできるか、やったみた【番外編】
    misshiki
    misshiki 2023/12/14
    “ChatGPTの「高度データ分析」機能がデータサイエンスを変える? 素人でも簡単にデータ分析ができるようになるのか? 筆者が実際に挑戦し、実体験に基づく感想と洞察をお届けします。”
  • 1年前の自分が読みたかった、データエンジニアリング入門 - Qiita

    はじめに 記事は、trocco® Advent Calendar 2023の9日目の記事になります。 trocco®だけを取り上げるわけではありませんが、この内容をおさえておくとその価値や使い方が理解しやすいと思いますし、もちろんユーザー以外でもデータエンジニアリング入門として読んでいただければと思います。 さて、私は今年の2月にtrocco®を提供する株式会社primeNumberに転職し、現在はtrocco®を利用したデータパイプライン/BIツールによるダッシュボード構築などを行っています。 前職は広告代理店でTableauを使ったマーケティングデータ分析を行っていたのですが、総合職の異動でたまたまデータ関連部門にいただけですし、プログラミング経験もなかったので、異業種異職種への転職でこの1年はめちゃくちゃ勉強をしてきました。 エンジニア出身の方向けには、『実践的データ基盤への処方箋

    1年前の自分が読みたかった、データエンジニアリング入門 - Qiita
    misshiki
    misshiki 2023/12/11
    データエンジニアリングを学びたい人の最初の記事によいと思う。
  • 総務省|統計制度|統計の調査環境の整備

    児童生徒が身近な現象や社会の課題を研究することを通して、課題学習や自由研究の取り組み方を学ぶ、中学生以上向け教材である学習ワークブック「生徒のための統計活用~基礎編~」を開発いたしました。 生徒のための統計活用~基礎編~ 生徒のための統計活用~基礎編~ (20,479KB) はじめに(112KB) 目次(64KB) 第1部 統計的探究プロセスの考え方(2,790KB) 第2部 統計的探究を実践してみよう(4,116KB) 第3部 統計的探究プロセスを身近なものにしよう(4,119KB) 第4部 さまざまな統計データをいかに活用するか(3,700KB) 第5部 統計をさらに知る(5,549KB) 後付(97KB) 書は、既に中学生以上の生徒のみなさんを対象に刊行している、探究的な学習の取組み方を学ぶ学習ワークブック(基礎編)に続く上級編として編集されたものです。 基礎編にはない実践的な事例

    総務省|統計制度|統計の調査環境の整備
    misshiki
    misshiki 2023/12/11
    『生徒のための統計活用~基礎編~』『大学での学びにつながる、統計で身近な現象や社会の課題を探求するスタディガイド、高校からの 統計・データサイエンス活用 ~上級編~』
  • Pythonによる主成分回帰(PCR)と部分的最小2乗回帰(PLS)

    説明変数Xを主成分分析(PCA)を行い、その主成分で回帰モデルを構築するのが、主成分回帰(PCR)です。 主成分は、主成分の分散が最大になるように作成され、できるだけ元の説明変数Xのもっている情報量を保持しようとします。 この主成分は、目的変数Yとは無関係に主成分分析で算出されます。 回帰モデルを構築するという視点で考えると、できれば目的変数Yと相関の高い主成分であると嬉しいでしょう。 それを実現するのが、部分的最小2乗回帰(PLS)です。 主成分は、目的変数Yと主成分の共分散が最大になるように作成され、目的変数Yを考慮したものになります。 今回は、「Pythonによる主成分回帰(PCR)と部分的最小2乗回帰(PLS)」というお話しをします。 なぜ、PCRとPLSを使うといいのか 回帰モデルを構築するとき、マルチコという推定した係数がおかしくなる現象が起こることがあります。その原因の1つが

    Pythonによる主成分回帰(PCR)と部分的最小2乗回帰(PLS)
    misshiki
    misshiki 2023/12/08
    “主成分回帰(PCR)と部分的最小2乗回帰(PLS)は違いは…… PCR:主成分が、主成分の分散が最大になるように作成 PLS:主成分が、目的変数Yと主成分の共分散が最大になるように作成”
  • [NumPy超入門]相関係数とヒートマップ、散布図を使ってデータセットをさらに可視化してみよう

    連載概要 連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩を踏み出すことを目的としています。 前回はCalifornia Housingデータセット(カリフォルニアの住宅価格のデータセット)の中でもMedInc列とMedHouseVal列に着目して、箱ひげ図とヒストグラムを使い、それらを可視化してみました。今回はそれらのデータの間に関連があるかどうかを、相関係数と散布図を使って考えてみましょう。 なお、今回は相関係数の可視化にseabornというライブラリを用います。これはPythonには標準で付属していないので「pip

    [NumPy超入門]相関係数とヒートマップ、散布図を使ってデータセットをさらに可視化してみよう
    misshiki
    misshiki 2023/12/08
    NumPyでやってみる“相関係数やそれを可視化したヒートマップ、散布図”
  • [データ分析]散布図を徹底活用して「関係」を可視化 ~ 関係と規模を一度に見る

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバ

    [データ分析]散布図を徹底活用して「関係」を可視化 ~ 関係と規模を一度に見る
    misshiki
    misshiki 2023/12/07
    “散布図を利用して間隔尺度の項目間の関係を可視化。バブルチャートを利用すれば、それらの関係に加えて、規模を可視化し、さらなる分析に役立てられる。今回で「可視化シリーズ」はひと区切り。”
  • PythonのData Appsフレームワーク Streamlit, Dash, Panel を比較(With ChatGPT) - Qiita

    PythonのData Appsフレームワーク Streamlit, Dash, Panel を比較(With ChatGPT)PythonDashPanelStreamlitChatGPT 皆さん、こんにちは!Python Advent Calender2023の6日目担当の小川英幸(X: ogawahideyuki)です。 データから洞察を得る過程で、その発見を他の人と共有し、さらなるインサイトを得ることは非常に価値があります。そのような役割を検討した際に、既存のツールでは物足りない一方、「アプリを一から作るのは大変だな…」と感じたことはありませんか? ここで登場するのがData Appsです。Pythonだけで手軽にデータアプリを作成できるこれらのツールは、データ分析者にとって強力な味方。特にStreamlit、Dash、Panelを、簡単に使えるフレームワークとして、私は注目し、活

    PythonのData Appsフレームワーク Streamlit, Dash, Panel を比較(With ChatGPT) - Qiita
    misshiki
    misshiki 2023/12/07
    “チーム内での共有、お客さんへのプレゼンみたいなのはStreamlitが良いのではないかと思っています。...あと、私としてはReactとの懸け橋にDashはお勧めかなぁと思っています。”
  • 2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加

    データサイエンティスト協会は10月30日、「データサイエンティストスキルチェックリスト」の第5版を公開した。データサイエンティストに必要とされるスキルをまとめたもので、新たに生成AIに関する項目を加えた。同協会のWebサイトで無料でダウンロードできる。 2021年に公開した第4版から内容を改修したもので、生成AIの台頭を受けて「AI利活用スキル」を新たに追加した。同協会は「生成AIは利用・開発・企画といった活用するためのスキルが当然必要となる一方で、その技術的背景を理解しつつ、生じる課題に対応するスキルが求められる」と説明。利活用スキルと背景理解・対応スキルの2種類に分けた全69項目を定義した。 例えば、利活用スキルの初歩には「LLM(大規模言語モデル)を利用して、データ分析やサービス、システム開発のためのコードを作成、修正、改良できる」などの項目、背景理解・対応スキルの初歩には「さまざま

    2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加
  • ITSS+(プラス)データサイエンス領域 | デジタル人材の育成 | IPA 独立行政法人 情報処理推進機構

    「データサイエンス領域」は、企業等の業務において大量データを分析し、その分析結果を活用するための一連のタスクとそのために習得しておくべきスキルを取りまとめています。 タスクは、IPAと「一般社団法人データサイエンティスト協会 スキル定義委員会」の協業で「タスクリスト」を策定、見直しを行っています。 スキルは同協会が公開している「スキルチェックリスト」を活用します。 タスクリストは2017年4月に初版を公開し、現在の最新版は2023改訂版(2023年10月30日公開)です。 2023年のタスクリスト改訂のポイント 生成AIの登場によって大きく変化するデータサイエンティストの業務に対応し、生成AIをビジネスや実務に活用するためにデータサイエンティストが発揮できるスキルを把握できるよう「AI利活用タスクリスト」を新規追加 「AI利活用タスクリスト」において、タスク中分類は以下の通り設定 Phas

    ITSS+(プラス)データサイエンス領域 | デジタル人材の育成 | IPA 独立行政法人 情報処理推進機構
    misshiki
    misshiki 2023/10/31
    “ITSS+「データサイエンス領域」2023改訂版”が公開されています。
  • 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表ニュース|一般社団法人データサイエンティスト協会

    HOME ニュース プレスリリースの記事一覧 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表 このたび、データサイエンティスト協会 スキル定義委員会(委員長:安宅 和人、副委員長:佐伯 諭)は、10月20日(金)に開催した「データサイエンティスト協会10thシンポジウム」内において発表した、データサイエンティストに必要とされるスキルをまとめた「データサイエンティスト スキルチェックリスト」の第5版を公開いたしました。 内容は、2021年に第4版として公開したデータサイエンティストの「ミッション、スキルセット、定義、スキルレベル」および「スキルチェックリスト」を、現在のビジ

    2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表ニュース|一般社団法人データサイエンティスト協会
    misshiki
    misshiki 2023/10/31
    “データサイエンティストに必要とされるスキルをまとめた「データサイエンティスト スキルチェックリスト」の第5版を公開” 情報量が多すぎだけど、LLMとか基盤モデル、生成AIなどのスキルが追加されている。
  • [NumPy超入門]データ処理の最初の一歩! 基本統計量からデータの特徴を把握しよう

    [NumPy超入門]データ処理の最初の一歩! 基統計量からデータの特徴を把握しよう:Pythonデータ処理入門(1/2 ページ) データセットがどのような特徴を持つのか、その基は最大値/最小値/平均値/中央値/最頻値/標準偏差などの基統計量を使って調べられます。実際のデータを使って、これを体感してみましょう。

    [NumPy超入門]データ処理の最初の一歩! 基本統計量からデータの特徴を把握しよう
    misshiki
    misshiki 2023/10/27
    “平均値や最大値、最小値などを眺めて、このデータセットにはどんな特徴があるのかをざっくりと見てみましょう。基本統計量の確認は、データ処理において最初の一歩ともいえる要素です。”
  • [データ分析]ヒストグラムや箱ひげ図で「分布」を可視化 ~ 集団の特徴や外れ値を見つける

    この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelGoogleスプレッドシート)を利用した作成例を紹介します。 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバ

    [データ分析]ヒストグラムや箱ひげ図で「分布」を可視化 ~ 集団の特徴や外れ値を見つける
    misshiki
    misshiki 2023/10/26
    “グラフを使って集団の特徴や外れ値を可視化します。ヒストグラムや箱ひげ図の作成方法と、ピボットテーブル/ピボットグラフによる視覚的な分析のコツを、ケーススタディを通して学びましょう。”
  • Data of Data Scientist シリーズ vol.47『13.1%-職場におけるAI導入率』|一般社団法人データサイエンティスト協会

    2023.10.17 Data of Data Scientist シリーズ vol.47『13.1%-職場におけるAI導入率』 データサイエンティスト協会では、一般ビジネスパーソン向けのアンケートを毎年実施しています。今年から、日(2,000人)だけでなくアメリカで働いている1,000人のビジネスパーソンに対しても調査を行うことで、日米の比較をおこないました。その中でも今回は、「AI導入率」と「データサイエンティストのいる割合」について絞って結果をご報告します。 ※2023/9/12リリース「日米の一般ビジネスパーソンに対して、データサイエンティストの認知・理解を調査」https://prtimes.jp/main/html/rd/p/000000024.000007312.html 2023年の一般ビジネスパーソン向けアンケートで、「職場におけるAI導入率」(職場でAIが導入されてい

    Data of Data Scientist シリーズ vol.47『13.1%-職場におけるAI導入率』|一般社団法人データサイエンティスト協会
    misshiki
    misshiki 2023/10/18
    “「AI導入率」と「データサイエンティストのいる割合」について絞って結果をご報告” AI導入率はアメリカと2倍以上(13.3% vs. 30.2%)の開き、DS存在率はアメリカと4倍(8.1% vs. 32.4%)の開きがあったとのこと。
  • データサイエンス・オンライン講座/社会人のためのデータサイエンス入門

    統計学の基やデータの見方等、データ分析の基的な知識を学べる講座 ●学習時間 1回10分程度×6~9回程度(1週間)×4週 ●課題 各週の確認テストと最終課題の実施 ●講師 安宅和人氏(慶應義塾大学環境情報学部教授)ほか 週 各週のテーマ 内容

    データサイエンス・オンライン講座/社会人のためのデータサイエンス入門
  • 無料で「実践的なデータサイエンス」を学べるオンライン演習を開講 総務省

    総務省は2023年10月3日、データサイエンスのオンライン講座「社会人のためのデータサイエンス演習」を開講すると発表した。統計リテラシー向上に向けて、データサイエンス力の高い人材を育成することが目的。社会人や大学生が対象で「実践的なデータ分析の手法を学習できる」としている。 業務やビジネス上での分析事例を基に解説 社会人のためのデータサイエンス演習は2016年4月に開講した講座で、これまで延べ約7万6000人が受講した。2022年10月に内容の一部をリニューアルしたが、その講座を2023年に再び実施する形だ。行政やビジネスでの活用を想定しており、業務やビジネス上での分析事例を中心に実践的な統計分析手法を解説している。 関連記事 社会人が学ぶべき、やさしいAI・データサイエンス 生成系AIを中心に、今、データ&AI活用が一般社会に広まってきています。そもそも「データ」や「AI」「データ分析

    無料で「実践的なデータサイエンス」を学べるオンライン演習を開講 総務省
    misshiki
    misshiki 2023/10/16
    “オンライン講座「社会人のためのデータサイエンス演習」を開講すると発表”
  • [データ分析]円グラフやパレート図で「重要度」を可視化 ~ どの割合が本当に多いのか?

    データ分析]円グラフやパレート図で「重要度」を可視化 ~ どの割合が当に多いのか?:やさしいデータ分析 データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第9回。グラフを利用して「重要度」を可視化する方法と、それに関連するさまざまな考え方を追いかけます。具体的には円グラフやパレート図、積み上げ棒グラフなどを使いますが、データの取り扱い、結果の見方などに関して、考慮すべき点や見落としがちな点について、ケーススタディーを通して見ていきます。

    [データ分析]円グラフやパレート図で「重要度」を可視化 ~ どの割合が本当に多いのか?
    misshiki
    misshiki 2023/10/12
    “グラフを利用して「重要度」を可視化する方法と、それに関連するさまざまな考え方を追いかけます。”
  • 役立たずのデータサイエンス ~「PoCの壁」を考える、AIやデータサイエンスはなぜPoCで終わってしまうのか - アイマガジン|i Magazine|IS magazine

    今やAIやデータサイエンスの話題は、ChatGPTの登場もあり、IT業界だけではなく日常会話でも頻繁に登場する状況になっている。その一方、社会全般でAIを活用したオートメーションが進んでいるのかと言えば、自動運転などの特定分野を除けば、まだあまり実生活上、体感するほどには進んでいないのではないだろうか。 筆者らはデータサイエンティストとして、さまざまなデータ分析AI実装のプロジェクトに参加しているが、そこで多くの場合にぶち当たる壁がある。それは「PoCの壁」とも言えるものだ。AIやデータ活用に関しては多くのユーザーが前向きで、PoCの形でプロジェクトを始めるが、そこで作成したAI機械学習モデルを実際の業務プロセスに活用しようとすると、まったく進まないという問題である。

    役立たずのデータサイエンス ~「PoCの壁」を考える、AIやデータサイエンスはなぜPoCで終わってしまうのか - アイマガジン|i Magazine|IS magazine
    misshiki
    misshiki 2023/10/11
    “PoCで作ったモデルが業務適用されないという問題は、モデルの精度というよりも、誰も本気で使うことを考えていない(またはどう使っていいかわからない)という点が大きい”