サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。
画像は『総務省統計局「社会人のためのデータサイエンス演習」講座PV』より 総務省は9月29日から、実践的なデータ分析の手法を学習できるとうたう、データサイエンス・オンライン講座「社会人のためのデータサイエンス演習(外部サイト)」を開講している。登録料および受講料は無料。閉講日時は12月7日の23時59分。 本講座では、ビジネスや行政での活用を想定しており、社会人や大学生に向けて、ビジネスや業務上での分析事例を中心に実践的なデータ分析(統計分析)の手法をわかりやすく解説するという。前提条件は表計算ソフトMicrosoft Excelの基本的な操作ができること。 『総務省統計局「社会人のためのデータサイエンス演習」講座PV』より 講師は、総務省統計局の會田雅人氏、総務省統計局の阿向泰二郎氏、株式会社電通の佐伯諭氏、東京大学の松尾豊氏、株式会社ブレインパッドの奥園朋実氏、株式会社ブレインパッドの
統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標本分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手
2020年も多くの素晴らしい技術書がたくさん出ました. その中でも(昨今のトレンド・流行りも手伝ってか)Python本の多さ・充実度合いは目立つものがあります. (このエントリーを執筆した12/19時点で)Amazonの本カテゴリで「Python」と検索すると1,000件以上出てきます*1. これだと目的の本にたどり着くだけで疲れそうです. このエントリーでは, 主にPythonを学びたい・現在使っている方 手元の業務を効率化したり, RPAっぽいことをやりたい方 エンジニア・データサイエンティストとして業務や趣味・個人開発をされている方 を対象に, 今そして来年2021年に読んでおきたいPython関連書籍(と抑えておきたいサービス) をエンジニアでありデータサイエンティストである私独自の視点で紹介します*2. なおこのエントリーはこのブログで例年執筆している「Python本まとめ」の2
先日、データ解析のセミナーを開催しました。 未経験の方でも、2時間で予測モデルを作成することができるハンズオンセミナーでした。 好評だったので、その内容をYouTubeにまとめたのでご興味ある方はご覧ください。 このハンズオンセミナーで予測モデルの作り方を知った友人がchatGPTにアドバイスをもらって、データサイエンスのコンペティションサイトに応募したところ、上位6.5%に入ることができたという報告を受け、驚愕しました。 chatGPTを上手く使えば素人がプロに勝つことも十分できるのだなと実感しました。 友人が参加したデータサイエンスのコンペは、SIGNATEの糖尿病予測問題でした。 以下のような進め方をしたとのことでした。 まず、問題の概要を説明して、どのように進めていけば良いかを確認したそうです。 そうすると、chatGPTからデータサイエンスの問題を解くための手順を一覧化してくれて
一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100本ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ
以前こんな記事を書いたことがあります。 「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして数字とデータで経営する」戦略へと移行し、社内のExcelデータ分析資格を一定以上取得しないと管理職に昇進できないとか、はたまた幹部クラスの企画・経営会議ではデータに基づかない議論や提案は相手にすらされないとか、「Excelを社員全員が使えるようになるだけでもここまで企業カルチャーは変わり得るのか」という事例のオンパレードで、関連記事や書籍を読んでいて舌を巻いたのを覚えています。まさしく「ワークマンのすごいデータ活用」だったのです。 一方、個人的に強く印象を受けたのが土屋常務が様々なところでコメントしていた「我が社には突出したデータサイエ
総務省は10月4日、無料のオンライン講座「社会人のためのデータサイエンス演習」をリニューアルして開講した。AI技術などの最新動向を踏まえ、一部を改訂した。開講期間は12月13日まで。 2016年の開講からのべ5万7000人が受講した講座。データサイエンスに携わる専門家や大学教授が、データサイエンスを基礎から教える。 MOOC講座プラットフォーム「gacco」で、1回10分程度の講座を5~7回で提供。さらに、補講・演習(10分程度×11回)もある。 リニューアルで最新トピックスを追加したほか、仮説検定や統計解析ソフトを使ったデータ分析方法を紹介するなど、内容を一部刷新した。 登録すれば誰でも無料で受講できる。受講登録は12月5日まで。 関連記事 総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート 総務省が「誰でも使える統計オープンデータ」を開講。統計オープンデータを活用したデ
ここ1〜2年くらいで、業務やプライベートのデータ分析・データサイエンスで参考にした本(と一部本じゃないもの)をまとめてみました(注:もちろん全部読んでいます).*1. なお, あくまでワタシ個人(@shinyorke)の見解に基づいた独自解釈であり、所属組織・チームの意向とは関係ありません(とだけ最初に断っておきます). サクッとまとめると 「レベル感(はじめて・経験者)」だけででなく,「エンジニア面を鍛える or 理論を固める」の軸で考えると良い書籍・学び方に出会える確率上がる エンジニアでも理論でもどっちから初めても良い, がどちらかが得意な方が絶対幸せ(≒片方だけじゃお話にならない可能性) 個人的なオススメは「機械学習図鑑」「前処理大全」「機械学習のための特徴量エンジニアリング」そして「試して学ぶ機械学習」です. おしながき サクッとまとめると おしながき 対象読者&執筆者について
実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング 実践とともに、データサイエンスに入門しよう!敷居が高いと思われがちなデータサイエンスですが、データの前処理からの手順は意外とシンプルです。本記事では、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、基本的な知識をサンプルコードと図表を見ながら学びます。 データサイエンティストとしてのスキルを向上させるには、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、広域にわたる知識を身に付ける必要があります。 この記事は、そうした知識を「サンプルコードと図表を見ながら、分かりやすく学習できること」を目指して作成されました。記事内では、新米データサイエンティストのOさんが登場して、ある案件のデータ分析を担当します。読者のみなさんも、ぜひOさんと一緒
この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S
NVIDIAと滋賀大学は9月8日、データサイエンス教育用の講義資料「DLI データサイエンス教育キット」の日本語版の無償提供を始めた。同資料はNVIDIAのデジタルスキル育成プログラム「Deep Learning Institute」(DLI)の講義資料で、滋賀大学が日本語に翻訳したもの。教育機関の教員向けに提供する。利用にはNVIDIAの開発者アカウントが必要。 講義資料では「データサイエンスとRAPIDSの入門」「データ収集と前処理(ETL)」「データセットにおけるデータ倫理とバイアス」「データ統合と分析」「データビジュアライゼーション」「Hadoop、Hive、SparkとHBaseによるスケールと分散コンピューティング」「機械学習(分類)」「機械学習(クラスタリング、次元削減)」「ニューラルネットワーク」などの分野を取り上げる。 資料の元になった「DLI データサイエンス教育キット
連日の猛暑日、熱中症、今年も日本の夏が猛威を振るっています。そういえば毎年、夏になるとお決まりの文句を耳にしませんか。 「昔はこんなに暑くなかった」 これ、本当でしょうか。確かに子どもの頃は、外出を控えるほど暑さを危険視していなかったように思います。とはいえ、明確に「子どもの頃より気温が上がっている」と断言できるほどの根拠は持ち合わせておりません。 そこで、その感覚をデータにて検証してみましょう。気象庁の統計から過去100年間の最高気温を抽出し、夏日(25℃以上)、真夏日(30℃以上)、猛暑日(35℃以上)をそれぞれカレンダーにプロットしてみました。なお、地点は僕の住んでいる大阪市のデータを用いています。データ分析には Tableau を使用しました。 四半世紀の傾向|夏日、真夏日、猛暑日の出現頻度まず、2018年、2013年、2008年のデータをみてみましょう。グレーが夏日、オレンジが真
画像は『滋賀大学「大学生のためのデータサイエンス(Ⅱ)」講座PV~ gacco:無料で学べる大学講座』より オンライン講座サイト「gacco(ガッコ)」では11月16日から、滋賀大学データサイエンス学部による「なるべく数式を使わない」という方針で構成した「大学生のためのデータサイエンス(Ⅱ)」が開講される。受講料は無料。 本講座では、機械学習の諸手法とその応用について説明する。まず「機械学習とは何か?」という説明から始め、その後に機械学習の応用事例を紹介。応用事例を先に見ることによって、機械学習の有用性が理解でき、機械学習の手法をより積極的に学べるとしている。 次に、分類問題と回帰問題の具体的な手法を説明し、同時に特徴量の設計・選択など、実践的なテクニックについても紹介する。最後に、近年、発展の著しいニューラルネットワークについても説明してくれる。また、本講座は、機械学習の分野のなかでも教
要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞いたり, (主にインターンの学生さんですが)一緒に仕事をしたりする機会もメッチャ多いです. 「ビジネスサイド強いマン」「サーバーサイドエンジニア」という視点からデータエンジニア兼データサイエンティストな自分が, そんな彼ら彼女らにオススメしている, データサイエンティストを目指すためのスキルマップ 各領域のスキルアップを実現するためにオススメしたい書籍 を紹介したいと思います. なお, 昨年も同様のエントリーを書いておりそのUpgrade版となります. shinyorke.hatenablog.com このエントリーの対象読者 データサイエンスに
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界
この度、「社会人のためのデータサイエンス入門」の開講に先立ち、「誰でも使える統計オープンデータ」を特別開講しております。 入門編と学習することで、統計の基礎やデータの見方・データの取得方法などを学べます。この機会にぜひ2講座併せてご受講ください。 ※「《特別開講》誰でも使える統計オープンデータ」は、修了証の発行はございません。 講座内容 今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。 コースは4つの部分に分かれている。第1週では、社会でデータがどのように活用されているかについて、実際のデータを用いた分析事例を紹介する。第2週では、データを理解し、分析する際に必要な統計学の基礎につい
画像はUnsplashより 在宅時間が増加したであろう現在は、学生や社会人が人工知能(AI)やデータサイエンスについて身につける絶好のチャンスと言える。「AIについて何か勉強したい」「統計学について知りたい」という人も少なくないのでは。 近頃、Pythonなどのプログラミングについて勉強したり、データサイエンスについて知識を深めたりできる学習コンテンツが無料で公開される機会が増えつつある。そこで、2021年1月27日現在、無料で学べるAIやデータサイエンス関連の学習コンテンツを集めてみた。 総務省、社会人のためのデータサイエンス入門を無料開講 総務省は2021年1月12日開講した「誰でも使える統計オープンデータ」に先駆け、「社会人のためのデータサイエンス入門」を特別開講している。登録料および受講料は無料。 本講座では入門編として、統計学の基礎やデータの見方・データの取得方法などを学べる。統
データサイエンス100本ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100本ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型
2020年9月29日開講予定の「社会人のためのデータサイエンス演習」にさきがけて、「社会人のためのデータサイエンス入門」を特別開講いたします。 入門編と演習(実践編)を受講することで、データ分析の基本的な知識から、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法までを身につけることができます。 「社会人のためのデータサイエンス演習」はこちらのページをご参照ください。 講座内容 今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。 コースは4つの部分に分かれている。第1週では、社会でデータがどのように活用されているかについて、実際のデータを用いた分析事例を紹介する。第2週では、
ソニー・インタラクティブエンタテインメント(SIE)からノウハウを継承し、バッファローが3月に発売したネットワークレコーダー「nasne」。2万9800円(税込)で販売を始め、すでに3次入荷分までが完売している。この価格は外部の企業とともにデータサイエンスを活用して決めたと、バッファローが自社のWebコンテンツで6月23日に明らかにした。 バッファローはこれまで、製品の価格を「勘、経験、度胸」を基に決めていたが、nasneは価格を決めるに当たっての理論や根拠が社内になく、適正な値が判断できなかった。そこで、過去のデータから価格を算出するため、東京大学発のコンサル企業である東京大学エコノミックコンサルティング(UTEcon)に協力を依頼したという。 まずは2020年12月から21年初頭にかけて、他社製レコーダー製品の過去の販売データや価格データを収集。その後、東大や慶応義塾大学などの経済学者
年間2,200名以上の社会人が受講する、データサイエンスを学ぶビジネススクール「datamix」。同スクールを運営する、株式会社データミックスのオンライントークイベント「データサイエンス業界の転職と副業の“今”」に、同社の立川裕之氏と福山耀平氏が登壇。データサイエンスを学んで独立した立川氏と、転職支援や副業の紹介を行っている福山氏が、データサイエンス業界の働き方について解説します。後編では、転職・副業における最大の強みや、転職の成功事例のパターンなどを紹介しています。 取締役に近いポジションなら、年収3,000万円以上も 福山耀平氏(以下、福山):ちょうど昨日、ある大手の損保企業の担当者と話していたら、データサイエンティストのチームの統括ができて、経営層としゃべれる人材を募集されていました。これはもちろんチームを率いた経験など、難易度は高くなるんですけど、取締役に近いポジションの仕事です。
Googleが発表したOSSプロジェクトである論理プログラミング言語Logicaを使って、データサイエンス100本ノック(構造化データ加工編)の設問を解きながらどのような言語かを確認していく。 (BigQueryのクエリとして実行していく) 最初に、プログラミング言語Logicaの特徴を纏めておく。 論理型プログラミング言語: このカテゴリではPrologが有名 SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応 モジュール機構がある: SQLと比較した強み コンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる Colabでチュートリアルが用意されているので、まずこちらからやると良いと思う。 コードの見た目は関係論理の記述に似ている。 事前に、データサイエンス100本ノックのテーブルデータをBigQu
画像は『総務省統計局「社会人のためのデータサイエンス入門」講座PV』より オンライン講座サイト「gacco(ガッコ)」では、総務省による「社会人のためのデータサイエンス入門」が特別開講中だ。閉講日時は3月16日の23時59分まで。学習期間は4週間なので、今すぐ始めるとギリギリ間に合うはず。登録料および受講料は無料。 本講座では入門編として、統計学の基礎やデータの見方・データの取得方法などを学べる。統計学の基礎を学ぶことで、活用編の「誰でも使える統計オープンデータ」をより効果的に受講できるという。 本講座のコースは4つの部分に分かれている。第1週では、社会でデータがどのように活用されているかについて、実際のデータを用いた分析事例を紹介する。第2週では、データを理解し、分析する際に必要な統計学の基礎について学ぶ。第3週では、日ごろ目にすることの多いデータの見方について学習する。第4週では、誰も
はじめに データサイエンス・機械学習っておもしろそうだけど、どうやって勉強すすめたらいいんだろう?というところから2月に勉強をスタートし、勉強のinputだけではなく実践したいと思って3月にKaggleのコンペに参戦! その結果がなんと、銀メダル (+上位3%)をとることができました! この記事では、そんな自分の勉強してきた過程とコンペを進めてきた流れをまとめてみようと思っているので、一例として見てもらえると嬉しいです! 概要 ➀コンペの紹介 ➁コンペ終了までの流れ (コンペ参加する前→コンペ参加後) ③コンペ中にしていたその他の勉強 今回参加したコンペ M5 Forecasting - Accuracy コンペ (2020年3月~6月) 今回取り組んだコンペは、この時系列データのテーブルコンペで、内容としては、アメリカの小売大手であるウォルマートの「商品の売り上げ予測」 過去約5年間分の
2021年1月12日開講予定の「誰でも使える統計オープンデータ」にさきがけて、「社会人のためのデータサイエンス入門」を特別開講いたします。 本講座では入門編として、統計学の基礎やデータの見方・データの取得方法などを学べます。統計学の基礎を学ぶことにより、活用編である「誰でも使える統計オープンデータ」もより効果的に受講することができますので、この機会にぜひ2講座併せてご受講ください。 「誰でも使える統計オープンデータ」はこちらのページをご参照ください。 講座内容 今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。 コースは4つの部分に分かれている。第1週では、社会でデータがどのように活用
概要 この講義では、深層学習や表現学習の最新技術について、主に教師あり・教師なし深層学習、埋め込み手法、距離学習、畳み込み・再帰型ニューラルネットワークや、それらを用いたコンピュータビジョン、自然言語処理、音声認識などの応用技術を取り扱います。 この講義は「DS-GA 1001 Intro to Data Science」あるいは大学院レベルの機械学習科目をすでに履修していることを前提とします。 講義 凡例: 🖥 スライド, 📓 Jupyter notebook, 🎥 YouTubeビデオ. 週 形式 タイトル 資料
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く