並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1084件

新着順 人気順

data-scienceの検索結果1 - 40 件 / 1084件

  • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital

    東京大学がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大のPython入門が無料公開されています。scikit-learnといった機械学習関連についても説明されています。ホントいいです Pythonプログラミング入門 東京大学 数理・情報教育研究センター: utokyo-ipp.github.io 東大のPython本も非常にオススメです Pythonによるプログラミング入門 東京大学教養学部テキスト: アルゴリズムと情報科学の基礎を学ぶ https://amzn.to/2oSw4ws Pythonプログラミング入門 - 東京大学 数理・情報教育研究センター Google Colabで学習出来るようになっています。練習問題も豊富です https://colab.research.google.com/github/utokyo-ip

      東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital
    • 2021年「はてなブックマーク年間ランキング」トップ100 - はてなニュース

      はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク年間ランキング」の2021年版を発表します。上位トップ100の記事をピックアップしました(集計期間:2020年12月11日~2021年12月10日)。 2021年 はてなブックマーク年間ランキング(2020年12月11日~2021年12月10日) 順位 タイトル 1位 ルックバック - 藤本タツキ | 少年ジャンプ+ 2位 浄土真宗の僧侶です。初めて書き込みます。 不慣れなため、先ほど書いた.. 3位 京都大学、Pythonの基本を解説した無料の教科書「素晴らしすぎる」「非常にわかりやすくて良い」 | Ledge.ai 4位 闇市化するAmazon「裏コマンド検索」で絞り込む 5位 財テク (住宅購入編) - shunirr 6位 台本11冊を入手 五輪開会式“崩壊” 全内幕 計1199ページにすべての変遷

        2021年「はてなブックマーク年間ランキング」トップ100 - はてなニュース
      • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

        データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

          「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
        • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門

          統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標本分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手

            総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門
          • 初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita

            はじめに エンジニアやデータサイエンティストの人材育成のためのオープンソースな教材を探していたらMicrosoftがGitHubでかなり質の高い教材をweb開発、データサイエンティスト、機械学習、IoTの四項目を対象に提供してるのを発見したため共有したいと思う。 正直、マイクロソフトと聞くとGoogleやらFacebookに比べていけてないイメージを持っていたけど、実際にMicrosoftのGitHubレポジトリを見て、彼らはここ数年で大きく変わったように思える。特に人材育成や学習教材に関しては世界一かもしれないなんて思っています。本記事では筆者が自信を持っておすすめするMicrosoftのオープン教材を紹介するのでぜひ自身の勉強や人材育成に生かしてもらえれば本記事を執筆した甲斐があります。(もちろん僕がお勧めしているだけでなくてGitHubのスター数も多く世界的に認められています!) こ

              初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita
            • この記事の元の本編は削除しました。|樫田光 | Hikaru Kashida|note

              これは何かGoogleの Material Design Guideline - Data Visualization  がとても良くまとまっていたので、自分なりに和訳・編集してまとめたものです。 ※ 注意事項 こちらはあくまで、もとのドキュメントを参考に筆者が和訳・編集したものになります。原文の完全な和訳ではなく、抜粋の範囲や、英=>和の際の意訳を筆者が恣意的に行っています。 筆者の意訳・編集による曲解や元のドキュメントでのオリジナルの文意が気になる方は原文を読むことを強くおすすめします。 和訳の公開の可否についてはGoogle社に直接問い合わせています。1 / 原理原則(Principles) データの可視化は、複雑で内容の多い情報をグラフィカルな形式で表現するコミュニケーション手段である。 可視化の結果、データを比較しストーリーを伝えることが容易になり、データの利用者の意思決定の助け

                この記事の元の本編は削除しました。|樫田光 | Hikaru Kashida|note
              • Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した

                Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概

                  Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した
                • chatGPTにアドバイスをもらったらデータサイエンスを知って1週間の友人がコンペで上位6.5%に入った話

                  先日、データ解析のセミナーを開催しました。 未経験の方でも、2時間で予測モデルを作成することができるハンズオンセミナーでした。 好評だったので、その内容をYouTubeにまとめたのでご興味ある方はご覧ください。 このハンズオンセミナーで予測モデルの作り方を知った友人がchatGPTにアドバイスをもらって、データサイエンスのコンペティションサイトに応募したところ、上位6.5%に入ることができたという報告を受け、驚愕しました。 chatGPTを上手く使えば素人がプロに勝つことも十分できるのだなと実感しました。 友人が参加したデータサイエンスのコンペは、SIGNATEの糖尿病予測問題でした。 以下のような進め方をしたとのことでした。 まず、問題の概要を説明して、どのように進めていけば良いかを確認したそうです。 そうすると、chatGPTからデータサイエンスの問題を解くための手順を一覧化してくれて

                    chatGPTにアドバイスをもらったらデータサイエンスを知って1週間の友人がコンペで上位6.5%に入った話
                  • 機械学習が独学できる日本語Youtube難易度別まとめ - Qiita

                    こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを使いこなしたい人 「model.fit(X, y)して動かしてみた」よりも踏みこみ、Python自体の説明は少ない 発展:研究開発もしたい人 最新の手法の仕組みの理解などが主眼であり、Pythonの解説はほぼ無い もしおすすめのチャンネルございましたらぜひコ

                      機械学習が独学できる日本語Youtube難易度別まとめ - Qiita
                    • データサイエンス初学者のための実践的な学習環境 「データサイエンス100本ノック(構造化データ加工編)」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会

                      一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100本ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ

                        データサイエンス初学者のための実践的な学習環境 「データサイエンス100本ノック(構造化データ加工編)」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会
                      • 文系大学生が機械学習を0から始めて9か月でKaggle銀メダルを獲得するまで - Qiita

                        今回自分は0から始めて9か月でコンペで銀メダル(6385分の249位,top4パーセント)を獲得できました。 自分の今までの流れをおさらいしていきます。 それまでの僕のスペック 数3と行列はほぼ何も分からない プログラムはrubyとjavaはそこそこに書ける、pythonは知らん 勉強の流れ 12月末 機械学習を始めると決心、とりあえず何をやればいいかよく分からないがpythonが必要らしいのでprogateでpythonをやってみる 1月 数学が必要らしいので、行列と微分積分について1から学んでみる。今から考えると、行列の基礎をさらえたのは良かったですが、それ以外はこの時間は絶対いらなかったなと考えています。 微分積分 行列 2月 Udemyで多くの講座を受ける、詳細は以下の記事にまとまっています https://qiita.com/HayatoYamaguchi/items/c8051

                          文系大学生が機械学習を0から始めて9か月でKaggle銀メダルを獲得するまで - Qiita
                        • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

                          先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

                            大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
                          • 日本のウェブデザインの特異な事例

                            sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

                              日本のウェブデザインの特異な事例
                            • データサイエンス・機械学習をやるためのエンジニアな本まとめ - 2019年版 - Lean Baseball

                              ここ1〜2年くらいで、業務やプライベートのデータ分析・データサイエンスで参考にした本(と一部本じゃないもの)をまとめてみました(注:もちろん全部読んでいます).*1. なお, あくまでワタシ個人(@shinyorke)の見解に基づいた独自解釈であり、所属組織・チームの意向とは関係ありません(とだけ最初に断っておきます). サクッとまとめると 「レベル感(はじめて・経験者)」だけででなく,「エンジニア面を鍛える or 理論を固める」の軸で考えると良い書籍・学び方に出会える確率上がる エンジニアでも理論でもどっちから初めても良い, がどちらかが得意な方が絶対幸せ(≒片方だけじゃお話にならない可能性) 個人的なオススメは「機械学習図鑑」「前処理大全」「機械学習のための特徴量エンジニアリング」そして「試して学ぶ機械学習」です. おしながき サクッとまとめると おしながき 対象読者&執筆者について

                                データサイエンス・機械学習をやるためのエンジニアな本まとめ - 2019年版 - Lean Baseball
                              • 機械学習の勉強を始めて1年以内にkaggleで2位になったので、やったこと全部書く - kaggle日記

                                皆さん初めまして! 先日kaggleのARCコンペで2位になったのですが、 2位で終了しました!みなさんお疲れさまでした。コード書くの楽しかった。 pic.twitter.com/dLxl6Mlgoe — Aryyyyy (@aryyyyy13) 2020年5月28日 僕のkaggle歴が浅めということもありtwitterでも結構反響があって、何人かの方にはわざわざDMまで頂いてどんな勉強をしたか聞いていただきました。なるほど需要があるならということで、今までのことをまるっと振り返ってみようと思います。 これからkaggle始める方のためになれば幸いです。 機械学習を始める前のスペック 準備期間:2019年7月〜 kaggle初参加:2019年9月〜 kaggleちゃんと始める:2019年10月〜 DSB参加:2019年10月〜 会社を休職して本格的に勉強開始:2020年1月前半〜 手頃な

                                  機械学習の勉強を始めて1年以内にkaggleで2位になったので、やったこと全部書く - kaggle日記
                                • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

                                  みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびに本を買い、その本でわからないことがあればまた本屋に行き、自分が少しでも理解できそうな本を探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋が本だらけになってしまいました。 正直に言って読み切ったという実感のある本はありません。しかし、実務で何かしらお世話になった本は数多くあり、そういう本は手放さずに手元に置いています。

                                    データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
                                  • 「あとで読む」タグで振り返る2021年 〜今年の「あとで読む」、今年のうちに〜 - はてなブックマーク開発ブログ

                                    今年も残すところあと少し。皆さんにとって、2021年はどのような一年でしたか? はてなブックマークでは今年もたくさんのエントリーがブックマークされ、コメント欄も盛り上がりました。 データで見る「あとで読む」 年末ということで、今回は「あとで読む」タグにフォーカスしたデータを集計しました。全ブックマークを対象にした「あとで読む」率、カテゴリー別「あとで読む」率、「あとで読む」が多いエントリーランキングを通して、2021年のはてなブックマークを振り返ってみましょう。 全ブックマークを対象にした「あとで読む」 率 カテゴリー別 「あとで読む」 率 「あとで読む」 タグが多いエントリーは? TOP10ランキング 「あとで読む」タグの数が多かったエントリーランキング カテゴリー別「あとで読む」率の高かったエントリーランキング 気になった記事を気軽に保存できる「あとで読む」機能 2021年の「あとで読

                                      「あとで読む」タグで振り返る2021年 〜今年の「あとで読む」、今年のうちに〜 - はてなブックマーク開発ブログ
                                    • Appleの移動データを加工したらわかった東京の厳しい現実 - Qiita

                                      こんにちは、Exploratoryの白戸です。 Appleは新型コロナウイルスの対策支援として、Appleマップでの経路検索をもとにした移動傾向のデータを公開しています。ところが、残念ながらこのデータはそのままでは簡単に可視化できるようなフォーマットになっておらず、ちょっとした加工を行う必要があります。 しかし逆に、加工の仕方さえわかってしまえばそれぞれの都市や地域の移動データを可視化することで、恐怖を煽るばかりのマスコミからは見えてこない現状を理解することができるようになります。 今回はこのAppleの移動傾向データを簡単に可視化できるようにするための基本的な加工方法を、みなさんと共有させていただければと思います。 データはこちらからダウンロードすることができます。 以下は「モダンでシンプルなUIを使ってデータサイエンスができる」Exploratoryを使って、「日本で最も自粛している都

                                        Appleの移動データを加工したらわかった東京の厳しい現実 - Qiita
                                      • データ分析のための統計学入門.pdf

                                        • ブラックフライデー&サイバーセール開催! Udemyでは何を買う? 編集部の2021年イチ押しトピック10選 - はてなニュース

                                          新型コロナウイルスの影響で、リモートワーク(テレワーク)やオンラインでの学習といった働き方・学び方の大きな変化は2021年も続いています。そんな2021年もあとわずか。やり残したことや学び残したことはありませんか? オンライン学習プラットフォーム「Udemy」では、2021年11月19日(金)~2021年12月1日(水) の間、年間最大のセール「ブラックフライデー&サイバーセール」 を開催します! 対象の講座がなんと1,200円から購入可能になります。 ブラックフライデーセールは11月19日(金)~11月26日(金)、サイバーセールは11月29日(月)〜12月1日(水)の開催です。11月27日(土)〜11月28日(日)はセール対象外なので、ご注意ください。 講座は買い切りなので、おトクなこの期間に気になる講座を購入しておいて、時間ができたときに自分のペースで学んでみるのもいいかもしれません

                                            ブラックフライデー&サイバーセール開催! Udemyでは何を買う? 編集部の2021年イチ押しトピック10選 - はてなニュース
                                          • タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita

                                            この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

                                              タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita
                                            • 仕事で差をつけるChatGPT活用術。初心者でも使えるスゴいテクニックを達人に聞く - ミーツキャリアbyマイナビ転職

                                              業務効率化に一役買ってくれると話題の「ChatGPT」。 今や「大学生の4人に1人が就活でChatGPTを使っている」といったデータもあり、リリース当初はあまり興味のなかった方でも、最近は「自分の仕事でうまく使えたりしないかな?」なんて考える機会も増えてきたのではないでしょうか? ただ、ChatGPTが作業をどこまで効率化してくれるのかはまだまだ未知数です。時間を食う資料の作成やExcelの集計作業などをまるっとお任せできたらうれしいけど、思うようなアウトプットが得られず手間が増えたら、本末転倒な気もしますよね。 それに、ChatGPTの生成データをめぐっては、権利関係や内容の中立性・正確性などの側面で一部懸念の声も挙がっています。業務内での利用を禁止する企業や、自身のコンテンツを「学習・流用」されないよう自衛措置を講じるクリエイターも存在します。使用にあたってのルールも、完全に整っている

                                                仕事で差をつけるChatGPT活用術。初心者でも使えるスゴいテクニックを達人に聞く - ミーツキャリアbyマイナビ転職
                                              • This is The Entire Computer Science Curriculum in 1000 YouTube Videos

                                                This is The Entire Computer Science Curriculum in 1000 YouTube Videos In this article, we are going to create an entire Computer Science curriculum using only YouTube videos. The Computer Science curriculum is going to cover every skill essential for a Computer Science Engineer that has expertise in Artificial Intelligence and its subfields, like: Machine Learning, Deep Learning, Computer Vision,

                                                  This is The Entire Computer Science Curriculum in 1000 YouTube Videos
                                                • 【2021年】話題になった無料お勉強コンテンツ - まなめはうす

                                                  社会人になってからの勉強って高尚な趣味になりがちで、次の仕事のイメージをもって勉強できる人ってなかなかいないと思っている。それでも、ただ楽しそうとか、やってみたいという好奇心持っている人は純粋に凄いなって思うので、そういう人に届くよう今年の人気コンテンツとなったリンクを整理しておく。無料コンテンツ勉強マニアの方が、この中からおすすめランキングなんて作ってくれたらさらに素晴らしいのになって思いながら。 また、世界を広げるためにも裾野を広げるために無料公開に踏み切ったコンテンツ制作者の方々への想いには頭が下がるばかり。それはもう何か月もかけて作ったコンテンツが多くの人に読まれ、その中からさらにその世界を強くするだけの人が誕生してくれること良いですね。 私個人としては、自分の世代にはまだ存在していなかった分野の基礎講座にはとても興味が引かれる部分で、知識の地盤というか、単語を正しく理解できるのが

                                                    【2021年】話題になった無料お勉強コンテンツ - まなめはうす
                                                  • データエンジニア道の俺のバイブル

                                                    先人の知恵に学ぶ データエンジニア道で、本当に良かった!読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function

                                                      データエンジニア道の俺のバイブル
                                                    • データサイエンティストとして読んで役立った本たち@2020-07|だみ〜

                                                      2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100%受かってないです。 そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。 現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト(@ビジネスサイド)になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。 もちろん、これが誰かの学習の役に立てばと思っています。 ちなみに、アフィリエイト入れてないので気にせず買っていってください。 数学無難に解析学と線形代数学を勉強しておくといいと思っています。

                                                        データサイエンティストとして読んで役立った本たち@2020-07|だみ〜
                                                      • 全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

                                                        (Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。 そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

                                                          全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ
                                                        • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

                                                          (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

                                                            2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
                                                          • ビジネスで使えるPythonを使った統計的データ分析手法まとめ - Qiita

                                                            概要 WEB系のサービスで色々な試作を実施した後に効果を検証するのは非常に重要だと思いますが、 そのやり方として基本的な統計学が十分に使えると思っています。 今回は基本的な統計学からビジネスで使える試作の効果検証、データ分析を目的にPython+JupyterLab(Docker)を使った統計的データ分析のやり方をまとめました。 また今回使ったnotebookは以下にもありますのでご参考ください。 https://github.com/hikarut/Data-Science/tree/master/notebooks/statisticsSample 環境 以下を参考にDockerでJupyterLabが使える状態を前提とします。 Dockerで起動したJupyterLabでvimキーバインドを使う

                                                              ビジネスで使えるPythonを使った統計的データ分析手法まとめ - Qiita
                                                            • データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball

                                                              要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞いたり, (主にインターンの学生さんですが)一緒に仕事をしたりする機会もメッチャ多いです. 「ビジネスサイド強いマン」「サーバーサイドエンジニア」という視点からデータエンジニア兼データサイエンティストな自分が, そんな彼ら彼女らにオススメしている, データサイエンティストを目指すためのスキルマップ 各領域のスキルアップを実現するためにオススメしたい書籍 を紹介したいと思います. なお, 昨年も同様のエントリーを書いておりそのUpgrade版となります. shinyorke.hatenablog.com このエントリーの対象読者 データサイエンスに

                                                                データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball
                                                              • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

                                                                (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

                                                                  実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
                                                                • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

                                                                  (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

                                                                    データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
                                                                  • IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction

                                                                    はじめに 自身の転職活動にあたり皆さんの転職エントリが非常に参考になったので、私も同じ境遇の方の参考になればと思い、書き残すことにしました。(ただ、本当に私と似た境遇の方にはなかなかリーチしづらい気がしていますが・・・) TLDR; 30歳でIT未経験からMLエンジニアに転職 約2年半独学で勉強(ほとんどkaggleしてただけ) 無関係に思えた現職での経験もなんだかんだ転職で役に立った 目次 自己紹介 現職について 転職の理由 勉強したこと 転職活動 終わりに 1.自己紹介 かまろという名前でTwitterなりkaggleなりをやっています。kaggleでは画像やNLPといったdeep learning系のコンペを中心に取り組んでおり、2019年の9月に金メダルを獲得しMasterになることができました。 恐らくここが他の転職エントリを書かれている方々と大きく異なる点かと思うのですが、現職

                                                                      IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction
                                                                    • 「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売

                                                                      「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売 インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、「音源分離」技術の基礎から実装までを解説した書籍『Pythonで学ぶ音源分離 機械学習実践シリーズ』を2020年8月24日(月)に発売いたします。 ■身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊 近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の声を聞き取ることを想定しており、聞きたい声以外の音が入ってきたときには、聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出する技術で

                                                                        「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売
                                                                      • 各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ

                                                                        都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界

                                                                          各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ
                                                                        • 【年末年始】2021年の「年間総合はてなブログランキング」トップ100と「はてな匿名ダイアリー」トップ50、一挙公開! - 週刊はてなブログ

                                                                          みなさんにとって2021年はどんな一年だったでしょうか? 週刊はてなブログでは、毎週月曜日にはてなブログ・はてな匿名ダイアリーの記事を対象としてはてなブログ独自の集計を行い、「今週のはてなブログランキング」を公開。ランキングにはそのときどきの注目記事が集まっています。 今回は、その総決算として2021年にもっとも注目を集めた「年間総合はてなブログランキング」トップ100の記事と、「はてな匿名ダイアリー」トップ50の記事を発表します!*1。集計期間は2021年1月1日~同12月22日です。 # タイトル/著者とブックマーク 1 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital by id:touya_hujitani 2 高卒新人に資産運用を説明する - やしお by id

                                                                            【年末年始】2021年の「年間総合はてなブログランキング」トップ100と「はてな匿名ダイアリー」トップ50、一挙公開! - 週刊はてなブログ
                                                                          • 時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

                                                                            本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。 パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。 目次 利用データ ライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめ ソースコード このブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ 今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。 作成したランダムなデータよりも実データのほうが予測をしている感があるからです。 予測に使うデータはwalmartの売上データです。 下図はその

                                                                              時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
                                                                            • LLMのプロンプト技術まとめ - Qiita

                                                                              現在,34個掲載(一部執筆途中) よかったらData Science wikiのGPTsも見て下さい! はじめに 今回はすぐに使えそうなプロンプトの工夫やフレームワークについて有名なものをまとめました.LMの出力の精度向上に役立てられればと思います. 論文があるものについてはarXivに最初に投稿された順番で掲載しています. 論文で精度向上が確認されているのは英語での検証がほとんどであるため,日本語で改善されるかは分かりません. 全てのLLM(GPT-4,Llama2,...)で精度が改善するとは限りません. ※記事に誤り等ありましたらご指摘いただけますと幸いです. 以下の記事では敵対的プロンプト技術をまとめています! 目次 Zero-shot prompting Few-shot prompting 2021年〜 Generated Knowledge Prompting 2022年〜

                                                                                LLMのプロンプト技術まとめ - Qiita
                                                                              • 22社、52人のデータサイエンティストに聞いてみた!「どんなお仕事してますか?」 | Da-nce

                                                                                データ分析とビジネス活用のプロとして、さまざまな業界・フィールドで活躍する「データサイエンティスト」。 スキルセットや必要な知識などが語られることはあるものの、まだはっきりとした定義がなく、いったいどんな人たちなのか?と疑問を持つ人も少なくないのでは。 そこで本企画では、企業で働くデータサイエンティストたちの"リアル"を調査。データサイエンティストを志した理由や興味深かった論文、普段の業務、自社で働く魅力などを22社、52人のデータサイエンティストに聞きました。 企業一覧 DataRobot Japan株式会社 株式会社GA technologies 株式会社HACARUS 株式会社JMDC 株式会社LIFULL MNTSQ株式会社 NABLAS株式会社 株式会社Rist Sansan株式会社 SOMPOホールディングス株式会社 株式会社ZOZO 株式会社ZOZOテクノロジーズ アスクル株

                                                                                  22社、52人のデータサイエンティストに聞いてみた!「どんなお仕事してますか?」 | Da-nce
                                                                                • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

                                                                                  この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

                                                                                    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary