並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 453件

新着順 人気順

データマイニングの検索結果1 - 40 件 / 453件

  • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital

    東京大学がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大のPython入門が無料公開されています。scikit-learnといった機械学習関連についても説明されています。ホントいいです Pythonプログラミング入門 東京大学 数理・情報教育研究センター: utokyo-ipp.github.io 東大のPython本も非常にオススメです Pythonによるプログラミング入門 東京大学教養学部テキスト: アルゴリズムと情報科学の基礎を学ぶ https://amzn.to/2oSw4ws Pythonプログラミング入門 - 東京大学 数理・情報教育研究センター Google Colabで学習出来るようになっています。練習問題も豊富です https://colab.research.google.com/github/utokyo-ip

      東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital
    • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

      データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

        「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
      • 元Googleデータ科学者「人生をうまくやるコツってめちゃシンプルだよねー」

        ► 2024 ( 110 ) ► 04/14 - 04/21 ( 3 ) ► 04/07 - 04/14 ( 8 ) ► 03/31 - 04/07 ( 8 ) ► 03/24 - 03/31 ( 7 ) ► 03/17 - 03/24 ( 7 ) ► 03/10 - 03/17 ( 9 ) ► 03/03 - 03/10 ( 7 ) ► 02/25 - 03/03 ( 8 ) ► 02/18 - 02/25 ( 6 ) ► 02/11 - 02/18 ( 8 ) ► 02/04 - 02/11 ( 7 ) ► 01/28 - 02/04 ( 9 ) ► 01/21 - 01/28 ( 8 ) ► 01/14 - 01/21 ( 8 ) ► 01/07 - 01/14 ( 7 ) ► 2023 ( 395 ) ► 12/31 - 01/07 ( 7 ) ► 12/24 - 12/31 (

          元Googleデータ科学者「人生をうまくやるコツってめちゃシンプルだよねー」
        • データベース概論Ⅰ | 筑波大学オープンコースウェア|TSUKUBA OCW | 北川博之

          データベースシステムに関する入門。データベースの基本概念、データモデリング、リレーショナルデータモデル、データベース言語SQL、リレーショナルデータベース設計論、物理的データ格納法、問合せ処理等について講述する。 (2018年度) 【教科書】 「データベースシステム」(北川博之著、オーム社) 北川 博之筑波大学 計算科学研究センター教授1978年東京大学理学部物理学科卒業。1980年同大学理学系研究科修士課程修了。日本電気(株)勤務の後、筑波大学電子・情報工学系講師、同助教授を経て、現在、筑波大学計算科学研究センター教授。理学博士(東京大学)。データベース、データ統合、データマイニング、ストリーム処理、情報検索、ビッグデータ等の研究に従事。著書「データベースシステム」(オーム社)等。日本データベース学会会長、ACM SIGMOD日本支部委員長等を歴任。情報処理学会フェロー、電子情報通信学会

            データベース概論Ⅰ | 筑波大学オープンコースウェア|TSUKUBA OCW | 北川博之
          • Hiroshi Takahashi

            Skip to the content. 機械学習の研究者を目指す人へ 機械学習の研究を行うためには、プログラミングや数学などの前提知識から、サーベイの方法や資料・論文の作成方法まで、幅広い知識が必要になります。本レポジトリは、学生や新社会人を対象に、機械学習の研究を行うにあたって必要になる知識や、それらを学ぶための書籍やWebサイトをまとめたものです。 目次 プログラミングの準備 Pythonを勉強しよう 分かりやすいコードを書けるようになろう 数学の準備 最適化数学を学ぼう 基本的なアルゴリズムとその実践 機械学習の全体像を学ぼう 基本的なアルゴリズムを学ぼう 深層学習の基礎を学ぼう scikit-learnやPyTorchのチュートリアルをやってみよう サーベイの方法 国際会議論文を読もう Google Scholarを活用しよう arXivをチェックしよう スライドの作り方 論文の

            • 機械学習が独学できる日本語Youtube難易度別まとめ - Qiita

              こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを使いこなしたい人 「model.fit(X, y)して動かしてみた」よりも踏みこみ、Python自体の説明は少ない 発展:研究開発もしたい人 最新の手法の仕組みの理解などが主眼であり、Pythonの解説はほぼ無い もしおすすめのチャンネルございましたらぜひコ

                機械学習が独学できる日本語Youtube難易度別まとめ - Qiita
              • さくらインターネット、機械学習やPythonの講座を無償公開 衛星データの活用教える

                さくらインターネットは5月22日、人工衛星が取得したデータを使って機械学習やプログラミングの基礎が学べるeラーニング教材を無償公開すると発表した。在宅によるオンライン学習をサポートしたい考え。 提供するのは、動画で衛星データやプログラミングの基礎知識、データの解析手順などを学べる「Tellus Trainer」と、Pythonを使って簡単な画像処理や衛星画像の加工などを学べる「Tellus×TechAcademy 初心者向け Tellus 学習コース」。衛星データをクラウド上で分析できる同社のサービス「Tellus」の利用を想定している。 関連記事 さくら、衛星データ基盤「Tellus」に「つばめ」の撮影画像を追加 新宿エリアを定点観測 さくらインターネットが、JAXAの人工衛星「つばめ」が撮影した画像を「Tellus」に追加。新宿エリアを4月2日~5月10日の午後4時半ごろに毎日撮影した

                  さくらインターネット、機械学習やPythonの講座を無償公開 衛星データの活用教える
                • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

                  先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

                    大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
                  • 1. 機械学習概論と単回帰 (1) | 筑波大学オープンコースウェア|TSUKUBA OCW

                    計算機による自律的な学習を目指す機械学習や, 大規模情報源からの知識発見を実現するデータマイニングの理論について, 教師付き学習, 教師なし学習を中心に理解する.

                      1. 機械学習概論と単回帰 (1) | 筑波大学オープンコースウェア|TSUKUBA OCW
                    • #あつ森 の花の交配の仕組みは実際の遺伝学に基づいていた…→遺伝子を逆算し攻略本で出現率1%とされた青バラを25%にする交配法を発見した話

                      小森雨太 @comori_uta 物語とおえかきが趣味です。超絶雑食で永遠の厨二病なのでご了承下さい。■垢分けしていないのでメインの取り扱いはコロコロと変わります。■虫も猫もすき。生き物は大体すきです。■成人済です twpf.jp/comori_uta 小森雨太 @comori_uta あつ森の花の交配システムの解説のために遺伝子について話してたら、擬人化からフォローしてくれてる生物クラスタが「ゲームなのに複対立遺伝子が実装されてる?!」と食いついて来て、システムを見せたら「完全に生物」「ゲームであり教育」「青バラはレポート書けるレベル」と大絶賛してるのが今です 2020-05-12 05:13:55 小森雨太 @comori_uta 実際、 海外勢が遺伝子コードをデータマイニング →遺伝子データを元に、有志が遺伝子を逆算 →発売から約1ヶ月を経て、青バラの咲く確率が、攻略本想定のルート(

                        #あつ森 の花の交配の仕組みは実際の遺伝学に基づいていた…→遺伝子を逆算し攻略本で出現率1%とされた青バラを25%にする交配法を発見した話
                      • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

                        みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびに本を買い、その本でわからないことがあればまた本屋に行き、自分が少しでも理解できそうな本を探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋が本だらけになってしまいました。 正直に言って読み切ったという実感のある本はありません。しかし、実務で何かしらお世話になった本は数多くあり、そういう本は手放さずに手元に置いています。

                          データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
                        • 食べログの得点計算についてのポジティブな可能性を考えるー操作されたデータを検証する難しさー(井上明人) - エキスパート - Yahoo!ニュース

                          久しぶりのyahoo個人への投稿となりますが、この記事を公開するのは、正直、気が重いな、と思いつつ、公開します。 というのも、今、食べログに対して非常にネガティブな解釈が広がっているわけですが、何かしらポジティブな材料を提供するとなると、確実にいろいろ言われるだろうなあと思って気が重くて仕方がないのですが、ただ、人生の一時期、食べログにハマっていた人間として、論点として提供されるべきポイントが、提供されていないと感じましたので、本記事を公開する次第です。 ◆食べログの評価点数分布の「不自然さ」 さて、近年、食べログの点数評価アルゴリズムは、頻繁にその不正を疑われ議論になっています。 2016年には、評価アルゴリズムのリセットがあった際には、いくつかの店舗がいきなり3.0の点数にリセットされるなどといったことがあり、記事にもなりました。 そして10月8日に、藍屋えんさんという方が、ご自身のブ

                            食べログの得点計算についてのポジティブな可能性を考えるー操作されたデータを検証する難しさー(井上明人) - エキスパート - Yahoo!ニュース
                          • Appleの移動データを加工したらわかった東京の厳しい現実 - Qiita

                            こんにちは、Exploratoryの白戸です。 Appleは新型コロナウイルスの対策支援として、Appleマップでの経路検索をもとにした移動傾向のデータを公開しています。ところが、残念ながらこのデータはそのままでは簡単に可視化できるようなフォーマットになっておらず、ちょっとした加工を行う必要があります。 しかし逆に、加工の仕方さえわかってしまえばそれぞれの都市や地域の移動データを可視化することで、恐怖を煽るばかりのマスコミからは見えてこない現状を理解することができるようになります。 今回はこのAppleの移動傾向データを簡単に可視化できるようにするための基本的な加工方法を、みなさんと共有させていただければと思います。 データはこちらからダウンロードすることができます。 以下は「モダンでシンプルなUIを使ってデータサイエンスができる」Exploratoryを使って、「日本で最も自粛している都

                              Appleの移動データを加工したらわかった東京の厳しい現実 - Qiita
                            • FLoCとはなにか - ぼちぼち日記

                              1. はじめに Google がChrome/89よりトライアルを開始しているFLoC (Federated Learning of Cohorts)技術に対して、現在多くの批判が集まっています。 批判の内容は様々な観点からのものが多いですが、以前より Privacy Sandbox に対して否定的な見解を示してきたEFFの批判「Google Is Testing Its Controversial New Ad Targeting Tech in Millions of Browsers. Here’s What We Know.」が一番まとまっているものだと思います。 これまで Privacy Sandbox 技術に関わってきた身としては、各種提案の中でFLoCは特にユーザへの注意が最も必要なものだと思っていました。しかし、これまでのド直球なGoogleの進め方によって、FLoCのトラ

                                FLoCとはなにか - ぼちぼち日記
                              • アメリカの授業料無料のオンライン大学 University of the People って実際どうなの!?1年間学んで感じたこと・学習内容・魅力などまとめ - 別にしんどくないブログ

                                この記事は社会人学生 Advent Calendar 2021 - Adventarの 16 日目の記事です。投稿が遅くなってしまい申し訳ありません。なんせこれから話す大学の課題に追われていてなかなか執筆の時間が取れませんでした(言い訳)。 私は、Web エンジニアとして働きながら昨年の 9 月からオンライン大学でコンピューターサイエンスを学んでいる 30 代男性です。また、未就学の子どもの育児もしています。 今回は、私が登録している University of the People というアメリカのオンライン大学について、入学してみて感じたこと・学習内容・魅力などを紹介します。同じようにコンピューターサイエンスの学部へ進学したい方やアメリカの大学に興味がある方、働きながら大学で学ぼうと考えている方の参考になれば幸いです。 目次 目次 アメリカのオンライン大学へ行くきっかけ Univers

                                  アメリカの授業料無料のオンライン大学 University of the People って実際どうなの!?1年間学んで感じたこと・学習内容・魅力などまとめ - 別にしんどくないブログ
                                • 30分で完全理解するTransformerの世界

                                  はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                                    30分で完全理解するTransformerの世界
                                  • 何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ

                                    先日、Quora日本語版でこんなやり取りがありました。 基本的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか」というお話です。 問題意識としては毎回引き合いに出しているこちらの過去記事で論じられているような「ワナビーデータサイエンティスト」たちをどう導くべきかという議論が以前から各所であり、それらを念頭に置いています。なお毎度のことで恐縮ですが、僕も基本的には独学一本の素人ですので以下の記述に誤りや説明不足の点などあればご指摘くださると幸いです。 一般的なソフトウェア開発と、統計分析や機械学習との違い 統計分析や機械学習を仕事にするなら、その「振る舞い」を体系立てて学ぶ必要がある きちんと体系立てて学ばなかった結果として陥りがちな罠 余談

                                      何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ
                                    • 発電所が「ビットコインマイニングの方が電力販売より稼げる」とマイニングを開始

                                      企業が所有する水力発電所が、設備をフルパワーで稼働させても電力を十分に生み出せないことから「電力会社に電気を販売するよりビットコインのマイニングを行う方が得」と判断して、実際に電力の一部でマイニングを行っているということが報じられました。 Mechanicville hydro plant gets new life https://www.timesunion.com/news/article/Mechanicville-hydro-plant-gets-new-life-16299115.php Historic Power Plant Decides Mining Bitcoin Is More Profitable Than Selling Electricity | Tom's Hardware https://www.tomshardware.com/news/restored

                                        発電所が「ビットコインマイニングの方が電力販売より稼げる」とマイニングを開始
                                      • 全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

                                        (Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。 そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

                                          全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ
                                        • 池江璃花子選手への五輪出場辞退要請は誰が行っているのか(鳥海不二夫) - エキスパート - Yahoo!ニュース

                                          5月7日に,池江選手がSNS上で様々な声を受けていることをツイッター上で表明しました. 以前ツイッター上ではあまり批判の声はなかったという記事を書きましたが,直接心無い声が寄せられていた事実を見逃していた点を反省しています. そこで,今度は直接池江選手のツイッターアカウントに向けて送られたリプライを分析してみました.4月1日から5月9日10時までの池江選手に向けたリプライが含まれていて,かつ公開状態になっていて誰にでも確認可能な10,738ツイートを収集しました.なお,こちらにはダイレクトメッセージは含まれていませんし,既に削除済みのツイートも含まれておらず,Twitter社の規約により使用可能となっているツイートとなります. リプライ数の変化まず,池江選手に向けて送られたリプライ数を一日ごとに集計してみました.その結果がこちらです. 池江選手のアカウントへのリプライ数(著者作成) まず,

                                            池江璃花子選手への五輪出場辞退要請は誰が行っているのか(鳥海不二夫) - エキスパート - Yahoo!ニュース
                                          • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

                                            (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

                                              2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
                                            • 「大量に見えるTwitterの誹謗中傷、実はごく少数」を可視化できるツールが有能と話題【やじうまWatch】

                                                「大量に見えるTwitterの誹謗中傷、実はごく少数」を可視化できるツールが有能と話題【やじうまWatch】
                                              • エンジニアに読んで欲しい技術書90選 - Qiita

                                                はじめに タイトル通り、読んで欲しい(圧)技術書をたくさん集めてみました。自身の担当から外れる領域に関しては、会社の人に協力を仰ぎ、編集しました。「何を読めばいいかわからない」、「次の読む本を探したい」などのように考えている方の参考になればと思います。 また、大きく、 ・新米エンジニア ・脱新米エンジニア と分けてまとめたので、参考にしてみてください。 技術書のススメ 技術書の紹介の前に、技術書で得られるものについて説明したいと思います。全然読み飛ばしてもらって大丈夫です。この章から本の紹介を行なっていきます。 技術書は体系的な構成となっているため、技術書を読むことで、 ・論理的な思考力が身に付く ・技術の歴史・背景を知れる ・技術の知識、手法を学べる これらを学ぶことができます。論理的な思考力、知識はわかるけど、技術の歴史・背景を知ってどうするんだと思う方もいるかもしれません。しかし、歴

                                                  エンジニアに読んで欲しい技術書90選 - Qiita
                                                • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

                                                  (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

                                                    実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
                                                  • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

                                                    (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

                                                      データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
                                                    • 元素の「周期律」にほころび? 金属元素「ドブニウム」が金属の性質持たず

                                                      重い金属元素「ドブニウム(Db)」の性質を調べた結果、周期表から予想できる性質に反して金属的な性質を失っていることが分かった──日本原子力研究開発機構が、7月7日にこんな研究結果を発表した。この元素の化合物を分離して調べたのは世界で初めてのことで、今回分かった性質から、いまだに完成していない周期表の理解が進むことが期待できるという。 ドブニウムは1967年に発見された、原子番号105番の元素。核融合反応で人工的に生成できるが、生成率が5分当たり1個と低いことと、寿命(半減期)が約30秒と短いため、実験で扱うのが難しく、その化学的性質は明かされていなかった。 研究チームは、同機構の加速器を使ってドブニウムを合成し、独自に開発した分離装置によってドブニウムの純粋な化合物を分離。この化合物と、ドブニウムと同じ周期表第5族の元素(ニオブやタンタル)の化合物について、気体になりやすさを比較したところ

                                                        元素の「周期律」にほころび? 金属元素「ドブニウム」が金属の性質持たず
                                                      • 「Python」と「Google Colaboratory」で株価データ分析に挑戦

                                                        「Python」と「Google Colaboratory」で株価データ分析に挑戦:「Python」×「株価データ」で学ぶデータ分析のいろは(1) 日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく本連載。第1回はPythonを実行する環境とデータの前準備について。 はじめに 連載第1回は「Google Colaboratory」でサンプルプログラムを実行するための環境を用意する方法や利用するPythonのライブラリを説明します。「Google Chrome」と「Googleアカウント」を用意して読み進めてください。 なお、連載の趣旨がデータ分析であるため、Pythonの言語仕様や文法の詳細を割愛する場合があることをご了承ください。 Google Colaboratoryの準備 Google Colaboratoryとは、Googleが提供するブラウザ上でPy

                                                          「Python」と「Google Colaboratory」で株価データ分析に挑戦
                                                        • 機械学習の説明可能性(解釈性)という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ

                                                          ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。 機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日 これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性(解釈性)というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。 ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい

                                                            機械学習の説明可能性(解釈性)という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ
                                                          • 普通のデータサイエンティストと世界トップクラスのデータサイエンティストの違い ニュースイッチ by 日刊工業新聞社

                                                            「データサイエンティストと名乗るのは厚かましいというか、自分はむしろ外れ値です」そう切り出した小野寺和樹さんは現在、DeNAのAI本部データサイエンス第一グループに所属している。 確かにデータサイエンティストには数学や物理学の修士や博士といった理系のバックグラウンドを有する人が多い中、小野寺さんは経済学部出身で数学の知識も「二次関数の頂点がわかるくらい」だという。 そんな小野寺さんだがKaggle Grandmaster(カグル グランドマスター)という称号を持っている。世界では163人、日本では10人程度しかいない(2019年11月現在)。 【補足説明】Kaggle(カグル)とは、データサイエンティストや機械学習エンジニアが集まる世界最大のコミュニティ。大きな特徴は、誰でも参加可能なコンペティションがあることだ。世界中の企業や研究機関などが提供したビッグデータと課題に対し、モデルの精度を

                                                              普通のデータサイエンティストと世界トップクラスのデータサイエンティストの違い ニュースイッチ by 日刊工業新聞社
                                                            • 『仮説が先、データが後』がなぜ重要なのか? データがあるから規則性や現象が見つかるのではなく、まず仮説をもつことが重要という話

                                                              松本健太郎 @matsuken0716 「仮説が先、データが後」は僕が敬愛する鈴木敏文さんの言葉です。「今あるデータから何かできないか」と問われても、何もできない最大の理由です。問題を解決する仮説が先です。しかし、大半の分析は仮説をすっ飛ばしていきなり検証から入り、かつそれを分析と言います。それはおかしい。(1/n) pic.twitter.com/5GaXebGfCM 2022-05-31 22:32:33 松本健太郎 @matsuken0716 データ分析には、仮説構築向きと仮説検証向きの2種類に分かれます。そして"仮説構築"の真意は「筋の良い可能性の選択肢を増やすこと」にあります。すなわち正解は1つでは無い、と私は考えています。分けて考えないと「正解を絞れていない」「確からしく無い」とひっちゃかめっちゃかです。(2/n) pic.twitter.com/ZifqK8q3PE 2022

                                                                『仮説が先、データが後』がなぜ重要なのか? データがあるから規則性や現象が見つかるのではなく、まず仮説をもつことが重要という話
                                                              • ChatGPTのコア技術「GPT」をざっくり理解する - Qiita

                                                                ※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。 本記事の対象者 これから機械学習を利用した開発をしていきたい方 機械学習のトレンド技術を知りたい方 なるべく初歩的な内容から学習したい方 はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。 この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの?」、「言語モデルって要するに何?」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ

                                                                  ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
                                                                • 各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ

                                                                  都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界

                                                                    各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ
                                                                  • アプリケーションにおけるデータ不整合との戦い - blog.syfm

                                                                    これは Aizu Advent Calendar 2019 の 15 日目の記事です。14 日目は uzimaru0000 さん、16 日目は kacky__917 さんです。 はじめに 世の中には日々たくさんの価値ある Web サービスが生まれていますが、その価値を正しく提供するにはアプリケーションが正しく動かなければなりません。 たとえばアプリケーションは適切なユーザに適切なリソースを提供しなければならず、エラーを返す際は十分に定義された仕様に沿って返し、UI 側ではユーザに適切なメッセージを表示しなければなりません。 実際のところ、これらを厳密に実現するのは非常に困難ですが、アプリケーションにはこれら以上に複雑な問題が常につきまといます。 現在の Web アプリケーションはほとんどが分散システムの一形態です。例えばクライアントとサーバや、サーバとデータベースがネットワークを介して接続

                                                                      アプリケーションにおけるデータ不整合との戦い - blog.syfm
                                                                    • 【初心者必見】プログラミング未経験から3年間のPython学習ロードマップ完全版 - 仮想サーファーの日常

                                                                      近年、Pythonの求人数・案件数が増加すると同時に単価も上がってきており、エンジニアの中で人気が高まっています。 これからプログラミング言語Pythonを学んで、Webアプリケーション開発エンジニアや機械学習エンジニアになりたいと思っている方も多いのではないでしょうか。 この記事では以下のような方向けに、Pythonを未経験からどのような手順で学びPythonエンジニアになるのか、またPythonエンジニアになった後にどのように学び続けていけばいいのか、具体的な方法をまとめています。 この記事の対象読者 エンジニアではないけど、未経験からPythonエンジニアに転職したい方 エンジニアではないけど、未経験からPythonでデータ分析や業務効率化をしたい方 非Web系の会社で働いているけど、Web系のPythonエンジニアに転職したい方 Pythonとは Pythonとは何か Python

                                                                        【初心者必見】プログラミング未経験から3年間のPython学習ロードマップ完全版 - 仮想サーファーの日常
                                                                      • 22社、52人のデータサイエンティストに聞いてみた!「どんなお仕事してますか?」 | Da-nce

                                                                        データ分析とビジネス活用のプロとして、さまざまな業界・フィールドで活躍する「データサイエンティスト」。 スキルセットや必要な知識などが語られることはあるものの、まだはっきりとした定義がなく、いったいどんな人たちなのか?と疑問を持つ人も少なくないのでは。 そこで本企画では、企業で働くデータサイエンティストたちの"リアル"を調査。データサイエンティストを志した理由や興味深かった論文、普段の業務、自社で働く魅力などを22社、52人のデータサイエンティストに聞きました。 企業一覧 DataRobot Japan株式会社 株式会社GA technologies 株式会社HACARUS 株式会社JMDC 株式会社LIFULL MNTSQ株式会社 NABLAS株式会社 株式会社Rist Sansan株式会社 SOMPOホールディングス株式会社 株式会社ZOZO 株式会社ZOZOテクノロジーズ アスクル株

                                                                          22社、52人のデータサイエンティストに聞いてみた!「どんなお仕事してますか?」 | Da-nce
                                                                        • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

                                                                          この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

                                                                            「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
                                                                          • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

                                                                            (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

                                                                              データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
                                                                            • 「新型コロナのSNSデマはマスメディアが拡散」、東大の鳥海准教授が分析

                                                                              新型コロナ禍でのデマの拡散や炎上は、マスメディアの関与が大きい――。ネット上のデマを研究する東京大学大学院工学系研究科の鳥海不二夫准教授はこう語る。 鳥海准教授は計算社会科学や人工知能(AI)技術の社会応用を専門とする。同氏は日経クロステックが2020年6月3日に開催したウェビナーシリーズ「コロナとAI」で「コロナ禍のソーシャルメディア~データから見る社会」と題して講演し、SNS(交流サイト)から新型コロナウイルス感染症をめぐるデマや感情を割り出したデータ分析結果を紹介した。 SNSは人々の行動や感情が記録される点で「社会を表す鏡」の1つである一方、情報量が多すぎて人間が全てを理解するのは不可能だ。そこで鳥海准教授は、SNSの1つであるTwitterのツイートを分析することで社会を網羅的、客観的にとらえなおす研究に取り組んでいる。 「トイレットペーパーが不足するというデマ」がデマだった 2

                                                                                「新型コロナのSNSデマはマスメディアが拡散」、東大の鳥海准教授が分析
                                                                              • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

                                                                                はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

                                                                                  Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
                                                                                • GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics

                                                                                  皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 この記事はGPTでチャットボットを作ってみるシリーズ第3弾です。 第1弾と第2弾もぜひご覧ください。 acro-engineer.hatenablog.com acro-engineer.hatenablog.com 第1弾では、GPTになるべく正確な回答をさせるために、回答の情報を持つ文書を検索し、それをもとに回答を生成するという内容を試しました。 文書をもとに回答を生成することで比較的正確な回答を取得することができました。 ただし、この回答も必ずしも正確な回答とは限らないので、どれくらい信頼していいのかを自動で判定する仕組みが欲しくなります。 今回は第1弾のシ

                                                                                    GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics