並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 495件

新着順 人気順

サイエンティストの検索結果121 - 160 件 / 495件

  • NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ

    先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の

      NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
    • 過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ

      すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。 一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタイトルにしようと考えたのか、というのが不思議で仕方ないのですが、機械学習や統計学を初めとするデータサイエンス領域の人々ぐらいにしか馴染みのなかった語がこうして人口に膾炙しているのかと思うとなかなかに感慨深いものがあります。 ということで、「過学習」とはどういうものであり、どのような場面で生じ、それをどうすれば避けられるか、という点について簡単にまとめてみることにしました。このテーマでは過去に何度もブログ記事を書いており、もはや何周目の話題なんだという感もありますが、温故知新ということでご容赦い

        過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
      • 無闇にデータサイエンティストを雇うのをやめよう。 | AI専門ニュースメディア AINOW

        著者のLuke Posey氏は、現在、P&Gアメリカ法人で機械学習エンジニアとして働く傍ら、AIスタートアップMalgoの共同設立者に名を連ねています(同氏に関する詳細はこちら)。同氏がMediumに投稿した記事では、データサイエンティストを雇用する際に生じる業務上のミスマッチが風刺されています。 近年データサイエンティストが「セクシーな職業」として注目を集めているのは周知の通りですが、本来はアナリストあるいはエンジニアのほうが適任な業務に対してもデータサイエンティストを重用する傾向がある、と同氏は指摘します。 アナリストを雇うべきなのにデータサイエンティストを雇ってしまうミスマッチは、統計学に関する学術的訓練を受けた人材が高額な報酬を欲しいがゆえに、データサイエンティストを名乗ることに起因します。その一方でビジネスに精通した本来的な意味でのアナリストは目立たなくなり、企業は高額でデータサ

          無闇にデータサイエンティストを雇うのをやめよう。 | AI専門ニュースメディア AINOW
        • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

          0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

            傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
          • データサイエンティストの嘘と欺瞞を見破る7つの方法 | AI専門ニュースメディア AINOW

            著者のAishwarya Prabhat氏は、オンラインショッピング企業のShopeeに勤務するシンガポール在住のデータサイエンティストです(同氏の詳細についてはこちらを参照)。同氏がMediumに投稿した記事『データサイエンティストの嘘と欺瞞を見破る7つの方法』では、AIソリューションの価値を正しく評価するのに役立つ7つの質問が解説されています。 現在流行している機械学習やディープラーニングを活用したAIソリューションは最先端技術であるために、採用決定権のある企業幹部がそのソリューションの詳細がよく分からないことが少なくありません。Prabhat氏によれば、こうした状況であっても以下のような7つの質問を投げ掛けてみて納得の行く回答が得られれば、信頼できるAIソリューションかどうか判断できます。 ソリューションに使われている「AI」という言葉を分かりやすい喩えで説明できるのか 学習データを

              データサイエンティストの嘘と欺瞞を見破る7つの方法 | AI専門ニュースメディア AINOW
            • データサイエンティストが副業で成果を出すためのチェックリスト | Offers Magazine

              データサイエンティストの基本的な副業の流れ データサイエンティストのsatomacoto(@satomacoto)です。普段は、解析に必要なIoTデバイスやWebアプリのソフトウェア開発から機械学習モデルの開発・デプロイまで携わるソフトウェアエンジニア/データサイエンティストとして働いています。本稿では、データサイエンティストとして短期間で成果を出すために気をつけていることについて執筆します。 1.契約前・オンボーディング 一口にデータサイエンスの案件といっても、その言葉が表す職務は、「モデル開発」「特徴量エンジニアリング」といったデータサイエンスそのものに関わるところから「アーキテクチャ」「データ整備」といったソフトウェア・インフラに関わるものまで広範囲に及びます。 契約前・オンボーディングでは、クライアントがどこまでの範囲をどの程度の期間で実現したいか、そして限られた自分の時間でどこま

                データサイエンティストが副業で成果を出すためのチェックリスト | Offers Magazine
              • 松尾豊氏らが企画、東大生以外も受けられる無料講座 データサイエンティスト目指せる | Ledge.ai

                画像は「GCI 2020 Winter」の公式サイトより 【受講生募集】10/7(水)開講のGCIデータサイエンス講座の受講者を募集します。新型コロナウイルスの状況に鑑みオンラインでの開講となりますが、東大に限らず他大学の学生、高専生も応募できます。応募締め切りは9/22(火)です。皆さまからのご応募をお待ちしております。https://t.co/ZncWqoaKOg — 東京大学 松尾研究室 (@Matsuo_Lab) September 11, 2020 東京大学では10月7日から、オンライン講座「GCI 2020 Winter」を開講する。現在、同講座の受講者を募集中だ。本講座の企画には、東京大学大学院工学系研究科 教授で、『人工知能は人間を超えるか』(KADOKAWA)などの著書でも知られる松尾豊氏も携わっている。 東大生以外の学生も広く募集する本講座では、あらゆる分野で武器になる

                  松尾豊氏らが企画、東大生以外も受けられる無料講座 データサイエンティスト目指せる | Ledge.ai
                • ソ連時代のマッド・サイエンティストたち - 歴ログ -世界史専門ブログ-

                  「進歩的国家」ソ連が生んだ狂った科学者 マルクス主義理論では、社会主義そして共産主義は人類が普遍的に向かうべき社会であり、成熟し堕落した資本主義が倒されるのは必然であるとされました。 そのため社会主義国であるソ連では、アメリカやイギリスといった資本主義国よりもあらゆる面で進歩的であるのが当然とされ、学術・産業・文化・芸術など科学的であることが尊ばれました。 確かにソ連時代は科学の進歩が著しく進んだ時代ではあるのですが、中には行きすぎてとんでもないマッドサイエンティストが出現しました。 1. イリヤ・イワノビッチ・イワノフ (1870 - 1932) 人間と猿の交配動物を作ろうとした男 イリヤ・イワノビッチ・イワノフはソ連(ロシア)の獣医学者で、異種間の人工授精の先駆者です。 1898年、イワノフはモスクワに動物学研究所を設立し、家畜の性器の構造や生命現象、受精時の付属性腺の分泌物などを研究

                    ソ連時代のマッド・サイエンティストたち - 歴ログ -世界史専門ブログ-
                  • 2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ

                    (Image by ElasticComputeFarm from Pixabay) 今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、相変わらず続くCOVID-19の影響*1でデータ分析業界及び隣接分野の新刊書を読む機会が減ったままにつき、例年とほぼ同じラインナップになっている点、予めご容赦いただければと思います。 初級向け5冊 総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別14冊 回帰モデル PRML 機械学習の実践 Deep Learning 統計的因果推論 ウェブ最適化 ベイズ統計 時系列分析 グラフ・ネットワーク分析 SQL コメントなど 初級向け5冊 初級向け書籍リストはあまり出入りがないのが通例ですが、今回も微妙に入れ替わりがあります。 総論 AI・データ分析プロジェクトのすべて[ビジネス力×

                      2022年版:実務の現場で働くデータサイエンティスト向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ
                    • シンプソンのパラドックスのはなし - 渋谷駅前で働くデータサイエンティストのブログ

                      今月はモデルナワクチンの2回目接種*1やら仕事でも負荷の高い分析業務やら、はたまた執筆*2やらでネタ切れなのもあってあまりブログ記事を書けていなかったので、最近話題になった件について簡単に論じてみようかと思います。元ネタはこちらです。 これはイスラエルで公表されたCOVID-19ワクチンの重症化防止効果に関する統計について、いわゆる「シンプソンのパラドックス」が見られるのでそれを補正する必要があると指摘するブログ記事です。この件について僕が引用しながらボソッと放言したところ、思いの外大きな反響があったのでした。 イスラエルで起きている、「ワクチンが効いていないように見える」シンプソンのパラドックス。年齢で調整するとこうなるという分かりやすい解説https://t.co/gQrATCNzS7 pic.twitter.com/JI8Gq8h0Lk— TJO (@TJO_datasci) 202

                        シンプソンのパラドックスのはなし - 渋谷駅前で働くデータサイエンティストのブログ
                      • 「モラリスト×エキスパート」を育む立正大学データサイエンス学部の『データサイエンティスト赤ずきん』がヤバい

                        リンク 立正大学データサイエンス学部 2021年4月開設 立正大学データサイエンス学部 2021年4月開設 立正大学データサイエンス学部 2021年4月開設『データサイエンス鬼退治図絵 データサイエンティスト桃太郎』 5 users 426 鈴木 正朝 @suzukimasatomo 立正大学の素晴らしい広告。しかし、この赤ずきんはいただけない。顔識別システムによる犯罪者予備軍の検知は保安処分と背中合わせだ。赤ずきんこそ狼ということになる。データサイエンティスト養成は日本の急務であるが最低限の法学知識を教育プログラムに入れておこうず。 ris.ac.jp/ds/ad/lp1/stor… 2022-03-24 11:04:51 鈴木 正朝 @suzukimasatomo 情報理工学的視点があるからこそ解明できる情報法制というところもあるので、実は法学は遠い学問ではなく意外と親和性があるとも言

                          「モラリスト×エキスパート」を育む立正大学データサイエンス学部の『データサイエンティスト赤ずきん』がヤバい
                        • 情報学専攻でない学生がデータサイエンティストを夢見た話 - Ebitia's Log

                          1.はじめに 2.本編 2-1.どうしてデータサイエンティストを目指したのか? 2-2.応募フェーズ 2-3.選考1次フェーズ 2-4.選考2次フェーズ 2-5.就活の結末 3.どうすればよかったのか? 3-1.就活をはじめるのが遅かった 3-2.実績・スキルが不足していた 3-3.人間性が不足していた 4.最後に 1.はじめに 「情報系学部出身じゃないけどデータサイエンティストに興味がある...」 この記事はそういった就活中の学生に向けて書いています。備忘録も兼ねたポエムのようなものですね。 私自身は医療系の学生で、研究で少し機械学習を扱ってはいましたが、情報学の専攻などを一切してきませんでした。就活中の区分としてはただの理系学生としての扱いです。 そんな私がどうしてデータサイエンティストを目指したのか?そしてどうなったのか? 結論から言うと、私はなれませんでした。 なのでここからは敗北

                            情報学専攻でない学生がデータサイエンティストを夢見た話 - Ebitia's Log
                          • ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある - 渋谷駅前で働くデータサイエンティストのブログ

                            恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。 生成AIの爆発的な普及と、それに伴って生じた課題 AIやデータサイエンスの「外側」の本質にアプローチするのが、ヒトのなすべき仕事 最後に、改めて年末の振り返りを 生成AIの爆発的な普及と、それに伴って生じた課題 今年は多くの生成AIプロダクトが公開され普及し、それに伴い文字通り正真正銘空前の生成AIブームが到来し、個人や企業のみならず霞ヶ関までもが、そしてついには政府与党までもがこぞって「生成AIの活用」を模索して立ち回るという有様になりました。書店に行けば生成AI関連書籍が棚一面を埋め尽くすという大盛況で、毎日のようにどこそこの大企業が生成AIを導入した〇〇サ

                              ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある - 渋谷駅前で働くデータサイエンティストのブログ
                            • データサイエンティストだけでAI開発を加速する「Light MLOps」 “エンジニア不要”のメリットとデメリット

                              AIや機械学習アルゴリズムの開発手法の一つである「MLOps」(エムエルオプス)という手法が、いま注目を集めている。ソフトウェア開発者と運用担当者がお互いに協力することで開発を迅速に進める取り組みや文化である「DevOps」の「ソフトウェア」の部分を「機械学習」に置き換えたものをMLOpsと称し、AIを自社開発する企業での導入が始まっている。 MLOpsでは、AI開発に関わるデータサイエンティストや機械学習エンジニアなどが連携し、AIの開発、運用を行う。そうすることで、複雑なワークフローを構築しても管理や自動化が容易になり、開発が加速化するなどの利点が生まれる。 ただし、企業の体制によってはこの実施が難しい場合もある。エンジニア側に工数が集中することもあれば、データサイエンティストが機械学習モデルの作成に集中できないこともあるからだ。 こうした課題を解決する方法として、「Light MLO

                                データサイエンティストだけでAI開発を加速する「Light MLOps」 “エンジニア不要”のメリットとデメリット
                              • 仕事も友達もKaggleで得た―。敏腕データサイエンティストが熱中する、分析で「競う」世界

                                仕事=Kaggle=趣味。脳医学、生物学など他分野の専門家と予測モデルを作り続ける、“コンペ漬け”の日々 ――2020年3月から在籍するNVIDIAでは、業務時間のほとんどをKaggleに費やしているそうですね。 小野寺:はい。9割超の時間はKaggleをやっています。完全に趣味が仕事になった感じですね。最初にNVIDIAに声をかけてもらった時は「えっ、遊んでいるだけでお金がもらえるの?」と驚きました。 ――小野寺さんが業務時間をKaggleに費やすことは、NVIDIAにとってはどんな意味があるのですか。 小野寺:Kaggleで得たデータサイエンスの知見などを、会社に還元しているんです。今は主に、「RAPIDS」(*1)というソフトウエアライブラリを充実させるのに貢献しています。 *1 NVIDIAがオープンソースで提供する、データ分析をGPUで高速に実行するためのライブラリ ◆インタビュ

                                  仕事も友達もKaggleで得た―。敏腕データサイエンティストが熱中する、分析で「競う」世界
                                • データサイエンティストの気づき!「勉強して仕事に役立てない人。大嫌い!!」『それ自分かも?』ってなった!!! - Qiita

                                  データサイエンティストの気づき!「勉強して仕事に役立てない人。大嫌い!!」『それ自分かも?』ってなった!!!統計データサイエンティスト新人プログラマ応援Qiita10th_過去CountdownCalendar2022 通りすがりのデータサイエンティスト、技術士(情報工学)・工学博士です。2021年9月11日(執筆当時の今日)まで、「俺はデータサイエンティストの経験が長い」ことを自慢していました。二十代の頃、いろんな論文公募で通らずに、データ解析したら二席をいただいたことに始まるかもしれません。 @kazuo_reveさんのあるところでの、ある書き込みに、意見を書こうと思いました。筋書きを立てていたら次々気がついたことが3つありました。気づき1「現場経験」、気づき2「隠蔽、改竄」、気づき3「10年」。 目次 目次 ・気づき1. 現場経験 ・気づき2. 隠蔽・改竄 ・気づき3. この10年、

                                    データサイエンティストの気づき!「勉強して仕事に役立てない人。大嫌い!!」『それ自分かも?』ってなった!!! - Qiita
                                  • SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ

                                    Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと思ったのでした。 しかし、よくよく考えてみればかのVapnik御大がかつてSVMを考案する際にベースとしたアイデアはNNとは方向性の違う代物だったわけです。故に、例えばSVMとNNとがどのような点で異なるかが「見える化」出来れば、SVMが復権するための条件のようなものが見えてきそうです。 ということで、久しぶりに「サンプルデータで試す機械学習シリーズ」をやってみようと思います。実はDNNについては6年前にも似たようなことをやっているのですが、SVMとDNNとでサンプルサイズを変えながら比較するというのはやったこ

                                      SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ
                                    • データサイエンティストが不要になる?「拡張アナリティクス」の衝撃|シティズンデータサイエンスラボ

                                      シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 「拡張アナリティクス」という言葉を耳にすることが増えてきました。ガートナー ジャパン株式会社 (以下 ガートナー) は、今年の6月10~12日に開催した「ガートナー データ&アナリティクス サミット 2019」(出典:ガートナー データ&アナリティクス サミット 2019 https://gartner-em.jp/data/)において、2019年のデータ/アナリティクス・テクノロジ・トレンドのトップ10について言及しました。それらのうち最初に彼らが言及したのが「拡張アナリティクス」という聞き慣れない言葉です。ではこの拡張アナリティクスとは一体何なのでしょうか? データの収集・加工作業が 多くのデータサイエンティストの時

                                        データサイエンティストが不要になる?「拡張アナリティクス」の衝撃|シティズンデータサイエンスラボ
                                      • ML design: 機械学習を確かならしめる「メタ」な枠組み - 渋谷駅前で働くデータサイエンティストのブログ

                                        (By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768) ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"(DevOpsと同じように機械学習のシステム基盤などを包含する考え方)に対して「機械学習モデリングを運用する上で注意すべき点って多いよね」ということで、その注意点をまとめたものを一つの体系として扱えないかという趣旨で僕が勝手に言い出したものです。 言い方を変えると、統計分析に適したデータを集めるための実験計画法(experimental design)があるのと同じように、機械学習に適したデータの集め方やその交差検証などのやり方についてもまとめた計画法(design)が

                                          ML design: 機械学習を確かならしめる「メタ」な枠組み - 渋谷駅前で働くデータサイエンティストのブログ
                                        • Kaggle Grandmasterへの道 ~ データサイエンティスト“最高峰”を目指す

                                          2021年度リクルート入社の2人のKaggle Grandmasterにインタビュー。Kaggle Grandmasterを目指すために意識しておくべきポイントや戦略について解説する。これを読んで、データサイエンティストとして“最高峰”の称号を目指そう。 連載目次 この連載では、近年話題のコンペティションプラットフォーム「Kaggle」について、リクルート所属のKaggle Masterの4人が、Kaggleの仕組みや取り組み方、初心者から一歩先にいくためのノウハウについて解説してきました。 連載を振り返ると、第1回では、これからKaggleを始めようと思っている方向けに、Kaggleの仕組みやコンペティション(以下、コンペ)への取り組み方、初心者におすすめのコンテンツについて解説を行いました。 また第2回では、ランクを上げていくために筆者が「実際に何をしていたか」について、実際の事例を交

                                            Kaggle Grandmasterへの道 ~ データサイエンティスト“最高峰”を目指す
                                          • データサイエンティストが開発したプログラミング不要の分析ツールnehanでSalesforce 商談データの勝率を予測してみた - CData Software Blog

                                            はじめに CData Japan技術ディレクターの桑島です。本記事では、nehanにSalesforce Sales Cloudの商談データを取り込み、各商談の勝率を予測する方法をご紹介します。 本記事の構成は以下の通りです。 はじめに nehan とは 前提 手順 CData Sync 概要 CData Sync製品のインストール ライセンスのアクティベーション Salesforce へのコネクションを作成 PostgreSQL へのコネクションを作成 ジョブの作成 ジョブの実行 PostgreSQLに同期した商談(Opportunity)データを確認 nehan 概要 SQLビルダーを利用したデータソースの作成 予測モデルを作成 モデルで予測値を算出 まとめ nehan とは nehanは、データサイエンティストが開発したプログラミング不要の分析ツールです。データの前処理から予測モデル

                                              データサイエンティストが開発したプログラミング不要の分析ツールnehanでSalesforce 商談データの勝率を予測してみた - CData Software Blog
                                            • なぜ多くのデータサイエンティストが優良企業の良い仕事を辞めるのか | AI専門ニュースメディア AINOW

                                              著者のAdam Sroka氏は、イギリス・スコットランドに拠点をおく企業の消費電力を最適化するソリューションを提供するOrigamiで機械学習エンジニアチームのリーダーを務めています(同氏の経歴はLinkedInを参照)。同氏がMediumに投稿した記事『なぜ多くのデータサイエンティストが優良企業の良い仕事を辞めるのか』では、データサイエンティストが仕事を辞めたくなる状況を確認したうえで、そうした状況を改善する方法が解説されています。 データサイエンティストは「21世紀で最もセクシーな仕事」と言われて久しいですが、現実には新しい職場を熱心に探している職種であることがアンケート調査で判明しています。離職したいと考えているデータサイエンティストが少なくないのは、仕事を辞めてしまいたくなる状況にしばしば陥るからです。 Sroka氏によると、データサイエンティストが仕事を辞めたくなるのは、以下のよ

                                                なぜ多くのデータサイエンティストが優良企業の良い仕事を辞めるのか | AI専門ニュースメディア AINOW
                                              • データサイエンティストが陥る機械学習の罠

                                                データサイエンティストとは、データを単純に収集・整理・分析するだけではなく、データをビジネスに活用できる人を指します。本稿では『データサイエンティスト 基本スキル84』(野村総合研究所データサイエンスラボ編)より一部を抜粋・再構成のうえ、データサイエンティストに求められる能力について解説しています。 配送の問題を解決するデータサイエンティスト インターネット通販の拡大などにより、トラックなどによる荷物の配送ルートの最適化が重要な課題になっています。移動に伴う最短経路を求める問題は「巡回セールスマン問題」などと呼ばれ、組み合わせ最適化として、以前から数学の代表的な問題でした。制約要因などが多く、簡単に解を求めることができませんでした。 物流量の増大や、物流の複雑化に伴い、物流業者においては、最適な配送ルートを算出し、物流コストを削減することが大きな課題となりました。制約要因が多く、計算は複雑

                                                  データサイエンティストが陥る機械学習の罠
                                                • サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog

                                                  こんにちは、データエンジニアの@masaki925 です。 この記事はMLOps Advent Calendar 2020 の19 日目の記事です。 MLOps には、その成熟度に応じて3つのレベルがあると言われています。 MLOps レベル 0: 手動プロセス MLOps レベル 1: ML パイプラインの自動化 MLOps レベル 2: CI / CD パイプラインの自動化 私の所属するチームでは現在ここのレベルを上げるべく取り組んでいますが、その中でデータサイエンティスト(以下、DS) とデータエンジニア(以下、Dev) の協業って難しいよな〜と思う事例があったので紹介したいと思います。 想定読者は以下のような方です。 これからMLOps を始めようとしている方 既存プロジェクトがあり、ML 等を使ってエンハンスしていきたいと考えている方 異文化協業に興味がある方 ML ワークフロー

                                                    サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog
                                                  • DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ

                                                    旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。 その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブームも終焉すると予想されるので、これはDS/AIブームの終焉とも言い換えられそうです。 当事者でありながら他人事みたいなことを言うようで気が引けますが、何であれブームというものはいつかは終わりを迎えます。あるもののブームが終わったからといってそのものが滅んでしまうということは一般に多くありませんが、ブームが「ソフトランディング」するかどうかによってその後の状況は変わってくるもの。「浮かれてみんな飛びついていたけれども実は大したことがなかった・金と時間の無駄だった・害悪の方が大きかった」というような感じで反動が強ければ、ブームだったものはその後も定着

                                                      DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ
                                                    • 令和の「データサイエンティスト」に必要な能力

                                                      データサイエンティストに必要な能力 データサイエンティストという仕事が注目を集めています。インターネットの普及などITが進化したことで、企業が取り扱えるデータが格段に増えました。ビジネスにおいて、ヒト、モノ、金に次ぐ4つ目の経営資源として、データの活用が重要な要素となってきたのです。データを整理・分析し、ビジネスに活用する役割を担うのがデータサイエンティストです。 一般社団法人データサイエンティスト協会では、データサイエンティストに求められるスキルとして、3つの能力を定義しています。ビジネス力、データサイエンス力、データエンジニアリング力の3つです。 データを分析するだけであれば、データサイエンス力さえあればよいかもしれません。しかし、実際のデータサイエンティストには、データを処理すること(データエンジニアリング力)、分析すること(データサイエンス力)、その結果をビジネスに活用すること(ビ

                                                        令和の「データサイエンティスト」に必要な能力
                                                      • データサイエンティストが企業にとって有用な理由、そして新たにデータサイエンスを自社に導入するための3要件 - 渋谷駅前で働くデータサイエンティストのブログ

                                                        (Image by Pixabay) この国では未だに訳の分からない、何も実態を反映しない「データサイエンティスト論」がそこら中に流布されている模様ですが、そんな中Harvard Business Reviewにこんな素晴らしい記事が出ていたのを見つけたのでした。 その公式日本語記事が先日出たので、こちらの方が読みやすいかもしれません。 正直言って、この記事の本文をお読みいただければ特に何も付け加えることはありませんし、全く同じ内容の提言は異口同音に(それこそこのブログも含めて)この5年以上に渡って散々喧伝されてきたので今更繰り返すような話でもない気がしますが、個人的には非常に的を射た内容の記事だと感じたこともあり、自分の経験と合わせて少しまとめて解説してみようかと思います。 そもそもデータサイエンティストとは何者なのか(だったのか) 今回のHBR記事の提言 データサイエンスを独自の部門と

                                                          データサイエンティストが企業にとって有用な理由、そして新たにデータサイエンスを自社に導入するための3要件 - 渋谷駅前で働くデータサイエンティストのブログ
                                                        • 真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である - 渋谷駅前で働くデータサイエンティストのブログ

                                                          先日、こんな素晴らしい記事を読みました。 データ分析屋としてキャリアを積んでいる私にとってAgileの考え方はとても腑に落ちやすいものだった。そもそも、データ分析自体、繰り返しの検証をするものなのだ。 (太字原文ママ) 僕自身はソフトウェアエンジニアではないので、Waterfall / Scrum / Agileそれぞれの開発スタイルの定義や違いはたまたその実践について何か論評できる立場にはなく、エンジニアチームの現場にいたこともあるので「雰囲気ぐらいなら」おぼろげに分かっているという程度の理解レベルです。ただそれでも、この記事で提唱されている「データサイエンスはAgile」という考え方については、僕個人の経験から言っても大いに納得できるものがあります。 実は、ここ1年ぐらいデータ分析の仕事をしていく中で「手戻り」「ロールバック」は是か非か?という議論を目にする機会が何度もあり、その度にこ

                                                            真の正解が分からない中で最適解を求めて探索と手戻りを繰り返すことこそが、データ分析の本質である - 渋谷駅前で働くデータサイエンティストのブログ
                                                          • データサイエンティストが「鬼滅の刃」を読むべき理由

                                                            データサイエンティストが「鬼滅の刃」を読むべき理由:マスクド・アナライズのAIベンチャー場外乱闘!(1/3 ページ) 週刊少年ジャンプの漫画「鬼滅の刃」が、2020年5月に完結しました。アニメ化をきっかけに、漫画売上ランキング上位20位のうち19作が同作(※)という事態を迎えたほどの人気を得ました。 ITmedia読者の中には「読んでいない」「周囲はハマっているが、自分は興味ない」など、関心を持たない人もいるでしょう。しかしながら、データサイエンティスト視点において鬼滅の刃に学べる点は多々あります。 本記事では鬼滅の刃の内容が、学生や若手社会人などのデータサイエンティストを目指す人や、現在データサイエンティストとして活躍している人にとってどのように役立つかを紹介します。 なお、本記事ではアニメ版26話(単行本では7巻序盤)までの展開に触れるため、未見・未読の方はご注意ください。 ※2020

                                                              データサイエンティストが「鬼滅の刃」を読むべき理由
                                                            • LLMにデータ分析をさせてみる:テーブルデータの概要解釈 - 渋谷駅前で働くデータサイエンティストのブログ

                                                              先日こんな記事を書いたのでした。はてブも400近くに達しており、良くも悪くもバズったようです。 で、この記事の中で言いたかったことは幾つかあるのですが、その一つに「文書・テキスト要約など『そもそもLLMというかLM自体が得意な仕事』をさせると便利なはず」というのがありました。そして実際に現職の日常業務の中でも時々使っているのですが、確かに便利だなぁと思うことが多いです(もっとも時々凄まじいhallucinationを炸裂させてくることもありますが)。 そこでちょっと考えたのが「データ分析の諸作業のうち何をLLMにやらせると効率的か」というお題です。これはちょっと調べれば既に試している人が結構いて、例えば以下のような事例があったりします。 ただ、例えば "Titanic" のような有名過ぎるデータセットだとそこらじゅうにこれを対象として分析してみましたという記事やドキュメントが沢山転がってお

                                                                LLMにデータ分析をさせてみる:テーブルデータの概要解釈 - 渋谷駅前で働くデータサイエンティストのブログ
                                                              • ビジネスにサイエンスを持ち込むということ - 渋谷駅前で働くデータサイエンティストのブログ

                                                                先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。 個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネスモデルや業務プロセスをひっくり返す(変革する)」を意識してる。ビジネスモデルや業務プロセスを分析して、解消すべきボトルネックを見つけることから着手した方がスムーズかなと思ってる。 https://t.co/F2SBY57Vt7— Umepon (@shunji_umetani) 2023年9月25日 既にこのブログでも何度も述べていますが、いわゆる「データサイエンス」がここ10年の企業社会におけるビジネスに変革をもたらしているということは論を俟たないと思います。その観点から言えば、程度問題ながら「学問的なものでビジネスのボトルネックを解消する」「学

                                                                  ビジネスにサイエンスを持ち込むということ - 渋谷駅前で働くデータサイエンティストのブログ
                                                                • データサイエンティストになるには|仕事内容、スキル、学習サイト、書籍 | Ledge.ai

                                                                  サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                    データサイエンティストになるには|仕事内容、スキル、学習サイト、書籍 | Ledge.ai
                                                                  • サイバーエージェントのデータマイニング本がデータサイエンティスト必読書だった件 - LABOT 機械学習ブログ

                                                                    堀田(@YoshiHotta)です。この記事はサイバーエージェントの秋葉原ラボの方が執筆された『データマイニングエンジニアの教科書』の書評です。 企業でデータマイニングをする人に必要な知識を俯瞰できる、しっかりしたデータマイニングの本だと思いました。データマイニングの初心者にも中級者にもぜひオススメしたい一冊だったので書評を書くことにしました。 また、データマイニングの独習に役に立つ書籍も多数紹介します。 データマイニングエンジニアの教科書 作者: 森下壮一郎,水上ひろき,高野雅典,數見拓朗,和田計也出版社/メーカー: シーアンドアール研究所発売日: 2019/06/27メディア: Kindle版この商品を含むブログを見る この本は(特に Web 系の) データ分析の実務者に必要な事柄が網羅的に取り上げられています。300ページという厚さからすると扱っているテーマはとても幅広いです。一つ一

                                                                      サイバーエージェントのデータマイニング本がデータサイエンティスト必読書だった件 - LABOT 機械学習ブログ
                                                                    • 『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                      以前SQL黒魔術本をご恵贈いただいた旧友の田宮さんから、ちょっと異色な本をご恵贈いただきました。その名も『仕事の説明書』。副題に「あたなは今どんなゲームをしているのか?」とあるように、世の中の仕事をある種の「ゲーム」とみなして、これをどう攻略していくか?と説く意欲作です。元々彼とは前々職時代にアナリストとして一緒に働いたこともあるのですが、本書の中にもデータを分析していかにアクションに繋げるかという話題がふんだんに含まれています。 仕事の説明書〜あなたは今どんなゲームをしているのか〜 作者: 田宮直人,西山悠太朗,パブリック・ブレイン出版社/メーカー: 土日出版発売日: 2019/07/08メディア: 単行本この商品を含むブログを見る 実は、こちらの一冊に関してはまだゲラの段階で田宮さんから「こんな本を出してみようと思っている」という相談を直に受けたことがあり、そのご縁で今回ご恵贈いただい

                                                                        『仕事の説明書』はこれから仕事で独り立ちしたい若い人たちにこそ読んで欲しい「仕事というゲームの攻略本」 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                      • 「データサイエンティストのためのスキルチェックリストとタスクリスト」 データサイエンティスト協会が無料で公開

                                                                        「データサイエンティストのためのスキルチェックリストとタスクリスト」 データサイエンティスト協会が無料で公開:今必要とされるデータ利活用のためのスキルを体系化 データサイエンティスト協会とIPAは、「スキルチェックリスト」と「タスクリスト」の読み解き方や活用方法を記した公式ガイドブック『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』を刊行した。

                                                                          「データサイエンティストのためのスキルチェックリストとタスクリスト」 データサイエンティスト協会が無料で公開
                                                                        • 羅生門効果:マーケティングモデルを蝕む本質的な「曖昧さ」 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                          前回の記事でも触れましたが、ここ最近いわゆる需要予測系のマーケティングモデル(特にMedia Mix Modeling: MMM)を手掛けることが増えています。 この手の統計モデルは経済学で言うところの「実証分析」に当たると思われ、一般には「予測」よりも「説明」に用いられることが多いです。より具体的に言えば、回帰モデルを推定した上で個々の変数のパラメータを比較して、例えば「デジタル動画広告をもっと強化した方が良い」というようなマーケティング上の示唆を得る、というような目的で用いられます。 ところが、これまた前回の記事で触れた通りでそれらのモデルに基づく「説明」には、どうしても「羅生門効果」の問題が生じ得ます。即ち、同じデータセットに対して似たような性能を示す回帰モデルが複数並び立った場合、どのモデルの「説明」を優先すべきか?という問題です。これは純粋に統計的学習分野の問題として捉えればある

                                                                            羅生門効果:マーケティングモデルを蝕む本質的な「曖昧さ」 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                          • ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ

                                                                            統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。 このブログでも2016年ぐらいから因果推論に関する記事をちらほら書くようになり、僕個人にとってもまた因果推論と言えば馴染み深い概念になってきたという感があります。 一方で、ビジネス実務の現場においても「因果推論」という言葉は使われないにせよ、かなりはっきりと「因果」についての知見もしくは説明可能性が求められるようになってきた、という印象が個人的にはあります。それは良くも悪くもDXブームでありとあらゆるビジネスに関わる事由がデータ化され、「相関」だけなら簡単に見つけられるようになったことで、相関だけからは見えてこない「因果」をはっきりさせたいという願望が浮かび上がってきた、ということなのかもしれません。 そ

                                                                              ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ
                                                                            • イナバ @inaba_desu Microsoftデータサイエンティストの @hiro_gamo さんが公開したChatGPTに関する資料(全90ページ)がAI理解にオススメ。 ・GPTの概要、活用事例、弱点 ・GPTのパターメーターやトークン ・プロンプトエンジニアの学習法 など。 非エンジニアの私でも理解できました。

                                                                              • データサイエンティストの役割は“ほぼ全部”AIに奪われた 尾原和啓氏×橋本大也氏が振り返る、ここ10年のAIの進化

                                                                                デジタルハリウッド大学で開催された「近未来教育フォーラム2023」。生成系AIを中心に、人工知能やビッグデータに精通した専門家による対談などを通じて、教育の未来について議論しました。本記事では、IT批評家の尾原 和啓氏とデジタルハリウッド大学の教授・橋本大也氏の講演の模様をお届けします。 尾原和啓氏×橋本大也氏が振り返る「Life In Dataの10年」 細野康男氏(以下、細野):みなさまこんにちは。デジタルハリウッドの細野と申します。お忙しい中、お越しいただきありがとうございます。今日は貴重なお二人をお招きしまして、お時間を取っていただきました。尾原先生、デジタルハリウッドへの来校は初めてですか? 尾原和啓氏(以下、尾原):この校舎は初めてですが、旧校舎の時代に大学院で何回か講師をさせていただいたことがありました。 細野:そうですか。 尾原:こんなきれいなビルに入っていると思っていなか

                                                                                  データサイエンティストの役割は“ほぼ全部”AIに奪われた 尾原和啓氏×橋本大也氏が振り返る、ここ10年のAIの進化
                                                                                • 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表ニュース|一般社団法人データサイエンティスト協会

                                                                                  HOME ニュース プレスリリースの記事一覧 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表 このたび、データサイエンティスト協会 スキル定義委員会(委員長:安宅 和人、副委員長:佐伯 諭)は、10月20日(金)に開催した「データサイエンティスト協会10thシンポジウム」内において発表した、データサイエンティストに必要とされるスキルをまとめた「データサイエンティスト スキルチェックリスト」の第5版を公開いたしました。 本内容は、2021年に第4版として公開したデータサイエンティストの「ミッション、スキルセット、定義、スキルレベル」および「スキルチェックリスト」を、現在のビジ

                                                                                    2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表ニュース|一般社団法人データサイエンティスト協会