並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 90件

新着順 人気順

"Data Science"の検索結果41 - 80 件 / 90件

  • 「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも

    「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも(1/3 ページ) 高速道路の料金を無線通信で支払えるETCは、1日あたりの利用台数が780万台を超え93.9%が利用するまで普及した。そして次世代版であるETC2.0も、2015年に始まって以来835万台に搭載され、利用率で見ると28.7%を占めるに至っている。高速道路を走っているクルマの4台に1台はETC2.0を使っているわけだ。 しかしETC2.0が、クルマの位置情報や速度などを、国土交通省のサーバに随時アップロードしていることは意外と知られていない。

      「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも
    • Kaggleで勝ちっぱなしのデータサイエンティストに話を聞いてみた | AI専門ニュースメディア AINOW

      著者のParul Pandey氏は世界各地に拠点のあるAIスタートアップH2O.aiでデータサイエンス・エバンジェリストを務めており、AINOW翻訳記事『あなたのビジネスにAI戦略を効果的に使用する方法』の著者でもあります。同氏が最近Mediumに投稿した記事では、H2O.aiに所属するKaggleグランドマスターにKaggleの取り組み方に関してインタビューしました。 データサイエンティストのPhilipp Singer氏は、オーストリアのグラーツ工科大学で博士号を取得後、自身の知識を応用する機会を求めてデータサイエンス業界に入りました。同氏がKaggleを始めたのは単なる情報収集がきっかけだったのですが、優秀な成績をおさめたことによってKaggleに夢中になりました。そんな同氏のKaggleの取り組み方、そしてKaggleから学んだことの要点をまとめると、以下のようになります。 Kag

        Kaggleで勝ちっぱなしのデータサイエンティストに話を聞いてみた | AI専門ニュースメディア AINOW
      • 時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい

        時系列モデルを扱う上でデファクトスタンダードになりそうなPythonライブラリが出てきました。 時系列モデルを扱うPythonライブラリは、 scikit-learn のようなデファクトスタンダードなものがありません。そのため時系列モデルを用いて実装を行うためには、様々なライブラリのAPIなどの仕様を理解しつつ、それに合わせてデータ整形を行い、評価する必要があり、これはなかなか辛い作業でした。 スイスの企業 Unit8 が今年(2020年)6月末に公開した Darts はまさにこういった課題を解決するライブラリです。時系列に関する様々なモデルを scikit-learn ベースのAPIで統一的に扱うことができます。 github.com Darts は現在、下記のモデルに対応しています。内側では statsmodels 、 Prophet(stan) 、 Pytorch などを使っていて、

          時系列モデル(ARIMA/Prophet/NNなど)を統一的なAPIで扱えるPythonライブラリ「Darts」がかなり便利 - フリーランチ食べたい
        • A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ

          はじめに 研究開発チームの関です。古川未鈴さんの結婚、ニジマス大門果琳さんの卒業、uijinの解散とアイドル業界も激動の秋を迎えていますね。 2019年8月4日から5日間、アメリカはアラスカ州アンカレッジで開催されたデータマイニング領域のトップカンファレンスであるKDD2019にGunosyから北田と関が参加・発表してきました。 これまでに2つのレポートを公開しています。 data.gunosy.io data.gunosy.io 本レポートではTutorialとして開催された「Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments」の内容をレポートします。 内容は現在のA/Bテストのガイドラインと言ってもいい内容で、非常に参考になるポイントが多かったです。

            A/Bテストのベストプラクティスと落とし穴 ~KDD2019 レポート~ - Gunosyデータ分析ブログ
          • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

            こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

              高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
            • 「データサイエンティストが『その会社の本業部門』にしかいない」問題 - 渋谷駅前で働くデータサイエンティストのブログ

              (Image by Pixabay) ちょっと前にこんなことを書きました。 洋の東西を問わずどこの事業会社でもあるあるなのが、プロダクト部門には山ほど優秀なデータサイエンティストや機械学習エンジニアがいるのに、広告・マーケ部門にはDSやMLエンジニアはおろか普通のエンジニアもアナリストもいないので外部コンサルやベンダーに頼りきり、という現象。灯台下暗し— TJO (@TJO_datasci) 2019年12月26日 これ、実は広告・マーケティング業界に限らずあらゆる分野業界のデータ分析事情について言えることなのですが、ここで言う「プロダクト部門」を「(その会社の)本業部門」と言い換えるとさらに普遍性の高い話であるように、僕の個人的な体験と見聞からは思われます。 ということで既に年末ポエムを書いてしまった後なのですが、今後データサイエンティスト(広義:よって機械学習エンジニアやデータアーキテ

                「データサイエンティストが『その会社の本業部門』にしかいない」問題 - 渋谷駅前で働くデータサイエンティストのブログ
              • Streamlit • The fastest way to build and share data apps

                Streamlit turns data scripts into shareable web apps in minutes. All in pure Python. No front‑end experience required.

                  Streamlit • The fastest way to build and share data apps
                • データ分析の効率が10倍上がるデータサイエンティストのためのChatGPTの活用術 - Qiita

                  ChatGPTを使ってデータサイエンティストの生産性を爆上げする活用術をまとめました! また、データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。 データ前処理 「ChatGPTを使用すると、「データを分析可能な形に前処理して」といった大雑把なリクエストに対しても、すんなりと対応し、データ前処理を行ってくれます。」 今のところ、大量のデータを前処理する際にChatGPTを利用する場合は、ChatGPTに実際の前処理を行わせるのではなく、前処理用のサンプルコードを教えてもらう方が良いでしょう。 ただし、近い将来にはCSVやExcelを直接アップロード&ダウンロード可能な「Code Interpreter」というプラグインが追加される予定とのことで、実務利用が大いに現実味を帯びると考えられます。 詳細は以下のページで紹介しています!

                    データ分析の効率が10倍上がるデータサイエンティストのためのChatGPTの活用術 - Qiita
                  • Good Data Analysis  |  Machine Learning  |  Google for Developers

                    Good Data Analysis Stay organized with collections Save and categorize content based on your preferences. Author: Patrick Riley Special thanks to: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook, and Barry Rosenberg. History Last Major Update: Jun. 2019 An earlier version of some of this material

                      Good Data Analysis  |  Machine Learning  |  Google for Developers
                    • データ整備の基礎

                      2022/04/07 初版公開 お問い合わせ先 Twitter:@data_analyst_ メールフォーム:https://bit.ly/37orRqa 執筆者:しんゆう ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net

                        データ整備の基礎
                      • 新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか - 渋谷駅前で働くデータサイエンティストのブログ

                        (Image by Pixabay) のっけから不穏なタイトルで恐縮ですが、個人的に新型コロナウイルスの感染拡大初期の頃から懸念していた事態が徐々に現実になる流れが見え隠れしており、自分自身の警戒も込めて記事にしてみました。関連資料の誤読・理解不足・認識の誤りなどあればご指摘ください。 UberのAI部門解散というニュースの衝撃 その他の企業及びデータ分析業界の雇用情勢について 新型コロナウイルス禍で「余興」としてのデータサイエンスやAI研究開発を続ける余裕が失われていく? 結局のところは「本業」「好景気」なprofit center部門に行くべき? UberのAI部門解散というニュースの衝撃 先日3700人を解雇すると発表したUberなのですが、最近さらに中核であるライドシェア事業を中心に3000人を解雇すると発表して波紋が広がっているようです(フードデリバリー事業は拡充するとのこと)。

                          新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか - 渋谷駅前で働くデータサイエンティストのブログ
                        • データデータデータデータデータデータって聞き飽きたのでなんとかしたい|松本健太郎

                          数ヶ月ほど前、東京都内某所で開催された飲み会での出来事です。 横に座ったオッサンに職業を問われたので「データサイエンスを少し」と答えたら、大げさに「凄いねぇ!」と返され、羨ましそうに言われました。 「データサイエンティストなら、色んなデータ集めて、タピオカの次に何が流行るか分かるでしょ! いーねぇ、楽できて! 稼ぎ放題だ!」 冗談で言ったつもりかもしれません。それでも、オッサンの頭皮に、桃屋のラー油を染み込ませてやろうかと思うほどのイラつきを覚えました。辛そうで辛くないけど少し辛いらしいし。 「ハッハッハッ、冗談が過ぎます。データに幻想を持ち過ぎですよ!」 なんて言い返せれば良かったのですが、まだまだ人間ができていませんね。押し黙ってしまいました。そして睨んでしまった。 それにしても、なぜこんな発言が出るのでしょうか。オッサンはそれなりのキャリアを持つ人で、日経新聞も読み、社会情勢には詳し

                            データデータデータデータデータデータって聞き飽きたのでなんとかしたい|松本健太郎
                          • データエンジニアと作るデータ文化

                            オープンセミナー広島2022での登壇資料です。 当日のライブ配信です。 Youtube https://www.youtube.com/watch?v=XgVbZZyoFxQ

                              データエンジニアと作るデータ文化
                            • Papers with Code - Machine Learning Datasets

                              CIFAR-10 (Canadian Institute for Advanced Research, 10 classes) The CIFAR-10 dataset (Canadian Institute for Advanced Research, 10 classes) is a subset of the Tiny Images dataset and consists of 60000 32x32 color images. The images are labelled with one of 10 mutually exclusive classes: airplane, automobile (but not truck or pickup truck), bird, cat, deer, dog, frog, horse, ship, and truck (but no

                                Papers with Code - Machine Learning Datasets
                              • データサイエンスのためのPython入門①〜DockerでJupyter Labを使う〜

                                  データサイエンスのためのPython入門①〜DockerでJupyter Labを使う〜
                                • データサイエンス100本ノックを、Google ColabとAzure Notebooksで気軽に行いたい! - Qiita

                                  データサイエンス100本ノックを、Google ColabとAzure Notebooksで気軽に行いたい!PythonAzureデータサイエンス100本ノックGoogleColaboratory はじめに 2020年6月15日に、データサイエンティスト協会より発表されました「データサイエンス100本ノック(構造化データ加工編)」の素晴らしさに感動した私は早速ドリルを解き、めくるめくデータサイエンスの大冒険をエンジョイしていた。 しかし、ふと気づくとOriginalのデータサイエンス100本ノック(構造化データ加工編)はDocker形式で提供されており、実践的な演習が可能である一方でお手軽感はかった。同じ思いの人も数多く存在すると考え、より気軽に100本ノックするためにGoogle ColabとAzure Notebookで実行可能な演習スクリプトと解答編スクリプトを作成した。なお、作成者

                                    データサイエンス100本ノックを、Google ColabとAzure Notebooksで気軽に行いたい! - Qiita
                                  • 謎の実力派データ分析集団・ホクソエムに「データが扱えるマーケター」になるためのキャリア論を聞く | [マナミナ]まなべるみんなのデータマーケティング・マガジン

                                    ―今日は株式会社ホクソエムのお二人とヴァリューズの輿石さんに、データアナリストのキャリア論についてお聞きしていきたいのですが、本題に入る前にまずひとつお尋ねしたいです。なかなか実態の掴みづらいホクソエムという会社は、一体何者なのでしょうか…?(笑) タカヤナギ=サン:それについては牧山さんが会社の歴史をきれいに話してくれるかと。 牧山さん:いや〜話せないですね。もう忘れました(笑)。 タカヤナギ=サン:おっと。では私から簡単に話すと、まずホクソエムは匿名知的集団ホクソエムからはじまり2016年に株式会社となりました。代表取締役は私と牧山の2人。メンバーは計8名で、働き方改革とダイバーシティを体現して全員副業で回してます。 メンバーの特性としては、みんな本業の所属組織で実務をバリバリこなしつつ、博士号を持っているのが8分の3。残り5名も少なくともマスター卒で、データ分析に特化した人が集まるス

                                      謎の実力派データ分析集団・ホクソエムに「データが扱えるマーケター」になるためのキャリア論を聞く | [マナミナ]まなべるみんなのデータマーケティング・マガジン
                                    • 身近なデータで30分クッキング:Google Meetのログを解析してみる編 - MNTSQ Techブログ

                                      最近、身近なスモールデータをさくっと分析してみる機会があったので、過程をまとめてみました。スモールデータの解析であっても、前処理、可視化、示唆出しなどデータ分析に必要な所作というのは変わりません。ステップに分けながら紹介したいと思います。 今回はツールにGoogle Spreadsheetしか使っていないので、ノンエンジニアのビジネスサイドの人であっても同じ分析を回すことができます。Google Workspace(Gsuite)を使っている企業であれば紹介した生データも取得ができるかと思いますし、30分くらいしかかからないので、試してみると面白いかもしれません。 今回取扱いたいデータはGoogle Meetのログデータです。COVIDの影響で営業や採用文脈でリモートMTGが増えました。「最近、リモートMTGのちょっとした遅刻、多くない?」という社内のふとした問題提起から、実際にログをみる

                                        身近なデータで30分クッキング:Google Meetのログを解析してみる編 - MNTSQ Techブログ
                                      • Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ

                                        Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?Apache Arrowは数年後にはデータ処理界隈で重要なコンポーネントになっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので1年ほど前にApache Arrowの最新情報(2018年9月版)をまとめました。この1年ですごくよくなったので2019年9月現在の最新情報を紹介します。 私は、PMCの中では唯一の日本人1で、コミット数は2番目に多い2ので、日本ではApache Arrowのことをだいぶ知っている方なはずです。Apache Arrowの情報は日本語ではあまりないので日本語で紹介します。 ちなみに、英語ではいろいろ情報があります。有用な情報源は

                                          Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ
                                        • データ無しからの機械学習:どのように機械学習のポートフォリオを作るか

                                          (この記事はEdouard Harris氏が書いたThe cold start problem: how to build your machine learning portfolioを、著者の許可を得て日本語訳したものです。) 私はY Combinator出資のスタートアップ企業に勤務する物理学者です。我々は新卒の学生が機械学習の仕事に付くことを支援しています。一昔前に、機械学習の仕事に付くためにすべきことについて書きました。その投稿の中でやるべきことの一つとして、機械学習プロジェクトのポートフォリオを作ることをお勧めました。しかし、どのようにすればポートフォリオを作れるかということについては書かなかったので、今回の投稿ではその話をします。[1] 我々のスタートアップの事業がら、私は良いものも悪いものも含め数百に登るプロジェクトを見て来ました。その中から2つの素晴らしいプロジェクトを紹

                                            データ無しからの機械学習:どのように機械学習のポートフォリオを作るか
                                          • データサイエンティストが「鬼滅の刃」を読むべき理由

                                            データサイエンティストが「鬼滅の刃」を読むべき理由:マスクド・アナライズのAIベンチャー場外乱闘!(1/3 ページ) 週刊少年ジャンプの漫画「鬼滅の刃」が、2020年5月に完結しました。アニメ化をきっかけに、漫画売上ランキング上位20位のうち19作が同作(※)という事態を迎えたほどの人気を得ました。 ITmedia読者の中には「読んでいない」「周囲はハマっているが、自分は興味ない」など、関心を持たない人もいるでしょう。しかしながら、データサイエンティスト視点において鬼滅の刃に学べる点は多々あります。 本記事では鬼滅の刃の内容が、学生や若手社会人などのデータサイエンティストを目指す人や、現在データサイエンティストとして活躍している人にとってどのように役立つかを紹介します。 なお、本記事ではアニメ版26話(単行本では7巻序盤)までの展開に触れるため、未見・未読の方はご注意ください。 ※2020

                                              データサイエンティストが「鬼滅の刃」を読むべき理由
                                            • PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog

                                              こんにちは!nakamura(@naka957)です。本記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。 探索的データ分析(Explanatory Data Analysis: EDA)とは、データセットを様々な視点から分析し、データを考察することを目的に行うことです。EDAで得られた知見や仮説を活用し、その後のデータ分析や機械学習モデルの構築を有効に行うことができます。 データを考察するための最も有効な手法は、可視化することです。そのため、データを可視化するスキルはEDAにおいて非常に重要になります。本記事ではEDAを目的とした可視化する方法をご紹介します。 では、早速始めていきます。 PyCaretとは AutoVizとは ライブラリのインストール 実行の前準備 EDAの実行 散布図 棒グラフ 密度分布 Violinプロット ヒートマップ(相関係数) Auto

                                                PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog
                                              • Mathematical Tools for Data Science - NYU Center for Data Science

                                                Description This course provides a rigorous introduction to mathematical tools for data science drawn from linear algebra, Fourier analysis, probability theory, and convex optimization. The main topics are covariance matrices, principal component analysis, linear regression, regularization, sparse regression, frequency representations, the short-time Fourier transform, wavelets, Wiener filtering,

                                                • 総務省、データサイエンス・オンライン講座「社会人のためのデータサイエンス入門」の受講者募集を開始

                                                  2019年7月23日、総務省は、データサイエンス・オンライン講座「社会人のためのデータサイエンス入門」の受講者募集を開始しました。 同講座は、日本オープンオンライン教育推進協議会(JMOOC)公認の配信プラットフォーム「gacco」において2019年10月8日から開講されます。受講に係る登録料、受講料は無料です。 2018年5月に実施した講座を再び開講するものであり、統計学の基礎やデータの見方に加えて、国際比較データを使った分析事例や公的データの入手・利用方法の紹介等を通じ、データ分析の基本的な知識を学習することができます。 データサイエンス・オンライン講座「社会人のためのデータサイエンス入門」の受講者募集開始(総務省, 2019/7/23) http://www.soumu.go.jp/menu_news/s-news/01toukei09_01000046.html データサイエンス・

                                                    総務省、データサイエンス・オンライン講座「社会人のためのデータサイエンス入門」の受講者募集を開始
                                                  • ガートナーのアナリストが選ぶ、データサイエンスと機械学習の最新トレンド10選

                                                    「3つのD」が示すAIの最新トレンド Gartner バイス プレジデント アナリスト カーリー・アイディーン氏 講演の冒頭でアイディーン氏は「今、AIは複雑なものになってきたと同時に、とても面白い段階にある」と語った。同氏は講演の中で10のトレンドを取り上げ、それぞれを「Democratized:民主化」「Dynamic:ダイナミズム」「Data-Centric:データ中心」の3つのDで整理した(図1)。 図1:データサイエンスと機械学習の将来を示す3つのD 出典:ガートナー 1つ目のDは、データサイエンスや機械学習を組織の中のあらゆる人たちが使えるようにする「民主化」である。ややもすれば、機械学習モデルのライフサイクルにおける大半の仕事が、データサイエンティストだけが担うものと捉えられてきた。ほとんどの社員にとって、データサイエンスは敷居の高い存在であり、専門家に任せた方が合理的と思え

                                                      ガートナーのアナリストが選ぶ、データサイエンスと機械学習の最新トレンド10選
                                                    • レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog

                                                      Analytics Infra チームの@hizaです。 この記事ではメルカリの分析環境を改善した事例を紹介します。 今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。 また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。 メルカリのデータ活用の現状 メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。 こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業

                                                        レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog
                                                      • 40+ Modern Tutorials Covering All Aspects of Machine Learning - DataScienceCentral.com

                                                        Home » Uncategorized40+ Modern Tutorials Covering All Aspects of Machine Learning CapriGranville733December 10, 2019 at 3:30 am This list of lists contains books, notebooks, presentations, cheat sheets, and tutorials covering all aspects of data science, machine learning, deep learning, statistics, math, and more, with most documents featuring Python or R code and numerous illustrations or case st

                                                          40+ Modern Tutorials Covering All Aspects of Machine Learning - DataScienceCentral.com
                                                        • にゃんこそば☀データ可視化 on Twitter: "核家族で「世帯年収1,000万円以上」の割合を示した地図。 地域格差がどうこう・・・というより、"都心や大企業の拠点に通いやすいファミリー向けエリア" が可視化されている印象。 ※世帯収入は年齢とも相関するので単純比較はNGです… https://t.co/BRuHaDlYD7"

                                                          核家族で「世帯年収1,000万円以上」の割合を示した地図。 地域格差がどうこう・・・というより、"都心や大企業の拠点に通いやすいファミリー向けエリア" が可視化されている印象。 ※世帯収入は年齢とも相関するので単純比較はNGです… https://t.co/BRuHaDlYD7

                                                            にゃんこそば☀データ可視化 on Twitter: "核家族で「世帯年収1,000万円以上」の割合を示した地図。 地域格差がどうこう・・・というより、"都心や大企業の拠点に通いやすいファミリー向けエリア" が可視化されている印象。 ※世帯収入は年齢とも相関するので単純比較はNGです… https://t.co/BRuHaDlYD7"
                                                          • データサイエンティストにとっては「技術」も「課題解決」も等しく重要 - 渋谷駅前で働くデータサイエンティストのブログ

                                                            旧知のシバタアキラさん*1が、こんなインタビュー記事に登場されていて話題を呼んでいるのを拝見しました。日本の第一次データサイエンティスト(DS)ブームの最初期から一貫してDSとして活動し、それ以前はポスドク研究者だったという、僕個人にとってはあまりにも共通点の多い「同世代DS」のシバタさんのメッセージだけに、僕にとっては大いに首肯できるものがあります。 ただ、無駄を削いでエッセンスだけに絞られたメッセージになっているせいか、各所で付いている反応の数々を見ると「もしかしたら誤解されているのでは?」という印象を受けるものもチラホラ目についたのが気になりました。そこで、勝手ながらシバタさんのメッセージに合わせて、同世代DSとして僕も長年感じてきた課題意識を盛り込んだ注釈もしくは解説のようなものを書いてみようと思います。要はポエムですので、R/Pythonコードも数式も出てきませんよということで、

                                                              データサイエンティストにとっては「技術」も「課題解決」も等しく重要 - 渋谷駅前で働くデータサイエンティストのブログ
                                                            • Python open source libraries for scaling time series forecasting solutions

                                                              By Francesca Lazzeri. This article is an extract from the book Machine Learning for Time Series Forecasting with Python, also by Lazzeri, published by Wiley. In the first and second articles in this series, I showed how to perform feature engineering on time series data with Python and how to automate the Machine Learning lifecycle for time series forecasting. In this third and concluding article,

                                                                Python open source libraries for scaling time series forecasting solutions
                                                              • CPANに上がっているモジュールが対応しているPerlの最小バージョンの統計情報 - 私が歌川です

                                                                CPANに上がっているモジュールが対応しているPerlの最小バージョンの傾向が知りたくなったので、調査することにした。直感では、最低でもPerl 5.8に対応しているモジュールが最も多いと思っていた。 情報を取得する metacpanにはAPIがある*1ので、これを叩いて情報を取得する。 以下のコマンドで、この記事を書き始めた日までの1年間 (2020/5/4 - 2021/5/4) のリリースのうち、最新バージョンのリリースについて検索した。 $ curl -XPOST https://fastapi.metacpan.org/v1/release/_search -d @query.json > result.json query.json にはこういうクエリを書いた。Elasticsearchのクエリは普段あまり手書きしないのでちょっと苦労した。 { "query": { "bool

                                                                  CPANに上がっているモジュールが対応しているPerlの最小バージョンの統計情報 - 私が歌川です
                                                                • データに携わるなら学んでおきたい"データマネジメント"について - Qiita

                                                                  データに携わるなら学んでおきたいデータマネジメントについてまとめました。 誰かの「データマネジメントを学ぶきっかけ」になれば幸いです! 想定読者 データ分析をする方(データサイエンティストなど) データ基盤を担当している方(データエンジニアなど) IT部門ではないが仕事でデータ活用を求められている方(事業部の方など) ゼロからデータマネジメントを学びたい方 データマネジメントとは データマネジメントとは「データを資産として捉え、体系的に価値を引き出すための手法」です。 資産なので置き場所を決めます 資産なので盗まれたり、なくなったりしないようにします 資産がどこからきて、どこへ行くのかを把握します 資産の価値が減らないように気を配ります 資産を監督する人や、そのルールを決めます 引用:データマネジメントが30分でわかる本 | ゆずたそ, はせりょ, 株式会社風音屋, ゆずたそ | 経営情報

                                                                    データに携わるなら学んでおきたい"データマネジメント"について - Qiita
                                                                  • Rubyコミッターの村田賢太がApache Arrowのコミッターに就任

                                                                    株式会社Speee開発部R&Dグループ所属のRubyコミッター、村田賢太/mrkn がApache Arrowのコミッターに就任いたしました。 https://arrow.apache.org/committers/ Apache Arrowとは、オンラインメモリのデータ表現、データ処理を効率化するプロジェクトです。 村田は弊社のデータ利活用を推進するR&D領域に対して指導的な役割を担っておりますが、今回のApache Arrowコミッター就任によって、さらに先進的な挑戦ができるものと期待しております。 プログラミング言語Rubyの開発者であり、弊社技術顧問のまつもとゆきひろ氏は、以下のようにコメントしています。 Apache Arrowを使えば、異なる言語間でも効率よくデータを共有できるので、「適材適所」のシステムを構築できます。 これはPythonやJava(Spark)などを追いかけ

                                                                      Rubyコミッターの村田賢太がApache Arrowのコミッターに就任
                                                                    • 機械学習 実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog

                                                                      こんにちは! nakamura(@naka957)です。 今回はクラスタリングをご説明します。クラスタリングは教師なし学習に代表される手法の1つで、正解情報なしでデータ間の類似性を推定し、グループ化する手法です。DATA Campusでは、これまでに教師なし学習の概要とその手法の1つの主成分分析について解説しています。そちらも是非参考にしてみてください。 ■機械学習における教師なし学習の理解を深める ■教師なし学習の実践 主成分分析で高次元データを可視化する 本記事では、最初にクラスタリングの概念と主要な手法であるk-means法について説明します。次に、実装例の紹介に加え、同じ教師なし学習である主成分分析と組み合わせることで、クラスタリングをより有効に機能する例も紹介します。k-means法は単純なアルゴリズムで、様々な場面で簡単に適用できる手法です。是非、この機会にマスターしてみてくだ

                                                                        機械学習 実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog
                                                                      • 機械学習を利用するコンポーネントの継続的な性能検証と Locust を利用した負荷テストの実施方法 - DATAFLUCT Tech Blog

                                                                        こんにちは。本稿では機械学習を利用したコンポーネントの処理速度の計測方法、および負荷テストのやり方について解説してゆきます。 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習アルゴリズムを適用する関数の処理速度を検証 実行時間を測定 関数の実行時間を算出するデコレーター 性能評価テストと継続的な性能チェック 機械学習 API の性能を評価する Locust:インストールと負荷テスト設定追加 Locsutを使った測定測定 もうすこし高度な使い方 分散実行 コマンドラインから実行 まとめ 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習を利用したタスクでは、モデルの精度に注意が行きがちです。しかし、一般的なWebアプリケーションでは入力はリソースID(ユーザIDなど)やシンプルなJSONである場合が多いのに対し、機械学習は入データ(自然言語や画像など)や

                                                                          機械学習を利用するコンポーネントの継続的な性能検証と Locust を利用した負荷テストの実施方法 - DATAFLUCT Tech Blog
                                                                        • 接種率とコロナ

                                                                          以下は2022-08-12の一連のツイートをまとめたものである。データは2022-08-13朝に再取得し、人口密度などのデータは2020年国勢調査に統一したので、ツイートとは若干異なるかもしれない。 札幌医科大学のゲノム医科学部門に人口あたりの新型コロナウイルス感染者数の推移【世界・国別】という便利なページがある。その下に【都道府県別】人口あたりの新型コロナウイルス感染者数の推移、【都道府県別】新型コロナウイルスワクチン接種率の推移などがあり、最新データをダウンロードできる(ちょっとわかりづらい)。 とりあえず「都道府県別人口100万人あたりの感染者数_[令和2年10月国勢調査]_2022-08-12.csv」、「都道府県別ワクチン追加接種率(3回目,全人口に対するパーセント)_[令和2年10月国勢調査]_2022-08-11.csv」をダウンロードした。CSVファイル(文字コードはUTF

                                                                          • 社内でデータ分析コンペティションを開催しました

                                                                            こんにちは、デジタル改革推進部の河合と浅野です! 私たちデジタル改革推進部では、普段から全社で使うためのデータ分析環境の開発・提供を行っています。 今回は社内でデータ分析コンペティションを開催したのでその内容を報告します。 社内データ分析コンペティションとは? 社内にある様々なデータ活用課題をコンペティション形式に落とし込み、全社で知恵をしぼって解こうという試みです。 もともと、データサイエンスの界隈ではKaggleやatmaCupと呼ばれる分析力を競うコンペが行われており、課題や技術を集団で共有して解く文化があります。 今回はそれらを参考に、社内のデータを使ったコンペを 6/21~7/2 の2週間にかけて初開催しました。 開催にあたって期待したことは、以下の3つです。 様々な部署に散らばっているサービス特有のドメイン知識、データ、分析技術を一箇所に集める 優れたソリューションを集合知によ

                                                                              社内でデータ分析コンペティションを開催しました
                                                                            • 軽石漂流 衛星データとSNSで追う

                                                                              8月13日に噴火した小笠原諸島の海底火山、福徳岡ノ場から発生した大量の軽石は、九州・沖縄を中心に大きな被害をもたらしたのち、海流に乗って沖縄県の宮古島や東京都の伊豆諸島まで到達した。黒潮によって本州に近づく可能性もあり、大都市圏に大量に漂着すれば工業生産や流通にも大きな影響が及びかねない。軽石のこれまでの漂流の軌跡と今後の到達予測について、研究機関の衛星画像分析データやSNS情報を使って追跡する。 ①海洋研究開発機構(JAMSTEC)が公表している福徳岡ノ場からの軽石の漂流予測、②JAXA(宇宙航空研究開発機構)およびオーストラリア・タスマニア大学の池上郁彦氏がそれぞれ衛星画像を解析して特定した実際の軽石浮遊範囲、③SNSや公的機関の発表などで軽石の漂着・浮遊が確認された地点の3つのデータを重ね合わせた。①の予測データについては、11月末までは10月28日の発表分、12月3〜6日は11月2

                                                                                軽石漂流 衛星データとSNSで追う
                                                                              • Microsoft 資格 AI-900 / DP-100 勉強法 - Qiita

                                                                                Introduction まったくもって自分の専門ではないのですが、「スキルは正義」ということで ML/AI の勉強を始めてみました。 仕事の合間を縫って 1 週間ほど勉強した成果を確認するために、とりあえず Microsoft が提供する AI-900 および DP-100 に挑戦しひとまず合格することができたので、私がリアルに行った必要最小限と思われる勉強法を紹介します。 ちなみに、Microsoft は ML/AI およびデータサイエンティスト系エンジニア向けに、以下の 3 つの試験を公開しています(2020.10.20時点) AI-900: Microsoft Azure AI Fundamentals AI-100: Designing and Implementing an Azure AI Solution DP-100: Designing and Implementing

                                                                                  Microsoft 資格 AI-900 / DP-100 勉強法 - Qiita
                                                                                • 数理・データサイエンス・AI教育強化拠点コンソーシアム

                                                                                  News 数理・データサイエンス・AI教育強化拠点コンソーシアムでは,会員校を公募しています. 詳細ページ 連携校として国立大学もご参加いただけるようになりました。 2023.9.8 名古屋大学 数理・データ科学教育研究センター長 武田 一哉 教授 のインタビュー記事を掲載しました. 2023.6.3 コンソーシアムの ニュースレターvol. 18 を掲載しました. 2023.5.9 東北大学データ駆動科学・AI教育研究センター長 早川 美徳 教授 のインタビュー記事を掲載しました. 2023.1.31 コンソーシアムの ニュースレターvol. 17 を掲載しました. 2023.1.25 特定分野会議(理工系)ページを開設しました。成果物として、応用基礎レベルモデルシラバス(理工系)等を掲載しています。 2022.12.16 神戸大学 数理・データサイエンスセンター長 小澤 誠一 教授 の