並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 90件

新着順 人気順

"Data Science"の検索結果1 - 40 件 / 90件

  • データに付加価値を与える技術

    はじめに株式会社ナウキャストでデータエンジニアをしている沼尻です。 この記事では、私が担当している「マッピング」という業務についてご紹介したいと思います。マッピングと言われてもピンと来ないと思いますが、あまり語られることのない(それがゆえに何と呼称したらよいかさえ定かではない)データエンジニアリングの重要な一領域だと思っていて、他社さんにも類似する業務が存在するのではないかと思っています。この記事をきっかけにして、他社さんと情報交換や技術交流などができたら嬉しいですし、ひいては、将来的なマッピング(ないしその類似業務)に関する知識の体系化につながれば幸いです。 マネージャーやエンジニアの募集もしていますので、ご興味を持っていただけたら、この記事の最後に掲載している求人をご確認いただければと思います。 マッピングとは何かナウキャストでは、パートナーから様々なオルタナティブデータ(POSデータ

      データに付加価値を与える技術
    • データ分析の効率が10倍上がるデータサイエンティストのためのChatGPTの活用術 - Qiita

      ChatGPTを使ってデータサイエンティストの生産性を爆上げする活用術をまとめました! また、データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。 データ前処理 「ChatGPTを使用すると、「データを分析可能な形に前処理して」といった大雑把なリクエストに対しても、すんなりと対応し、データ前処理を行ってくれます。」 今のところ、大量のデータを前処理する際にChatGPTを利用する場合は、ChatGPTに実際の前処理を行わせるのではなく、前処理用のサンプルコードを教えてもらう方が良いでしょう。 ただし、近い将来にはCSVやExcelを直接アップロード&ダウンロード可能な「Code Interpreter」というプラグインが追加される予定とのことで、実務利用が大いに現実味を帯びると考えられます。 詳細は以下のページで紹介しています!

        データ分析の効率が10倍上がるデータサイエンティストのためのChatGPTの活用術 - Qiita
      • データに携わるなら学んでおきたい"データマネジメント"について - Qiita

        データに携わるなら学んでおきたいデータマネジメントについてまとめました。 誰かの「データマネジメントを学ぶきっかけ」になれば幸いです! 想定読者 データ分析をする方(データサイエンティストなど) データ基盤を担当している方(データエンジニアなど) IT部門ではないが仕事でデータ活用を求められている方(事業部の方など) ゼロからデータマネジメントを学びたい方 データマネジメントとは データマネジメントとは「データを資産として捉え、体系的に価値を引き出すための手法」です。 資産なので置き場所を決めます 資産なので盗まれたり、なくなったりしないようにします 資産がどこからきて、どこへ行くのかを把握します 資産の価値が減らないように気を配ります 資産を監督する人や、そのルールを決めます 引用:データマネジメントが30分でわかる本 | ゆずたそ, はせりょ, 株式会社風音屋, ゆずたそ | 経営情報

          データに携わるなら学んでおきたい"データマネジメント"について - Qiita
        • 【山田祥平のRe:config.sys】 アドビが学校にやってきた

            【山田祥平のRe:config.sys】 アドビが学校にやってきた
          • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

            (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

              2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
            • データエンジニア道の俺のバイブル

              先人の知恵に学ぶ データエンジニア道で、本当に良かった!読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function

                データエンジニア道の俺のバイブル
              • お前らのpandasの使い方は間違っている - Qiita

                この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析や機械学習に携わる方 この記事はpandasの基本的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

                  お前らのpandasの使い方は間違っている - Qiita
                • Pythonで学ぶ衛星データ解析基礎 ――環境変化を定量的に把握しよう

                  2022年12月19日紙版発売 2022年12月15日電子版発売 田中康平,田村賢哉,玉置慎吾 著,宮﨑浩之 監修 B5変形判/352ページ 定価3,520円(本体3,200円+税10%) ISBN 978-4-297-13232-3 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 本書籍は,Pythonによる衛星データ解析に興味がある初学者に向けた入門書となっています。学校の情報の授業等で利用する際の副教材になることを意識し,衛星データだけでなくデータサイエンスの基礎的な内容も含めました。学校で地球環境やご自身が住んでいる地域がどのように変化しているか調べたい方は

                    Pythonで学ぶ衛星データ解析基礎 ――環境変化を定量的に把握しよう
                  • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

                    ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

                      データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
                    • ガートナーのアナリストが選ぶ、データサイエンスと機械学習の最新トレンド10選

                      「3つのD」が示すAIの最新トレンド Gartner バイス プレジデント アナリスト カーリー・アイディーン氏 講演の冒頭でアイディーン氏は「今、AIは複雑なものになってきたと同時に、とても面白い段階にある」と語った。同氏は講演の中で10のトレンドを取り上げ、それぞれを「Democratized:民主化」「Dynamic:ダイナミズム」「Data-Centric:データ中心」の3つのDで整理した(図1)。 図1:データサイエンスと機械学習の将来を示す3つのD 出典:ガートナー 1つ目のDは、データサイエンスや機械学習を組織の中のあらゆる人たちが使えるようにする「民主化」である。ややもすれば、機械学習モデルのライフサイクルにおける大半の仕事が、データサイエンティストだけが担うものと捉えられてきた。ほとんどの社員にとって、データサイエンスは敷居の高い存在であり、専門家に任せた方が合理的と思え

                        ガートナーのアナリストが選ぶ、データサイエンスと機械学習の最新トレンド10選
                      • 「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも

                        「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも(1/3 ページ) 高速道路の料金を無線通信で支払えるETCは、1日あたりの利用台数が780万台を超え93.9%が利用するまで普及した。そして次世代版であるETC2.0も、2015年に始まって以来835万台に搭載され、利用率で見ると28.7%を占めるに至っている。高速道路を走っているクルマの4台に1台はETC2.0を使っているわけだ。 しかしETC2.0が、クルマの位置情報や速度などを、国土交通省のサーバに随時アップロードしていることは意外と知られていない。

                          「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも
                        • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

                          (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

                            データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
                          • Using Python to Simplify Data Operations in Data Science

                            In Data Science, we primarily use Python as a programming language to perform operations on the available datasets. This article will discuss concepts and details for using Pythons to simplify data operations in data science. Pros and Cons of Python for Data Operations Even though the pros outweigh the cons, it is crucial to look at both aspects. So, let’s have a look at the advantages and limitat

                              Using Python to Simplify Data Operations in Data Science
                            • データサイエンスを学び、休職中でも年収1,000万超で転職 副業や転職前に知っておきたい、高評価のポイント

                              年間2,200名以上の社会人が受講する、データサイエンスを学ぶビジネススクール「datamix」。同スクールを運営する、株式会社データミックスのオンライントークイベント「データサイエンス業界の転職と副業の“今”」に、同社の立川裕之氏と福山耀平氏が登壇。データサイエンスを学んで独立した立川氏と、転職支援や副業の紹介を行っている福山氏が、データサイエンス業界の働き方について解説します。後編では、転職・副業における最大の強みや、転職の成功事例のパターンなどを紹介しています。 取締役に近いポジションなら、年収3,000万円以上も 福山耀平氏(以下、福山):ちょうど昨日、ある大手の損保企業の担当者と話していたら、データサイエンティストのチームの統括ができて、経営層としゃべれる人材を募集されていました。これはもちろんチームを率いた経験など、難易度は高くなるんですけど、取締役に近いポジションの仕事です。

                                データサイエンスを学び、休職中でも年収1,000万超で転職 副業や転職前に知っておきたい、高評価のポイント
                              • 接種率とコロナ

                                以下は2022-08-12の一連のツイートをまとめたものである。データは2022-08-13朝に再取得し、人口密度などのデータは2020年国勢調査に統一したので、ツイートとは若干異なるかもしれない。 札幌医科大学のゲノム医科学部門に人口あたりの新型コロナウイルス感染者数の推移【世界・国別】という便利なページがある。その下に【都道府県別】人口あたりの新型コロナウイルス感染者数の推移、【都道府県別】新型コロナウイルスワクチン接種率の推移などがあり、最新データをダウンロードできる(ちょっとわかりづらい)。 とりあえず「都道府県別人口100万人あたりの感染者数_[令和2年10月国勢調査]_2022-08-12.csv」、「都道府県別ワクチン追加接種率(3回目,全人口に対するパーセント)_[令和2年10月国勢調査]_2022-08-11.csv」をダウンロードした。CSVファイル(文字コードはUTF

                                • 機械学習 実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog

                                  こんにちは! nakamura(@naka957)です。 今回はクラスタリングをご説明します。クラスタリングは教師なし学習に代表される手法の1つで、正解情報なしでデータ間の類似性を推定し、グループ化する手法です。DATA Campusでは、これまでに教師なし学習の概要とその手法の1つの主成分分析について解説しています。そちらも是非参考にしてみてください。 ■機械学習における教師なし学習の理解を深める ■教師なし学習の実践 主成分分析で高次元データを可視化する 本記事では、最初にクラスタリングの概念と主要な手法であるk-means法について説明します。次に、実装例の紹介に加え、同じ教師なし学習である主成分分析と組み合わせることで、クラスタリングをより有効に機能する例も紹介します。k-means法は単純なアルゴリズムで、様々な場面で簡単に適用できる手法です。是非、この機会にマスターしてみてくだ

                                    機械学習 実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog
                                  • データエンジニアと作るデータ文化

                                    オープンセミナー広島2022での登壇資料です。 当日のライブ配信です。 Youtube https://www.youtube.com/watch?v=XgVbZZyoFxQ

                                      データエンジニアと作るデータ文化
                                    • 「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK

                                      34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら 一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。 今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。 なぜ「デジタルデータ」を集めたのか? 私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。 なぜなら、自分の暮らす場所のリスクを知ることが、災害から命を守るスタートだから

                                        「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK
                                      • 機械学習を利用するコンポーネントの継続的な性能検証と Locust を利用した負荷テストの実施方法 - DATAFLUCT Tech Blog

                                        こんにちは。本稿では機械学習を利用したコンポーネントの処理速度の計測方法、および負荷テストのやり方について解説してゆきます。 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習アルゴリズムを適用する関数の処理速度を検証 実行時間を測定 関数の実行時間を算出するデコレーター 性能評価テストと継続的な性能チェック 機械学習 API の性能を評価する Locust:インストールと負荷テスト設定追加 Locsutを使った測定測定 もうすこし高度な使い方 分散実行 コマンドラインから実行 まとめ 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習を利用したタスクでは、モデルの精度に注意が行きがちです。しかし、一般的なWebアプリケーションでは入力はリソースID(ユーザIDなど)やシンプルなJSONである場合が多いのに対し、機械学習は入データ(自然言語や画像など)や

                                          機械学習を利用するコンポーネントの継続的な性能検証と Locust を利用した負荷テストの実施方法 - DATAFLUCT Tech Blog
                                        • バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に

                                          ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。 バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。 一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。 関連記事 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。

                                            バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に
                                          • PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog

                                            こんにちは!nakamura(@naka957)です。本記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。 探索的データ分析(Explanatory Data Analysis: EDA)とは、データセットを様々な視点から分析し、データを考察することを目的に行うことです。EDAで得られた知見や仮説を活用し、その後のデータ分析や機械学習モデルの構築を有効に行うことができます。 データを考察するための最も有効な手法は、可視化することです。そのため、データを可視化するスキルはEDAにおいて非常に重要になります。本記事ではEDAを目的とした可視化する方法をご紹介します。 では、早速始めていきます。 PyCaretとは AutoVizとは ライブラリのインストール 実行の前準備 EDAの実行 散布図 棒グラフ 密度分布 Violinプロット ヒートマップ(相関係数) Auto

                                              PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog
                                            • データ整備の基礎

                                              2022/04/07 初版公開 お問い合わせ先 Twitter:@data_analyst_ メールフォーム:https://bit.ly/37orRqa 執筆者:しんゆう ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net

                                                データ整備の基礎
                                              • ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話|NHK取材ノート

                                                東京の多摩川沿いの浸水リスクがある地域で、「なぜか人口が増えている」ことをデータ分析ソフトを使って明らかにして、その背景を探りました。 次にこんな記事も書きました。 南海トラフ巨大地震によって津波の浸水が想定されている区域で、高齢者の施設がすごく増えていることを示した記事です。 どちらの記事も、誰もが入手できる「オープンデータ」と、後述する「GIS」という分析システムを使って隠れた事実を浮き彫りにした、データジャーナリズムのお手本などと紹介されたこともあります。 そしてつい最近手がけたのがNHKスペシャル「〝津波浸水域〟の高齢者施設」。蓄積してきた分析のノウハウを注ぎ込んだ番組です。 「データ分析」というと専門的で、すごく難しく思う方もいるかもしれません。しかし最初に述べたように私は数年前までは、パソコンを満足に使えない、データ分析とは無縁の「ガラケー記者」だったのです。本当に。 そんな私

                                                  ガラケーしか使えないデジタル音痴だった私が「GISでデータ分析」できるようになるまでの話|NHK取材ノート
                                                • はじめに — マンガと学ぶデータビジュアライゼーション

                                                  はじめに# データビジュアライゼーションとは,数値や文章などのデータに基づいた情報を,人間が理解しやすい形に視覚化する技術を指します. このサイトは,文化庁のメディア芸術データベース・ラボ(MADB Lab)で公開されている四大少年誌( 週刊少年サンデー, 週刊少年ジャンプ, 週刊少年チャンピオン, 週刊少年マガジン )のデータを用いて,データビジュアライゼーションの学習を手助けすることを目指しています. データビジュアライゼーション(に限らずデータ分析全般)の学習において重要なのは,分析対象のデータに興味を持てるかどうかです. 本書では約47年の四大少年誌のマンガ作品データを採用しているため,モチベーションを保ちつつ学習を進めることが可能です.

                                                  • にゃんこそば☀データ可視化 on Twitter: "核家族で「世帯年収1,000万円以上」の割合を示した地図。 地域格差がどうこう・・・というより、"都心や大企業の拠点に通いやすいファミリー向けエリア" が可視化されている印象。 ※世帯収入は年齢とも相関するので単純比較はNGです… https://t.co/BRuHaDlYD7"

                                                    核家族で「世帯年収1,000万円以上」の割合を示した地図。 地域格差がどうこう・・・というより、"都心や大企業の拠点に通いやすいファミリー向けエリア" が可視化されている印象。 ※世帯収入は年齢とも相関するので単純比較はNGです… https://t.co/BRuHaDlYD7

                                                      にゃんこそば☀データ可視化 on Twitter: "核家族で「世帯年収1,000万円以上」の割合を示した地図。 地域格差がどうこう・・・というより、"都心や大企業の拠点に通いやすいファミリー向けエリア" が可視化されている印象。 ※世帯収入は年齢とも相関するので単純比較はNGです… https://t.co/BRuHaDlYD7"
                                                    • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                                                      こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                                                        高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                                                      • 軽石漂流 衛星データとSNSで追う

                                                        8月13日に噴火した小笠原諸島の海底火山、福徳岡ノ場から発生した大量の軽石は、九州・沖縄を中心に大きな被害をもたらしたのち、海流に乗って沖縄県の宮古島や東京都の伊豆諸島まで到達した。黒潮によって本州に近づく可能性もあり、大都市圏に大量に漂着すれば工業生産や流通にも大きな影響が及びかねない。軽石のこれまでの漂流の軌跡と今後の到達予測について、研究機関の衛星画像分析データやSNS情報を使って追跡する。 ①海洋研究開発機構(JAMSTEC)が公表している福徳岡ノ場からの軽石の漂流予測、②JAXA(宇宙航空研究開発機構)およびオーストラリア・タスマニア大学の池上郁彦氏がそれぞれ衛星画像を解析して特定した実際の軽石浮遊範囲、③SNSや公的機関の発表などで軽石の漂着・浮遊が確認された地点の3つのデータを重ね合わせた。①の予測データについては、11月末までは10月28日の発表分、12月3〜6日は11月2

                                                          軽石漂流 衛星データとSNSで追う
                                                        • Python open source libraries for scaling time series forecasting solutions

                                                          By Francesca Lazzeri. This article is an extract from the book Machine Learning for Time Series Forecasting with Python, also by Lazzeri, published by Wiley. In the first and second articles in this series, I showed how to perform feature engineering on time series data with Python and how to automate the Machine Learning lifecycle for time series forecasting. In this third and concluding article,

                                                            Python open source libraries for scaling time series forecasting solutions
                                                          • データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai

                                                            サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                              データ分析のはじめの一歩を無料で学べる 総務省監修の高校教材『データサイエンス・データ解析入門』がpdfで公開 | Ledge.ai
                                                            • 統計の入門講座が無料に、京大メソッドでデータサイエンス関連教員が担当 | Ledge.ai

                                                              サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                統計の入門講座が無料に、京大メソッドでデータサイエンス関連教員が担当 | Ledge.ai
                                                              • レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog

                                                                Analytics Infra チームの@hizaです。 この記事ではメルカリの分析環境を改善した事例を紹介します。 今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。 また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。 メルカリのデータ活用の現状 メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。 こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業

                                                                  レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog
                                                                • 社内でデータ分析コンペティションを開催しました

                                                                  こんにちは、デジタル改革推進部の河合と浅野です! 私たちデジタル改革推進部では、普段から全社で使うためのデータ分析環境の開発・提供を行っています。 今回は社内でデータ分析コンペティションを開催したのでその内容を報告します。 社内データ分析コンペティションとは? 社内にある様々なデータ活用課題をコンペティション形式に落とし込み、全社で知恵をしぼって解こうという試みです。 もともと、データサイエンスの界隈ではKaggleやatmaCupと呼ばれる分析力を競うコンペが行われており、課題や技術を集団で共有して解く文化があります。 今回はそれらを参考に、社内のデータを使ったコンペを 6/21~7/2 の2週間にかけて初開催しました。 開催にあたって期待したことは、以下の3つです。 様々な部署に散らばっているサービス特有のドメイン知識、データ、分析技術を一箇所に集める 優れたソリューションを集合知によ

                                                                    社内でデータ分析コンペティションを開催しました
                                                                  • 22社、52人のデータサイエンティストに聞いてみた!「どんなお仕事してますか?」 | Da-nce

                                                                    データ分析とビジネス活用のプロとして、さまざまな業界・フィールドで活躍する「データサイエンティスト」。 スキルセットや必要な知識などが語られることはあるものの、まだはっきりとした定義がなく、いったいどんな人たちなのか?と疑問を持つ人も少なくないのでは。 そこで本企画では、企業で働くデータサイエンティストたちの"リアル"を調査。データサイエンティストを志した理由や興味深かった論文、普段の業務、自社で働く魅力などを22社、52人のデータサイエンティストに聞きました。 企業一覧 DataRobot Japan株式会社 株式会社GA technologies 株式会社HACARUS 株式会社JMDC 株式会社LIFULL MNTSQ株式会社 NABLAS株式会社 株式会社Rist Sansan株式会社 SOMPOホールディングス株式会社 株式会社ZOZO 株式会社ZOZOテクノロジーズ アスクル株

                                                                      22社、52人のデータサイエンティストに聞いてみた!「どんなお仕事してますか?」 | Da-nce
                                                                    • SQLite3入門 | Python学習講座

                                                                      CREATE文とINSERT文のサンプル それでは接続からSQL実行までのサンプルです。以下のサンプルはカレントディレクトリ直下にexample.dbというdbファイルを作成し、CREATE文でテーブルを作成後、INSERT文でデータを挿入してみます。 import sqlite3 # 接続。なければDBを作成する。 conn = sqlite3.connect('example.db') # カーソルを取得 c = conn.cursor() # テーブルを作成 c.execute('CREATE TABLE articles (id int, title varchar(1024), body text, created datetime)') # Insert実行 c.execute("INSERT INTO articles VALUES (1,'今朝のおかず','魚を食べました'

                                                                      • 業務でどれだけSQL力がつくのか ~SQLアンチパターンを用いて確認~ 前編

                                                                        はじめに こんにちは。 GMOアドマーケティングのKONCEです。 新卒で入社し、数年経ちました。日々の業務で学ぶことは多いですが、今年度は技術の深堀りをテーマにやっていきたいと思っています。 今回は入社してDBやSQLに関しては業務内で学ぶことが多く、特別訓練をしていたわけではなかったのですが、「SQLアンチパターン」を用いて学びながら、改めて自分の現状を見つめ直していけたらと思います。 今回は学習を行う側面と自分自身のレベルについて見直していきたいので 知っていた → ○ 部分的に知っていた → △ 知らなかった → × を付けてみようと思います。 目次 SQLアンチパターンについて Ⅰ部 データベース論理設計のアンチパターン 2-1. [○]1章 ジェイウォーク(信号無視) 2-2. [×]2章 ナイーブツリー(素朴な木) 2-3. [○]3章 IDリクワイアド(とりあえずID) 2

                                                                          業務でどれだけSQL力がつくのか ~SQLアンチパターンを用いて確認~ 前編
                                                                        • 社内SQL研修のために作った資料を公開します | 株式会社AI Shift

                                                                          こんにちは、Development Teamの三宅です。 先日、社内(AI事業本部内)でSQL研修の講師を担当したので、今回はその内容について簡単に共有したいと思います。 はじめに 例年、AI事業本部では、新卒エンジニアの育成のためにソフトウェアエンジニア研修を行っております。今年はフルリモートでの実施となりました。研修期間は2週間ほどで、内容は前半が講義、後半が実践(チーム開発)でした。私が担当したのは、講義パートの一部であるSQL研修です。SQLやRDBにあまり慣れていない人でも、できるだけ体系的な学びが得られるようにすることを目標に、様々な資料をまとめて提供する方針で準備しました。結果的には、ハンズオン込みで4時間ほどのやや長い講義となりましたが、勉強になったという声も頂けたのでやって良かったと思っています。 研修資料 研修内容 SQL研修の内容は、基本的には大学のデータベース講義で

                                                                            社内SQL研修のために作った資料を公開します | 株式会社AI Shift
                                                                          • 人工衛星からマイクロ波を照射、AIで解析して地域の水道管の漏水を調査する技術 | スラド サイエンス

                                                                            愛知県豊田市では、イスラエルのITベンチャー・Utilisの技術を用いて、衛星画像データをAIで解析するシステムを利用した水道管の漏水調査が行われたそうだ。水道水とそうでない水はマイクロ波の反射の仕方が異なるという特性を利用しているとされる。2020年9月から21年4月にかけて市内の556区域を調査した結果、154区域の259カ所で漏水を見つけたとしている。従来は約5年必要だった作業を約7か月にまで短縮できたという(ジャパン・トゥエンティワ、ITmedia)。 人工衛星からマイクロ波を照射して対象となる地域の画像データを取得。続いて反射で得られたマイクロ波の特性と取得した画像をUtilisが独自開発したAIで分析、それにより半径100mの範囲の漏水カ所を特定。そのデータを元にして水道管の敷設データを元にして実地調査を人の手で行ったとしている。

                                                                            • 全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ

                                                                              2020年12月、総務省より 【機械判読可能なデータの表記方法の統一ルール】が策定されました。 統計表における機械判読可能なデータの表記方法の統一ルールの策定 https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html 2020年11月に河野太郎 行政改革担当大臣のツイートが話題となりました。 その後正式に統一ルールが公開された形です。 各省庁がネット上で公開する統計を機械判読可能にするために、データの表記方法を統一させます。「政府統計の総合窓口(e-Stat)」で本日から12月1日までの間、表記方法案に関する意見照会を行います。研究者をはじめ、皆様のご意見をお待ちしています。https://t.co/h07tCTDazc — 河野太郎 (@konotarogomame) November 25, 2020

                                                                                全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ
                                                                              • 地理空間情報を扱うなら知っておきたいPythonライブラリ、GeoPandas入門~基礎編~ | 宙畑

                                                                                さまざまなデータを地理空間情報として重畳する上で有用なPythonのライブラリであるGeoPandas。前編ではGeoPandasを用いたデータの描画方法など基礎的な扱い方を紹介し、後編では衛星データと組み合わせて解析結果を可視化する方法を紹介します。 Pythonで地理空間情報を行う場合、GeoPandasの使い方を覚えておくととても便利です。 例えば、都道府県別の気象データを持っていたとします。そのテーブルデータ(csv)には地理情報と言えば、都道府県の名称くらいしかありません。このような場合、これを日本地図の上に重畳して可視化することはできません。 しかし、このデータに地図上に描画できる情報を与えることさえできれば、好きなデータを地図の上に重ねることができます。このようなことをしたい場合に、GeoPandasの使い方を知っておけば助けになります。 今回は、簡単な例を通じて、GeoPa

                                                                                  地理空間情報を扱うなら知っておきたいPythonライブラリ、GeoPandas入門~基礎編~ | 宙畑
                                                                                • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

                                                                                  はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

                                                                                    機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita