並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 74件

新着順 人気順

dataManagementの検索結果1 - 40 件 / 74件

dataManagementに関するエントリは74件あります。 データ機械学習データ基盤 などが関連タグです。 人気エントリには 『イミュータブルデータモデル - kawasima』などがあります。
  • イミュータブルデータモデル - kawasima

    はじめに CRUDのうちUPDATEがもっともシステムを複雑化する。更新には複雑なルールが伴うからだ。業務的に複雑なルールが存在するのは仕方ないこともあるが、システム、設計で複雑さを更に増さないようにしたい。UPDATEに着目し、その発生をできるだけ削ることによって複雑さをおさえるためには、まずデータモデルをそのように設計しておかなけれなならない。このイミュータブルデータモデルは、それを手助けする手法で、手順に沿って実施すればある程度のスキルのバラつきも吸収できるように組み立てられている。 手順 Step1. エンティティを抽出する まずエンティティを抽出するところから始める。 5W1Hがエンティティの候補 従業員,患者,プレイヤー,顧客,生徒,... 製品,サービス,コース,曲,... 時間,日付,月,年,年度,... 送付先,URL,IPアドレス,... 注文,返品,入金,出金,取引,

      イミュータブルデータモデル - kawasima
    • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

      ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

        データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
      • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

        こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

          エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
        • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

          はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

            Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
          • 「公務員のデジタル人材調達は難しい」GAFA時代の競争、日本はどう規制すべきなのか | 文春オンライン

            兵庫県出身の杉本和行氏は、現在70歳。 東大卒業後、旧大蔵省に入省した杉本氏は、2008年には事務方トップの事務次官に就いた。省庁再編で「大蔵省」は「財務省」へと名を変えていたが、霞ヶ関における「最強官庁」であることに変わりはない。しかし、難しいテーマもほがらかに説明する杉本氏からは、いわゆる「官僚答弁」の印象は受けない。 退官後は、公正取引委員会委員長(2013~2020年)として、芸能界や巨大IT企業といった新しい分野でも競争環境適正化に注力した。官民問わず重要度を増すデジタル化社会における「競争のあり方」について聞いた。(全2回の2回め/前編を読む) もともと一般的なアナログ人間 ――公正取引委員会委員長時代にはGAFA規制といったITプラットフォームの業態、またデジタルテクノロジーに触れる機会が多かったと想像しますが、もともとお好きな分野なんですか? 杉本 いやいや、そんなことない

              「公務員のデジタル人材調達は難しい」GAFA時代の競争、日本はどう規制すべきなのか | 文春オンライン
            • TechCrunch | Startup and Technology News

              Meta will soon officially permit users as young as 10 to use its Meta Quest 2 and 3 VR headsets — if their parents say it’s okay, anyway. In a blog post, the tech giant says that there’s Nikola Corp. is laying off 270 employees, or about 23% of its workforce, and restricting its electric truck efforts to North America as it seeks to preserve cash. The company said Friday it will lay o

                TechCrunch | Startup and Technology News
              • "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog

                こんにちは。MackerelチームにおいてCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。 なぜ壊れにくいデータ基盤を構築するのか データ基盤が“壊れている”とはどういうことか 壊れてないだけでなく、壊れたら気付ける 前提とするシステム構成 壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視する そもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除 おわりに 参

                  "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
                • データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog

                  こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。 データに対する知識: メタデータ データ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。 このテーブル / カラムは何のためのテーブルなのか 似たようなカラムとの違い 集計条件の違い、など データがどのような値を取り得るか SELECT column, COU

                    データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
                  • Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210

                    ---------------------------------------------------------------------------------------- 【PR】一緒に働きましょう! https://kazaneya.com/kdec ---------------------------------------------------------------------------------------- 「Tech × Marketing Conference 2021 #データマネジメント」基調講演の登壇資料です。 https://techxmarketing.connpass.com/event/229173/ データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高

                      Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210
                    • ML Ops: Machine Learning as an Engineering Discipline

                      As ML matures from research to applied business solutions, so do we need to improve the maturity of its operation processes So, your company decided to invest in machine learning. You have a talented team of Data Scientists churning out models to solve important problems that were out of reach just a few years ago. All performance metrics are looking great, the demos cause jaws to drop and executi

                        ML Ops: Machine Learning as an Engineering Discipline
                      • マイクロサービスのための分散データ 〜 イベントソーシング vs チェンジデータキャプチャ - 赤帽エンジニアブログ

                        インテグレーションのためのミドルウェア製品のテクニカルサポートを担当している山下です。 今回は レッドハットのシニアアーキテクトである Eric Murphy さんによる「マイクロサービスのための分散データ 〜 イベントソーシング vs チェンジデータキャプチャ(CDC)」の翻訳記事です。この記事では、イベントソーシング、CDC、CDC + Outboxパターン、CQRSをそれぞれ簡単に説明しながら、それらの特性の違いを比較します。また、イベントソーシングとCQRSの簡易な説明がなされている他、あまり明確に語られることが少ないもののソフトウェアの設計に大きな影響をおよぼすドメインイベントとチェンジイベントの違いにも触れられています。 [原文] Distributed Data for Microservices — Event Sourcing vs. Change Data Captur

                          マイクロサービスのための分散データ 〜 イベントソーシング vs チェンジデータキャプチャ - 赤帽エンジニアブログ
                        • 先進的な技術を“合理的に”導入する。リクルートが「ニアリアルタイムデータ基盤」を実現できた背景 - はてなニュース

                          どんな企業にとってもデータは「資産」ですが、ユーザーとクライアントのマッチングを軸に事業を展開するリクルートにとっては、ビジネスを支える存在の一つです。 リクルートではサービスに関わるデータを収集・蓄積するデータ基盤を構築し、マッチングの精度向上を含むプロダクト改善などに活用してきました。例えばWebサイトの回遊状況を元にユーザーの興味や関心を推測してリコメンデーションを行ったり、検索結果を提供したりするなど、ユーザーとクライアント、双方が満足できるマッチング機会の創出に取り組んでいます。 このような取り組みにおいて、新しく生まれた価値のある情報を、より素早く活用していく「データの鮮度」は大事な要素になります。データの鮮度とは、すなわちリアルタイム性のこと。多様かつ膨大な量のデータを取り扱うビジネスでは、このリアルタイム性をいかに高められるかが、意思決定の精度や速度に直結します。 リクルー

                            先進的な技術を“合理的に”導入する。リクルートが「ニアリアルタイムデータ基盤」を実現できた背景 - はてなニュース
                          • データ保護完全ガイド

                            本書には、バックアップ、アーカイブ、リストア、リトリーブ、それらを行う上で用いられる手法、ソフトウェア、サービス、バックアップとアーカイブを保存する際に使用されるハードウェアなど、データ保護に関して必要な知識が全て詰まっています。この20年間に現れた新技術についても触れ、従来のバックアップから最新のIT技術までそれぞれの良い点と悪い点を理解することができます。「バックアップとアーカイブの違い」「テープがあるべき場所」「Microsoft 365やSalesforceのようなSaaS製品をバックアップすべきか」といったバックアップ業界で議論される多くのテーマにも決着をつけています。データ保護に関する決定を下すための重要な基本概念を学べる1冊です。 訳者まえがき 序文 はじめに 1章 データへのリスク:我々はなぜバックアップするのか 1.1 人災 1.1.1 事故 1.1.2 悪いコード 1.

                              データ保護完全ガイド
                            • 毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management

                              毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management

                                毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management
                              • Announcing PartiQL: One query language for all your data | Amazon Web Services

                                AWS Open Source Blog Announcing PartiQL: One query language for all your data Data is being gathered and created at rates unprecedented in history. Much of this data is intended to drive business outcomes but, according to the Harvard Business Review, “…on average, less than half of an organization’s structured data is actively used in making decisions…” The root of the problem is that data is typ

                                  Announcing PartiQL: One query language for all your data | Amazon Web Services
                                • LINEの大規模なData PlatformにData Lineageを導入した話

                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか

                                    LINEの大規模なData PlatformにData Lineageを導入した話
                                  • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                                    整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                                      データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                                    • 書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ

                                      最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネージメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ

                                        書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
                                      • 安心して使えるデータ基盤を作る

                                        From Cloud-Native Java and Quarkus 3 with Love @ DevoxxUK 2023 London

                                          安心して使えるデータ基盤を作る
                                        • 「今機械学習に必要なのはデータマネジメント」5つの秘訣を実例つきで紹介 | AI専門ニュースメディア AINOW

                                          最終更新日: 2020年8月6日 データを活用する多くの企業の価値が向上しています。世界的な企業は、ユーザのデータを巻き込み広告などのビジネスを展開し、現在、多くのビジネスはデータを資本に展開されているといっても過言ではないでしょう。 一方、データの活用の環境が整っている会社ばかりではありません。電子化されていないデータ、管理者がバラバラなデータ、企業によってデータに関する多くの課題があることでしょう。データの課題は、そのままAIの活用を大きく遅らせる足かせにもなってしまいます。 この記事では、重要性が高まる「データマネジメント」について解説します。 バズワード化するAIとデータマネジメントの必要性の高まり 2010年代に入り、今までのシステム以上の精度で画像認識することが可能になり、ディープラーニングなど機械学習への注目が高まりました。 AIの導入に少しでも興味を持った方は、AIの中でも

                                            「今機械学習に必要なのはデータマネジメント」5つの秘訣を実例つきで紹介 | AI専門ニュースメディア AINOW
                                          • データ分析プロジェクトの品質をキープしつつ効率的な検証をサポートする一時ファイル群の管理 - クックパッド開発者ブログ

                                            研究開発部の takahi_i です。本稿はデータ分析、 機械学習関係のプロジェクトで数多く生成される一時オブジェクトおよびそれらのオブジェクトを保持するファイル(一時ファイル)を管理する取り組みについて解説します。 本稿の前半はデータを分析するプロジェクトの一般的なフローと起こりがちな問題(コードの品質管理)について解説します。後半はプログラム上で生成されるオブジェクト群をファイルに自動でキャッシュを管理するツール(Hideout)を使って、コードを整理整頓しやすくする施策について紹介します。 データを分析するプロジェクトの一般的なフロー まずデータを処理するプロジェクトや機械学習プロジェクトの典型的なフローについて考えてみます。まずは単純に機械学習器を取得した入力に対して適用するプロジェクト、次にもう少し複雑な事例、アプリケーションで利用するデータを生成するプロジェクトのフローについて

                                            • MonotaRO Tech Talk #9 (データマネジメント編)を開催しました - MonotaRO Tech Blog

                                              こんにちは、データ基盤グループの吉田(id:syou6162)です。10/28(木)に開催したMonotaRO Tech Talk #9 (データマネジメント編)のレポートをお届けします。イベント前の参加希望者が514人、イベント当日も310人がご参加くださり、大変盛り上がったイベントとなりました。 MonotaROのデータ活用と基盤の過去、現在、未来(香川和哉) 社内のデータ活用を一段階あげるための取り組み(吉本直人) データ基盤グループを支えるチームビルディング(吉田康久) 最後に MonotaROのデータ活用と基盤の過去、現在、未来(香川和哉) 最初の発表ではグループ長の香川より、MonotaROのデータ活用の変遷とそれを支えるデータ基盤のこれまでの歴史、現在取り組んでいる課題、今後の取り組みについて発表しました。10年以上の歴史があり、全社員の約6割を越えるデータ基盤の歴史について

                                                MonotaRO Tech Talk #9 (データマネジメント編)を開催しました - MonotaRO Tech Blog
                                              • How Netflix Scales its API with GraphQL Federation (Part 2)

                                                In our previous post and QConPlus talk, we discussed GraphQL Federation as a solution for distributing our GraphQL schema and implementation. In this post, we shift our attention to what is needed to run a federated GraphQL platform successfully — from our journey implementing it to lessons learned. Our Journey so FarOver the past year, we’ve implemented the core infrastructure pieces necessary fo

                                                  How Netflix Scales its API with GraphQL Federation (Part 2)
                                                • 新マスタデータ管理システムakashicの開発 - KAYAC engineers' blog

                                                  こんにちは、各位忘年してますか。弊社では新年会は1年に1回しか出来ないが、忘年会は1年に何度も出来るという説が出回っています。僕も8月頃に1度忘年してますが、まだまだやっていきましょう。ソーシャルゲーム事業部ゲーム技研の谷脇です。 この記事はTech KAYAC Advent Calendar 2019 Migration Trackの18日目の記事です。17日目はPush 通知送信エージェント Gunfish に FCM v1 API 対応を追加したでした。 この記事で話すこと モバイルゲームのマスタデータの管理ツールを今年作り直したよ やりたいことが複雑だからいい感じに設計したよ CLIでも動くしサーバレスでも動くよ この記事がakashicの概要が書かれたドキュメントじゃ!(社内向けの業務連絡) マスタデータの管理とは そういえば先日、マスタデータNight #1というイベントを開催

                                                    新マスタデータ管理システムakashicの開発 - KAYAC engineers' blog
                                                  • レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog

                                                    Analytics Infra チームの@hizaです。 この記事ではメルカリの分析環境を改善した事例を紹介します。 今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。 また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。 メルカリのデータ活用の現状 メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。 こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業

                                                      レガシー化したData Pipelineの廃止 ― メルカリのData Architectのお仕事例|Mercari Analytics Blog
                                                    • GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.

                                                      Curated papers, articles, and blogs on data science & machine learning in production. ⚙️ Figuring out how to implement your ML project? Learn how other organizations did it: How the problem is framed 🔎(e.g., personalization as recsys vs. search vs. sequences) What machine learning techniques worked ✅ (and sometimes, what didn't ❌) Why it works, the science behind it with research, literature, and

                                                        GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.
                                                      • 大量のデータを分析して可視化するオープンソースのLooker代替・「MLCraft」

                                                        MLCraftは大量のデータを分析して可視化するオープンソースのLooker代替となるBIツールです。データ解析のスタートアップだったLookerは2020年の2月にGoogleに買収されました。 データの処理と可視化自体はCube.jsによって処理されます。MLCraftはダッシュボードを提供し、チームへのデータ共有の場や機械学習実験をワンクリックで行えるUIの提供をするそうです。 LookerはGoogle Cloudに統合されましたので、もともとGoogle Cloudを採用していたのならLookerを使うでしょうが、コスト的な問題、プライバシー、セキュリティ的な問題で使えない際にMLCraftは1つの選択肢となりそうです。MITライセンスのもとでソースコードが公開されています。 GithubMLCraft

                                                          大量のデータを分析して可視化するオープンソースのLooker代替・「MLCraft」
                                                        • Democratizing data analysis with Google BigQuery

                                                          Infrastructure Democratizing data analysis with Google BigQuery Every day, over a hundred million people come to Twitter to find out what’s happening in the world and talk about it. Every Tweet and user action generates an event that we make available for internal data analysis at Twitter. Hundreds of employees analyze and visualize this data, and improving their experience is a top priority for t

                                                            Democratizing data analysis with Google BigQuery
                                                          • Scikit-Learn でモデルカードを作成してクラウドにデプロイする方法 | Google Cloud 公式ブログ

                                                            ※この投稿は米国時間 2020 年 10 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 機械学習モデルは、多数の難しいタスクを遂行するために使用されるようになりました。大きな可能性を秘める ML モデルですが、その使用方法、構成、制限に関して疑問も寄せられています。そうした疑問に対する回答を文書化することで状況が明確になり、共通の理解を得ることができます。これらの目標を達成するために、Google はモデルカードを導入しました。 モデルカードの目的は、機械学習モデルの全体像を簡潔に提供することです。まず、モデルカードはそのモデルの機能、意図するユーザー層、その管理者について説明します。また、アーキテクチャや使用されているトレーニング データなど、モデルの構成に関する情報も提供します。さらに、生のパフォーマンス指標だけでなく、モデルの制限とリスク緩和の機会

                                                              Scikit-Learn でモデルカードを作成してクラウドにデプロイする方法 | Google Cloud 公式ブログ
                                                            • 大量のユーザーデータを横断的に使うために LINEのデータサイエンティストが気をつけているいくつかのこと

                                                              2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこで LINEのフェローであり、Data Science and Engineeringセンターに所属する並川淳氏が、「LINEではどのようにサービス横断でのデータ活用を実現しているのか」というテーマで、LINEにおけるデータの扱い方について共有しました。 LINEにおけるデータ活用の取り組み 並川淳氏(以下、並川):本日は「LINEではどのようにサービス横断でのデータ活用を実現しているのか」というタイトルで、並川が発表いたします。私は、LINEではふだん機械学習に関わる開発全般を担当しています。ですが、今日は機械学習に限らず、LINEにおけるデータ活用の取り組みについて幅広く紹介させてもらえればと思っています。よ

                                                                大量のユーザーデータを横断的に使うために LINEのデータサイエンティストが気をつけているいくつかのこと
                                                              • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                                                                プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                                                                  社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                                                                • 1ペタバイトのデータセットで機械学習する / WebDataset入門

                                                                  深層学習をする上で、最も大切なマシンスペックを聞かれたら何と答えますか? GPUのTensor性能、VRAM、GPUの数、CPU性能、メモリ、… 問題によって正解は異なりますね。 しかし、特に大規模なデータセットで機械学習する場合では、しばしばネットワーク帯域とストレージシステムのディスクI/Oによって制限されます。この記事ではそのような課題に対して、学習側でどのようにデータを扱うかを見ていきたいと思います。 1. この記事は? こんにちは、TURING MLチームです。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指す会社です。 私たちは自動運転モデルを動かすため、可視域のカメラセンサによる画像で学習し、カメラ映像のみから車体の操作や経路選択、安全性の判断を行わせています。(実際の車を動かす事例はこちらの記事をご覧ください。) そのため、機械学習のため

                                                                    1ペタバイトのデータセットで機械学習する / WebDataset入門
                                                                  • 機械学習品質管理・保証の動向と取り組み

                                                                    SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​

                                                                      機械学習品質管理・保証の動向と取り組み
                                                                    • データインテリジェンスの動向を呟く|Rytm / Quollio

                                                                      冒頭2023年現在、Generative AIの台頭により”Data is new oil.”という言葉の重みが日に日に増してきている。そんな中、企業向けデータマネジメントを担うツールであった”データカタログ”にも転機が訪れている。ここ数年の欧米動向を見ていると、旧来データカタログと自身を呼んでいた海外ベンダーが、Active Metadata PlatformやData Intelligence Platformへと自身を再定義するに至っている。以前の記事では、前者について説明を行った。本日は、よりエンタープライズ企業へとフォーカスを当てた取り組みである後者について、特に国内状況についての考察を行う。 “Intelligence”とは?Data Intelligenceと似た名前に、Business Intelligenceという概念がある。今となっては”BIツール”として慣れ親しまれ、

                                                                        データインテリジェンスの動向を呟く|Rytm / Quollio
                                                                      • GOのデータ・AIを活用する「組織」を30分で紹介

                                                                        GO TechTalk #25 で発表した資料です。 ■ YouTube https://www.youtube.com/live/lH0z49oHRWI?feature=shared&t=98 ■ connpass https://jtx.connpass.com/event/306325/

                                                                          GOのデータ・AIを活用する「組織」を30分で紹介
                                                                        • Dataplex: data governance

                                                                          Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.

                                                                            Dataplex: data governance
                                                                          • Microsoft Teams用 Project Oakdale に関する機能と Common Data Service の違いについて - 吉田の備忘録

                                                                            データ Project Oakdale はリレーショナルデータ(親子関係などの構造化データ)に対応し、データを検索、フィルター、並び替えなどができます。また、文字列や数値などの主なデータタイプに対応しつつ、画像やファイルにも対応します。Project Oakdale は Common Data Service の恩恵を受け、通貨やロールアップ計算、計算項目も搭載します。 Project Oakdale により、新しい編集可能なグリッド(エディタブルグリッド)によって、素早くテーブル/表を作成し、データもExcelのように入力することが可能です。Common Data Model(CDM)としては、既定でユーザーテーブルが搭載されており、今後様々なテーブルが追加される予定となっております。 Common Data Service は上記の Project Oakdale に加え、ログなどの非

                                                                              Microsoft Teams用 Project Oakdale に関する機能と Common Data Service の違いについて - 吉田の備忘録
                                                                            • Discovering millions of datasets on the web

                                                                                Discovering millions of datasets on the web
                                                                              • データ基盤開発ひとりのカレンダー | Advent Calendar 2019 - Qiita

                                                                                The Qiita Advent Calendar 2019 is supported by the following companies, organizations, and services.

                                                                                  データ基盤開発ひとりのカレンダー | Advent Calendar 2019 - Qiita
                                                                                • Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点について - Qiita

                                                                                  Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点についてMachineLearningMLOps この記事では MLOps における Data Validation (データバリデーション: データの検証) について概要を述べます。 Data Validation はこれ単体では新しい概念ではありません。たとえば入力フォームで入力値に制約を設け、その制約を満たすデータのみを入力値として受け入れるようにするのは、サービス開発では一般的なことでしょう。入力欄において空欄を許さない、値は特定のリストからのみ選択できるといった制約を設けている例は、開発者でなくても一般的に目にしたことがあるかと思います。 このように Data Validation は一般的な概念ですが、MLOps においては非常に重要な概念となります。また、そこ

                                                                                    Introduction to Data Validation: MLOps における重要性とその分類、実用上の注意点について - Qiita

                                                                                  新着記事