並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 74 件 / 74件

新着順 人気順

dataManagementの検索結果41 - 74 件 / 74件

  • 大規模分散学習でGPUを食べまくる人|マソラ

    こんにちは!東工大修士2年/産総研RAの高島空良と申します。本記事は、研究コミュニティ cvpaper.challenge 〜CV分野の今を映し,トレンドを創り出す〜 Advent Calendar 2022の17日目の記事となります。 本記事では、私がcvpaper.challengeに研究メンバーとして参画した経緯から1年間活動してきた内容の振り返りを、ざっくばらんに記載します。メインコンテンツは「大規模分散学習」になる見込みです。 私の体験を通して「cvpaper.challengeでの研究・活動の流れ」や「cvpaper.challengeの研究コミニュティの雰囲気」なども伝えられれば幸いです。 注:勢いに任せて執筆した結果、かなり長くなってしまったので、ご興味に応じて適当に読み飛ばしていただければと思います🙇‍♂️ 自己紹介私は現在、東京工業大学の情報工学系修士2年で、高性能計

      大規模分散学習でGPUを食べまくる人|マソラ
    • メタデータを理解する(NISOによる入門書)|国立国会図書館-National Diet Library

      小売業者が商品や顧客の情報をどのように保管しているかをご存じですか。雇用者は従業員とその業務内容の情報、団体は主催する行事の情報、研究機関は各分野の動向と注目すべき人物の情報、図書館や文書館や博物館は保存管理している資料の情報、政府は国民や同盟国や敵対国の情報をどのように保管しているのでしょうか。これらの情報は、すべてメタデータです。メタデータは、事物を言い表すために私たちが作成、保管、共有する情報です。メタデータのおかげで、私たちは事物と関わり合い、必要な知識を得ることができます。「メタデータ」という言葉は古来、その語源が文字通りに表すように「データに関するデータ」という意味を持っています。このような定義の広さから、メタデータは遍在しているのではないかと考える人もいるかもしれませんが、事実そのとおりです。米国では、2013年に米国国家安全保障局(National Security Age

      • 製造現場におけるデータマネジメントを考える - だーくまさんのブログ

        はじめに データ分析業に転職してから、機械学習や統計学の手法を中心に学んで来たのですが、それってデータありきの話なんですよね。 データ分析をビジネスに活用するためには、まずデータそのものの準備や適切な管理が必要になります。Garbage in Garbage outという言葉もありますもんね。 在宅勤務で時間に余裕ができた今、データマネジメントについて学んでみることにしました。 勉強材料 データマネジメントを学ぶ書籍としては、 「データマネジメント知識体系ガイド(DMBOK)」というバイブルがありますが、600P超えで如何せん初心者にはハードルが高いです💦。 と思っていたところ、この本を実務者の経験を踏まえて要約した書籍がありました。 その名も「データマネジメントが30分でわかる本」。この本の優れている点はタイトルに書かれているとおり30分でデータマネジメントの概要が分かる点です。 章ご

          製造現場におけるデータマネジメントを考える - だーくまさんのブログ
        • Visualizing Data Timeliness at Airbnb

          Imagine you are a business leader ready to start your day, but you wake up to find that your daily business report is empty — the data is late, so now you are blind. Over the last year, multiple teams came together to build SLA Tracker, a visual analytics tool to facilitate a culture of data timeliness at Airbnb. This data product enabled us to address and systematize the following challenges of d

            Visualizing Data Timeliness at Airbnb
          • GAIA-Xとは何か、GAFAMも巻き込む欧州のクラウド・データインフラ構想

            欧州統合データ基盤プロジェクト「GAIA-X(ガイア-エックス)」が、2020年6月に正式発足されました。ドイツ主導で立ち上げられ、フランスとともに準備が進められてきたGAIA-X発足の背景には、クラウドコンピューティングやデジタルプラットフォームビジネスの分野で米国や中国の後塵を拝しているとの欧州の危機感があると言われます。今回は、正式発足から半年が経過し、2021年にデータインフラのプロトタイプの構築、運用を開始予定のGAIA-Xについて取り上げます。 東芝 デジタルイノベーションテクノロジーセンター チーフエバンジェリスト アルファコンパス 代表 中小企業診断士、PMP(Project Management Professional) 1990年3月 早稲田大学大学院修士課程(機械工学)修了。1990年に東芝に入社後、製造業向けSCM、ERP、CRM、インダストリアルIoTなどのソリ

              GAIA-Xとは何か、GAFAMも巻き込む欧州のクラウド・データインフラ構想
            • How LinkedIn, Uber, Lyft, Airbnb and Netflix are Solving Data Management and Discovery for Machine Learning Solutions

              How LinkedIn, Uber, Lyft, Airbnb and Netflix are Solving Data Management and Discovery for Machine Learning Solutions When comes to machine learning, data is certainly the new oil. The processes for managing the lifecycle of datasets are some of the most challenging elements of large scale machine learning solutions. Data ingestion, indexing, search, annotation, discovery are some of the aspects r

                How LinkedIn, Uber, Lyft, Airbnb and Netflix are Solving Data Management and Discovery for Machine Learning Solutions
              • 意思決定につなげるためのデータマネジメント~今、注目を浴びるアナリティクスエンジニア~

                2023年4月6日に、「ガートナー データ&アナリティクス サミット 2023」で発表した、山邉の資料です。

                  意思決定につなげるためのデータマネジメント~今、注目を浴びるアナリティクスエンジニア~
                • データ整備の優先順位付けに役立つテクニック

                  [Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails

                    データ整備の優先順位付けに役立つテクニック
                  • LIXIL:BigQuery を中心としたデータ活用基盤 LIXIL Data Platform を構築、"データ活用の民主化" を推進 | Google Cloud 公式ブログ

                    LIXIL:BigQuery を中心としたデータ活用基盤 LIXIL Data Platform を構築、"データ活用の民主化" を推進 これまでも Google Cloud を有効活用してきた株式会社LIXIL(以下、LIXIL)。これからの新時代に向け、さまざまな先進的な取り組みを行っている同社ですが、中でも注目すべき取り組みが、BigQuery を中心としたデータ活用基盤『LIXIL Data Platform(以下、LDP)』です。"データ活用の民主化" を掲げ、2021 年 5 月に正式運用開始されたこの仕組みが、今、どのように LIXIL を変えようとしているのかを聞いてきました。 利用している Google Cloud ソリューション:スマート アナリティクス 利用している Google Cloud サービス:BigQuery、BigQuery ML、Data Catalog

                      LIXIL:BigQuery を中心としたデータ活用基盤 LIXIL Data Platform を構築、"データ活用の民主化" を推進 | Google Cloud 公式ブログ
                    • GitHub - reata/sqllineage: SQL Lineage Analysis Tool powered by Python

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - reata/sqllineage: SQL Lineage Analysis Tool powered by Python
                      • spaCy固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援 - OPTiM TECH BLOG

                        R&D チームの徳田(@dakuton)です。記事冒頭に書くことが思いつかなかったので先日のGPT記事にあるサンプルを使ってみました。 試してみたところ、Tech Blog記事っぽい出力にはなりました。 入力(Prompt): R&D チームの徳田([@dakuton](https://twitter.com/dakuton))です。 出力: 皆さんおひさしぶりです。遅くなりましたが、11/18(金)に行われましたRuby Machine Learningの勉強会の模様を記事にしました。 サンプルは下記参照 tech-blog.optim.co.jp 背景 本題ですが、目的は本記事タイトルのとおりです。 参考: 個人情報保護委員会が個人情報を漏えい パブリックコメント参加者の氏名や所属先を誤掲載 - ITmedia NEWS 技術要素としては下記と同じような内容です。本記事ではこれをspa

                          spaCy固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援 - OPTiM TECH BLOG
                        • 色々なDBに使えるOSSデータカタログAmundsenからAmazon Athenaのメタデータを取得してみた | DevelopersIO

                          どうも!DA部の春田です。 Lyft社製のOSSデータカタログAmundsenの魅力の一つは、そのコネクタの豊富さです。すでにかなりの数のテーブル・コネクタ、ダッシュボード・コネクタが備わっているので、既存のETL基盤にサッと導入することができます。 amundsen-io/amundsen: Supported Integrations 今回はAmundsenをEC2インスタンス上でセットアップし、Amazon Athena内のテーブルメタデータを取得してみました。 Amundsenのセットアップ 下記事でローカルのMacにAmundsenをセットアップしていますが、今回も改めてセットアップ方法を記載しておきます。 今回使用するEC2インスタンスは、Ubuntu 20.04 LTSのt3.mediumでEBSを15GB使用します。パブリックIPを有効化し、セキュリティグループはSSH用の

                            色々なDBに使えるOSSデータカタログAmundsenからAmazon Athenaのメタデータを取得してみた | DevelopersIO
                          • 富士通子会社、冤罪に加担 英郵便の会計システム欠陥 - 日本経済新聞

                            郵便局を舞台にした英国史上最大の冤罪(えんざい)事件を巡り、欠陥のある会計システムを納めた富士通側の責任が浮上している。富士通の英子会社は1999年の納入当初からシステムの不具合を把握しつつ、その事実を隠して郵便局長らの訴追に加担してきた。幹部らの証言で明らかになった。「不具合があることは配備の当初からわかっていた」。富士通の執行役員で欧州地域の共同最高経営責任者(CEO)を務めるポール・パタ

                              富士通子会社、冤罪に加担 英郵便の会計システム欠陥 - 日本経済新聞
                            • データプロダクトマネージャーとは【データ用語解説】|よしむら@データマネジメント担当|note

                              データ用語解説の趣旨データに係る仕事をしていて、まだまだデータ利活用に関する用語を誤解していることが多いなと感じています。 という事で、データ利活用に係るデータサイエンティスト、データエンジニア、ビジネス部門、業務部門の人たちが押さえておきたい用語を解説していきます。 今回は「データプロダクトマネージャー」について解説します。 データプロダクトマネージャーはデータプロダクトを創りビジネスをグロースする役割名として用いられます。 データプロダクトマネージャーはデータ人材の中の役割の1つで、日本に入ってきたばかりの役割でまだ固まっていない職種であるため、ここで書くのはそういう考え方もあるといった感じで受け取ってもらえればよいと思います。 データマネジメントについての情報データ用語解説 データ用語の解説を書いてます。

                                データプロダクトマネージャーとは【データ用語解説】|よしむら@データマネジメント担当|note
                              • Data Management, Quality and Governance

                                Photo by Tom Sodoge on UnsplashData quality is a journey, it doesn’t come in one day, and the focus should be more about improving data quality than having it right on day one. Having a data governance model, implementing testing for data quality are all things that help on this journey. A more thorough approach looks at the different areas of planning, validation, cleansing, surfacing, and docume

                                  Data Management, Quality and Governance
                                • MLOps系プロダクトの布教活動報告 - Qiita

                                  この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日本語版)です。 このプロダクト

                                    MLOps系プロダクトの布教活動報告 - Qiita
                                  • webdatasetの使い方:shardの作り方からセマンティックセグメンテーションのデータセットを読み込むまで - Qiita

                                    1. webdatasetとは webdatasetとは,データセットをtarアーカイブで読み書きするためのライブラリです. WebDataset reads dataset that are stored as tar files, with the simple convention that files that belong together and make up a training sample share the same basename. つまり,tarファイルの中に n01440764/ILSVRC2012_val_00000293.cls n01440764/ILSVRC2012_val_00000293.jpg n01440764/ILSVRC2012_val_00002138.cls n01440764/ILSVRC2012_val_00002138.jpg n

                                      webdatasetの使い方:shardの作り方からセマンティックセグメンテーションのデータセットを読み込むまで - Qiita
                                    • メルペイのミッション「信用を創造する」に深〜く関わるData&MLの歴史を改めて紐解いてみる! | mercan (メルカン)

                                      「信用を創造して、なめらかな社会を創る」とは、メルペイが創業時から掲げているミッションです。「信用を創造する」は、売る・買うの取引を通じて信用情報を可視化し、その信用に基づいてお金を自由に使える世界をつくること。「なめらかな社会」とは、一人ひとりが今よりも自由に、平等にお金を使い、欲しいものを手に入れたり、やりたいことが叶う社会を指しています。 なかでも「信用を創造する」部分に大きく関わるのが、メルペイでデータを活用しビジネスのグロース施策を推進するData & MLグループです。 では、Data & MLグループではどんな仕事をしているのか。そして、どういう組織体制なのか。Data & MLにある3つのチームでそれぞれエンジニアリングマネージャー(EM)を務める@zak3、@tori、@hase-ryo、@takafujiに聞いてみました。 メルペイData & ML、エンジニアリングマ

                                        メルペイのミッション「信用を創造する」に深〜く関わるData&MLの歴史を改めて紐解いてみる! | mercan (メルカン)
                                      • DataHub: A generalized metadata search & discovery tool

                                        Co-authors: Mars Lan, Seyi Adebajo, Shirshanka Das Editor’s note: Since publishing this blog post, the team open sourced DataHub in February 2020. You can read more on the journey of open sourcing the platform here. As the operator of the world’s largest professional network and the Economic Graph, LinkedIn’s Data team is constantly working on scaling its infrastructure to meet the demands of our

                                          DataHub: A generalized metadata search & discovery tool
                                        • Fast and flexible observability with canonical log lines

                                          Logging is one of the oldest and most ubiquitous patterns in computing. Key to gaining insight into problems ranging from basic failures in test environments to the most tangled problems in production, it’s common practice across all software stacks and all types of infrastructure, and has been for decades. Although logs are powerful and flexible, their sheer volume often makes it impractical to e

                                            Fast and flexible observability with canonical log lines
                                          • GAFAの強さの源泉「アイデンティティー管理」 第一人者に聞く

                                            みなさんがインターネット上のサービス、例えばAppleやGoogleなどのサービスを使うとき、「あなた本人が使っている」ことをサービス提供側は認識している。それを可能にするのが「アイデンティティー管理」(デジタルで扱うので「デジタルアイデンティティー管理」と呼ぶ)である。その第一人者は実は日本人で、OpenID Foundationという米国を本拠地にする国際標準化団体の理事長を務める崎村夏彦氏だ。同氏が著した『デジタルアイデンティティー 経営者が知らないサイバービジネスの核心』(2021年7月発行)は、DX経営者が自分の言葉で語らねばならないことをまとめているという。(聞き手=日経BP 技術メディアユニット クロスメディア編集) 崎村さんは何をしている人なのか、一言で説明するとどうなりますか? 「アイデンティティーのプロトコルを作成する人」です。AppleやGoogleなどが提供するサー

                                              GAFAの強さの源泉「アイデンティティー管理」 第一人者に聞く
                                            • GitHub - webdataset/webdataset: A high-performance Python-based I/O system for large (and small) deep learning problems, with strong support for PyTorch.

                                              WebDataset format files are tar files, with two conventions: within each tar file, files that belong together and make up a training sample share the same basename when stripped of all filename extensions the shards of a tar file are numbered like something-000000.tar to something-012345.tar, usually specified using brace notation something-{000000..012345}.tar WebDataset can read files from local

                                                GitHub - webdataset/webdataset: A high-performance Python-based I/O system for large (and small) deep learning problems, with strong support for PyTorch.
                                              • LinkedIn Data Infrastructure - Software Engineering Daily

                                                LinkedIn has become a staple for the modern professional, whether it’s used for searching for a new job, reading industry news, or keeping up with professional connections. As a rapidly growing platform that serves more than 675 million users today, LinkedIn is a company that can boast of having one of the largest user bases in the world. How these users interact with the site and react to recomme

                                                  LinkedIn Data Infrastructure - Software Engineering Daily
                                                • Memento Database - Google Play のアプリ

                                                  メメントデータベースは、使いやすいデータベース管理のためのカスタマイズ可能なソリューションの複雑な、です。 メンメントは、あなたとあなたのチームがあらゆる情報を簡単かつ効果的に管理できるようにします。 他のデータベース管理ツールとは異なり、メメントデータベースは両方の経験豊富なユーザーやカジュアルな問題を解決するものにとって有用となるシンプルなユーザーインターフェースにパックされた強力な機能を提供します。 主な機能 ● カスタムフィールドを含むエントリの保存。 ● 集計、チャート作成、ソート、グループ化、および任意のフィールドによるエントリのフィルタリングを含む、データ分析の実行。 ● リスト、カード、テーブル、マップ、カレンダーの形式でデータを表示する。 ● グーグルスプレッドシートとの同期。 ● ライブラリへのアクセスを他のユーザーに提供することで、クラウドストレージとチームワーク。

                                                    Memento Database - Google Play のアプリ
                                                  • Publicly Available Standards

                                                    In accordance with ISO/IEC JTC 1 and the ISO and IEC Councils, these International Standards are publicly available for Standardization purposes. Licence Agreement for Publicly Available Standards When you download (an) ISO publication(s) from this site, you accept the ISO Customer Licence Agreement ("Licence Agreement"), excluding clauses 2. Watermark, 5. Paper copies, and 6. Codes and Graphical

                                                    • Building Machine Learning Pipelines

                                                      Get full access to Building Machine Learning Pipelines and 60K+ other titles, with a free 10-day trial of O'Reilly. There are also live events, courses curated by job role, and more.

                                                        Building Machine Learning Pipelines
                                                      • Abstract

                                                        Data Lake Management: Challenges and Opportunities Tuesday, August 27, 11:00 – 12:30 -- VLDB 2019, Los Angeles, California Abstract The ubiquity of data lakes has created fascinating new challenges for data management research. In this tutorial, we review the state-of-the-art in data management for data lakes. We consider how data lakes are introducing new problems including dataset discovery and

                                                        • Test data quality at scale with Deequ | Amazon Web Services

                                                          AWS Big Data Blog Test data quality at scale with Deequ March 2023: You can now use AWS Glue Data Quality to measure and manage the quality of your data. AWS Glue Data Quality is built on DeeQu and it offers a simplified user experience for customers who want to this open-source package. Refer to the blog and documentation for additional details. You generally write unit tests for your code, but d

                                                            Test data quality at scale with Deequ | Amazon Web Services
                                                          • https://dl.acm.org/doi/10.1145/3299869.3314050

                                                            • 「データマネジメントが30分でわかる本」を(ちょっと)実践してみた|たぽー | kübell

                                                              結論は「30分じゃ全く読み終わらない」。普通に3時間くらいかけて読み終えましたが、冒頭部に筆者からの宿題が出されていたので取り組んでみようと思います。 筆者からの宿題 ①自分の置かれた環境で解くべき課題は何か ②その課題に対して何ができるか①自分の置かれた環境で解くべき課題は何か 課題:キャンプ場の運営をしているが顧客管理の仕組みがないこと ひと昔前までは電話予約が主流だったキャンプ場も今はネット予約(OTA)を導入している施設が大半です。うちでも「なっぷ」「TAKIBI」といったOTAを利用しています。予約管理システムとしては十分なのですが、運営側としては「家族構成」「道具のレンタル有無」「平日/休日利用」などの顧客属性を元にプラン企画やマーケティングに活かしていきたいという思いがあります。 一応OTAにも「顧客情報CSV出力」「予約プランの分析」機能はあるのですが、顧客と予約が紐付いて

                                                                「データマネジメントが30分でわかる本」を(ちょっと)実践してみた|たぽー | kübell
                                                              • Data Catalogs Are Dead; Long Live Data Discovery

                                                                Image courtesy of Andrey_Kuzmin on ShutterstockAs companies increasingly leverage data to power digital products, drive decision making, and fuel innovation, understanding the health and reliability of these most critical assets is fundamental. For decades, organizations have relied on data catalogs to power data governance. But is that enough? Debashis Saha, VP of Engineering at AppZen, formerly

                                                                  Data Catalogs Are Dead; Long Live Data Discovery
                                                                • 2021/12/08 データモデリングの文脈変化 - /home/by-natures/dev*

                                                                  DMBOK で一番読むのを楽しみにしていたのがデータモデルの章だったのですが、いざ読んでみると細かすぎるというか、求めていたものと違う感覚がありました。私がドメイン駆動設計から生成されるモデルの実用性に興味をもっていた時期なので、実践的な内容を求めているだけかもしれませんが…。DMBOK ではデータモデリング・スキームが多数紹介されていたり、データモデリング戦略を立ててモデリングしていきましょう・・・といった内容が書かれており、現職で起きている問題を解決するのには役立たなそうだと感じました。 そんな中で見つけたこのデータ総研さんの記事で合点がいきました: (EDW報告その2)データモデリングの逆襲 | 株式会社データ総研 データ構造を固めなくてもデータを格納して貯めていけるNoSQLは、Webを中心としたシンプルなビジネスで数多く採用されています。テキストも画像も音声も動画も、なんでも構造

                                                                    2021/12/08 データモデリングの文脈変化 - /home/by-natures/dev*
                                                                  • Introducing the Model Card Toolkit for Easier Model Transparency Reporting

                                                                    Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                                                                      Introducing the Model Card Toolkit for Easier Model Transparency Reporting
                                                                    • LINE DEVELOPER DAY 2021 振り返りレポート

                                                                      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog Developer Successチームの佐藤です。 11月10日、11日の2日間、LINEの技術カンファレンス「LINE DEVELOPER DAY 2021」を開催しました。まずは、ご参加/視聴いただいた皆さま、登壇いただいたLINEおよびそのグループ企業の登壇者の皆さま、運営に携わっていただいた皆さま、本当にありがとうございました。 LINE DEVELOPER DAY 2021は、COVID-19感染拡大の影響で昨年に引き続き、オンラインイベントでの開催となりました。この記事では、LINE DEVELOPER DAY 2021がどのような傾向で登録・参加・視聴されたのかを各種数値とともに振り返ってみようと思います。 C

                                                                        LINE DEVELOPER DAY 2021 振り返りレポート