[B! dataManagement] manboubirdのブックマーク

manboubird id:manboubird

dataManagementに関するmanboubirdのブックマーク (399)

GOのデータ・AIを活用する「組織」を30分で紹介
GO TechTalk #25 で発表した資料です。 ■ YouTube https://www.youtube.com/live/lH0z49oHRWI?feature=shared&t=98 ■ connpass https://jtx.connpass.com/event/306325/
manboubird 2024/03/03
dataPlatform

dataManagement

slide

goInc

mlOps

kpi
リンク
社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。
manboubird 2024/01/31
dataManagement

modernDataStack

dbt

dataIntegration

ETL
リンク
富士通子会社、冤罪に加担　英郵便の会計システム欠陥 - 日本経済新聞
郵便局を舞台にした英国史上最大の冤罪（えんざい）事件を巡り、欠陥のある会計システムを納めた富士通側の責任が浮上している。富士通の英子会社は1999年の納入当初からシステムの不具合を把握しつつ、その事実を隠して郵便局長らの訴追に加担してきた。幹部らの証言で明らかになった。「不具合があることは配備の当初からわかっていた」。富士通の執行役員で欧州地域の共同最高経営責任者（CEO）を務めるポール・パタ
manboubird 2024/01/31
softwareEngineering

bug

fujitsu

crime

dataQuality

dataManagement

dataGovernance
リンク
データ保護完全ガイド
本書には、バックアップ、アーカイブ、リストア、リトリーブ、それらを行う上で用いられる手法、ソフトウェア、サービス、バックアップとアーカイブを保存する際に使用されるハードウェアなど、データ保護に関して必要な知識が全て詰まっています。この20年間に現れた新技術についても触れ、従来のバックアップから最新のIT 技術までそれぞれの良い点と悪い点を理解することができます。「バックアップとアーカイブの違い」「テープがあるべき場所」「Microsoft 365やSalesforceのようなSaaS製品をバックアップすべきか」といったバックアップ業界で議論される多くのテーマにも決着をつけています。データ保護に関する決定を下すための重要な基本概念を学べる1冊です。訳者まえがき序文はじめに 1章　データへのリスク：我々はなぜバックアップするのか 1.1　人災 1.1.1　事故 1.1.2　悪いコード 1.
manboubird 2023/12/06
dataProtection

book

oreilly

dataManagement
リンク
Data Commons – Google Research
manboubird 2023/11/10
dataCommons

google

paper

schemaManagement

dataManagement
リンク
spaCy固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援 - OPTiM TECH BLOG
R&D チームの徳田（@dakuton）です。記事冒頭に書くことが思いつかなかったので先日のGPT記事にあるサンプルを使ってみました。試してみたところ、Tech Blog記事っぽい出力にはなりました。入力(Prompt): R&D チームの徳田（[@dakuton](https://twitter.com/dakuton)）です。出力: 皆さんおひさしぶりです。遅くなりましたが、11/18(金)に行われましたRuby Machine Learningの勉強会の模様を記事にしました。サンプルは下記参照 tech-blog.optim.co.jp 背景本題ですが、目的は本記事タイトルのとおりです。参考: 個人情報保護委員会が個人情報を漏えい　パブリックコメント参加者の氏名や所属先を誤掲載 - ITmedia NEWS 技術要素としては下記と同じような内容です。本記事ではこれをspa
manboubird 2023/10/17
Security

dataManagement

spacy

monitoring

ginza
リンク
Executive Education - Value of Data and AI Application
manboubird 2023/09/16
stanford

course

artificialIntelligence

dataManagement

economic
リンク
データマネジメントの要点とは？ DMBOKの全体像をDX課題起点で読み解く
DMBOK データマネジメント知識体系ガイド（第二版）の読み方 DMBOK データマネジメント知識体系ガイド（第二版） DXやデータ利活用の進展とともに、「データマネジメント」という言葉を耳にすることが増えているでしょう。皆さんの所属企業にも、『DMBOK データマネジメント知識体系ガイド（第二版）』[※1]（以下DMBOK2と呼称）という分厚い書籍が置かれているのを目にしているかもしれません。しかしながら、「対象が広範囲で全体像が掴みづらい」「DMBOK2も分厚くてどこから読んでよいか分からない」「そもそも取り組み・習得の効果が疑問」という声も聞くことがあります。この記事では、そのような疑問に応えるためのアプロ―チとして、各企業が抱えるDXの課題と紐づけた形でのデータマネジメントの解説を試みます。読了後には、なぜいまDXの進展とともにデータマネジメントの注目度が上がっているのかにつ
manboubird 2023/09/07
book

dataManagement

review
リンク
Bloomberg - Are you a robot?
manboubird 2023/08/05
bloomberg

dataManagement
リンク
Bloomberg CTO Shawn Edwards on his "rock star" technology office
manboubird 2023/08/05
bloomberg

dataManagement
リンク
意思決定につなげるためのデータマネジメント～今、注目を浴びるアナリティクスエンジニア～
2023年4月6日に、「ガートナーデータ＆アナリティクスサミット 2023」で発表した、山邉の資料です。
manboubird 2023/08/04
dataManagement

slide

recruit

analytics
リンク
1ペタバイトのデータセットで機械学習する / WebDataset入門
深層学習をする上で、最も大切なマシンスペックを聞かれたら何と答えますか? GPUのTensor性能、VRAM、GPUの数、CPU性能、メモリ、… 問題によって正解は異なりますね。しかし、特に大規模なデータセットで機械学習する場合では、しばしばネットワーク帯域とストレージシステムのディスクI/Oによって制限されます。この記事ではそのような課題に対して、学習側でどのようにデータを扱うかを見ていきたいと思います。 1. この記事は? こんにちは、TURING MLチームです。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指す会社です。私たちは自動運転モデルを動かすため、可視域のカメラセンサによる画像で学習し、カメラ映像のみから車体の操作や経路選択、安全性の判断を行わせています。(実際の車を動かす事例はこちらの記事をご覧ください。) そのため、機械学習のため
manboubird 2023/07/29
webdataset

dataManagement
リンク
webdatasetの使い方上級編3：shard読み込みをlightningのDistributedDataParallel (DDP)で - Qiita
webdatasetの使い方上級編3：shard読み込みをlightningのDistributedDataParallel (DDP)でLightningPyTorch Pytorch-lightningwebdatasetDDP これはwebdatasetの使い方の続編です．この記事では，pytorch lightningのdistributed data parallel (DDP)でwebdatasetを使う方法を説明します．data parallel (DP)の方法は別記事で説明していますので，まずはそちらを見てからまた戻ってきてください． shardの作成以下の記事で，multiprocessingを用いて並列ワーカーでshardを作成します． DataParallel (DP)の説明以下の記事で，shard読み込みをdata parallel (DP)で行う方法を説明して
manboubird 2023/07/29
webdataset

dataManagement
リンク
webdatasetの使い方：shardの作り方からセマンティックセグメンテーションのデータセットを読み込むまで - Qiita
1. webdatasetとは webdatasetとは，データセットをtarアーカイブで読み書きするためのライブラリです． WebDataset reads dataset that are stored as tar files, with the simple convention that files that belong together and make up a training sample share the same basename. つまり，tarファイルの中に n01440764/ILSVRC2012_val_00000293.cls n01440764/ILSVRC2012_val_00000293.jpg n01440764/ILSVRC2012_val_00002138.cls n01440764/ILSVRC2012_val_00002138.jpg n
manboubird 2023/07/29
webdataset

dataManagement
リンク
大規模分散学習でGPUを食べまくる人｜マソラ
こんにちは！東工大修士2年/産総研RAの高島空良と申します。本記事は、研究コミュニティ cvpaper.challenge 〜CV分野の今を映し,トレンドを創り出す〜 Advent Calendar 2022の17日目の記事となります。本記事では、私がcvpaper.challengeに研究メンバーとして参画した経緯から1年間活動してきた内容の振り返りを、ざっくばらんに記載します。メインコンテンツは「大規模分散学習」になる見込みです。私の体験を通して「cvpaper.challengeでの研究・活動の流れ」や「cvpaper.challengeの研究コミニュティの雰囲気」なども伝えられれば幸いです。注：勢いに任せて執筆した結果、かなり長くなってしまったので、ご興味に応じて適当に読み飛ばしていただければと思います🙇‍♂️ 自己紹介私は現在、東京工業大学の情報工学系修士2年で、高性能計
manboubird 2023/07/29
webdataset

dataManagement
リンク
GitHub - webdataset/webdataset: A high-performance Python-based I/O system for large (and small) deep learning problems, with strong support for PyTorch.
WebDataset format files are tar files, with two conventions: within each tar file, files that belong together and make up a training sample share the same basename when stripped of all filename extensions the shards of a tar file are numbered like something-000000.tar to something-012345.tar, usually specified using brace notation something-{000000..012345}.tar WebDataset can read files from local
manboubird 2023/07/29
webdataset

dataManagement

python

dataset

lib

machineLearning
リンク
データ整備の優先順位付けに役立つテクニック
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
manboubird 2023/07/14
slide

dataManagement

mercari

dashboard

projectManagement

analytics
リンク
How a Two-Person Team (and their AI) Entered the Top 10 of the World’s Most Successful Funds
manboubird 2023/06/21
bloomberg

finance

dataManagement

machineLearning

architecture

generativeAi
リンク
書籍紹介：大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理（データマネージメント）という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望（新しいデータの提供、仕様の変更）の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ
manboubird 2023/06/03
dataManagement

oreilly

book

review
リンク
Japan looks to enable cross-border data flows at G7 tech meeting
At a meeting of Group of Seven ministers in charge of digital and techno logy policies in Gunma Prefecture this weekend, Japan will strive to bring its fellow members on board with efforts to promote free cross-border flows of data. The meeting is also expected to discuss the use of generative artificial intelligence applications, such as ChatGPT, and how they should be governed. Due to rapid digit
manboubird 2023/04/30
dataManagement

japan

law

localization
リンク
1 2 3 4 5 6 7 8 9 10 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx