GO TechTalk #25 で発表した資料です。 ■ YouTube https://www.youtube.com/live/lH0z49oHRWI?feature=shared&t=98 ■ connpass https://jtx.connpass.com/event/306325/
本書には、バックアップ、アーカイブ、リストア、リトリーブ、それらを行う上で用いられる手法、ソフトウェア、サービス、バックアップとアーカイブを保存する際に使用されるハードウェアなど、データ保護に関して必要な知識が全て詰まっています。この20年間に現れた新技術についても触れ、従来のバックアップから最新のIT技術までそれぞれの良い点と悪い点を理解することができます。「バックアップとアーカイブの違い」「テープがあるべき場所」「Microsoft 365やSalesforceのようなSaaS製品をバックアップすべきか」といったバックアップ業界で議論される多くのテーマにも決着をつけています。データ保護に関する決定を下すための重要な基本概念を学べる1冊です。 訳者まえがき 序文 はじめに 1章 データへのリスク:我々はなぜバックアップするのか 1.1 人災 1.1.1 事故 1.1.2 悪いコード 1.
R&D チームの徳田(@dakuton)です。記事冒頭に書くことが思いつかなかったので先日のGPT記事にあるサンプルを使ってみました。 試してみたところ、Tech Blog記事っぽい出力にはなりました。 入力(Prompt): R&D チームの徳田([@dakuton](https://twitter.com/dakuton))です。 出力: 皆さんおひさしぶりです。遅くなりましたが、11/18(金)に行われましたRuby Machine Learningの勉強会の模様を記事にしました。 サンプルは下記参照 tech-blog.optim.co.jp 背景 本題ですが、目的は本記事タイトルのとおりです。 参考: 個人情報保護委員会が個人情報を漏えい パブリックコメント参加者の氏名や所属先を誤掲載 - ITmedia NEWS 技術要素としては下記と同じような内容です。本記事ではこれをspa
DMBOK データマネジメント知識体系ガイド(第二版)の読み方 DMBOK データマネジメント知識体系ガイド(第二版) DXやデータ利活用の進展とともに、「データマネジメント」という言葉を耳にすることが増えているでしょう。 皆さんの所属企業にも、『DMBOK データマネジメント知識体系ガイド(第二版)』[※1](以下DMBOK2と呼称)という分厚い書籍が置かれているのを目にしているかもしれません。 しかしながら、「対象が広範囲で全体像が掴みづらい」「DMBOK2も分厚くてどこから読んでよいか分からない」「そもそも取り組み・習得の効果が疑問」という声も聞くことがあります。 この記事では、そのような疑問に応えるためのアプロ―チとして、各企業が抱えるDXの課題と紐づけた形でのデータマネジメントの解説を試みます。読了後には、なぜいまDXの進展とともにデータマネジメントの注目度が上がっているのかにつ
深層学習をする上で、最も大切なマシンスペックを聞かれたら何と答えますか? GPUのTensor性能、VRAM、GPUの数、CPU性能、メモリ、… 問題によって正解は異なりますね。 しかし、特に大規模なデータセットで機械学習する場合では、しばしばネットワーク帯域とストレージシステムのディスクI/Oによって制限されます。この記事ではそのような課題に対して、学習側でどのようにデータを扱うかを見ていきたいと思います。 1. この記事は? こんにちは、TURING MLチームです。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指す会社です。 私たちは自動運転モデルを動かすため、可視域のカメラセンサによる画像で学習し、カメラ映像のみから車体の操作や経路選択、安全性の判断を行わせています。(実際の車を動かす事例はこちらの記事をご覧ください。) そのため、機械学習のため
webdatasetの使い方上級編3:shard読み込みをlightningのDistributedDataParallel (DDP)でLightningPyTorchPytorch-lightningwebdatasetDDP これはwebdatasetの使い方の続編です. この記事では,pytorch lightningのdistributed data parallel (DDP)でwebdatasetを使う方法を説明します.data parallel (DP)の方法は別記事で説明していますので,まずはそちらを見てからまた戻ってきてください. shardの作成 以下の記事で,multiprocessingを用いて並列ワーカーでshardを作成します. DataParallel (DP)の説明 以下の記事で,shard読み込みをdata parallel (DP)で行う方法を説明して
1. webdatasetとは webdatasetとは,データセットをtarアーカイブで読み書きするためのライブラリです. WebDataset reads dataset that are stored as tar files, with the simple convention that files that belong together and make up a training sample share the same basename. つまり,tarファイルの中に n01440764/ILSVRC2012_val_00000293.cls n01440764/ILSVRC2012_val_00000293.jpg n01440764/ILSVRC2012_val_00002138.cls n01440764/ILSVRC2012_val_00002138.jpg n
こんにちは!東工大修士2年/産総研RAの高島空良と申します。本記事は、研究コミュニティ cvpaper.challenge 〜CV分野の今を映し,トレンドを創り出す〜 Advent Calendar 2022の17日目の記事となります。 本記事では、私がcvpaper.challengeに研究メンバーとして参画した経緯から1年間活動してきた内容の振り返りを、ざっくばらんに記載します。メインコンテンツは「大規模分散学習」になる見込みです。 私の体験を通して「cvpaper.challengeでの研究・活動の流れ」や「cvpaper.challengeの研究コミニュティの雰囲気」なども伝えられれば幸いです。 注:勢いに任せて執筆した結果、かなり長くなってしまったので、ご興味に応じて適当に読み飛ばしていただければと思います🙇♂️ 自己紹介私は現在、東京工業大学の情報工学系修士2年で、高性能計
WebDataset format files are tar files, with two conventions: within each tar file, files that belong together and make up a training sample share the same basename when stripped of all filename extensions the shards of a tar file are numbered like something-000000.tar to something-012345.tar, usually specified using brace notation something-{000000..012345}.tar WebDataset can read files from local
最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネージメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ
At a meeting of Group of Seven ministers in charge of digital and technology policies in Gunma Prefecture this weekend, Japan will strive to bring its fellow members on board with efforts to promote free cross-border flows of data. The meeting is also expected to discuss the use of generative artificial intelligence applications, such as ChatGPT, and how they should be governed. Due to rapid digit
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く