[B! データ] [5ページ] yassan0627のブックマーク

yassan0627 id:yassan0627

データに関するyassan0627のブックマーク (426)

https://brooklyndata.co/blog/benchmarking-open-table-formats
yassan0627 2022/12/11
Iceberg

Delta Lake

データ

benchmark
リンク
MovieLens
GroupLens Research has collected and made available rating data sets from the MovieLens web site (https://movielens.org). The data sets were collected over various periods of time, depending on the size of the set. Before using these data sets, please review their README files for the usage licenses and other details. Seeking permission? If you are interested in obtaining permission to use MovieLe
yassan0627 2022/12/10
データセット

データ
リンク
Hive Distributed Profiling System in Treasure Data - Japanese version #tdtechtalk
『Hive Distributed Profiling System in Treasure Data』の日本語版スライド。 English version -> https://speakerdeck.com/okumin/hive-distributed-profiling-system-in-treasure-data-english-version-number-tdtechtalk TreasureData Tech Talk 2022にて発表 https://techplay.jp/event/879660
yassan0627 2022/12/06
hive

分散システム

データ
リンク
続・Apache Ozone をやっていた一年 - Preferred Networks Research & Development
PFN では HDFS から Apache Ozone への移行を進めています。Ozone クラスタは順調に社内のプロジェクトで採用が進んでデータが増加しており、これまでの 2 年間は数度にわたってクラスタを拡張しました。ところが、段階的にクラスタを拡張したことでデータノード間でのディスク使用量の不均衡が問題になってきました。例えば、全てのディスクが 8 割埋まっている Ozone クラスタにまったく空のデータノードを追加すると、データ使用量に大きな不均衡が生じます。新規追加した空のサーバにデータを移動することをリバランスといいますが、運用しやすいようにリバランスを実装する方法は自明ではありません。HDFS ではノード単位でディスク使用量を規定の範囲内に均すように移動する Balancer やデータノード内のディスクを同様に移動する Disk Balancer があります。一方で Ozon
yassan0627 2022/11/15
HDFS

hadoop

Apache Ozone

データ
リンク
Ozone Write Pipeline V2 with Ratis Streaming - Cloudera Blog
yassan0627 2022/11/12
OzoneとHDFSのファイル書き込みの仕組み

hadoop

HDFS

Apache Ozone

データ
リンク
差分プライバシーの企業動向�〜BigTech企業を中心とした差分プライバシーの適用事例から動向を探る〜
yassan0627 2022/11/08
データ

プライバシー
リンク
クラウドネイティブなDBを使ってみよう！（株式会社サイバーエージェント様）
yassan0627 2022/10/29
TiDB

k8s

データ

NewSQL
リンク
無料オンライントレーニング (PingCAP Education)
概要プレスルーム著作権お問い合わせクリエイター向け広告掲載開発者向け利用規約プライバシーポリシーとセキュリティYouTube の仕組み新機能を試してみる© 2024 Google LLC
yassan0627 2022/10/29
TiDB

NewSQL

データ
リンク
TiKV - Raftによるデータ整合性の実現
yassan0627 2022/10/29
動画： https://youtu.be/m6EcvGu-Wg0

NewSQL

TiDB

TiKV

データ
リンク
全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
こんにちは、データ基盤の開発、運用をしていた谷口（case-k）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。データ基盤の紹介旧データ基盤の紹介旧データ基盤の課題変更があっても更新されないデータ性質の異なるテーブルを同じ命名規則で管理
yassan0627 2022/10/12
gcp

データ
リンク
データベースの性能検証に利用されるTPC-HとTPC-DSに関するざっくりとした整理 - Qiita
概要データベースの性能検証によく利用されるTPC-HとTPC-DSをざっくり整理する。 TPCとは TPCとは、Transaction Processing Performance Councilの略であり、トランザクション処理性能評議会である。データベースのトランザクション性能検証を作成・検証を目的とした団体である。複数の性能検証ベンチマークがあり、TPC-E、TPC-H等が有名である。 TPCのテスト一覧 TPCのActive Benchmarksには下記のものがあり、TPC-HとTPC-DSはそのうちの１つのベンチマークである。 Benchmark/Document Current Version Specification Source Code
yassan0627 2022/07/24
データ

チューニング
リンク
GitHub - hortonworks/hive-testbench
yassan0627 2022/07/24
hive

データ

チューニング
リンク
GitHub - cloudera/impala-tpcds-kit: TPC-DS Kit for Impala
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yassan0627 2022/07/24
impala

データ

チューニング
リンク
Introduction to MLOps
MLSE 夏合宿 2022 3 日目基調講演の資料です。リンクをそれぞれのスライドのフッターにつけていますので、引用元は PDF をダウンロードすると確認できます。
yassan0627 2022/07/18
データ

MLOps

機械学習
リンク
機械学習システムアーキテクチャ入門＃2
機械学習システムのアーキテクチャを検討する上で考慮すべき課題について調査しまとめた資料です。Money Forward 社内で開かれた MLOps についての勉強会のために作成しました。 ## Reference 澁井雄介著 AI エンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 有賀康顕中山心太西林孝　著仕事ではじめる機械学習第2版オライリー・ジャパン 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 Katrina Clokie 著風間裕也, 河原田政典訳 A Practical Guide to Testing in DevOps Japanese Edition
yassan0627 2022/07/18
データ

MLOps

機械学習
リンク
機械学習システムアーキテクチャ入門 #1
機械学習システムのアーキテクチャを検討する上で考慮すべき課題について調査しまとめた資料です。Money Forward 社内で開かれた MLOps についての勉強会のために作成しました。 ## Reference ### 大規模なデータを扱う難しさ - Architecture Evolution in Repro https://speakerdeck.com/joker1007/architecture-evolution-in-repro - Sidekiq to Kafka ストリームベースのmicro services https://speakerdeck.com/joker1007/sidekiq-to-kafka-sutorimubesufalsemicro-services - ReproのImport/Exportを支えるサーバーレスアーキテクチャhttps://spe
yassan0627 2022/07/18
データ

MLOps

機械学習
リンク
nifi-stuff/nifi-docker-compose at main · asdaraujo/nifi-stuff
yassan0627 2022/06/28
“This docker-compose configuration file uses the NiFi docker image to launch a 2-node NiFi cluster. The NiFi configuration and repositories are persisted in Docker volumes, so they survive cluster restarts.”

Apache NiFi

データ

hadoop
リンク
Get to Know Apache Flume from Scratch!
yassan0627 2022/06/24
hadoop

Flume

データ
リンク
Kafka Brokerのcompaction動作の詳細とチューニング方法について - Repro Tech Blog
Reproでチーフアーキテクトとして働いているid:joker1007です。今回、Kafka Brokerのcompaction動作について調査しチューニングすることでパフォーマンス改善の成果が得られたため、そのノウハウをブログにまとめておきました。かなりマニアックな内容なので、需要は多くないと思いますが、私が調査した限りでは日本語で同じ様な内容のブログ記事はほとんど存在しなかったため、Kafkaを自前で運用している人にとっては役に立つ内容かもしれません。 compactionとは (参考: https://kafka.apache.org/documentation/#compaction) Kafkaの基本的なデータ削除ポリシーは一定時間が経過したら過去のデータをそのまま削除するdeleteというポリシーを使う。これは、log.retention.hoursという設定でコントロー
yassan0627 2022/06/22
kafka

チューニング

データ
リンク
Optimizing Hive on Tez Performance - Cloudera Blog
yassan0627 2022/06/18
Hive on Tezのパフォーマンス・チューニング

hadoop

Tez

データ
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx