[B! データ][hadoop] [2ページ] yassan0627のブックマーク

yassan0627 id:yassan0627

データとhadoopに関するyassan0627のブックマーク (70)

Optimizing Hive on Tez Performance - Cloudera Blog
yassan0627 2022/06/18
Hive on Tezのパフォーマンス・チューニング

hadoop

Tez

データ
リンク
LINEの大規模なData PlatformにData Lineageを導入した話
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめにこんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています　IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか
yassan0627 2022/06/14
データ

hadoop

Atlas
リンク
Snowflakeプラットフォームが支える６ワークロード(5) データレイクの過去と現在、そして未来
DXが声高に叫ばれる昨今、デジタル化された業務の結果、生成されるデータをいかにして活用するかが企業の命運を分けるようになってきた。ここ十数年を振り返ると、突如として量も形式も増えたデータに翻弄されることも少なくなかったが、その間にビッグデータを味方につけようと工夫がこらされた技術の一つがデータレイクである。今回は、Snowflakeのサービスパートナーであり、各種先端技術ブログでも有名なクラスメソッド株式会社でデータアナリティクス事業本部プリセールスアーキテクトとして活躍しており、個人としてもこのテクノロジーの歴史をつぶさに見つめてきた甲木洋介氏に、過去から紐解くデータレイクと、未来を担うSnowflakeの役割をご紹介いただこう。解説者：クラスメソッド株式会社データアナリティクス事業本部プリセールスアーキテクト甲木洋介氏 Twitter：@yokatsuki はじめにデー
yassan0627 2022/04/21
データ

hadoop
リンク
Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー
yassan0627 2021/12/10
hadoop

HDFS

運用

Apache Ozone

事例

データ
リンク
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
yassan0627 2021/12/06
spark

hudi

hadoop

データ
リンク
Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
はじめに DRE Team の hyamamoto です．皆さん，Spark は利用されていますか？ Gunosy では Digdag + Athena によるデータ整形が増えてきており，徐々に Spark の利用は減ってきています．思い返すと，昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした．一方で，決して多くはないものの，この構成ではカバーし切れない処理もあり，そういったものに関しては Spark を用いています．話は少し飛びますが，DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています．また，一部のタスクは Kubernetes の Job として Digdag から投げることで，リソースをスケールさせつつ様々な処理が可能となっていま
yassan0627 2021/04/30
spark

k8s

hadoop

データ
リンク
Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する
2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ
yassan0627 2021/01/21
hadoop

Apache Ozone

データ
リンク
HDFS Migration from 2.7 to 3.3 and enabling Router Based Federation (RBF) in production #ACAH2020
yassan0627 2020/10/08
ApacheCon

hadoop

HDFS

データ

RBF
リンク
Improving The Performance Of Cloud-Native Big Data At Netflix Using The Iceberg Table Format with Ryan Blue - Episode 52
Summary With the growth of the Hadoop ecosystem came a proliferation of implementations for the Hive table format. Unfortunately, with no formal specification, each project works slightly different which increases the difficulty of integration across systems. The Hive format is also built with the assumptions of a local filesystem which results in painful edge cases when leveraging cloud object st
yassan0627 2020/08/10
hadoop

データ

Iceberg
リンク
The Apache Iceberg Table Format is the Bright Future of Data Warehousing
yassan0627 2020/08/10
hadoop

データ

Iceberg
リンク
A Thorough Comparison of Delta Lake, Iceberg and Hudi
yassan0627 2020/08/10
hadoop

データ

Iceberg

Hudi

DeltaLake
リンク
GitHub - apache/iceberg: Apache Iceberg
Iceberg is built using Gradle with Java 8, 11, or 17. To invoke a build and run tests: ./gradlew build To skip tests: ./gradlew build -x test -x integrationTest To fix code style for default versions: ./gradlew spotlessApply To fix code style for all versions of Spark/Hive/Flink:./gradlew spotlessApply -DallVersions Iceberg table support is organized in library modules: iceberg-common contains uti
yassan0627 2020/08/10
“Apache Iceberg is a new table format for storing large, slow-moving tabular data. It is designed to improve on the de-facto standard table layout built into Hive, Presto, and Spark. ”

hadoop

データ
リンク
Why monitoring your big data analytics pipeline is important (and how to get there)
yassan0627 2020/07/30
データ

監視

hadoop
リンク
Spark+AI Summit 2019 セッションハイライト (Spark Meetup Tokyo #1 - Spark+AI Summit 2019)
■Spark Meetup Tokyo #1 - Spark+AI Summit 2019 発表資料 (2019/06/12) Spark+AI Summit 2019 セッションハイライト株式会社NTTデータ (NTT DATA) 技術革新統括本部猿田浩輔 / 田中正浩 / 都築正宜 ※イベント概要 https://spark-meetup-tokyo.connpass.com/event/131791/Read less
yassan0627 2020/07/07
データ

DeltaLake

hadoop

HDFS

spark
リンク
Apache Hadoop のデータを BigQuery で分析するための移行手順
この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 2 日目の記事です。 TL;DRApache Hadoop のデータを BigQuery で分析できるようにするための移行手順をご紹介します。Google Cloud が提供する、フルマネージドでサーバレスなデータウェアハウスである BigQuery を活用することで、インフラやミドルウェアの運用保守作業を行う必要がなく、データ分析作業に専念できるようになります。（個人的な意見ですが）オンプレミスで Apache Hadoop クラスタを運用している場合、サーバの調達や、ミドルウェアのインストール、各種リソースの使用率のモニタリング、パフォーマンスチューニングなどの運用保守作業が定期的に発生し、効率的にデータ分析環境を運用することができない、といった課題が
yassan0627 2020/06/02
bigquery

hadoop

データ

google

運用
リンク
Apache Hadoop Ozone セキュリティ–認証
yassan0627 2020/04/25
hadoop

Apache Ozone

データ
リンク
Hive Bucketing in Apache Spark
yassan0627 2020/04/24
Apache spark

hive

データ

hadoop
リンク
Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。しかしPrestoではインタラクティブに実行できますので、トライ
yassan0627 2020/04/24
これは良記事。知らない使い方が色々あって参考になった。

presto

hive

hadoop

データ
リンク
Hiveクエリでハマりやすいエラーの処方箋 - Qiita
HIVEクエリを書いていてハマったエラーと、その対処法を記載していきます。 WINDOW関数で集計範囲が異なる時のエラー ROWS BETWEENかの指定が異なる物が混じってるときに発生するエラーです。他と記述を合わせることで、エラーは解消しました。 FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies. Underlying error: Expecting right window frame boundary for function lag((TOK_TABLE_OR_COL weight), 12)
yassan0627 2020/04/24
hive

hadoop

データ
リンク
Ozone_Android路上的人的博客-CSDN博客
yassan0627 2020/04/08
Ozoneの情報が沢山あるえけどすべて中国語

hadoop

Apache Ozone

データ
リンク
前のページ 1 2 3 4 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx