[B! impala] yassan0627のブックマーク

yassan0627 id:yassan0627

impalaに関するyassan0627のブックマーク (19)

12 Times Faster Query Planning With Iceberg Manifest Caching in Impala - Cloudera Blog
yassan0627 2023/07/14
データ

impala

Iceberg
リンク
GitHub - cloudera/impala-tpcds-kit: TPC-DS Kit for Impala
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yassan0627 2022/07/24
impala

データ

チューニング
リンク
Impala 4.0 とPresto 350によるSQLレシピ本の検証（１）
Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2021 23日目です。今年も Hue について書こうかと考えていましたが、最近 SQL(Presto)やEmbulk,Digdagを使う機会が増えているので趣向を変えてみます。 Hueについて興味がある方は[公式ブログ（日本語）](http://https://jp.gethue.com//posts/ “公式ブログ（日本語）”)をご覧ください。翻訳サボってます・・・ ———— SQL レシピ本とは？ビッグデータ系の良書の一冊でもある「ビッグデータ分析のためのSQL レシピ本」、出版から4年経過しても色あせることはありません。この書籍では、SQLの記述方法から分析手法まで広く扱われおり、写経するだけでも大きな知見が得られるでしょう。一方、扱われ
yassan0627 2021/12/24
hadoop

impala

presto

sql
リンク
Apache Impala 3.4 リリース！
前回のリリースからだいぶ時間がかかった気がしますが、Impala 3.4 がリリースされました。 The Apache Impala team is pleased to announce the release of Impala 3.4.0. The release is available at: https://t.co/jAcmSwSaaY See https://t.co/oc8JqWjHsC for the release notes and other documentation. To Impala 4 and beyond! — Apache Impala (@ApacheImpala) April 29, 2020 “To Impala 4 and beyond!” とあるので今後は Impala 4 に向けての開発が進んで行きそうですが、ver 3.4で個人的に興味
yassan0627 2020/05/03
ORCのreadについてサポートがデフォルトになったのは良いなぁ。とは言え、CDHは無いだろうしCDPで使えるのはいつかなぁ。

impala

hadoop
リンク
Impala + Kudu を用いたデータウェアハウス構築の勘所（仮）
Impala と Kudu を使ってデータウェアハウスを構築する際の15の勘所を紹介。 Cloudera World Tokyo 2018 #CWT2018 のセッション資料です。Read less
yassan0627 2020/04/13
hadoop

impala

Kudu
リンク
SQL differences between Impala and Hive
yassan0627 2020/04/07
hadoop

impala

hive
リンク
Impala で unix_timestamp(now()) を実行しても現在時刻が返ってこない件について
（画像は Impala の Web サイトより転載） GMOインターネット次世代システム研究室兼 GMOアドパートナーズグループCTO室のM. Y.（自称DevOps担当）です。今回は、普段の業務で気付いた Impala の小ネタをご紹介します。小ネタではありますが、Impala 初見の人は結構つまづきやすいポイントだと思います。出題編：Impala の TIMESTAMP 型の不思議な動作最近、Impala に格納したデータを JDBC 経由で取得するコードを書いてみたところ、なぜか格納したつもりの時間よりも9時間前の時間が返される、ということがありました。 Impala には TIMESTAMP 型で格納されているデータを、java.sql.Timestamp クラスのオブジェクトとして取得しているのに、なんで時間がずれるんだろう？データを入れ間違えたのかな？と思って、i
yassan0627 2019/12/04
impala

hadoop
リンク
小さなファイルが大きな問題を引き起こす
原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム（HDFS）は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
yassan0627 2019/08/28
スモールファイル問題

HDFS

Parquet

impala

spark

hive

データ
リンク
分散型データストアApache Kuduの特徴とユースケース
はじめにネットワークに接続されたデバイスの普及により、さまざまな機器が大量のデータを生成するIoT（Internet of Things）が進展しています。また、AI・機械学習技術の発展により、この大量のデータを活用したデータ分析が注目を集めています。このような背景から、情報システムが収集・蓄積すべきデータ量は急激に増加しており、かつ蓄積した大量のデータを効率よく分析することが求められています。Apache Kudu（以降、Kudu）はこのようなビッグデータの蓄積と分析に使用するデータストアとして注目を集めています。 Kuduとは Kuduは高いスケーラビリティを持つ分散型のデータストアであり、多数のマシンでクラスタを構成することで大量のデータを扱うことができます。KuduはCloudera社によって開発され、2015年にOSSとして公開されました。 Kuduはクラスタを構成するマシン
yassan0627 2019/04/24
Kudu

hadoop

impala
リンク
Using the Parquet File Format with Impala Tables | 6.2.x | Cloudera Documentation
yassan0627 2019/04/03
Snappy and GZip Compression for Parquet Data Filesが面白い。Impala使うならParquet＆snappyやなぁ。 #impala #parquet

impala

Parquet
リンク
ImpalaとHiveの戦略について
投稿日: 2014/01/07新年明けましておめでとうございます。皆様のおかげで今年も無事に新しい年を迎えることができました。さて、新年最初の記事は、昨年暮れに CSO (Chief Strategy Officer) である Mike Olson (@mikeolson) が公開したブログポスト、Impala v Hive を紹介したいと思います。2014 年も Cloudera をよろしくお願い致します。 3日間でImpalaマスターに！弊社は一年以上前に Cloudera Impala を公開しました。このローンチは弊社にとって好ましいものであり、弊社のプラットフォームはいくつかの点で良好なものとなりました。つまりそれは弊社のお客様にとって重要なことでした。また、弊社は従来は勝つことができなかったビジネスで勝利をおさめることができるようになりました。以前の製品はインタラクティブな
yassan0627 2019/03/12
あとで読む

hadoop

impala

hive
リンク
Impala 落ち穂拾い - Qiita
この投稿はDistributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の22日目です。昨日はkiszkさんのSparkの記事でした。この記事の概要 Impalaを使い込んでいる人向けの、役に立つ小ネタ集という位置づけ。 Impala入門ではないので、Impala 入門のような情報は下記のようなページを参照すること。 SQL-on-Apache Hadoop – ジョブの特性に適したツールの選択 http://www.cloudera.co.jp/blog/sql-on-apache-hadoop-choosing-the-right-tool-for-the-right-job.html Apache Impala（Incubating）を使ったAmazon S3 上でのアナリティクスとBIの実現 http
yassan0627 2019/03/06
hadoop

impala
リンク
Scalability Improvement of Apache Impala 2.12.0 in CDH 5.15.0 - Cloudera Blog
yassan0627 2019/02/19
impala

hadoop
リンク
HIGIS 3/ﾌﾟﾚｾﾞﾝﾃｰｼｮﾝ資料/J_GrayA.ppt
© Hitachi, Ltd. 2017. All rights reserved. 株式会社日立製作所ＯＳＳソリューションセンタ 2017/09/09 木下翔伍ＳＱＬｏｎＨａｄｏｏｐのホントのところ Impala vs ＨｉｖｅｏｎＴｅｚ vs Ｄｒｉｌｌ 1 © Hitachi, Ltd. 2017. All rights reserved. 講演者木下翔伍／ＫｉｎｏｓｈｉｔａＳｈｏｇｏ検証結果の一部が書籍にＡｐａｃｈｅＳｐａｒｋビッグデータ性能検証 (ISBN 9784295001126) エンタープライズ向けビッグデータ関連ソリューション検討・開発Ｈａｄｏｏｐエコシステム(Ｓｐａｒｋ, Ｈｉｖｅ等)の技術検証含む例えば、スマートメーター(デジタル電力計)1,000万台のデータを扱うユースケースでＳｐａｒｋの性能検証今日はＳＱＬｏｎＨ
yassan0627 2018/12/17
OSC2017 TokyoFall : SQL on Hadoopのホントのところ Impala vs Hive on Tez vs Drill

hadoop

hive

impala
リンク
Apache Impalaパフォーマンスチューニング #dbts2018
DB Tech Showcase 2018 で発表した、Impalaパフォーマンスチューニングのスライドです。 https://www.db-tech-showcase.com/dbts/tokyo
yassan0627 2018/09/25
Impalaだけじゃなくて色んな所が参考になった。Appendixが特に素晴らしい。ありがたや。

HDFS

hadoop

impala

Parquet
リンク
Cloudera Blog
Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transf orming the way we interact with techno logy. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post
yassan0627 2016/12/05
あとで読む

Impala

Apache Hue
リンク
https://www.clouderaworldtokyo.com/session-download/B3-Kudu-2FImpala-Strata-talk.pdf
yassan0627 2016/12/05
Creating real-time data applications with Impala and Kudu

Kudu

Impala

データ

データ分析
リンク
Hadoop運用管理の今(EnterpriseZine) - goo ニュース
現在Apache Hadoop（以降Hadoop）はデータ処理基盤としての地位を確立し、さまざまな業種で広く利用されるようになりました。前回の記事、「目指せ！Hadoopエンジニア」で紹介したように、Hadoopを利用するソフトウェアの開発を行うエンジニア、システム管理者の需要はますます増え、データを活用するためのデータサイエンティストのニーズも高くなっています。また、Hadoopもこの1年で目覚ましい進化を遂げており、新しい機能を使いこなすことで効率の良い開発や運用管理ができるようになるでしょう。本記事では、今回はHadoopの最新動向を紹介し、次回以降でCloudera Managerを使用したHadoopの運用管理について紹介します。 Hadoopの最新状況　2006年、Hadoopはウェブのインデックス処理を行うために開発されました。その後さまざまな用途に利用されるようになり、そ
yassan0627 2016/11/18
あとで読む

hadoop

Impala
リンク
Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装記事一覧 | gihyo.jp
第21回Sparkの設計と実装［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法猿田浩輔，山田浩之 2016-06-08
yassan0627 2015/08/24
hadoop

データ分析
リンク
1