タグ

ブックマーク / linux.wwing.net (13)

  • Impala 4.0 とPresto 350によるSQLレシピ本の検証(1)

    Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2021 23日目です。 今年も Hue について書こうかと考えていましたが、最近 SQL(Presto)やEmbulk,Digdagを使う機会が増えているので趣向を変えてみます。 Hueについて興味がある方は[公式ブログ(日語)](http://https://jp.gethue.com//posts/ “公式ブログ(日語)”)をご覧ください。翻訳サボってます・・・ ———— SQLレシピとは? ビッグデータ系の良書の一冊でもある「ビッグデータ 分析のためのSQLレシピ」、出版から4年経過しても色あせることはありません。 この書籍では、SQLの記述方法から分析手法まで広く扱われおり、写経するだけでも大きな知見が得られるでしょう。一方、扱われ

    Impala 4.0 とPresto 350によるSQLレシピ本の検証(1)
  • Hueのまとめ 2020年版

    Hue情報 2020年版 このブログは「Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020」の23日目の記事です。 ここ数年間は1年の締めくくりを兼ねて、オープンソースのDB、データウェアハウス向けのSQLアシスタントツールであるHueの更新情報を記述してきました。今年も Hue に関する情報です。 Hueって何?という方は、ちょっと古いですがこちらの記事をご覧ください。 Hueの日語ブログがリニューアルしています。プラットフォームが変更されたため、過去記事のレイアウトが壊れている箇所がありますが、お知らせいただければ修正します。 なお、今年一番気合を入れて書いたブログはこれです! HDFSシェルコマンドのチートシート 過去のアドベントカレンダー 2019年: Hue 2019年情報 20

    Hueのまとめ 2020年版
  • Impala, Hive, Presto, Spark のJOINに関するメモ

    SQL on Hadoop でのJOIN時のテーブルの指定順序と挙動 結合の種類にもよりますが、複数のテーブルを結合する際、一つのテーブルを全てのワーカーノードに転送して行う場合があります。(Broadcast JOIN) もちろん、統計情報を取得しているかにより挙動は異なります いくつかのクエリエンジンの挙動を調査しました。 Impala Impalaでは、最初に最も大きなテーブル、次に最も小さなテーブル、の順序で記述する必要があります https://docs.cloudera.com/runtime/7.2.0/impala-reference/topics/impala-perf-joins.html Specify the largest table first. This table is read from disk by each Impala node and so it

    Impala, Hive, Presto, Spark のJOINに関するメモ
  • HDFS dfs サブコマンドのチートシート

    以前に公開し、一番アクセスされている hdfs dfs のサブコマンドページの情報が古かったので、Hadoop3系で検証して全面的に書き直しました。 HDFS FSshell (hdfs dfs) コマンドのチートシートのPDFファイルです。(Hadoop 3.1.1)。 ダウンロードも可能です。 View Fullscreen 余力があれば、管理系のコマンド(hdfs dfsadmin等)も追って作成するかもしれません。

    HDFS dfs サブコマンドのチートシート
  • Apache Impala 3.4 リリース!

    前回のリリースからだいぶ時間がかかった気がしますが、Impala 3.4 がリリースされました。 The Apache Impala team is pleased to announce the release of Impala 3.4.0. The release is available at: https://t.co/jAcmSwSaaY See https://t.co/oc8JqWjHsC for the release notes and other documentation. To Impala 4 and beyond! — Apache Impala (@ApacheImpala) April 29, 2020 “To Impala 4 and beyond!” とあるので今後は Impala 4 に向けての開発が進んで行きそうですが、ver 3.4で個人的に興味

    Apache Impala 3.4 リリース!
    yassan0627
    yassan0627 2020/05/03
    ORCのreadについてサポートがデフォルトになったのは良いなぁ。とは言え、CDHは無いだろうしCDPで使えるのはいつかなぁ。
  • Hue 2019年情報

    先日Hueのプロジェクトサイトページ(https://gethue.com)がリニューアルされました。 その作業に伴って、現在日語版Webページ (http://jp.gethue.com)へのアクセスができなくなっています。開発チームには確認/修正を依頼済みです。復旧後最新のブログ記事を翻訳予定ですが、復旧までブログは英語サイトの記事にリンクします。 2019年末時点での最新バージョンはHue 4.6です。Hueのプロジェクトページには、昨年まで「Query. Explore. Repeat.」と記載されていたキャッチコピーが、今年は「Query. Explore. Share.」と変更されています。今後のバージョンでは共有がキーワードになるかもしれません。 今年は新機能目白押し、というよりも、エコシステムとの連携が強化された印象です。 ・Docker/Kuberntes対応 Doc

    yassan0627
    yassan0627 2019/12/26
    Hueが良い感じに仕上がってきて今後は楽しみ。複数クラスタとかに対応出来たら良いのになぁ。
  • Hadoop is Dead. Long live Hadoop の所感

    数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

    Hadoop is Dead. Long live Hadoop の所感
  • About Hue in 2018

    2018年のHue Hue (Hadoop User Experience) は Hadoop エコシステムのユーザーインターフェースを提供するオープンソースのソフトウェアです。 最近の Hueのプロジェクトページによると「Hue is an open source Workbench for developing and accessing Data Apps.」と書かれています。データアプリケーションを開発、アクセスする方向けのワークベンチというポジションを目指しているようです。 以前より Hue の啓蒙活動をしており、過去のブログにもいくつかの記事を書いています。Hueって何?という方は以下をご覧ください。 Hue 日語版サイト http://jp.gethue.com HUEについてのまとめ 2016年版 Hue 4.0 (slideshare) 2017 Hue Meetup

    About Hue in 2018
  • 書籍情報: Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale 1st Edition

    新年明けましておめでとうございます。 新年早々にClouderaとHortonworksが合併というニュースがありましたが、引き続き頑張りますので今年もよろしくお願いいたします。 さて、年末に何冊か技術書を積読リストに入れていたうちの一冊を紹介します。割と評判が良いようで、象の著者のTom Whiteからも推薦(?)されている模様。

    書籍情報: Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale 1st Edition
    yassan0627
    yassan0627 2019/01/15
    気になる本。
  • Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog

    2021夏:ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連(Hadoop、Spark、Kafka、機械学習系など)関連書籍のまとめです。 日語で提供されている書籍を中心に掲載していますが、読んだことがある/手元にある/買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。 当初はブログで公開していましたが、更新が多いので独立したページとしました。(コメントは私見です。素晴らしい書籍ばかりです) 書籍名 (原書) 出版日 コメント

    Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog
  • Apache Hadoop 3.0.0 リリース

    (2017/12/15更新) 日 Apache Hadoop v3.0.0 が GA になりました! https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ハイライトは下記の通り(上記サイトから抜粋して翻訳) HDFS のイレイジャーコーディング — データの耐久性を向上させながらHDFSのストレージコストを軽減 YARN Timeline Service v.2 (プレビュー) —タイムラインサービスのスケーラビリティ、信頼性、ユーザービリティを向上 YARN リソースタイプ —機械学習やコンテナワークロードとのより良い統合を行うため、ディスクとGPUなどの追加リソースのスケジューリングを有効に。(訳注:今まではCPUとメモリのみ) YARN と HFDS サブクラスター

    Apache Hadoop 3.0.0 リリース
    yassan0627
    yassan0627 2017/12/15
    Hadoop 3.0.0 GAなったぁ。ようやくだなぁ。触りたいなぁ。
  • SparkのWeb UIを調べてみた

    SparkのWeb UIに記載されている項目の意味について(日語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載する予定。 間違いを見つけたらコメントお願いします。m(__)m

    SparkのWeb UIを調べてみた
  • Kuduリリース!

    オープンソースの新しいストレージエンジン、Kudu ついに日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです

    Kuduリリース!
  • 1