Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2021 23日目です。 今年も Hue について書こうかと考えていましたが、最近 SQL(Presto)やEmbulk,Digdagを使う機会が増えているので趣向を変えてみます。 Hueについて興味がある方は[公式ブログ(日本語)](http://https://jp.gethue.com//posts/ “公式ブログ(日本語)”)をご覧ください。翻訳サボってます・・・ ———— SQLレシピ本とは? ビッグデータ系の良書の一冊でもある「ビッグデータ 分析のためのSQLレシピ本」、出版から4年経過しても色あせることはありません。 この書籍では、SQLの記述方法から分析手法まで広く扱われおり、写経するだけでも大きな知見が得られるでしょう。一方、扱われ
前回のリリースからだいぶ時間がかかった気がしますが、Impala 3.4 がリリースされました。 The Apache Impala team is pleased to announce the release of Impala 3.4.0. The release is available at: https://t.co/jAcmSwSaaY See https://t.co/oc8JqWjHsC for the release notes and other documentation. To Impala 4 and beyond! — Apache Impala (@ApacheImpala) April 29, 2020 “To Impala 4 and beyond!” とあるので今後は Impala 4 に向けての開発が進んで行きそうですが、ver 3.4で個人的に興味
(画像は Impala の Web サイト より転載) GMOインターネット 次世代システム研究室 兼 GMOアドパートナーズ グループCTO室のM. Y.(自称DevOps担当)です。今回は、普段の業務で気付いた Impala の小ネタをご紹介します。小ネタではありますが、Impala 初見の人は結構つまづきやすいポイントだと思います。 出題編:Impala の TIMESTAMP 型の不思議な動作 最近、Impala に格納したデータを JDBC 経由で取得するコードを書いてみたところ、なぜか格納したつもりの時間よりも9時間前の時間が返される、ということがありました。 Impala には TIMESTAMP 型で格納されているデータを、java.sql.Timestamp クラスのオブジェクトとして取得しているのに、なんで時間がずれるんだろう? データを入れ間違えたのかな?と思って、i
原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
はじめに ネットワークに接続されたデバイスの普及により、さまざまな機器が大量のデータを生成するIoT(Internet of Things)が進展しています。また、AI・機械学習技術の発展により、この大量のデータを活用したデータ分析が注目を集めています。 このような背景から、情報システムが収集・蓄積すべきデータ量は急激に増加しており、かつ蓄積した大量のデータを効率よく分析することが求められています。Apache Kudu(以降、Kudu)はこのようなビッグデータの蓄積と分析に使用するデータストアとして注目を集めています。 Kuduとは Kuduは高いスケーラビリティを持つ分散型のデータストアであり、多数のマシンでクラスタを構成することで大量のデータを扱うことができます。KuduはCloudera社によって開発され、2015年にOSSとして公開されました。 Kuduはクラスタを構成するマシン
投稿日: 2014/01/07新年明けましておめでとうございます。皆様のおかげで今年も無事に新しい年を迎えることができました。 さて、新年最初の記事は、昨年暮れに CSO (Chief Strategy Officer) である Mike Olson (@mikeolson) が公開したブログポスト、Impala v Hive を紹介したいと思います。2014 年も Cloudera をよろしくお願い致します。 3日間でImpalaマスターに! 弊社は一年以上前に Cloudera Impala を公開しました。このローンチは弊社にとって好ましいものであり、弊社のプラットフォームはいくつかの点で良好なものとなりました。つまりそれは弊社のお客様にとって重要なことでした。また、弊社は従来は勝つことができなかったビジネスで勝利をおさめることができるようになりました。以前の製品はインタラクティブな
この投稿はDistributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の22日目です。 昨日はkiszkさんのSparkの記事でした。 この記事の概要 Impalaを使い込んでいる人向けの、役に立つ小ネタ集という位置づけ。 Impala入門ではないので、Impala 入門のような情報は下記のようなページを参照すること。 SQL-on-Apache Hadoop – ジョブの特性に適したツールの選択 http://www.cloudera.co.jp/blog/sql-on-apache-hadoop-choosing-the-right-tool-for-the-right-job.html Apache Impala(Incubating)を使ったAmazon S3 上でのアナリティクスとBIの実現 http
© Hitachi, Ltd. 2017. All rights reserved. 株式会社 日立製作所 OSSソリューションセンタ 2017/09/09 木下 翔伍 SQL on Hadoopのホントのところ Impala vs Hive on Tez vs Drill 1 © Hitachi, Ltd. 2017. All rights reserved. 講演者 木下 翔伍 / Kinoshita Shogo 検証結果の一部が書籍に Apache Spark ビッグデータ性能検証 (ISBN 9784295001126) エンタープライズ向けビッグデータ関連ソリューション検討・開発 Hadoopエコシステム(Spark, Hive 等)の技術検証含む 例えば、 スマートメーター(デジタル電力計)1,000万台のデータを扱うユースケースで Sparkの性能検証 今日はSQL on H
Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transforming the way we interact with technology. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post
現在Apache Hadoop(以降Hadoop)はデータ処理基盤としての地位を確立し、さまざまな業種で広く利用されるようになりました。前回の記事、「目指せ!Hadoopエンジニア」で紹介したように、Hadoopを利用するソフトウェアの開発を行うエンジニア、システム管理者の需要はますます増え、データを活用するためのデータサイエンティストのニーズも高くなっています。また、Hadoopもこの1年で目覚ましい進化を遂げており、新しい機能を使いこなすことで効率の良い開発や運用管理ができるようになるでしょう。本記事では、今回はHadoopの最新動向を紹介し、次回以降でCloudera Managerを使用したHadoopの運用管理について紹介します。 Hadoopの最新状況 2006年、Hadoopはウェブのインデックス処理を行うために開発されました。その後さまざまな用途に利用されるようになり、そ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く