[B! Spark] atsuizoのブックマーク

HiveQLをSpark SQLに移行する際に発生する問題の解決

LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめにこんにちは。LINE Plus Messaging Data Eng Dev (NP)チームのデータエンジニア Jeong Woo-Yeongです。HiveQL(Hive SQL)プロセスをSpark SQLに移行する課題に取り組んでいます。主に、INSERT OVERWRITE TABLEというSQL文を使ってデータを格納しましたが、Sparkの設定によって、Hiveではみられなかったさまざまな現象が発生しました。この記事では、その原因と解決方法を探す過程で分かったことを紹介します。まず、作業を始めることになった背景と作業環境を紹介し、HiveQLからSpark SQLに移行した過程を共有し、Sparkの設定によ

atsuizo 2023/09/27

hive
Spark

リンク

PHPカンファレンス2018でApache Sparkの話をしました #phocon - ytake blog

2018年のペチコンも楽しかった！もう二週間前の話ですが、 PHPとApache Sparkで始めるデータ解析処理という話をしました。 speakerdeck.com 現在公開されている動画はこちら youtu.be *分割されたものが公開されるらしいアプリケーションを成長させるためには、アプリケーションの開発だけではなく、ログデータや、様々なメタデータを的確に利用できるようにすることが重要です。このセッションではこれらを叶えるためにApache Sparkによるデータ解析処理と、ビッグデータ対応のデータベース、 PHPアプリケーションを組み合わせてアプリケーションをグロースさせるヒントの実装の考え方をお話しします。トーク補足 Apache Sparkそのものについては、たくさんの書籍や、ネット上の記事も多くありますのでその詳細は話しませんでした。 (日本国内の記事よりも

atsuizo 2018/12/30

Spark

リンク

AWS Glue の基本的な使い方

概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基本的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transf orm, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、本ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。本ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され

atsuizo 2018/04/26

リンク

Embulk / Presto / Sparkを用いたETL事情

PLAZMA OSS Day: TD Tech Talk 2018

atsuizo 2018/02/16

リンク

Spark Streamingの概要と検証シナリオ

はじめにビッグデータ向けの処理基盤として「Apache Spark」（以降、Spark）が注目を集めています。Sparkは世界中で利用が進んでおり、アメリカのUberやAirbnb、イギリスのSpotifyといった企業から、CIAなどの政府機関まで広く利用されています。 Sparkにはストリームデータを処理する「Spark Streaming」というコンポーネントがあります。本連載では、Spark Streamingとその他のOSSを組み合わせたストリームデータ処理システムを構築し、その性能検証結果を紹介していきます。 Sparkは複数のコンポーネントで構成されており、Spark Streamingはその1つです。Spark Streamingについて説明する前に、まずSparkおよびSparkと関連の深いHadoopについて説明します。 Hadoopとは情報システムでは、日々多くの各

atsuizo 2017/12/19

Spark
stream

リンク

概要 - Spark 2.2.0 ドキュメント日本語訳

Sparkの概要 Apache Sparkは高速で汎用的なクラスタコンピュータシステムです。Java, Scale, PythonおよびRの高レベルのAIPを提供し、一般的な実行グラフをサポートする最適化されたエンジンを提供します。SQLおよび構造データのためのSpark SQL、機械学習のためのMLlib、グラフ処理のためのGraphX およびSpark Streamingを含む高レベルのツールの充実したセットもサポートします。ダウンロードプロジェクトのwebサイトのダウンロードページからSparkを取得します。このドキュメントはSpark バージョン2.2.0のものです。SparkはHDFSおよびYARNのためにHadoopのクライアントライブラリを使用します。ダウンロードは少数の一般的なHadoopバージョンのためにあらかじめパッケージ化されています。ユーザは"Hadoop

atsuizo 2017/11/14

Spark

リンク

Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014～2019年にかけて年間平均成長率33.5％で拡大し、2019年には470億6100万円に達する。ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

atsuizo 2017/10/06

Spark
hadoop

リンク

Apache Sparkとは何か――使い方や基礎知識を徹底解説

はじめまして。コラビットの川原と申します。私は「HowMa」というサービスで、Apache Spark（以下、Spark）を利用した住宅価格の推定エンジンの開発を担当しています。本連載では、Sparkの概要や、ローカル環境でのSparkのクラスタの構築、Sparkの基本的な概念やプログラミングの方法を説明していきます。そして、簡単なアプリケーションを作成して、Amazon EMR（Elastic MapReduce）のクラスタ上で実行できるまで解説します。これからSparkの導入を考えている方、または、業務で使う予定はないが少し興味がある方を対象に、サービス運用の中で得た知識を提供できればと思います。 Apache Sparkとは Apache Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。JavaやScala、Pythonなどいろいろなプログラ