タグ

Sparkに関するatsuizoのブックマーク (9)

  • HiveQLをSpark SQLに移行する際に発生する問題の解決

    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは。LINE Plus Messaging Data Eng Dev (NP)チームのデータエンジニア Jeong Woo-Yeongです。HiveQL(Hive SQL)プロセスをSpark SQLに移行する課題に取り組んでいます。主に、INSERT OVERWRITE TABLEというSQL文を使ってデータを格納しましたが、Sparkの設定によって、Hiveではみられなかったさまざまな現象が発生しました。この記事では、その原因と解決方法を探す過程で分かったことを紹介します。 まず、作業を始めることになった背景と作業環境を紹介し、HiveQLからSpark SQLに移行した過程を共有し、Sparkの設定によ

    HiveQLをSpark SQLに移行する際に発生する問題の解決
  • PHPカンファレンス2018でApache Sparkの話をしました #phocon - ytake blog

    2018年のペチコンも楽しかった! もう二週間前の話ですが、 PHPとApache Sparkで始めるデータ解析処理 という話をしました。 speakerdeck.com 現在公開されている動画はこちら youtu.be *分割されたものが公開されるらしい アプリケーションを成長させるためには、 アプリケーションの開発だけではなく、ログデータや、 様々なメタデータを的確に利用できるようにすることが重要です。 このセッションではこれらを叶えるためにApache Sparkによるデータ解析処理と、 ビッグデータ対応のデータベース、 PHPアプリケーションを組み合わせてアプリケーションをグロースさせるヒントの実装の考え方をお話しします。 トーク補足 Apache Sparkそのものについては、 たくさんの書籍や、ネット上の記事も多くありますのでその詳細は話しませんでした。 (日国内の記事よりも

    PHPカンファレンス2018でApache Sparkの話をしました #phocon - ytake blog
  • AWS Glue の基本的な使い方

    概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transform, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され

    AWS Glue の基本的な使い方
  • Embulk / Presto / Sparkを用いたETL事情

    PLAZMA OSS Day: TD Tech Talk 2018

    Embulk / Presto / Sparkを用いたETL事情
  • Spark Streamingの概要と検証シナリオ

    はじめに ビッグデータ向けの処理基盤として「Apache Spark」(以降、Spark)が注目を集めています。Sparkは世界中で利用が進んでおり、アメリカのUberやAirbnb、イギリスのSpotifyといった企業から、CIAなどの政府機関まで広く利用されています。 Sparkにはストリームデータを処理する「Spark Streaming」というコンポーネントがあります。連載では、Spark Streamingとその他のOSSを組み合わせたストリームデータ処理システムを構築し、その性能検証結果を紹介していきます。 Sparkは複数のコンポーネントで構成されており、Spark Streamingはその1つです。Spark Streamingについて説明する前に、まずSparkおよびSparkと関連の深いHadoopについて説明します。 Hadoopとは 情報システムでは、日々多くの各

    Spark Streamingの概要と検証シナリオ
  • 概要 - Spark 2.2.0 ドキュメント 日本語訳

    Sparkの概要 Apache Sparkは高速で汎用的なクラスタコンピュータシステムです。Java, Scale, PythonおよびRの高レベルのAIPを提供し、一般的な実行グラフをサポートする最適化されたエンジンを提供します。SQLおよび構造データのためのSpark SQL機械学習のためのMLlib、グラフ処理のためのGraphX およびSpark Streamingを含む高レベルのツールの充実したセットもサポートします。 ダウンロード プロジェクトのwebサイトの ダウンロードページ からSparkを取得します。このドキュメントはSpark バージョン2.2.0のものです。SparkはHDFSおよびYARNのためにHadoopのクライアントライブラリを使用します。ダウンロードは少数の一般的なHadoopバージョンのためにあらかじめパッケージ化されています。ユーザは"Hadoop

  • Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014~2019年にかけて年間平均成長率33.5%で拡大し、2019年には470億6100万円に達する。 ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

    Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた
  • Apache Sparkとは何か――使い方や基礎知識を徹底解説

    はじめまして。コラビットの川原と申します。私は「HowMa」というサービスで、Apache Spark(以下、Spark)を利用した住宅価格の推定エンジンの開発を担当しています。連載では、Sparkの概要や、ローカル環境でのSparkのクラスタの構築、Sparkの基的な概念やプログラミングの方法を説明していきます。そして、簡単なアプリケーションを作成して、Amazon EMR(Elastic MapReduce)のクラスタ上で実行できるまで解説します。 これからSparkの導入を考えている方、または、業務で使う予定はないが少し興味がある方を対象に、サービス運用の中で得た知識を提供できればと思います。 Apache Sparkとは Apache Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。JavaScalaPythonなどいろいろなプログラ

    Apache Sparkとは何か――使い方や基礎知識を徹底解説
  • Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)

    Apache Sparkに手を出してヤケドしないための基 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)

    Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
  • 1