並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 74 件 / 74件

新着順 人気順

sparkの検索結果41 - 74 件 / 74件

  • Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER

    今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。 サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いる サードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome

      Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER
    • Big Data: Google Replaces YARN with Kubernetes to Schedule Apache Spark

      Will real-time data processing replace batch processing? At Confluent's user conference, Kafka co-creator Jay Kreps argued that stream processing would eventually supplant traditional methods of batch processing altogether.

        Big Data: Google Replaces YARN with Kubernetes to Schedule Apache Spark
      • 大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)

        大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介 基本から最新バージョン3.0まで Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ 技術開発本部 猿田 浩輔Read less

          大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)
        • LINEの内製データ分析基盤「OASIS」におけるSpark SQLのパフォーマンス改善

          2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Improving Spark SQL Performance」に登壇したのは、LINE株式会社Data Platform室の吉田啓二氏。講演資料はこちら Improving Spark SQL Performance 吉田啓二氏:LINEの吉田と申します。よろしくお願いします。 LINEでは「OASIS」という内製のBIダッシュボードツールを独自で開発して運用しています。LINEの各社員は、こちらのツール上でSpark SQLの

            LINEの内製データ分析基盤「OASIS」におけるSpark SQLのパフォーマンス改善
          • 大型エアドロップ『仮想通貨FLRのエアドロップとは?』についてわかりやすく説明します。 | 進読のススメ

            2020年12月にスナップショット(権利確定)が行われ、多くの人がエアドロップ(無料配布)を待っている状態の暗号資産FLR これは暗号資産XRP(リップル)保有者なら誰でも参加できたため、このエアドロップに参加している人は多くいます。 そのため 「暗号資産FLRはいつになったら貰えるの?」 「忘れていたけど、暗号資産FLRって今どうなってるの?」 等の声を多く聞きます。 そこで今回は、あれから色々と出てきた変更点も含めて 『暗号資産FLRエアドロップとは?』 をわかりやすく説明していきます。 この記事を読むことで ◎、暗号資産FLRのエアドロップ日程がわかります ◎、スナップショットに参加していない人もエアドロップを受けられるよう行動できます それでは、暗号資産FLRのエアドロップについて一緒に見て行きましょう! ※暗号資産名は旧:スパークトークン、現:フレアトークンとなっています。 ※変

              大型エアドロップ『仮想通貨FLRのエアドロップとは?』についてわかりやすく説明します。 | 進読のススメ
            • Live Free or Dichotomize - Using AWK and R to parse 25tb

              Using AWK and R to parse 25tb Nick Strayer Jun 4, 2019 27 min read big data awk data cleaning How to read this post: I sincerely apologize for how long and rambling the following text is. To speed up skimming of it for those who have better things to do with their time, I have started most sections with a “Lesson learned” blurb that boils down the takeaway from the following text into a sentence o

              • はじめまして。Koalas。

                こんにちは。まーやです。先日de:codeのセッションで、Koalasというものがあるよ!と教えていただきました。とても気になるライブラリだったのでとりあえず触ってみることにしました。・・・のブログです。 Koalas とは Databricks 社が開発中のPython分散処理用DataFrameのライブラリです。 https://koalas.readthedocs.io/en/latest/ もともとPySpark DataFrame というSpark用のDataFrameが存在していますが、このPySpark DataFrameはPandasとは少々書き方が異なります。 似ているところも多いけれどもともとの思想がSQL思考(Spark DataFrame)と表計算思考(Pandas)と異なるため、記法に統一感はありません。 そのため、例えば、 「分析チームがpandasを使った分析

                  はじめまして。Koalas。
                • Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services

                  Amazon Web Services ブログ Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 AWS 上でビッグデータの ETL ワークフローを実行している大企業は、多数の内部エンドユーザーにサービスを提供できるようなスケールで運用しており、何千もの同時パイプラインを実行しています。このことは、新しいフレームワークと、ビッグデータ処理フレームワークの最新のリリースに遅れずについていくため、ビッグデータプラットフォームを更新し、拡張する点での継続的なニーズと相まって、ビッグデータプラットフォームの管理を簡素化することと、ビッグデータアプリケーションへの容易なアクセスを促すことの両方を可能にする、効率的なアーキテクチャと組織構造を要求しています。 この投稿では、一元管理型のプラットフォームチームが

                    Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services
                  • 小さなファイルが大きな問題を引き起こす

                    原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo

                      小さなファイルが大きな問題を引き起こす
                    • Migrating Apache Spark workloads from AWS EMR to Kubernetes

                      IntroductionESG research found that 43% of respondents considering cloud as their primary deployment for Apache Spark. And it makes a lot of sense because the cloud provides scalability, reliability, availability, and massive economies of scale. Another strong selling point of cloud deployment is a low barrier of entry in the form of managed services. Each one of the ‘Big Three’ cloud providers co

                        Migrating Apache Spark workloads from AWS EMR to Kubernetes
                      • MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリース予定。

                        MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリースすると発表しています。詳細は以下から。 ウクライナのソフトウェア会社Readdle Inc.は現地時間2020年03月19日、新型コロナウイルス感染症(COVID-19)の影響を受け、リモートワークをしているユーザー向けに、メールを他のユーザーに委任できる「Spark Team」を紹介した記事を公開していますが、その記事によると、メールクライアントSparkのWindows版が近くリリースされるそうです。 Spark is available for iPhone, iPad, Macs as well as Android devices, with a Windows version coming soon. Spark is designed t

                          MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリース予定。
                        • XilinxとSamsung、FPGA内蔵で適応性を高めた計算用ストレージ製品を発表

                          XilinxとSamsung Electronicsは、11月10~12日に開催された「Flash Memory Summit Virtual Conference and Expo」にて、XilinxのFPGA搭載したSamsung SmartSSD CSD(Computational Storage Drive)を発表した。 SmartSSD CSDは、FPGAを内蔵することで適応性を高めた計算用ストレージプラットフォームで、大量のデータ処理を伴うアプリケーションに必要な性能、カスタマイズ性、およびスケーラビリティを備えているとのことで、Xilinxは同製品を2020年1月より自社ならびに正規販売代理店を通じて出荷を開始する予定としている。 SmartSSD CSDはXilinxのFPGAをアクセラレータとして組み込むことでデータの近くでの高速演算を可能としたことで、サーバCPUによる

                            XilinxとSamsung、FPGA内蔵で適応性を高めた計算用ストレージ製品を発表
                          • Data Engineering and Data Analysis Workshop #8 を開催しました! | CyberAgent Developers Blog

                            Data Engineering and Data Analysis Workshop #8 を開催しました! こんにちは、株式会社サイバーエージェント 秋葉原ラボの白井徳仁です。 今回は2019年6月28日に開催された「Data Engineering and Data Analysis Workshop #8」をレポートしたいと思います。 秋葉原ラボは「分散システム・検索・機械学習・データマイニングなどを扱う研究開発組織」です。「Data Engineering and Data Analysis Workshop」は秋葉原ラボの所属メンバーが中心となって開催する勉強会でサイバーエージェントのデータ分析基盤とデータ活用、及びそれらのための技術をテーマにしています。 前回の第7回は RecSys2018 ならびに AWS re:Invent 2018 の参加レポートについてお話頂きました

                              Data Engineering and Data Analysis Workshop #8 を開催しました! | CyberAgent Developers Blog
                            • 『仮想通貨YFLR(イールドフレアトークン)エアドロップとは?』貰い方や詳細をわかりやすく説明します。 | 進読のススメ

                              仮想通貨XRP(リップル)保有者が参加できた注目の暗号資産FLR(スパークトークン)エアドロップ これの誕生は当初の予定から延期をしており、現時点では 2022年7月4日に誕生予定 となっています。 それだけでも、暗号資産XRP保有者にとってはお得で重要な情報となっていますが、暗号資産FLR(スパークトークン)保有者向けに、更に別の暗号資産が貰えるエアドロップがあります。 このように聞くと、 「本当に!2回も無料で貰えるとかメチャクチャお得じゃん!」 「なんでも無料で貰えるモノは貰っておきたい!!」 「知らなかった!どうやったら貰えるのか教えて欲しいです!!!」 という人がとても多いと思いますし、私も貴方と同じです。 そこで今回は、更にもう一回新しい仮想通貨を受け取るエアドロップに参加したい人向けに 『仮想通貨YFLR(イールドフレアトークン)のエアドロップ』 についてわかりやすく説明しま

                                『仮想通貨YFLR(イールドフレアトークン)エアドロップとは?』貰い方や詳細をわかりやすく説明します。 | 進読のススメ
                              • Best practices for performance tuning AWS Glue for Apache Spark jobs -

                                Best practices for performance tuning AWS Glue for Apache Spark jobs Roman Myers, Takashi Onikura, and Noritaka Sekiyama, Amazon Web Services (AWS) December 2023 (document history) AWS Glue provides different options for tuning performance. This guide defines key topics for tuning AWS Glue for Apache Spark. It then provides a baseline strategy for you to follow when tuning these AWS Glue for Apach

                                • Canonical、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 | gihyo.jp

                                  Linux Daily Topics Canonical⁠⁠、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 Canonicalは7月3日、Kubernetes上でSparkジョブをデプロイ/実行するオープンソースソリューション「Charmed Spark」の最初のベータ版リリースを発表した。 Charmed Spark beta release is out – try it today | Canonical Charmed SparkはCanonical Data Fabricチームが開発を主導するソリューションのひとつで、Charmed Sparkのほかに「Charmed Kafka」「⁠Charmed MongoDB」「⁠Charmed OpenSearch」「⁠Charmed PostgreSQL」「⁠Charmed MySQ

                                    Canonical、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 | gihyo.jp
                                  • GitHub - kwai/blaze: Blazing-fast query execution engine speaks Apache Spark language and has Arrow-DataFusion at its core.

                                    The Blaze accelerator for Apache Spark leverages native vectorized execution to accelerate query processing. It combines the power of the Apache Arrow-DataFusion library and the scale of the Spark distributed computing framework. Blaze takes a fully optimized physical plan from Spark, mapping it into DataFusion's execution plan, and performs native plan computation in Spark executors. Blaze is com

                                      GitHub - kwai/blaze: Blazing-fast query execution engine speaks Apache Spark language and has Arrow-DataFusion at its core.
                                    • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

                                      マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

                                        データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
                                      • Differential Data Quality Verification on Partitioned Data | Sebastian Schelter

                                        Differential Data Quality Verification on Partitioned Data Sebastian Schelter, Stefan Grafberger, Philipp Schmidt, Tammo Rukat, Mario Kiessling, Andrey Taptunov, Felix Biessmann, Dustin Lange Abstract Modern companies and institutions rely on data to guide every single decision. Missing or incorrect information seriously compromises any decision process. In previous work, we presented Deequ, a Spa

                                        • Spark Release 3.0.0 | Apache Spark

                                          Apache Spark 3.0.0 is the first release of the 3.x line. The vote passed on the 10th of June, 2020. This release is based on git tag v3.0.0 which includes all commits up to June 10. Apache Spark 3.0 builds on many of the innovations from Spark 2.x, bringing new ideas as well as continuing long-term projects that have been in development. With the help of tremendous contributions from the open-sour

                                          • ClojureでSparkをはじめる - euphonictechnologies’s diary

                                            なぜSpark? ビッグデータでデータサイエンスでマシンラーニングのアーティフィシャルインテリジェンスだからです。ビッグデータ分析はHadoopがデファクトスタンダードです、ということを最近入社した会社で生まれて初めて知りました。 SparkがあればMapReduceだけでは難しい分析やデータ処理もパパッとできてしまいます。 なぜClojure? 私はOCamlが大好きです。つまりJavaとかちょっとしんどいです。しかしSparkはJVM言語かPython(PySpark)を使うこと前提となっています。OCamlは残念ながらJVMでは動かないしPythonでもありませんので使えません。 普通だったらJavaかScalaなのですが、Javaを休日に使うのは勘弁して欲しいです。final List<String> someString = new ArrayList<String>();ってこ

                                              ClojureでSparkをはじめる - euphonictechnologies’s diary
                                            • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

                                              Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。 また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す

                                                Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
                                              • MicrosoftがApache Spark向けの高性能C#およびF#サポートをリリース

                                                シンプルなテストピラミッドの提案 ~ テストを有効活用するためのイロハ Overcomplicating your test structure can lead to slow, brittle tests. A focus on test speed as the primary labeling mechanism maximizes your test investment.

                                                  MicrosoftがApache Spark向けの高性能C#およびF#サポートをリリース
                                                • The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io

                                                  Jean-Yves Stephan Senior Product Manager, Ocean for Apache Spark Reading Time: 7 minutes‍Apache Spark is an open-source distributed computing framework. In a few lines of code (in Scala, Python, SQL, or R), data scientists or engineers define applications that can process large amounts of data, Spark taking care of parallelizing the work across a cluster of machines. Spark itself doesn’t manage th

                                                    The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io
                                                  • Fast Parallel Testing at Databricks with Bazel

                                                    Unified governance for all data, analytics and AI assets

                                                      Fast Parallel Testing at Databricks with Bazel
                                                    • Performance Tuning - Spark 3.5.1 Documentation

                                                      Performance Tuning Caching Data In Memory Other Configuration Options Join Strategy Hints for SQL Queries Coalesce Hints for SQL Queries Adaptive Query Execution Coalescing Post Shuffle Partitions Spliting skewed shuffle partitions Converting sort-merge join to broadcast join Converting sort-merge join to shuffled hash join Optimizing Skew Join Misc For some workloads, it is possible to improve pe

                                                      • KafkaとSpark Streamingの統合について|Engineers' Blog|SBクラウド株式会社 - SBクラウド株式会社

                                                        こんにちは Kouです。 Webアクセス解析や、ログのリアルタイムモニタリングと不正検知、ソーシャルメディア分析などの時に、オープンソースの分散ストリーミングプラットフォームと呼ばれるApache KafkaとSparkにストリームデータを処理するSpark Streamingを組み合わせたストリームデータ処理システムはよく利用されると考えられます。今回の記事はTwitterのメッセージ分析を例として、Alibaba CloudのE-MapReduce上で、KafkaとSpark Streamingの統合方法について、皆さんにご紹介させて頂きたいと思います。 検証環境について Spark Streaming EMR-3.20.0 クラスタータイプは Hadoop ハードウェア構成(Header)はecs.sn2.largeを1台 ハードウェア構成(Worker)はecs.sn2.large

                                                          KafkaとSpark Streamingの統合について|Engineers' Blog|SBクラウド株式会社 - SBクラウド株式会社
                                                        • How Scala works at Mercari

                                                          Production-ready stream data pipeline in Merpay, Inc

                                                            How Scala works at Mercari
                                                          • Big Data file formats

                                                            Apache Spark supports many different data formats, such as the ubiquitous CSV format and the friendly web format JSON. Common formats used mainly for big data analysis are Apache Parquet and Apache Avro. In this post, we will look at the properties of these 4 formats — CSV, JSON, Parquet, and Avro using Apache Spark. CSV CSV files (comma-separated values) are usually used to exchange tabular data

                                                              Big Data file formats
                                                            • New – Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi | Amazon Web Services

                                                              AWS News Blog New – Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi Storing your data in Amazon S3 provides lots of benefits in terms of scale, reliability, and cost effectiveness. On top of that, you can leverage Amazon EMR to process and analyze your data using open source tools like Apache Spark, Hive, and Presto. As powerful as these tools are, it can still be challenging to

                                                                New – Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi | Amazon Web Services
                                                              • Serverless Spark jobs for all data users  |  Google Cloud

                                                                Accelerate your digital transformation Whether your business is early in its journey or well on its way to digital transformation, Google Cloud can help solve your toughest challenges.

                                                                  Serverless Spark jobs for all data users  |  Google Cloud
                                                                • 【2024年】Windows向けおすすめメールアプリ 10選

                                                                  Windows PC でメールを送受信する場合、私のまわりではWebブラウザでGmailを使用している人がほとんど。Microsoft Outlook ユーザーもよく見かけます。 しかし、これら以外にもWindows向けのメールアプリは多数公開されており、それそれ便利な機能を搭載しています。 仕事でもプライベートでもチャットでのコミュニケーションが主流になってきましたが、メールを使用する機会もまだ少くないかと思います。より効率よくメールを処理するために、自分にあったメールアプリを探してみてください。 目次 無料でもしっかり使えるWindows向けメールアプリSpark by ReaddleeM ClientMailspringSpikeBlueMail 無料試用可能なWindows向けメールアプリMailbirdPostboxPolymailNewton MailKiwi for Gmai

                                                                    【2024年】Windows向けおすすめメールアプリ 10選
                                                                  • Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita

                                                                    Sparkで機械学習をするとき、前処理もSparkでやりますよね。 前処理って面倒ですよね。カテゴリ値とか連続値とか合成変数とか。 無邪気に変数を定義するデータサイエンティストにイラっとします。 さて、ある程度の大きさのデータを処理すると、 タイムアウトとかOOMとか、処理が遅かったりしますね。 そんなときに試してみると良いかもしれないオプションです。 Dynamic Allocation 無駄なリソースを使わないことに越したことはないので、動的リソース確保ができるようにします。 DynamicAllocationを有効にするには、ShuffleServiceも有効にする必要があります。 使われないExecutorが削除されるので、Shuffleのファイルを別な場所に退避させておくためです。 spark.dynamicAllocation.enabled spark.shuffle.ser

                                                                      Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita
                                                                    • TechCrunch

                                                                      Netflix has “not succeeded” in scaling up its business in India despite the global streaming giant consistently lowering the subscription costs in the country, analysts at AllianceBernstei

                                                                        TechCrunch