並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 74件

新着順 人気順

sparkの検索結果1 - 40 件 / 74件

  • GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

      GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます
    • Best practices for performance tuning AWS Glue for Apache Spark jobs -

      Best practices for performance tuning AWS Glue for Apache Spark jobs Roman Myers, Takashi Onikura, and Noritaka Sekiyama, Amazon Web Services (AWS) December 2023 (document history) AWS Glue provides different options for tuning performance. This guide defines key topics for tuning AWS Glue for Apache Spark. It then provides a baseline strategy for you to follow when tuning these AWS Glue for Apach

      • ベアメタルで実現するSpark&Trino on K8sなデータ基盤

        Trino Conference Tokyo 2023 https://techplay.jp/event/907388 #trinodbRead less

          ベアメタルで実現するSpark&Trino on K8sなデータ基盤
        • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

          マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

            データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
          • Apache Sparkとは何か - Qiita

            使い始めて3年くらい経ちますが、改めて振り返ってみます。 こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します! その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され

              Apache Sparkとは何か - Qiita
            • Canonical、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 | gihyo.jp

              Linux Daily Topics Canonical⁠⁠、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 Canonicalは7月3日、Kubernetes上でSparkジョブをデプロイ/実行するオープンソースソリューション「Charmed Spark」の最初のベータ版リリースを発表した。 Charmed Spark beta release is out – try it today | Canonical Charmed SparkはCanonical Data Fabricチームが開発を主導するソリューションのひとつで、Charmed Sparkのほかに「Charmed Kafka」「⁠Charmed MongoDB」「⁠Charmed OpenSearch」「⁠Charmed PostgreSQL」「⁠Charmed MySQ

                Canonical、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 | gihyo.jp
              • 「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表

                「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。 英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。 英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。 これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを

                  「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
                • Data & AIのサミットで発表された新機能:DatabricksのEnglish SDK for Apache Sparkを試してみた - Qiita

                  Data & AIのサミットで発表された新機能:DatabricksのEnglish SDK for Apache Sparkを試してみたDatabrickspyspark-ai はじめに DatabricksのイベントData & AI Summitで非常に興味深いソリューションが発表されました。 その名もEnglish SDK for Apache Spark. まだ開発の初期段階とのことですが、すでにGitにも公開されており、試すことができます。 早速、Databricks上で使ってみました。 ノートブック こちらにノートブックを公開しますので、Databricks環境にインポートしてお試しください。 サンプルノートブック 設定 pyspark-aiをインストールします。 LLMを指定します。OPEN AIを利用する場合、Secret Keyを取得し環境変数のOPENAI_API_K

                    Data & AIのサミットで発表された新機能:DatabricksのEnglish SDK for Apache Sparkを試してみた - Qiita
                  • Introducing English as the New Programming Language for Apache Spark

                    Unified governance for all data, analytics and AI assets

                      Introducing English as the New Programming Language for Apache Spark
                    • 【2024年】Windows向けおすすめメールアプリ 10選

                      Windows PC でメールを送受信する場合、私のまわりではWebブラウザでGmailを使用している人がほとんど。Microsoft Outlook ユーザーもよく見かけます。 しかし、これら以外にもWindows向けのメールアプリは多数公開されており、それそれ便利な機能を搭載しています。 仕事でもプライベートでもチャットでのコミュニケーションが主流になってきましたが、メールを使用する機会もまだ少くないかと思います。より効率よくメールを処理するために、自分にあったメールアプリを探してみてください。 目次 無料でもしっかり使えるWindows向けメールアプリSpark by ReaddleeM ClientMailspringSpikeBlueMail 無料試用可能なWindows向けメールアプリMailbirdPostboxPolymailNewton MailKiwi for Gmai

                        【2024年】Windows向けおすすめメールアプリ 10選
                      • Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog

                        テクノロジー戦略本部データサイエンス部の近藤です。 バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。 そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。 バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、 新たにDatabricksの導入を決めました。 バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとは バイセルの今の課題と未来 どうやって課題を解決するのか なぜApache Sparkなのか Databricksの利点 Databricks導入後の世界 データサイエンス部の野望 SSOTとは データマネジメントでは「S

                          Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
                        • Delta Lake とは何か - connecting the dots

                          はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                            Delta Lake とは何か - connecting the dots
                          • Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう

                            2022-09-01 日課の RSS フィードを眺めていると、クエリエンジンやデータ処理の最適化のための高速化ライブラリが Meta が OSS として公開した1 のを知った。 Velox のリポジトリはこちら facebookincubator/velox: A C++ vectorized database acceleration library aimed to optimizing query engines and data processing systems. 実際にリポジトリを観てみると C++で書かれており、たしかにパフォーマンスが高いのが納得。 ドキュメントやチュートリアルなどはこちらのサイトで用意されています。 Hello from Velox | Velox Meta 社内では、Presto や Spark に適用して処理の高速化、PyTorch に活用して前処理

                              Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう
                            • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                              はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                              • GitHub - kwai/blaze: Blazing-fast query execution engine speaks Apache Spark language and has Arrow-DataFusion at its core.

                                The Blaze accelerator for Apache Spark leverages native vectorized execution to accelerate query processing. It combines the power of the Apache Arrow-DataFusion library and the scale of the Spark distributed computing framework. Blaze takes a fully optimized physical plan from Spark, mapping it into DataFusion's execution plan, and performs native plan computation in Spark executors. Blaze is com

                                  GitHub - kwai/blaze: Blazing-fast query execution engine speaks Apache Spark language and has Arrow-DataFusion at its core.
                                • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

                                  ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

                                    Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
                                  • Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita

                                    Sparkで機械学習をするとき、前処理もSparkでやりますよね。 前処理って面倒ですよね。カテゴリ値とか連続値とか合成変数とか。 無邪気に変数を定義するデータサイエンティストにイラっとします。 さて、ある程度の大きさのデータを処理すると、 タイムアウトとかOOMとか、処理が遅かったりしますね。 そんなときに試してみると良いかもしれないオプションです。 Dynamic Allocation 無駄なリソースを使わないことに越したことはないので、動的リソース確保ができるようにします。 DynamicAllocationを有効にするには、ShuffleServiceも有効にする必要があります。 使われないExecutorが削除されるので、Shuffleのファイルを別な場所に退避させておくためです。 spark.dynamicAllocation.enabled spark.shuffle.ser

                                      Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita
                                    • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                      広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                        更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                      • Serverless Spark jobs for all data users  |  Google Cloud

                                        Accelerate your digital transformation Whether your business is early in its journey or well on its way to digital transformation, Google Cloud can help solve your toughest challenges.

                                          Serverless Spark jobs for all data users  |  Google Cloud
                                        • CDH (Hadoop) 入門 - MicroAd Developers Blog

                                          はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

                                            CDH (Hadoop) 入門 - MicroAd Developers Blog
                                          • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                                            Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                                              [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                                            • 野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball

                                              最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて 単位やフォーマットが不揃いで それでも仕事(もしくは趣味の分析)をこなすため, いい感じの使いやすいデータセットにしないと(使命感) という機会は非常に多いです. いや, 機会が多いというより多かれ少なかれ毎日戦っている気がします. 今回は, ちょっとした分析とお遊びのため, メジャーリーグの公式データサイト「Baseball Savant」のデータを使ったBigQueryデータベースを作りたくなったので, クローラーでBaseball Savantのデータを取ってCSVにして CSVからデータを集計したり整えたりしていい感じの単位にして BigQueryから使えるようにしてみたよ! というタスクをGoogle Cloud Platform

                                                野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball
                                              • 『仮想通貨YFLR(イールドフレアトークン)エアドロップとは?』貰い方や詳細をわかりやすく説明します。 | 進読のススメ

                                                仮想通貨XRP(リップル)保有者が参加できた注目の暗号資産FLR(スパークトークン)エアドロップ これの誕生は当初の予定から延期をしており、現時点では 2022年7月4日に誕生予定 となっています。 それだけでも、暗号資産XRP保有者にとってはお得で重要な情報となっていますが、暗号資産FLR(スパークトークン)保有者向けに、更に別の暗号資産が貰えるエアドロップがあります。 このように聞くと、 「本当に!2回も無料で貰えるとかメチャクチャお得じゃん!」 「なんでも無料で貰えるモノは貰っておきたい!!」 「知らなかった!どうやったら貰えるのか教えて欲しいです!!!」 という人がとても多いと思いますし、私も貴方と同じです。 そこで今回は、更にもう一回新しい仮想通貨を受け取るエアドロップに参加したい人向けに 『仮想通貨YFLR(イールドフレアトークン)のエアドロップ』 についてわかりやすく説明しま

                                                  『仮想通貨YFLR(イールドフレアトークン)エアドロップとは?』貰い方や詳細をわかりやすく説明します。 | 進読のススメ
                                                • 大型エアドロップ『仮想通貨FLRのエアドロップとは?』についてわかりやすく説明します。 | 進読のススメ

                                                  2020年12月にスナップショット(権利確定)が行われ、多くの人がエアドロップ(無料配布)を待っている状態の暗号資産FLR これは暗号資産XRP(リップル)保有者なら誰でも参加できたため、このエアドロップに参加している人は多くいます。 そのため 「暗号資産FLRはいつになったら貰えるの?」 「忘れていたけど、暗号資産FLRって今どうなってるの?」 等の声を多く聞きます。 そこで今回は、あれから色々と出てきた変更点も含めて 『暗号資産FLRエアドロップとは?』 をわかりやすく説明していきます。 この記事を読むことで ◎、暗号資産FLRのエアドロップ日程がわかります ◎、スナップショットに参加していない人もエアドロップを受けられるよう行動できます それでは、暗号資産FLRのエアドロップについて一緒に見て行きましょう! ※暗号資産名は旧:スパークトークン、現:フレアトークンとなっています。 ※変

                                                    大型エアドロップ『仮想通貨FLRのエアドロップとは?』についてわかりやすく説明します。 | 進読のススメ
                                                  • Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ

                                                    はじめに DRE Team の hyamamoto です. 皆さん,Spark は利用されていますか? Gunosy では Digdag + Athena によるデータ整形が増えてきており,徐々に Spark の利用は減ってきています. 思い返すと,昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした. 一方で,決して多くはないものの,この構成ではカバーし切れない処理もあり,そういったものに関しては Spark を用いています. 話は少し飛びますが,DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています. また,一部のタスクは Kubernetes の Job として Digdag から投げることで,リソースをスケールさせつつ様々な処理が可能となっていま

                                                      Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
                                                    • Scalaはバックエンドでもフロントエンドでも動く Treasure Dataのエンジニアが語るScalaの応用力の高さ

                                                      アジア最大級の国際Scalaカンファレンスである「ScalaMatsuri2020」がオンラインで開催されました。そこでTreasure DataのTaro L. Saito 氏がScalaに関するいろいろなテクノロジーを紹介しました。まずは、バックエンドとフロントエンドの両方で使えるScalaについて。 趣味はオープンソースのプロジェクトを作ること Taro L. Saito氏:「Scala For Everything」というタイトルで発表します。簡単な自己紹介を。Treasure DataのSaitoといいます。Principal Software Engineerをしていて、今、カリフォルニア、アメリカの西海岸から発表しています。タイムゾーンの都合上、今こちらは夜の20時なんですけれども、ScalaMatsuriの運営の麻植さんが、タイムゾーンに配慮してくださったので、非常に感謝し

                                                        Scalaはバックエンドでもフロントエンドでも動く Treasure Dataのエンジニアが語るScalaの応用力の高さ
                                                      • Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services

                                                        AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin

                                                          Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
                                                        • XilinxとSamsung、FPGA内蔵で適応性を高めた計算用ストレージ製品を発表

                                                          XilinxとSamsung Electronicsは、11月10~12日に開催された「Flash Memory Summit Virtual Conference and Expo」にて、XilinxのFPGA搭載したSamsung SmartSSD CSD(Computational Storage Drive)を発表した。 SmartSSD CSDは、FPGAを内蔵することで適応性を高めた計算用ストレージプラットフォームで、大量のデータ処理を伴うアプリケーションに必要な性能、カスタマイズ性、およびスケーラビリティを備えているとのことで、Xilinxは同製品を2020年1月より自社ならびに正規販売代理店を通じて出荷を開始する予定としている。 SmartSSD CSDはXilinxのFPGAをアクセラレータとして組み込むことでデータの近くでの高速演算を可能としたことで、サーバCPUによる

                                                            XilinxとSamsung、FPGA内蔵で適応性を高めた計算用ストレージ製品を発表
                                                          • How Scala works at Mercari

                                                            Production-ready stream data pipeline in Merpay, Inc

                                                              How Scala works at Mercari
                                                            • Migrating Apache Spark workloads from AWS EMR to Kubernetes

                                                              IntroductionESG research found that 43% of respondents considering cloud as their primary deployment for Apache Spark. And it makes a lot of sense because the cloud provides scalability, reliability, availability, and massive economies of scale. Another strong selling point of cloud deployment is a low barrier of entry in the form of managed services. Each one of the ‘Big Three’ cloud providers co

                                                                Migrating Apache Spark workloads from AWS EMR to Kubernetes
                                                              • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

                                                                並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

                                                                  並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
                                                                • 大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)

                                                                  大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介 基本から最新バージョン3.0まで Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ 技術開発本部 猿田 浩輔Read less

                                                                    大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)
                                                                  • The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io

                                                                    Jean-Yves Stephan Senior Product Manager, Ocean for Apache Spark Reading Time: 7 minutes‍Apache Spark is an open-source distributed computing framework. In a few lines of code (in Scala, Python, SQL, or R), data scientists or engineers define applications that can process large amounts of data, Spark taking care of parallelizing the work across a cluster of machines. Spark itself doesn’t manage th

                                                                      The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io
                                                                    • PySparkデータ操作 - Qiita

                                                                      本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴 ファイルの入出力 入力:単一ファイルでも可 出力:出力ファイル名は付与が不可(フォルダ名のみ指定可能)。指定したフォルダの直下に複数ファイルで出力。 遅延評価 ファイル出力時 or 結果出力時に処理が実行 通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。 計算リ

                                                                        PySparkデータ操作 - Qiita
                                                                      • Spark(DataProc)からBigQuery MLに移行してコストを削減した話 - Platinum Data Blog by BrainPad

                                                                        本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 自社開発サービスである「Rtoaster(アールトースター)」は、2019年にユーザー分析機能の「自動クラスタリング機能」をSpark(DataProc)からBigQueryMLに移行しました。 ブレインパッドの新卒2年目の自社サービス開発エンジニアが、新卒1年目で取り組んだ、この大きなプロジェクトでの経験についてご紹介します! はじめに 背景 ユーザー分析機能と自動クラスタリング 移行前の環境と問題点 BigQuery ML について 実装 モデル移行の実装 結果 料金の削減 実行時間の削減 運用の問題解消 最後に はじめに 本記事は、ブレインパッドの自社サービスである「Rtoaster(アールトースター)」のユーザー分析機能のチームで開発をしている、新卒入社2年目のエンジニア柴内がお送

                                                                          Spark(DataProc)からBigQuery MLに移行してコストを削減した話 - Platinum Data Blog by BrainPad
                                                                        • Spark Release 3.0.0 | Apache Spark

                                                                          Apache Spark 3.0.0 is the first release of the 3.x line. The vote passed on the 10th of June, 2020. This release is based on git tag v3.0.0 which includes all commits up to June 10. Apache Spark 3.0 builds on many of the innovations from Spark 2.x, bringing new ideas as well as continuing long-term projects that have been in development. With the help of tremendous contributions from the open-sour

                                                                          • [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO

                                                                            先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました! AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのか まず、AWS Glue?ナニソレ?という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL(抽出/変換/ロード)サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。 従来であれば、例え

                                                                              [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO
                                                                            • Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services

                                                                              Amazon Web Services ブログ Kubernetes で Spark パフォーマンスを最適化する Apache Spark はオープンソースプロジェクトで、分析分野で幅広い人気を博しています。有名なビッグデータや、ストリーミングといったの機械学習ワークロード、幅広いデータセットの処理、ETL などで使用されています。 Kubernetes は、人気のあるオープンソースのコンテナ管理システムで、アプリケーションのデプロイ、メンテナンス、スケーリングのための基本的なメカニズムを提供します。Amazon EKS は、高可用性コントロールプレーンを提供するマネージド Kubernetes サービスで、AWS で本番環境レベルのワークロードを実行します。お客様は、EKS でマイクロサービス、バッチ、機械学習などのさまざまなワークロードを実行できます。 このブログは、Kubernete

                                                                                Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services
                                                                              • MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリース予定。

                                                                                MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリースすると発表しています。詳細は以下から。 ウクライナのソフトウェア会社Readdle Inc.は現地時間2020年03月19日、新型コロナウイルス感染症(COVID-19)の影響を受け、リモートワークをしているユーザー向けに、メールを他のユーザーに委任できる「Spark Team」を紹介した記事を公開していますが、その記事によると、メールクライアントSparkのWindows版が近くリリースされるそうです。 Spark is available for iPhone, iPad, Macs as well as Android devices, with a Windows version coming soon. Spark is designed t

                                                                                  MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリース予定。
                                                                                • Apache Sparkの概要 - Qiita

                                                                                  はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data

                                                                                    Apache Sparkの概要 - Qiita