sparkの最新人気記事 74件 - はてなブックマーク

1 - 40 件 / 74件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

sparkの検索結果1 - 40 件 / 74件

GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます
- 56 users
- github.com/lawofcycles
- テクノロジー
- 2024/03/10
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- apache
- あとで読む
- IceBerg
- db
- github
- コンテナ
Best practices for performance tuning AWS Glue for Apache Spark jobs -
- 4 users
- docs.aws.amazon.com
- テクノロジー
- 2024/01/09
Best practices for performance tuning AWS Glue for Apache Spark jobs Roman Myers, Takashi Onikura, and Noritaka Sekiyama, Amazon Web Services (AWS) December 2023 (document history) AWS Glue provides different options for tuning performance. This guide defines key topics for tuning AWS Glue for Apache Spark. It then provides a baseline strategy for you to follow when tuning these AWS Glue for Apach
- performance
- aws
ベアメタルで実現するSpark＆Trino on K8sなデータ基盤
- 13 users
- www.slideshare.net/microad_engineer
- テクノロジー
- 2023/10/05
Trino Conference Tokyo 2023 https://techplay.jp/event/907388 #trinodbRead less
データ基盤移行計画とPySpark（Spark Connect）の検証 - MicroAd Developers Blog
- 4 users
- developers.microad.co.jp
- テクノロジー
- 2023/08/19
マイクロアドでサーバサイドエンジニアをしているタカギです。今回はデータ基盤移行とPySparkについての話になります。目次目次データ基盤移行の概要データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点まとめ補足データ基盤移行の概要諸々の事情1により、データ基盤をHadoopから移行することになりました。現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。これらをKubernetes、PySpark、S3互換ストレージ（詳細未確定）を組み合わせたデータ基盤へ移行する計画です。すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。今回の記事では、PySparkを使用し
Apache Sparkとは何か - Qiita
- 22 users
- qiita.com/taka_yayoi
- テクノロジー
- 2023/08/16
使い始めて3年くらい経ちますが、改めて振り返ってみます。こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します！その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され
Canonical、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 | gihyo.jp
- 4 users
- gihyo.jp
- テクノロジー
- 2023/07/05
Linux Daily Topics Canonical⁠⁠、Spark on Kubernetesソリューション「Charmed Spark」のベータ版を公開 Canonicalは7月3日、Kubernetes上でSparkジョブをデプロイ/実行するオープンソースソリューション「Charmed Spark」の最初のベータ版リリースを発表した。 Charmed Spark beta release is out – try it today | Canonical Charmed SparkはCanonical Data Fabricチームが開発を主導するソリューションのひとつで、Charmed Sparkのほかに「Charmed Kafka」「⁠Charmed MongoDB」「⁠Charmed OpenSearch」「⁠Charmed PostgreSQL」「⁠Charmed MySQ
- spark
- software
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
- 231 users
- www.publickey1.jp
- テクノロジー
- 2023/07/04
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを
Data & AIのサミットで発表された新機能：DatabricksのEnglish SDK for Apache Sparkを試してみた - Qiita
- 15 users
- qiita.com/maroon-db
- テクノロジー
- 2023/07/03
Data & AIのサミットで発表された新機能：DatabricksのEnglish SDK for Apache Sparkを試してみたDatabrickspyspark-ai はじめに DatabricksのイベントData & AI Summitで非常に興味深いソリューションが発表されました。その名もEnglish SDK for Apache Spark. まだ開発の初期段階とのことですが、すでにGitにも公開されており、試すことができます。早速、Databricks上で使ってみました。ノートブックこちらにノートブックを公開しますので、Databricks環境にインポートしてお試しください。サンプルノートブック設定 pyspark-aiをインストールします。 LLMを指定します。OPEN AIを利用する場合、Secret Keyを取得し環境変数のOPENAI_API_K
- AI
- qiita
- あとで読む
Introducing English as the New Programming Language for Apache Spark
- 20 users
- www.databricks.com
- テクノロジー
- 2023/06/30
Unified governance for all data, analytics and AI assets
【2024年】Windows向けおすすめメールアプリ 10選
- 3 users
- arekore.app
- テクノロジー
- 2023/03/17
Windows PC でメールを送受信する場合、私のまわりではWebブラウザでGmailを使用している人がほとんど。Microsoft Outlook ユーザーもよく見かけます。しかし、これら以外にもWindows向けのメールアプリは多数公開されており、それそれ便利な機能を搭載しています。仕事でもプライベートでもチャットでのコミュニケーションが主流になってきましたが、メールを使用する機会もまだ少くないかと思います。より効率よくメールを処理するために、自分にあったメールアプリを探してみてください。目次無料でもしっかり使えるWindows向けメールアプリSpark by ReaddleeM ClientMailspringSpikeBlueMail 無料試用可能なWindows向けメールアプリMailbirdPostboxPolymailNewton MailKiwi for Gmai
- メーラー
- Windows
- tips
- blog
- web
- あとで読む
Databricks ＋ BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
- 31 users
- tech.buysell-technologies.com
- テクノロジー
- 2022/10/28
テクノロジー戦略本部データサイエンス部の近藤です。バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、新たにDatabricksの導入を決めました。バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとはバイセルの今の課題と未来どうやって課題を解決するのかなぜApache Sparkなのか Databricksの利点 Databricks導入後の世界データサイエンス部の野望 SSOTとはデータマネジメントでは「S
Delta Lake とは何か - connecting the dots
- 128 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
- deltalake
- あとで読む
- データ
- Databricks
- 機械学習
- db
- hadoop
- 開発
- プログラミング
- programming
Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう
- 25 users
- shunyaueta.com
- テクノロジー
- 2022/09/01
2022-09-01 日課の RSS フィードを眺めていると、クエリエンジンやデータ処理の最適化のための高速化ライブラリが Meta が OSS として公開した1 のを知った。 Velox のリポジトリはこちら facebookincubator/velox: A C++ vectorized database acceleration library aimed to optimizing query engines and data processing systems. 実際にリポジトリを観てみると C++で書かれており、たしかにパフォーマンスが高いのが納得。ドキュメントやチュートリアルなどはこちらのサイトで用意されています。 Hello from Velox | Velox Meta 社内では、Presto や Spark に適用して処理の高速化、PyTorch に活用して前処理
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
- 36 users
- engineers.ntt.com
- テクノロジー
- 2022/08/09
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
- aws
- データ
- CSV
- NTT
- blog
GitHub - kwai/blaze: Blazing-fast query execution engine speaks Apache Spark language and has Arrow-DataFusion at its core.
- 4 users
- github.com/kwai
- テクノロジー
- 2022/05/26
The Blaze accelerator for Apache Spark leverages native vectorized execution to accelerate query processing. It combines the power of the Apache Arrow-DataFusion library and the scale of the Spark distributed computing framework. Blaze takes a fully optimized physical plan from Spark, mapping it into DataFusion's execution plan, and performs native plan computation in Spark executors. Blaze is com
- Spark
- Rust
Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
- 25 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/05/25
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告におけるデータマーケティングソリューションでは、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで
- aws
- データ
- data
- あとで読む
- Hudi
Apache Sparkが遅かったり、落ちちゃう時に試してみるオプション - Qiita
- 3 users
- qiita.com/seikei1874
- テクノロジー
- 2022/02/02
Sparkで機械学習をするとき、前処理もSparkでやりますよね。前処理って面倒ですよね。カテゴリ値とか連続値とか合成変数とか。無邪気に変数を定義するデータサイエンティストにイラっとします。さて、ある程度の大きさのデータを処理すると、タイムアウトとかOOMとか、処理が遅かったりしますね。そんなときに試してみると良いかもしれないオプションです。 Dynamic Allocation 無駄なリソースを使わないことに越したことはないので、動的リソース確保ができるようにします。 DynamicAllocationを有効にするには、ShuffleServiceも有効にする必要があります。使われないExecutorが削除されるので、Shuffleのファイルを別な場所に退避させておくためです。 spark.dynamicAllocation.enabled spark.shuffle.ser
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
- 12 users
- tech.gunosy.io
- テクノロジー
- 2021/12/04
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
Serverless Spark jobs for all data users | Google Cloud
- 3 users
- cloud.google.com
- テクノロジー
- 2021/10/14
Accelerate your digital transformation Whether your business is early in its journey or well on its way to digital transformation, Google Cloud can help solve your toughest challenges.
CDH (Hadoop) 入門 - MicroAd Developers Blog
- 19 users
- developers.microad.co.jp
- テクノロジー
- 2021/09/21
はじめに初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。はじめに分散処理基盤 Hadoop / CDH とは Hadoop エコシステムデータストレージ (HDFS) とリソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ
[AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング資料公開 | Amazon Web Services
- 15 users
- aws.amazon.com
- テクノロジー
- 2021/08/26
Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング資料公開「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」の AWS Black Belt Online Seminar についてご案内させて頂きます。今回は「前編(基礎知識編)」と「後編(チューニングパターン編)」の二本立てとなっております。視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue
- Glue
- ETL
- aws
- あとで読む
野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball
- 27 users
- shinyorke.hatenablog.com
- テクノロジー
- 2021/08/22
最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて単位やフォーマットが不揃いでそれでも仕事（もしくは趣味の分析）をこなすため, いい感じの使いやすいデータセットにしないと（使命感）という機会は非常に多いです. いや, 機会が多いというより多かれ少なかれ毎日戦っている気がします. 今回は, ちょっとした分析とお遊びのため, メジャーリーグの公式データサイト「Baseball Savant」のデータを使ったBigQueryデータベースを作りたくなったので, クローラーでBaseball Savantのデータを取ってCSVにして CSVからデータを集計したり整えたりしていい感じの単位にして BigQueryから使えるようにしてみたよ！というタスクをGoogle Cloud Platform
『仮想通貨YFLR(イールドフレアトークン)エアドロップとは？』貰い方や詳細をわかりやすく説明します。 | 進読のススメ
- 4 users
- manabufan.com
- テクノロジー
- 2021/07/03
仮想通貨ＸＲＰ（リップル）保有者が参加できた注目の暗号資産FLR（スパークトークン）エアドロップこれの誕生は当初の予定から延期をしており、現時点では２０２２年７月４日に誕生予定となっています。それだけでも、暗号資産XRP保有者にとってはお得で重要な情報となっていますが、暗号資産FLR（スパークトークン）保有者向けに、更に別の暗号資産が貰えるエアドロップがあります。このように聞くと、「本当に！２回も無料で貰えるとかメチャクチャお得じゃん！」「なんでも無料で貰えるモノは貰っておきたい！！」「知らなかった！どうやったら貰えるのか教えて欲しいです！！！」という人がとても多いと思いますし、私も貴方と同じです。そこで今回は、更にもう一回新しい仮想通貨を受け取るエアドロップに参加したい人向けに『仮想通貨YFLR（イールドフレアトークン）のエアドロップ』についてわかりやすく説明しま
大型エアドロップ『仮想通貨FLRのエアドロップとは？』についてわかりやすく説明します。 | 進読のススメ
- 5 users
- manabufan.com
- テクノロジー
- 2021/06/19
２０２０年１２月にスナップショット（権利確定）が行われ、多くの人がエアドロップ（無料配布）を待っている状態の暗号資産FLR これは暗号資産XRP（リップル）保有者なら誰でも参加できたため、このエアドロップに参加している人は多くいます。そのため「暗号資産FLRはいつになったら貰えるの？」「忘れていたけど、暗号資産FLRって今どうなってるの？」等の声を多く聞きます。そこで今回は、あれから色々と出てきた変更点も含めて『暗号資産FLRエアドロップとは？』をわかりやすく説明していきます。この記事を読むことで ◎、暗号資産FLRのエアドロップ日程がわかります ◎、スナップショットに参加していない人もエアドロップを受けられるよう行動できますそれでは、暗号資産FLRのエアドロップについて一緒に見て行きましょう！ ※暗号資産名は旧：スパークトークン、現：フレアトークンとなっています。 ※変
Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
- 14 users
- data.gunosy.io
- テクノロジー
- 2021/04/28
はじめに DRE Team の hyamamoto です．皆さん，Spark は利用されていますか？ Gunosy では Digdag + Athena によるデータ整形が増えてきており，徐々に Spark の利用は減ってきています．思い返すと，昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした．一方で，決して多くはないものの，この構成ではカバーし切れない処理もあり，そういったものに関しては Spark を用いています．話は少し飛びますが，DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています．また，一部のタスクは Kubernetes の Job として Digdag から投げることで，リソースをスケールさせつつ様々な処理が可能となっていま
- kubernetes
- spark
- k8s
- hadoop
- データ
Scalaはバックエンドでもフロントエンドでも動く　Treasure Dataのエンジニアが語るScalaの応用力の高さ
- 44 users
- logmi.jp
- テクノロジー
- 2021/03/12
アジア最大級の国際Scalaカンファレンスである「ScalaMatsuri2020」がオンラインで開催されました。そこでTreasure DataのTaro L. Saito 氏がScalaに関するいろいろなテクノロジーを紹介しました。まずは、バックエンドとフロントエンドの両方で使えるScalaについて。趣味はオープンソースのプロジェクトを作ること Taro L. Saito氏：「Scala For Everything」というタイトルで発表します。簡単な自己紹介を。Treasure DataのSaitoといいます。Principal Software Engineerをしていて、今、カリフォルニア、アメリカの西海岸から発表しています。タイムゾーンの都合上、今こちらは夜の20時なんですけれども、ScalaMatsuriの運営の麻植さんが、タイムゾーンに配慮してくださったので、非常に感謝し
- scala
- scala.js
- gRPC
- あとで読む
Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
- 106 users
- aws.amazon.com
- テクノロジー
- 2020/12/02
AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin
- aws
- s3
- あとで読む
- object-storage
- consistency
- amazon
- data
XilinxとSamsung、FPGA内蔵で適応性を高めた計算用ストレージ製品を発表
- 4 users
- news.mynavi.jp
- テクノロジー
- 2020/11/18
XilinxとSamsung Electronicsは、11月10～12日に開催された「Flash Memory Summit Virtual Conference and Expo」にて、XilinxのFPGA搭載したSamsung SmartSSD CSD(Computational Storage Drive)を発表した。 SmartSSD CSDは、FPGAを内蔵することで適応性を高めた計算用ストレージプラットフォームで、大量のデータ処理を伴うアプリケーションに必要な性能、カスタマイズ性、およびスケーラビリティを備えているとのことで、Xilinxは同製品を2020年1月より自社ならびに正規販売代理店を通じて出荷を開始する予定としている。 SmartSSD CSDはXilinxのFPGAをアクセラレータとして組み込むことでデータの近くでの高速演算を可能としたことで、サーバCPUによる
How Scala works at Mercari
- 3 users
- speakerdeck.com/syucream
- テクノロジー
- 2020/10/17
Production-ready stream data pipeline in Merpay, Inc
Migrating Apache Spark workloads from AWS EMR to Kubernetes
- 5 users
- itnext.io
- テクノロジー
- 2020/10/05
IntroductionESG research found that 43% of respondents considering cloud as their primary deployment for Apache Spark. And it makes a lot of sense because the cloud provides scalability, reliability, availability, and massive economies of scale. Another strong selling point of cloud deployment is a low barrier of entry in the form of managed services. Each one of the ‘Big Three’ cloud providers co
- spark
- aws
並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
- 7 users
- event.ospn.jp
- テクノロジー
- 2020/08/29
並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。
- spark
- hadoop
- kafka
- ソフトウェア
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介（Open Source Conference 2020 Online/Kyoto 講演資料）
- 5 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2020/08/28
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介基本から最新バージョン3.0まで Open Source Conference 2020 Online/Kyoto 2020年8月28日講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ技術開発本部猿田浩輔Read less
The Pros and Cons of Running Apache Spark on Kubernetes - Spot.io
- 3 users
- spot.io
- テクノロジー
- 2020/08/04
Jean-Yves Stephan Senior Product Manager, Ocean for Apache Spark Reading Time: 7 minutes‍Apache Spark is an open-source distributed computing framework. In a few lines of code (in Scala, Python, SQL, or R), data scientists or engineers define applications that can process large amounts of data, Spark taking care of parallelizing the work across a cluster of machines. Spark itself doesn’t manage th
PySparkデータ操作 - Qiita
- 8 users
- qiita.com/gsy0911
- テクノロジー
- 2020/07/08
本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴ファイルの入出力入力：単一ファイルでも可出力：出力ファイル名は付与が不可（フォルダ名のみ指定可能）。指定したフォルダの直下に複数ファイルで出力。遅延評価ファイル出力時 or 結果出力時に処理が実行通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。計算リ
- Spark
- Python
Spark(DataProc)からBigQuery MLに移行してコストを削減した話 - Platinum Data Blog by BrainPad
- 8 users
- blog.brainpad.co.jp
- テクノロジー
- 2020/07/07
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。自社開発サービスである「Rtoaster（アールトースター）」は、2019年にユーザー分析機能の「自動クラスタリング機能」をSpark(DataProc)からBigQueryMLに移行しました。ブレインパッドの新卒2年目の自社サービス開発エンジニアが、新卒1年目で取り組んだ、この大きなプロジェクトでの経験についてご紹介します！はじめに背景ユーザー分析機能と自動クラスタリング移行前の環境と問題点 BigQuery ML について実装モデル移行の実装結果料金の削減実行時間の削減運用の問題解消最後にはじめに本記事は、ブレインパッドの自社サービスである「Rtoaster（アールトースター）」のユーザー分析機能のチームで開発をしている、新卒入社2年目のエンジニア柴内がお送
Spark Release 3.0.0 | Apache Spark
- 3 users
- spark.apache.org
- テクノロジー
- 2020/06/19
Apache Spark 3.0.0 is the first release of the 3.x line. The vote passed on the 10th of June, 2020. This release is based on git tag v3.0.0 which includes all commits up to June 10. Apache Spark 3.0 builds on many of the innovations from Spark 2.x, bringing new ideas as well as continuing long-term projects that have been in development. With the help of tremendous contributions from the open-sour
[アップデート] 1行たりともコードは書かない！AWS GlueでストリーミングETLが可能になりました | DevelopersIO
- 46 users
- dev.classmethod.jp
- テクノロジー
- 2020/04/30
先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました！ AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのかまず、AWS Glue？ナニソレ？という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL（抽出/変換/ロード）サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。従来であれば、例え
- Glue
- aws
- aws_Glue
- ETL
- あとで読む
- data
Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services
- 9 users
- aws.amazon.com
- テクノロジー
- 2020/04/23
Amazon Web Services ブログ Kubernetes で Spark パフォーマンスを最適化する Apache Spark はオープンソースプロジェクトで、分析分野で幅広い人気を博しています。有名なビッグデータや、ストリーミングといったの機械学習ワークロード、幅広いデータセットの処理、ETL などで使用されています。 Kubernetes は、人気のあるオープンソースのコンテナ管理システムで、アプリケーションのデプロイ、メンテナンス、スケーリングのための基本的なメカニズムを提供します。Amazon EKS は、高可用性コントロールプレーンを提供するマネージド Kubernetes サービスで、AWS で本番環境レベルのワークロードを実行します。お客様は、EKS でマイクロサービス、バッチ、機械学習などのさまざまなワークロードを実行できます。このブログは、Kubernete
- spark
MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリース予定。
- 4 users
- applech2.com
- テクノロジー
- 2020/03/31
MacやiPhone、iPad、AndroidをサポートしたReaddleのメールクライアント「Spark」のWindows版が近くリリースすると発表しています。詳細は以下から。ウクライナのソフトウェア会社Readdle Inc.は現地時間2020年03月19日、新型コロナウイルス感染症(COVID-19)の影響を受け、リモートワークをしているユーザー向けに、メールを他のユーザーに委任できる「Spark Team」を紹介した記事を公開していますが、その記事によると、メールクライアントSparkのWindows版が近くリリースされるそうです。 Spark is available for iPhone, iPad, Macs as well as Android devices, with a Windows version coming soon. Spark is designed t
Apache Sparkの概要 - Qiita
- 9 users
- qiita.com/whata
- テクノロジー
- 2020/03/03
はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data
- spark
- データ