sparkの人気記事 78件 - はてなブックマーク

1 - 40 件 / 78件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

sparkの検索結果1 - 40 件 / 78件

sparkに関するエントリは78件あります。データ、 aws、プログラミングなどが関連タグです。人気エントリには『「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表』などがあります。

「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表
- 231 users
- www.publickey1.jp
- テクノロジー
- 2023/07/04
「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apache Spark」をデータブリックスが発表 Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apache Spark」を発表しました。英語は新しいプログラミング言語である Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを
Delta Lake とは何か - connecting the dots
- 128 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
- deltalake
- あとで読む
- データ
- Databricks
- 機械学習
- db
- hadoop
- 開発
- プログラミング
- programming
Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
- 106 users
- aws.amazon.com
- テクノロジー
- 2020/12/02
AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin
- aws
- s3
- あとで読む
- object-storage
- consistency
- amazon
- hadoop
- data
GitHub - lawofcycles/apache-iceberg-101-ja: これからApache Icebergを学びたい人向けの実践的なハンズオンです。コンテナが動く端末1台で始められます
- 56 users
- github.com/lawofcycles
- テクノロジー
- 2024/03/10
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- apache
- あとで読む
- IceBerg
- db
- github
- コンテナ

大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/0…
- 53 users
- www.slideshare.net/nttdata-tech
- テクノロジー
- 2019/10/18
大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）
- hadoop
- spark
- データ
- bigdata
- あとで読む
Databricks社がOSS化したSpark用ストレージレイヤ「Delta Lake」について - たけぞう瀕死ブログ
- 51 users
- takezoe.hatenablog.com
- テクノロジー
- 2019/05/03
先日開催されたSpark + AI Summit 2019にあわせてDatabricks社からSpark用のストレージレイヤ「Delta Lake」のOSS化が発表されました。 databricks.com GitHubリポジトリはこちら。 github.com Delta LakeはSparkのライブラリとして実装されており、分散ストレージ上で以下のような機能を提供します。 ACIDトランザクション（テーブル単位）タイムトラベル（任意の時点の過去データを参照可能）スキーマバリデーション（スキーマ変更も可能）実際に動かしてみる Delta Lakeの動作にはSpark 2.4.2以降が必要です。ローカルファイルシステムでも動作するのでspark-shellで動きを確認してみました。 $ bin/spark-shell --packages io.delta:delta-core_2.
- spark
- あとで読む
- scala
- storage
[アップデート] 1行たりともコードは書かない！AWS GlueでストリーミングETLが可能になりました | DevelopersIO
- 47 users
- dev.classmethod.jp
- テクノロジー
- 2020/04/30
先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました！ AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのかまず、AWS Glue？ナニソレ？という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL（抽出/変換/ロード）サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。従来であれば、例え
- AWS
- Glue
- aws_Glue
- ETL
- あとで読む
- techfeed
Scalaはバックエンドでもフロントエンドでも動く　Treasure Dataのエンジニアが語るScalaの応用力の高さ
- 44 users
- logmi.jp
- テクノロジー
- 2021/03/12
アジア最大級の国際Scalaカンファレンスである「ScalaMatsuri2020」がオンラインで開催されました。そこでTreasure DataのTaro L. Saito 氏がScalaに関するいろいろなテクノロジーを紹介しました。まずは、バックエンドとフロントエンドの両方で使えるScalaについて。趣味はオープンソースのプロジェクトを作ること Taro L. Saito氏：「Scala For Everything」というタイトルで発表します。簡単な自己紹介を。Treasure DataのSaitoといいます。Principal Software Engineerをしていて、今、カリフォルニア、アメリカの西海岸から発表しています。タイムゾーンの都合上、今こちらは夜の20時なんですけれども、ScalaMatsuriの運営の麻植さんが、タイムゾーンに配慮してくださったので、非常に感謝し
- scala
- scala.js
- gRPC
- あとで読む
PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
- 39 users
- tech.jxpress.net
- テクノロジー
- 2019/12/10
「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke（しんよーく）と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに
- pyspark
- spark
- Python
- SQL
- あとで読む
- Java
- プログラミング
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
- 36 users
- engineers.ntt.com
- テクノロジー
- 2022/08/09
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
- aws
- データ
- CSV
- NTT
- blog
Data Engineering & Data Analysis #8
- 36 users
- speakerdeck.com/yoshinaga0106
- テクノロジー
- 2019/08/25
Data Engineering & Data Analysis #8でのTalk資料
Databricks ＋ BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
- 31 users
- tech.buysell-technologies.com
- テクノロジー
- 2022/10/28
テクノロジー戦略本部データサイエンス部の近藤です。バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、新たにDatabricksの導入を決めました。バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとはバイセルの今の課題と未来どうやって課題を解決するのかなぜApache Sparkなのか Databricksの利点 Databricks導入後の世界データサイエンス部の野望 SSOTとはデータマネジメントでは「S
Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1
- 30 users
- logmi.jp
- テクノロジー
- 2019/07/03
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング上新卓也氏：それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQ
- Spark
- SQL
- あとで読む
- performance
野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball
- 27 users
- shinyorke.hatenablog.com
- テクノロジー
- 2021/08/22
最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて単位やフォーマットが不揃いでそれでも仕事（もしくは趣味の分析）をこなすため, いい感じの使いやすいデータセットにしないと（使命感）という機会は非常に多いです. いや, 機会が多いというより多かれ少なかれ毎日戦っている気がします. 今回は, ちょっとした分析とお遊びのため, メジャーリーグの公式データサイト「Baseball Savant」のデータを使ったBigQueryデータベースを作りたくなったので, クローラーでBaseball Savantのデータを取ってCSVにして CSVからデータを集計したり整えたりしていい感じの単位にして BigQueryから使えるようにしてみたよ！というタスクをGoogle Cloud Platform
Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
- 25 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/05/25
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告におけるデータマーケティングソリューションでは、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで
- aws
- データ
- data
- あとで読む
- Hudi
Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう
- 25 users
- shunyaueta.com
- テクノロジー
- 2022/09/01
2022-09-01 日課の RSS フィードを眺めていると、クエリエンジンやデータ処理の最適化のための高速化ライブラリが Meta が OSS として公開した1 のを知った。 Velox のリポジトリはこちら facebookincubator/velox: A C++ vectorized database acceleration library aimed to optimizing query engines and data processing systems. 実際にリポジトリを観てみると C++で書かれており、たしかにパフォーマンスが高いのが納得。ドキュメントやチュートリアルなどはこちらのサイトで用意されています。 Hello from Velox | Velox Meta 社内では、Presto や Spark に適用して処理の高速化、PyTorch に活用して前処理
Redirecting
- 24 users
- polynote.org
- テクノロジー
- 2019/10/24
Redirecting to latest/...
- scala
- jupyter
- notebook
- Netflix
- データ
- data
- 統計
MLflowによる機械学習モデルのライフサイクルの管理
- 22 users
- www.slideshare.net/maropu0804
- テクノロジー
- 2019/06/12
This is a slide for Spark Meetup Tokyo #1 (Spark+AI Summit 2019)
- mlflow
- 機械学習
- Deep Learning
- ntt
- slide
- データ
- あとで読む
Apache Sparkとは何か - Qiita
- 22 users
- qiita.com/taka_yayoi
- テクノロジー
- 2023/08/16
使い始めて3年くらい経ちますが、改めて振り返ってみます。こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します！その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され
Deequ で大規模なデータ品質をテスト | Amazon Web Services
- 21 users
- aws.amazon.com
- テクノロジー
- 2019/05/20
Amazon Web Services ブログ Deequ で大規模なデータ品質をテスト一般的に、コード用のユニットテストを書くと思いますが、お使いのデータもテストしているのでしょうか? 不正確または不正なデータは、本番システムに大きな影響を与える可能性があります。データ品質問題の例は次のとおりです。値がない場合は、本番システムで null 以外の値を必要とするエラー (NullPointerException) が発生する可能性があります。データ分布が変化すると、機械学習モデルで予期しない出力につながることがあります。データの集計を誤ると、ビジネスでの判断を下す際に誤った意思決定につながる可能性があります。このブログ記事では、Amazon で開発し、使用されているオープンソースツールである Deequ を紹介したいと思います。Deequ では、データセットのデータ品質メトリクス
- dataQuality
- Spark
- aws
- amazon
- あとで読む
- Deequ
Introducing English as the New Programming Language for Apache Spark
- 20 users
- www.databricks.com
- テクノロジー
- 2023/06/30
Unified governance for all data, analytics and AI assets
CDH (Hadoop) 入門 - MicroAd Developers Blog
- 19 users
- developers.microad.co.jp
- テクノロジー
- 2021/09/21
はじめに初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。はじめに分散処理基盤 Hadoop / CDH とは Hadoop エコシステムデータストレージ (HDFS) とリソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ
AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services
- 18 users
- aws.amazon.com
- テクノロジー
- 2019/10/29
Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、
- spark
- AWS Glue
- glue
- ETL
- aws
- apache
- あとで読む
Open-sourcing Polynote: an IDE-inspired polyglot notebook
- 17 users
- netflixtechblog.com
- テクノロジー
- 2019/10/24
We are pleased to announce the open-source launch of Polynote: a new, polyglot notebook with first-class Scala support, Apache Spark integration, multi-language interoperability including Scala, Python, and SQL, as-you-type autocomplete, and more. Polynote provides data scientists and machine learning researchers with a notebook environment that allows them the freedom to seamlessly integrate our
AWS Glueをローカル環境で実行してみた | DevelopersIO
- 16 users
- dev.classmethod.jp
- テクノロジー
- 2019/09/10
環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://
- aws
- python
[AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング資料公開 | Amazon Web Services
- 15 users
- aws.amazon.com
- テクノロジー
- 2021/08/26
Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング資料公開「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」の AWS Black Belt Online Seminar についてご案内させて頂きます。今回は「前編(基礎知識編)」と「後編(チューニングパターン編)」の二本立てとなっております。視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue
- Glue
- ETL
- aws
- あとで読む
Data & AIのサミットで発表された新機能：DatabricksのEnglish SDK for Apache Sparkを試してみた - Qiita
- 15 users
- qiita.com/maroon-db
- テクノロジー
- 2023/07/03
Data & AIのサミットで発表された新機能：DatabricksのEnglish SDK for Apache Sparkを試してみたDatabrickspyspark-ai はじめに DatabricksのイベントData & AI Summitで非常に興味深いソリューションが発表されました。その名もEnglish SDK for Apache Spark. まだ開発の初期段階とのことですが、すでにGitにも公開されており、試すことができます。早速、Databricks上で使ってみました。ノートブックこちらにノートブックを公開しますので、Databricks環境にインポートしてお試しください。サンプルノートブック設定 pyspark-aiをインストールします。 LLMを指定します。OPEN AIを利用する場合、Secret Keyを取得し環境変数のOPENAI_API_K
- AI
- qiita
- あとで読む
Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
- 14 users
- data.gunosy.io
- テクノロジー
- 2021/04/28
はじめに DRE Team の hyamamoto です．皆さん，Spark は利用されていますか？ Gunosy では Digdag + Athena によるデータ整形が増えてきており，徐々に Spark の利用は減ってきています．思い返すと，昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした．一方で，決して多くはないものの，この構成ではカバーし切れない処理もあり，そういったものに関しては Spark を用いています．話は少し飛びますが，DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています．また，一部のタスクは Kubernetes の Job として Digdag から投げることで，リソースをスケールさせつつ様々な処理が可能となっていま
- kubernetes
- spark
- k8s
- hadoop
- データ
ベアメタルで実現するSpark＆Trino on K8sなデータ基盤
- 13 users
- www.slideshare.net/microad_engineer
- テクノロジー
- 2023/10/05
Trino Conference Tokyo 2023 https://techplay.jp/event/907388 #trinodbRead less
新しいグラフ処理ライブラリ「Spark Graph」とは何か？　Apache Spark 2.4 & 3.0の新機能を解説 Part2
- 13 users
- logmi.jp
- テクノロジー
- 2019/07/11
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Spark 2.4 & 3.0 - What's next? - 」に登壇したのは、株式会社エヌ・ティ・ティ・データの猿田浩輔氏。講演資料はこちら Accelerator Aware Scheduling 猿田浩輔氏（以下、猿田）：Barrier Execution Modeのお話はここまでで、次はAccelerator Aware Schedulingですね。最近Project Hydrogenの中ではこの機能の議論が活発で、S
- あとで読む
更新できるデータレイクを作る〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
- 12 users
- tech.gunosy.io
- テクノロジー
- 2021/12/04
広告技術部のUT@mocyutoです。こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。昨日は内田さんのその設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログでした今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。背景仕組み課題対応策データの持ち方を変える Apache Hudiとは構成 Glue + PySpark Athenaによる抽出移行し終えて背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。仕組みこの仕組みを実現するためには以下のようなアーキテクチャになっていました
Sparkモデルのハイパーパラメータの交差検証によるチューニング
- 11 users
- techblog.gmo-ap.jp
- テクノロジー
- 2019/05/31
こんにちは、GMOアドマーケティングのS.Sです。機械学習の予測モデルを作成するときに、データをもとにしてモデルのハイパーパラメータを調整できると便利です。例えばRandom Forestのモデルを学習する場合だと、木の深さはデータセットのサイズなどに応じて適切な値を設定する必要があります。この値を何度か変更しつつ結果を確認するのは大変です。また同一のtrain set/validation set分割のもとで候補の中から選んだハイパーパラメータがよいかどうかを調べると、validation setにoverfitしてしまうという問題もあります。このような問題を解決するために交差検証(https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC)では、次のような手順で性能を測定します。データをランダムにシャッ
- Spark
Spark Structured Streaming で遅延データを処理する方法 - MicroAd Developers Blog
- 10 users
- developers.microad.co.jp
- テクノロジー
- 2019/07/12
マイクロアドのアプリケーションエンジニアの x です。数ヶ月前からストリームアプリの開発を担当しています。ある案件を検証する為、Structured Streaming を使ってみました。マイクロアドでは、Spark Streaming でデータを5~10秒毎に処理しています。Spark Streaming については、順序保証型分散ストリーム処理と、 Spark Streaming と Kryo シリアライザーの話でも解説していますので、ご覧ください。 Spark Streaming は強力なストリーミングですが、遅延したデータを簡単に処理する方法がなく、マイクロアドでも問題となっています。さしあたり解決方法として、処理する時に event time（実際にイベントが発生した時間）ではなく、ingestion time（データがソースに入った時間）を見る遅延したデータを捨てる
- あとで読む
Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services
- 9 users
- aws.amazon.com
- テクノロジー
- 2020/04/23
Amazon Web Services ブログ Kubernetes で Spark パフォーマンスを最適化する Apache Spark はオープンソースプロジェクトで、分析分野で幅広い人気を博しています。有名なビッグデータや、ストリーミングといったの機械学習ワークロード、幅広いデータセットの処理、ETL などで使用されています。 Kubernetes は、人気のあるオープンソースのコンテナ管理システムで、アプリケーションのデプロイ、メンテナンス、スケーリングのための基本的なメカニズムを提供します。Amazon EKS は、高可用性コントロールプレーンを提供するマネージド Kubernetes サービスで、AWS で本番環境レベルのワークロードを実行します。お客様は、EKS でマイクロサービス、バッチ、機械学習などのさまざまなワークロードを実行できます。このブログは、Kubernete
- spark
Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part2
- 9 users
- logmi.jp
- テクノロジー
- 2019/07/03
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Optimizer 上新卓也氏：これでLogical Planにキャッシュを使うプランが含まれてきたので、その次の処理としてはOptimizerですね。これは今までプランの書き換えなどはやってこなかったんですが、ここからプランをガシガシと
Apache Sparkの概要 - Qiita
- 9 users
- qiita.com/whata
- テクノロジー
- 2020/03/03
はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data
- spark
- データ
Kubernetesとの連携はどうなる？　Apache Spark 2.4 & 3.0の新機能を解説 Part1
- 8 users
- logmi.jp
- テクノロジー
- 2019/07/11
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Spark 2.4 & 3.0 - What's next? - 」に登壇したのは、株式会社エヌ・ティ・ティ・データの猿田浩輔氏。講演資料はこちら Spark 2.4 と3.0の新機能を解説猿田浩輔氏（以下、猿田）：みなさんこんばんは。私からはApache Sparkの現時点での最新フィーチャーリリースである2.4と、今年リリースが期待されているSpark3.0の新機能をいくつかご紹介させていただきたいと思います。はじめに私の
PySparkデータ操作 - Qiita
- 8 users
- qiita.com/gsy0911
- テクノロジー
- 2020/07/08
本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴ファイルの入出力入力：単一ファイルでも可出力：出力ファイル名は付与が不可（フォルダ名のみ指定可能）。指定したフォルダの直下に複数ファイルで出力。遅延評価ファイル出力時 or 結果出力時に処理が実行通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。計算リ
- Spark
- Python
Spark(DataProc)からBigQuery MLに移行してコストを削減した話 - Platinum Data Blog by BrainPad
- 8 users
- blog.brainpad.co.jp
- テクノロジー
- 2020/07/07
自社開発サービスである「Rtoaster（アールトースター）」は、2019年にユーザー分析機能の「自動クラスタリング機能」をSpark(DataProc)からBigQueryMLに移行しました。ブレインパッドの新卒2年目の自社サービス開発エンジニアが、新卒1年目で取り組んだ、この大きなプロジェクトでの経験についてご紹介します！はじめに背景ユーザー分析機能と自動クラスタリング移行前の環境と問題点 BigQuery ML について実装モデル移行の実装結果料金の削減実行時間の削減運用の問題解消最後にはじめに本記事は、ブレインパッドの自社サービスである「Rtoaster（アールトースター）」のユーザー分析機能のチームで開発をしている、新卒入社2年目のエンジニア柴内がお送りします。私は新卒1年目だった昨年秋ごろ、ユーザー分析機能の「自動クラスタリング機能」をSpark(
Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake
- 8 users
- medium.com
- テクノロジー
- 2019/05/28
こんにちは，NTTの山室です．今回の記事は4/23–25にサンフランシスコで開催されたSpark+AI Summitの参加レポートになります．興味のある情報への良い足がかりになることを目的に，個人的にチェックした内容を浅く広めに取り上げます．以下の公式サイトに大半の発表資料と動画が公開されていますので，興味がある方はそちらも併せて参照してください． Spark+AI Summit 2019 Agenda Summitの翌日に訪問した会場近くのDatabricks社Spark+AI Summitは現在年に2回アメリカ西海岸とヨーロッパで開催されているDatabricks（Sparkの作者が在籍する企業）主催のイベントです．特に毎年サンフランシスコで開催されるSummitは規模が大きく，今回世界中から5,000人を超える参加者が集まったそうです．この記事では個人的に興味を持った以下の内容