batchの人気記事 24件 - はてなブックマーク

1 - 24 件 / 24件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

batchの検索結果1 - 24 件 / 24件

1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
- 1282 users
- joker1007.hatenablog.com
- テクノロジー
- 2020/11/04
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。そういったケースで参考にできるかもしれません。弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
- db
- あとで読む
- 設計
- performance
- データ
- database
- 開発
- aws
- architecture
- プログラミング
バッチ処理プラクティス
- 1063 users
- www.yamarkz.com
- テクノロジー
- 2021/12/15
バッチ処理は既に先人の方々が多くのナレッジを公開してくれていますが、それでもなお難しさが変わらないテーマだと思っています。この記事は、筆者がこれまでの開発経験で気づいたバッチ処理の実装ナレッジを整理し、体系化を目指して文章にしました。ここでの内容が、より良い課題解決に貢献できれば幸いです。自身の断片的な思考整理(メモ書き)の延長で内容を整理したため、一部書き振りが統一されておらず、読みにくいかもしれません。ご了承ください。🙏 バッチ処理の難しさバッチ処理は難しい。人によっては簡単なテーマかもしれませんが、自分は難しいテーマだと思っています。「難しさの根源は何か？」を考えると、1. 考慮点が多様にあること 2. 解決する課題によって答えが大きく変わることに整理できました。この2点は、どのソフトウェア開発にも当てはまる項目ではありますが、ことバッチ処理においては顕著に現れます。
データ変更を伴うバッチ処理を書く時に考慮していること - shallowな暮らし
- 527 users
- shallow1729.hatenablog.com
- テクノロジー
- 2022/03/19
こんにちは、id:shallow1729です。最近はインフラ寄りなお仕事をよくやっていますがこれまでにいくつかデータ移行やデータ基盤構築などのバッチ処理のお仕事をしてきました。以前にも一度そういった経験を元に記事を書いたのですが、MySQLやシステムに関する知識が以前よりも増えた今もう一度書き直したいなと思いました。なので今回はバッチ処理を書く時のテクニック2022版という感じです。今の仕事の関係でMySQLやrailsを前提にしている話が多いですが、おそらく他のデータベースを使っている人にも役に立つ話が多いのではないかと思います。ただ、今回の記事は経験に基づくものが多く、あまりよくないアイデアもあるかもしれません。改善点や間違いなどあればご指摘ください。冪等性を持つように冪等性とは端的に言えばある操作を複数回実行しても一回しか実行しなかった時と同じ結果になる性質の事です。長時間かか
- DB
- あとで読む
- batch
- プログラミング
- mysql
- バッチ
- 設計
- データ
- programming
- バッチ処理
バッチ処理について考える - Qiita
- 450 users
- qiita.com/koduki
- テクノロジー
- 2020/01/11
TL;DR ひとくちにバッチといっても色々ある夜間バッチをもう作るなオンラインバッチはSQL以前にDB設計がんばれはじめに Twitterのタイムラインで以下のようなツイートが回ってきました。バッチ処理をみんな舐めてかかったり、ショボイとか思ってる人多い印象なんだけれども、数十万～数千万件規模のデータを処理したことあるのかな。テンプレ通りのコードじゃ動かないよ？ネットに本にも答え載ってないよ？低レイヤも意識しないと動かないよ？ 2020年1月10日ツイートされたわだっしーさんの意図がどこにあるかは確認してないですが、極限の世界でテンプレート的な処理では対応出来ないのはあるよな、と思いつつもある程度はバッチの作法としての書き方があると思っています。このツイートとその関連ツイートを読みながら、そういえばバッチ処理に関して書いてある記事はあまり見ないなぁ、とおもったので他のネットや本
AWSでバッチ処理を実装する際の選択肢とサービス比較
- 401 users
- zenn.dev/faycute
- テクノロジー
- 2021/05/01
処理が複雑でジョブの依存関係を定義したい場合は、AWS Batch 単体で制御するか、より複雑な場合は Step Functions を用いて Lambda、ECS（Fargate）、AWS Batch（Fargate）を組み合わせる。 AWSにおけるバッチ処理の選択肢ざっくりとした選択肢は下記。 Lambda ECS（Fargate） AWS Batch（Fargate）これらのサービスに実際は SQS や Step Functions を組み合わせることもあるので選択肢はさらに広がる。ちなみに、SQS + Fargate（常時起動でポーリング）という構成や、SQS + Lambda + Fargate（都度実行）という構成は、AWS Batch が Fargate に対応した現在は特にメリットがないので取り扱わない。 2021/5/2 追記「常時リクエストがくるユースケー
- aws
- ECS
- あとで読む
- lambda
- バッチ
- batch
- Fargate
- サービス
- Amazon Web Services
- AWS Lambda
66分かかる同期処理を10分以内に短縮せよ！～商品情報同期システムでの、処理速度と運用の改善～ - MonotaRO Tech Blog
- 341 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/08/23
はじめにこの記事では、モノタロウの基幹系を構成するシステムの一つである、商品情報管理システム（PIM：Product Information Management システム）の導入プロジェクトで、商品情報を基幹系と同期するシステム（商品情報同期機能）の性能や運用環境の改善を行った話をご紹介します。背景モノタロウの基幹系は、長年内製のシステムで支えられてきました。基幹系のシステムは、少数のWebアプリケーションと多数のバッチから構成されています。中でも商品情報の管理に関するシステムは、在庫や仕入先に関するシステムと一体化していて、商品情報に関する数多くのマスタメンテナンス画面を備えたやや複雑なシステムです（図１）。図1　基幹系の概略図当社のシステムは、もともと自分たちのビジネスに必要な機能を提供する手頃なパッケージ製品がなかったため、すべてを内製でまかなってきたという経緯があります
レガシーとの向き合い方　〜cron から Rundeck へ〜 - DMM inside
- 265 users
- inside.dmm.com
- テクノロジー
- 2020/08/11
｜DMM inside
- cron
- 運用
- rundeck
- あとで読む
- slack
- サーバ
- システム
- server
- バッチ
- Linux
AWS でバッチ処理・定期実行する4つの方法
- 242 users
- it.kensan.net
- テクノロジー
- 2023/03/31
4つのバッチ処理・定期実行方式の詳細情報それぞれのバッチ処理・定期実行方式について詳細を見ていきます。 EC2について使用するAWSサービスEC2 処理概要Linux系OSで用いられる定時実行機能であるcronのコマンドを使用するメリット昔からよく使われているcronの知識が使えるデメリットEC2インスタンスを起動しておく必要があり、使っていない時間もコストがかかる障害に弱い。EC2サーバに障害があると終わるサーバが複数になると管理が大変 SQS×ECS使用するAWSサービスEventBridge SQS ECS 処理概要EventBridgeでキューを生成。ECSコンテナでキューを取得して実行するメリットECSを起動しておくため、コンテナの起動時間を要さない。デメリットEventBridgeでキューを生成するが、EventBridgeはまれに1 つのイベントに対して複数回トリ
- aws
- あとで読む
- ECS
- lambda
- batch
- 設計
- サービス
- バッチ
- コンテナ
- programming
バッチシステムをクラウドネイティブにするために考えたこと
- 240 users
- speakerdeck.com/teru0x1
- テクノロジー
- 2022/11/21
Cloud Native Days Tokyo 2022 Session: https://event.cloudnativedays.jp/cndt2022/talks/1518
Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
- 215 users
- tech.jxpress.net
- テクノロジー
- 2020/12/18
JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke（しんよーく）です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます！まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ
AWSサーバーレスバッチ処理アーキテクチャの構築 | Amazon Web Services
- 209 users
- aws.amazon.com
- テクノロジー
- 2021/11/15
Amazon Web Services ブログ AWSサーバーレスバッチ処理アーキテクチャの構築この投稿は、AWSソリューションアーキテクトであるReagan RosarioとWWPSソリューションアーキテクトであるMark Curtisによって書かれました。バッチ処理は多くの組織にとって基礎となるもので、大量の情報を効率的に自動化した形で処理することができます。ユースケースとしては、ファイル取り込み処理、キューベースの処理、トランザクションジョブ、さらに重いデータ処理のジョブなど、多岐にわたります。この記事では、ファイル取り込み処理を実装するためのバッチ処理を、サーバーレスに実現するための方法を説明していきます。今回の例では、オーケストレーションにAWS Step Functions、オンデマンドのコンピューティングにAWS Lambda、データストアにAmazon S3、メールの送
- aws
- あとで読む
- アーキテクチャ
- serverless
- lambda
- batch
- CPU
- architecture
- Amazon
【AWS】大規模なバッチ処理を支える技術選定
- 199 users
- zenn.dev/rio_dev
- テクノロジー
- 2023/09/21
ここから、表で挙げた内容をそれぞれ解説していきます。構築難度に関しては、関数を実装するだけで済むLambdaが最も簡単で、バッチ専用に特化されたサービスであるBatchに関しては比較的バッチ構築はしやすい印象ですが、ECSに関してはバッチに特化していないため、バッチ処理を行うようにカスタマイズする必要があります。タイムアウト制約に関して留意すべきは、Lambdaの実行時間は15分までなので、それ以上を超える処理時間のバッチは実装できないことです。起動•実行上のオーバーヘッドに関しては、Lambdaにはコールドスタートがあるため起動時にオーバーヘッドを考える必要があり、Batchではジョブをキューに送信して、最適化のために、ある程度のジョブがキューイングしてから実行しようするので、即時性を求める処理には不向きです。既存バッチを移行したいケースがあると思いますが、Lambdaで動かせる
- aws
- あとで読む
- バッチ処理
- batch
- lambda
- architecture
Fargateの運用～デプロイ自動化や監視等～
- 186 users
- speakerdeck.com/yukiiiiikuma
- テクノロジー
- 2021/12/07
初めてFargateを触ったので、運用保守の観点で構築時に設定しておいた方が良いポイントをまとめました。デプロイの自動化と書いているのにデプロイの話薄めになってしまいました…。こちらはJAWS-UG朝会 #28で発表したものになります。
- fargate
- あとで読む
- ecs
- aws
- 運用
- 監視
- デプロイ
- container
- docker
- ci
AWS Batch ベストプラクティスまとめ | Amazon Web Services
- 180 users
- aws.amazon.com
- テクノロジー
- 2021/10/27
Amazon Web Services ブログ AWS Batch ベストプラクティスまとめこの記事はプリンシパル HPC ソリューションアーキテクトの Pierre-Yves Aquilanti、AWS Batch のプリンシパルプロダクトマネージャの Steve Kendrex とプリンシパル HPC アプリケーションエンジニアの Matt Koop によるものです。更新: 2021 年 10 月 5 日セクション 2 に於けるサブネット CIDR ブロックのガイドラインを修正。 AWS Batch は、科学者や技術者が複雑なシステム構成を管理する必要なく、自由にスケールできる計算環境を提供するサービスです。2017 年に登場して以来、疫学、ゲームシミュレーション、大規模機械学習といった諸々のワークロードを稼動させる様々な業種や組織といったお客様に採用されてきました。この投稿で
- aws
- あとで読む
- batch
- コンテナ
- web
- development
- 開発
- 仕事
EC2とcronで動いていたバッチ基盤をマネージド化した - Uzabase for Engineers
- 176 users
- tech.uzabase.com
- テクノロジー
- 2023/12/21
概要ソーシャル経済メディア「NewsPicks」SREチームの中川です。皆さんはバッチ処理基盤はどうされていますでしょうか。 NewsPicks では少し前まではそれらをEC2、cronの組み合わせで動作させていました。何年も前からこの仕組みだったのですがSREとしてはEC2の面倒見るのも手間ですし、それ以上にcronを変更する際のオペレーションミスが目立ったのが懸念点でした。その為、まずはAWSマネージド化するための基盤を整備し、その後バッチアプリを載せ替えていくようにしました。対応前の基盤構成同じSREチームの安藤さんが CloudNative Days Tokyo 2023 で登壇されたときの資料をお借りします。ご覧の通り、大体のサービスはマネージド化していましたがバッチ基盤だけは旧来のままEC2インスタンスを利用していました。 10年モノのサービスのインフラを漸進的
- aws
- あとで読む
- ECS
- cron
- バッチ
- batch
- architecture
AWSサービスで実現するバッチ実行環境のコンテナ/サーバレス化/ Container service of batch execution environment realized by AWS service
- 175 users
- speakerdeck.com/shoichiron
- テクノロジー
- 2019/10/05
AWS DevDay Tokyo 2019での発表資料です
- aws
- あとで読む
- batch
- バッチ
- ecs
- コンテナ
- container
冪等なデータ処理ジョブを書く - クックパッド開発者ブログ
- 171 users
- techlife.cookpad.com
- テクノロジー
- 2019/07/13
こんにちは、マーケティングサポート事業部データインテリジェンスグループの井上寛之（@inohiro）です。普段はマーケティングに使われるプライベートDMP（データマネジメントプラットフォーム）の開発を行っています。本稿では、その過程で得られた冪等なデータ処理ジョブの書き方に関する工夫を紹介したいと思います。今回は、RDBMS上で SQL によるデータ処理を前提に紹介しますが、この考え方は他の言語や環境におけるデータ処理についても応用できるはずです。まずクックパッドのDMPと、冪等なジョブについて簡単に説明し、ジョブを冪等にするポイントを挙げます。また、SQL バッチジョブフレームワークである bricolage を使った、冪等なジョブの実装例を示します。クックパッドのDMPと冪等なジョブクックパッドのプライベートDMPは、データウェアハウス（社内の巨大な分析用データベースで、クックパ
- バッチ処理
- あとで読む
- cookpad
- 設計
- データ
- SQL
機械学習関連の開発を効率化した話
- 130 users
- speakerdeck.com/nishiba
- テクノロジー
- 2019/05/31
WSDM 2018 論文読み会 Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering
- 機械学習
- あとで読む
- luigi
- 学習
- 開発
- analytics
2019年のワークフローエンジンまとめ - Qiita
- 127 users
- qiita.com/elyunim26
- テクノロジー
- 2019/05/31
概要データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思いますワークフローエンジンとはワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題がありますジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを１時に開始してそれが完了するとみなして依存するタスクBを２時に開始するというような書き方をすることになるが、実際にタスクAが２時までに終わらなかった場合に処理が上手く実行できないタス
- digdag
- あとで読む
- airflow
- oss
- batch
- ワークフロー
- tool
ECS Fargate 楽々構築テンプレート｜Dentsu Digital Tech Blog
- 107 users
- note.com/dd_techblog
- テクノロジー
- 2020/12/22
この記事は電通デジタルアドベントカレンダー2020の22日目の記事になります。前回の記事は「ADH APIを効率的に呼び出すために開発したHooksの紹介」でした。改めましてこんにちは！ Docker使ってますか？ AWSでDockerを使おうと思うと以下の３つの選択肢があります。・Elastic Container Service ・Elastic Kubernetes Service ・EC2に構築するこの中でもECSいいですよね、僕も好きです。運用に手間もかからなくて気軽に使えるところに好感もてます。さすがAWSのマネージドサービス。ただし実際にECSで構築しようとすると周辺のリソースが色々と必要になるので初心者にとってハードルが高く見えるのも事実です。そんなわけで初心者にも使えるようなテンプレートを提供したいと思います。このテンプレートでは最低限の機能しか提供しません。何
- ecs
- aws
- fargate
- あとで読む
- docker
LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
- 106 users
- engineering.linecorp.com
- テクノロジー
- 2021/02/03
こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。課題：このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。コード記述（ステップ1
- LINE
- あとで読む
- batch
- データ
- タスク
- engineering
- システム
- data
バッチ処理のスケジューリングパターン
- 105 users
- medium.com
- テクノロジー
- 2019/12/12
この記事はこの記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 12日目の記事です。はじめにGoogle Cloud Platform (GCP) でバッチ処理を起動するための以下のパターンについてご紹介したいと思います。以下、８パターンあげてみました。とはいえ、最後の3つは GCP のバッチスケジューリングという観点からは少し外れますが、バッチの起動時に使われるということでご容赦を。 Cloud Scheduler : フルマネージドな cron ジョブスケジューラです。フルマネージドという点が非常に大きなメリットであり、多くの処理を自動化し実行することが可能です。Google App Engine cron サービス : HTTP GET を利用して、特定の URLを呼び出します。Google AppEng
- GCP
- あとで読む
- cron
- BigQuery
- google
- airflow
- batch
- パターン
- cloud
バッチ処理における冪等性の検討 ─ クラウドネイティブもしくは、はてなダイアリーの自動移行を題材に - Hatena Developer Blog
- 101 users
- developer.hatenastaff.com
- テクノロジー
- 2021/11/30
アプリケーションエンジニアのid:tkzwtksです。今回はバッチ処理の冪等性（べきとうせい、idempotence）について、どう考えるか／考えてきたかをご紹介します。このエントリを書くきっかけとなったのは、はてなエンジニア有志で定期的に開催しているCloudNative推進会です。ここでは、社内のシステムをクラウドネイティブにしていくため「クラウドネイティブなシステムとはどういうものか？」を考えており、この会での「クラウドネイティブなバッチ処理」の議論も踏まえつつ説明していきます。バッチ処理における冪等性とはメッセージ送信の信頼性を考慮するクラウドネイティブで可用性を高めるためにどのような場合に冪等性を考慮すべきか冪等な実装における3つのケーススタディケース1: n分前までに更新されたレコードを集計するケース2: DB上の対象レコードを更新するケース3: 対象ユーザー
メルペイにおける大規模バッチ処理 | メルカリエンジニアリング
- 101 users
- engineering.mercari.com
- テクノロジー
- 2019/06/05
この記事は MERPAY TECH OPENNESS MONTH の 13日目の記事です。こんにちは、メルペイソフトウェアエンジニアの laughngman7743 です。メルペイではマイクロサービスにおけるデータストアのデータや、アプリケーションのログを有効活用できるような基盤づくりをデータプラットフォームチームとして行っています。データプラットフォームではラムダアーキテクチャに基づき、スピードレイヤとして Cloud PubSub と Cloud Dataflow を利用した仕組みに加え、バッチレイヤとして Cloud Composer と Cloud Dataflow を利用した仕組みを構築しています。この記事ではバッチレイヤのアーキテクチャについてご紹介します。スピードレイヤのアーキテクチャについては「GCPでStreamなデータパイプライン始めました」を参照くださ