「digdag」を検索 - はてなブックマーク

1 - 40 件 / 471件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

digdagの検索結果1 - 40 件 / 471件

VSCodeの拡張機能、なに使ってますか？はてなエンジニア世論調査 #2 - Hatena Developer Blog
- 643 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/14
こんにちは、Webアプリケーションエンジニアのid:hogashiです。半年ほど前に公開した「開発環境のフォントなに使ってますか？」に続く、はてなエンジニア世論調査の第2回「VSCodeの拡張機能、なに使ってますか？」です。ソースコードエディタであるVisual Studio Code（以下、VSCode）は多くのエンジニアに利用されています。VSCodeにはソースコードのシンタックスハイライトやデバッグなど、さまざまな拡張機能をインストールして使うことができますが、公開されている拡張機能は膨大にあります。その中から、はてなのエンジニアはどんな拡張機能をインストールして、日頃の開発に使っているのでしょうか？前回と同様にアンケート調査してみました。アンケート方法アンケート結果から見える人気の機能拡張 6割の拡張機能は1人だけが使用人によってかなり異なるインストール数興味深いコ
- vscode
- あとで読む
- エンジニア
- developer
- プログラミング
- github
- hatena
- ruby
- はてな
- programming
FLINTERS Engineer's Blog
- 640 users
- labs.septeni.co.jp
- テクノロジー
- 2011/01/16
2023-04-06 DigdagからBigQueryを動かす - ChatGPTを使用してエラーを解決した話 AI BigQuery Digdag こんにちは、植村です。今回は弊チームで使用しているワークフローエンジンのdigdag(AWS, EC2)からGCPへアクセスしてBigQueryを動かした時のお話を書きます。やりたいこと：DigdagからBigQueryのExport機能を使用してGCSにデータを格納するGCPの環境は既にで… digdag BigQuery Chat GPT 2023-04-01 週休7日に興味あり？新しいBingが弊社の魅力をご紹介します！ AI こんにちは、菅野です。もう一年の4分の1が終わりましたね。新生活の季節となった4月1日なので(?)唐突に弊社を紹介する記事を書きました！と言っても、私が紹介するのでは面白くないので「新しいBing」に会社の
- Git
- Vagrant
- facebook
- API
- 開発
- あとで読む
- websocket
- network
- 規約
- github
初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
- 467 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/06/03
背景お題技術の差別化差別化から分かること情報資産からToBeを考える俯瞰的・相対的な技術選定これまでの話から学んだこと最後にはじめまして、MonotaROでデータエンジニアをやっています、芝本です。エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。技術を使うためには、技術を学ばなければいけません。プライベートにおいては、好奇心に従って自由に学びますよね。とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。というようにプライベートでは主に次のような選択肢があると思います。書籍を読んで好きなものを選ぶ実際に手を動かしてみて好きなものを選ぶ人に教えてもらって好きなものを選ぶ基本的にプライベートの場合は何
S3のコストを大幅に削減した話 - Gunosy Tech Blog
- 432 users
- tech.gunosy.io
- テクノロジー
- 2022/04/13
広告技術部のUTです。最近はカービィディスカバリーをゆっくりやってます概要過去の失敗どうやったか仕組み結果まとめ概要昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか？そのようなS3でも巨大な
- aws
- s3
- あとで読む
- ストレージ
- storage
- データ
- Glacier
- ログ
- digdag
- tech
DeNAからZOZOテクノロジーズに転職しました
- 421 users
- sonots.medium.com
- テクノロジー
- 2019/01/04
2018年12月に株式会社DeNAを退職し、2019年01月に株式会社ZOZOテクノロジーズに入社しました。誰？瀬尾と言います。インターネット上では sonots (そのっつ) というIDで活動しています。著名どころでは CRuby, Fluentd, Chainer といったOSSのコミッタをしています。 DeNAには2012年10月に入社し、6年弱勤めたことになります。当初は mobage プラットフォームのインフラチームでWebインフラの運用、自動化を行うと同時に、Fluentdを用いたログ監視システムの開発、Railsアプリケーションの本番導入のための下周りの開発を行いました。その後、分析基盤部に異動して、データエンジニアの経験を積むと同時に、分析用のウェブアプリケーション開発、AWS、GCPを使ったAI基盤の構築などを行いました。最後の一年弱は縁あって、Preferre
- 転職
- あとで読む
- ZOZO
- DeNA
- sonots
- エンジニア
- career
- Ruby
- 開発
- 会社
続々・リトライと冪等性のデザインパターン - あらゆる操作を冪等にする方法 - Blog by Sadayuki Furuhashi
- 412 users
- frsyuki.hatenablog.com
- テクノロジー
- 2017/08/10
いつも心に冪等性。古橋です。リトライと冪等性のデザインパターンの完結編です。だいぶ間が空いてしまいましたが！最後に冪等性を実装する汎用的な実装手法についてまとめていきます。パターン６：操作ログとリクエストIDでUPDATEを冪等にする同じIDで識別される値がUPDATEされる場合、つまりmutableである値の管理は、一般に冪等に行うのが難しい。例えば、ユーザーごとに「最後に購入したアイテム」を更新する操作を考えてみると： 1. ユーザーAが最後に購入したアイテムをアイテム1に変更する（UPDATE） 2. ユーザーAが最後に購入したアイテムをアイテム2に変更する（UPDATE）この操作に何の対策もなくリトライを実装した場合、後続のUPDATE処理の結果を古い内容で上書きしてしまう可能性がある： 1. ユーザーAが最後に購入したアイテムをアイテム1に変更する（UPDATE）→
Treasure Data を退職しました - k0kubun's blog
- 346 users
- k0kubun.hatenablog.com
- テクノロジー
- 2022/07/25
約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィーやっていたこと APIチーム元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実
- キャリア
- あとで読む
- 退職
- career
- 仕事
- 開発
- 会社
- ruby
- エンジニア
- rails
エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
- 318 users
- www.m3tech.blog
- テクノロジー
- 2021/10/01
こんにちは、エムスリーエンジニアリンググループの鳥山 (@to_lz1)です。ソフトウェアエンジニアとして製薬企業向けプラットフォームチーム / 電子カルテチームを兼任しています。ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。データ基盤の全体像収集部分の構成 RDBデータログデータ活用部分の構成データマートの実例「データ基
- 設計
- あとで読む
- データ
- architecture
- データ基盤
- aws
- bigquery
- 分析
- db
- チーム
【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
- 297 users
- qiita.com/masso
- テクノロジー
- 2020/11/25
書籍化されました本記事をベースに監修者の村上さんが１冊の本にまとめてくれました（感謝）データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。まえがきはじめに皆さん、「データサイエンティスト」という職種をご存知でしょうか？この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか？実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。データサイエンティストは求められるスキルの幅が広く
データ分析基盤まとめ（随時更新）
- 295 users
- zenn.dev/yuichi_dev
- テクノロジー
- 2024/03/15
はじめにデータ分析基盤の資料を力尽きるまで追記していきます。構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。あと、この記事追加してっていう要望も歓迎いたします。テンプレート記事公開日 : 会社名（サービス名）データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス（カイポケ）データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビデータソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf
- データ分析
- あとで読む
- データ
- 分析
- データ基盤
- 基盤
- まとめ
- 統計
- BigQuery
- AWS
会社の本番環境をDocker(ECS)に置き換えるために準備したこと気づいたこと
- 275 users
- techblog.housmart.co.jp
- テクノロジー
- 2017/11/06
エンジニアの@macs_6です。このブログでは社内のAWS EC2上で運用しているアプリケーション群をECS移行したプロジェクトについて紹介します。ローカルの開発環境をDockerした話は以前の記事(複数の rails プロジェクトが共存する開発環境を Docker 化した話を晒してみる)で西辻が紹介しているので、そちらを参照して下さい。概要プロジェクトを始める前に感じていた課題目指す状態 ECSを選択する理由設計移行のために必要な作業 Digdagによるスケジューリングについて ECSを使って見て気づいたこと今後やりたいことプロジェクトを始める前に感じていた課題ローカル・本番で再現性のある環境を簡単に作れるようにしたい簡単にスケールできるようにしたいコストを抑えたい ECS移行プロジェクトを始める前にはこれらの3つの事に課題感を持っていました。 1.ローカル・本番
- docker
- ECS
- AWS
- あとで読む
- ec2
- Developer
- インフラ
- EC
- エンジニア
Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ
- 271 users
- yukiyan.hatenablog.jp
- テクノロジー
- 2016/06/20
Digdag が Apache License 2.0 の元でオープンソース化されましたよ！さぁ試すんだ…！今すぐにでも！ https://t.co/Uzc4a5GLCe ドキュメント：https://t.co/PF8wy5KHln— Sadayuki Furuhashi (@frsyuki) 2016年6月15日 Digdagが先日リリースされたのをきっかけにデータ分析基盤構築の夢を見た。今回は、Google Cloud Platform（以下、GCP）のコストを可視化かつ分析可能にしてみて、まずはDigdagの使用感を試してみることにする。事前知識 Digdagとは Workload Automation Systemである。以下の記事が詳しい。 EmbulkとDigdagとデータ分析基盤と分散ワークフローエンジン『DigDag』の実装 at Tokyo RubyKaigi
- digdag
- embulk
- redash
- bigquery
- あとで読む
- bigdata
- データ分析
- 可視化
- GCP
- JSON
Fluentd / Embulk / Elasticsearch / Digdag を学ぶのに最高な「データ分析基盤構築入門」を読んだ - kakakakakku blog
- 245 users
- kakakakakku.hatenablog.com
- テクノロジー
- 2017/11/18
出版されてから少し時間がたってしまったけど，「データ分析基盤入門」を読み終えた．ページ数が多く，持ち運ぶようなサイズではないので，家でちょこちょこ読み進める感じになってしまって，想定以上に時間がかかってしまった．データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化] 作者: 鈴木健太,吉田健太郎,大谷純,道井俊介出版社/メーカー: 技術評論社発売日: 2017/09/21メディア: 単行本（ソフトカバー）この商品を含むブログを見るはじめに目次にも書いてある通り，「データ分析基盤」というテーマで Fluentd / Elasticsearch / Kibana の解説が詳細にまとまっている．さらに付録には Embulk と Digdag の解説もあり，このあたりの技術スタックに興味がある人にとって最高な一冊なのではないかなと思う．また，
- fluentd
- elasticsearch
- embulk
- Kibana
- digdag
- あとで読む
- インフラ
- 本
- book
- データ
【Elasticsearch】1900万点に及ぶ商品データ作成の時間を約67%短縮できた構成と工夫 - MonotaRO Tech Blog
- 232 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/10/18
初めまして、EC基盤グループサーチチームの壷井です。モノタロウでは2019年10月頃より新規検索システムの設計・開発を進め、今年の4月頃にECサイト(monotaro.com) 検索ページの裏側の検索システムを従来のSolrからElasticsearchに100%移行*1しました。この移行は将来の商品点数やリクエスト数の増加を見据えたバックエンドの大規模な改修で、ここまで約2年半ほどプロジェクトを進めてきました。今後もECサイトのすべてのページの完全移行に向け引き続き開発・運用を行っていきます。今回はこのプロジェクトのなかで私が担当してきたElasticsearchへの日々のデータの洗い替え（日次更新と呼んでいます）ワークフローのシステム構成と工夫などについてお話します。モノタロウの検索システムの紹介日次更新のシステム構成処理の流れ ① リアルタイムデータ同期 ② 日次商品デー
- elasticsearch
- あとで読む
- データ
- BigQuery
- 検索
- IT
【資料公開】AWS Summit Tokyo 2017にてDMMのAWS移行について紹介してきました - DMM.comラボエンジニアブログ
- 230 users
- dmmlabotech.hatenablog.jp
- テクノロジー
- 2017/06/02
2017 - 06 - 02 【資料公開】AWS Summit Tokyo 2017にてDMMのAWS移行について紹介してきました Tweet Share on Tumblr 本日AWSSummitにて岩崎、飯田、西村の3名が登壇して来ました！『DMMにおける会員基盤プラットフォームへのAWS導入から活用事例の紹介』と言うタイトルでお話をさせていただきました。導入時期が特段早かったという訳ではないですが、開始してからはかなりのスピード感で移行を行うことが出来たと考えております。内製DMM API GatewayのAWS移行で特にお伝えしたいポイントは４点・オンプレミスのミドルウェア⇒AWSのマネージドサービスの置換・EC2パラメータストアによるシークレット値管理・ElastiCache Redis Clusterの選定理由・Multi-AZ構成環境下のシステム統
- AWS
- DMM
- あとで読む
- ECS
- オンプレミス
- EC2
- Redis
- 勉強会
- 移行
Jenkinsの無秩序なジョブをDigdagで再定義する - log.fstn
- 212 users
- fstn.hateblo.jp
- テクノロジー
- 2016/10/11
jenkins で回してる ci のジョブを digdag で書き直してみたけど、フローがひと目で分かるし、git で管理できるし、並列化も簡単だし最高だ。— Kosuke Adachi (@foostan) October 8, 2016 ということで Jenkins のジョブを Digdag に置き換えて Git で管理すると最高なので、今困っている人はやりましょう。1日あれば多分終わります。今回試したのは CI のジョブですが、どんなジョブでも応用できると思います。詳しくこないだ Rebuild 152 聴いていたらその会話の中に「Jenkinsおじさん」ってワードが出てきたんですよ。 rebuild.fm Jenkinsをそれなりの規模で使っている人ならお馴染みだと思うんですが、Jenkinsって自由度が高くてジョブの編集も簡単にできるから気をつけないとジョブがカオスな状態に
- jenkins
- digdag
- ci
- あとで読む
- git
- Continuous Integration
- Shell
- GitHub
ひしだまのコンピューター関連技術メモ
- 187 users
- www.ne.jp
- テクノロジー
- 2005/07/15
S-JIS[1998-01-11/2024-03-10] 変更履歴ひしだま's 技術メモページ自作ソフトを作った時などに気付いた事などをメモにしています。（自分のノート代わり） Access [/2005-03-15] Ant [/2015-12-28] Apache [/2007-09-28] AsakusaFW [/2021-12-21] awk [/2014-05-01] AWS [/2021-07-13] C言語 [/2016-04-09] Cassandra [/2010-10-21] CMake [/2016-04-27] CVS [/2007-10-04] Cygwin [/2016-11-26] DigDag [/2021-10-30] Docker [2023-10-07] DOS [/2016-12-10] Eclipse [/2018-09-22] Embulk
- java
- programming
- プログラミング
- tips
- unix
- Windows
- oracle
- コマンド
- まとめ
- Linux
『データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏
- 185 users
- try-and-matome.hatenablog.jp
- テクノロジー
- 2017/04/27
データ分析基盤Night #2 - connpass 2017/04/26 データ分析基盤Night #2 #データ分析基盤Night - Togetterまとめ前回第1回に引き続き抽選に当たったのでこの日参加してきました。『データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏会場は株式会社FiNC様＠有楽町。有楽町駅ビックカメラのすぐ隣、交通の便は超良い場所です。会場内もとてもオシャレで綺麗なオフィスでした！挨拶ウェルネスタイム(軽いストレッチ) by FiNC FiNCの分析基盤の概要発表資料発表内容 freee のデータ分析基盤の全容発表資料特徴：他のサービスとどこが違うのか構成：アーキテクチャマーケティング販売・サポートエンジニアダッシュボードバッチ処理辛み展望・チャレンジまとめ mercariのデータ分析基
"壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
- 158 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/04
こんにちは。MackerelチームにおいてCRE（Customer Reliability Engineer）をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。なぜ壊れにくいデータ基盤を構築するのかデータ基盤が“壊れている”とはどういうことか壊れてないだけでなく、壊れたら気付ける前提とするシステム構成壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視するそもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除おわりに参
- bigquery
- あとで読む
- Mackerel
- データ
- データ分析
- 監視
- データ基盤
- sql
- monitoring
- チーム
Hive (SQL-style) Query Language | Treasure Data
- 153 users
- tddocs.atlassian.net
- テクノロジー
- 2012/07/05
{"serverDuration": 35, "requestCorrelationId": "b45a8231fbaabbfb"}
- treasuredata
- td
- cookpad
- fluentd
- Treasure Data
- presto
- r-lang
- Luigi
- analytics
- Hive
数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング
- 151 users
- tech.mercari.com
- テクノロジー
- 2018/06/28
SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。本記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。背景当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。課題メルカリでは販売済み商品を物理削除していないため、
- bigquery
- mysql
- embulk
- あとで読む
- mercari
- sql
- データ
Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag | DevelopersIO
- 143 users
- dev.classmethod.jp
- テクノロジー
- 2016/06/16
Digdag が Apache License 2.0 の元でオープンソース化されましたよ！さぁ試すんだ…！今すぐにでも！ https://t.co/Uzc4a5GLCe ドキュメント：https://t.co/PF8wy5KHln — Sadayuki Furuhashi (@frsyuki) 2016年6月15日という訳で試してみました。注目度の高かったワークフローエンジン『Digdag』がついにOSS化されました！Githubリポジトリ及びドキュメントは以下となります。 treasure-data/digdag: Workload Automation System Getting started — Digdag 0.8 documentation 目次インストール環境の準備 Digdagのインストール実施その他ドキュメントの内容について Digdagサンプルワークフロ
- digdag
- treasuredata
- workflow
- automation
- OSS
- あとで読む
- Apache
- ワークフロー
- cURL
- amazon
自前CIサーバをスクラッチで書いた
- 130 users
- blog.wktk.co.jp
- テクノロジー
- 2016/10/14
依存するgitリポジトリが数十あり、Mac上でしか動作しないビルドを動かしている、Jenkinsの移行をすることになった。 Jenkinsについては詳しくない。もちろん勉強すりゃいいという話なのだが、アラフォーで覚えが悪いので、今回は自前で簡単なCIサーバを書いてみました。今回のプロジェクトはRubyメインなので、Rubyで。 JenkinsはMovable Typeであり、Wordpressである僕は、JenkinsをMovable Type/Wordpressのようなソフトウェアだと捉えています。 Movable Typeは「ブログ」というコンテンツ形式を広めたソフトウェアです。Wordpressは、Webの管理画面経由で簡単にプラグインを導入することができ、CMSとしてエコシステムが確立しています。 JenkinsのおかげでContinuous Integrationの概念は広まっ
- ci
- jenkins
- ruby
- あとで読む
- プログラミング
- gem
- sinatra
- *program
2019年のワークフローエンジンまとめ - Qiita
- 127 users
- qiita.com/elyunim26
- テクノロジー
- 2019/05/31
概要データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思いますワークフローエンジンとはワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題がありますジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを１時に開始してそれが完了するとみなして依存するタスクBを２時に開始するというような書き方をすることになるが、実際にタスクAが２時までに終わらなかった場合に処理が上手く実行できないタス
- digdag
- あとで読む
- airflow
- oss
- batch
- ワークフロー
- tool
Gunosyのパーソナライズを支える技術 -計算モデルとアーキテクチャ編- - Gunosy Tech Blog
- 123 users
- tech.gunosy.io
- テクノロジー
- 2017/11/30
この記事は Gunosy Advent Calendar 2017 の1日目の記事です(フライング) qiita.com §1. はじめにこんにちは。データ分析部ロジックチームの @mathetakeです。いつもはデータ分析ブログにいるのでテックブログは初めてです。怖いです。Twitterとかやったことないですね。最近は仕事でニュースパスというプロダクトの記事配信ロジックの改善を行っており、その一環としてパーソナライズロジックの開発プロジェクトに従事しています。パーソナライズとはユーザーひとりひとりに対して別々の記事配信を行う事です。下記の記事でパーソナライズプロジェクト発足に至るまでの背景が語られているので、興味のある方はぜひご覧ください。 gunosiru.gunosy.co.jp この記事ではニュースパスの記事配信アルゴリズムのパーソナライズプロジェクトに関連して、パーソナラ
分析と改善　Gunosyの大規模ログ解析を支える2つのアーキテクチャの裏側
- 116 users
- logmi.jp
- テクノロジー
- 2018/08/14
2018年6月22日、Architecture Nightが主催するイベント「Architecture Night #1」が開催されました。単一のAPIではなく、複数のAPIが絡まって成立するような複雑性の高いアーキテクチャをどのように構成し、運用しているのか？　各社が自社の知見を披露します。第1回となる今回は、Gunosyとサイバーエージェントの2社が登壇し、自社で用いられるアーキテクチャを紹介します。プレゼンテーション「Gunosyのログ収集基盤」に登壇したのは、株式会社Gunosy、開発・運用推進部 SREの茂木大夢氏。ニュースアプリGunosyのログ収集基盤で用いられる大規模アーキテクチャについて解説します。グノシーのアクセスログ解析基盤茂木大夢氏（以下、茂木）：「グノシーのアクセスログ解析基盤」というタイトルで発表させていただきます、茂木と申します。mgi166という名前でや
Blog by Sadayuki Furuhashi
- 111 users
- frsyuki.hatenablog.com
- テクノロジー
- 2006/07/26
MessagePackフォーマット仕様のPull Request #209をマージし、MessagePackにTimestamp型を追加しました。 ※この記事の英語版は XXX にあります（翻訳中） Extension型の型コード -1 として定義されているため、後方互換性が維持されています。つまり、既にExtension型に対応しているデシリアライザであれば、Timestamp型を使用して作成されたデータを、Timestamp型に対応していない古いデシリアライズで読み出すことができます。新しいTimestamp型には timestamp 32、timestamp 64、timestamp 96 の3つのフォーマットがあり、よく使う値をより少ないバイト数で保存できるようになっています。例えば、1970年〜2106年までの時刻で、秒までの精度しか持たない時刻であれば、合計6バイトで保存でき
- 未踏
- blog
- MessagePack
- プログラミング
- kumofs
- network
- fluentd
- filesystem
- linux
- programming
ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG
- 109 users
- techblog.zozo.com
- テクノロジー
- 2020/08/27
こんにちは、SRE部MA基盤チームの谷口（case-k）です。私達のチームでは、データ連携基盤の開発・運用をしています。データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデータ連携基盤についてご紹介します。既存のデータ連携基盤の紹介リアルタイムデータ連携基盤の紹介なぜ必要なのか活用事例の紹介データ連携の仕組みと課題リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討アーキテクチャ概要と処理の流れ Fluentdのプラグインを使った差分データの取得 Dataflowでメッセージの重複を排除 Dataflowで動的にBigQueryの各テーブルに出力 Pub/Subのメッセージ管理イベントログ収集基盤個人情報の取り扱いビルド・デプロイ戦略監視データ
- fluentd
- BigQuery
- あとで読む
- データ
- cloud
- クラウド
- ZOZO
- google
- GCP
- data
Gunosyのパーソナライズを支える技術 -ワークフロー編- - Gunosy Tech Blog
- 108 users
- tech.gunosy.io
- テクノロジー
- 2017/12/04
この記事は Gunosy Advent Calendar 2017 4日目の記事です qiita.com はじめにこんにちは、データ分析部のy-abeです。パーソナライズシリーズの続きになります。 tech.gunosy.io tech.gunosy.io 今回はワークフロー編です。パーソナライズにおいてユーザーや記事の素性抽出や、モデル作成をするコンポーネントや記事リストを生成するAPIが必要です。それらのコンポーネント間でうまくデータを取り回すためにはワークフローが重要です。ワークフローは、いわばシステム上における兵站といってもいいでしょう。「戦争のプロは兵站を語り、戦争の素人は戦略を語る」という名言もあるくらいです。さて、パーソナライズ記事配信のタスクの流れをざっくりいうと、ユーザーと記事の素性を集めて整形（ベクトル化） -> 機械学習でモデルを作成 -> 素性とモデ
DMM.comのビッグデータ基盤を支える技術
- 107 users
- speakerdeck.com/dmmlabo
- テクノロジー
- 2017/08/25
TECH PLAY Conference 2017 の発表資料となりますビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ鈴木翔太 / 吉田龍馬 === 弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用を行っており、それに加えアドホック分析には Presto、エンジニア・アナリストが利用するBIツールとして Zeppelin / Re:dash、ETLにワークフローエンジン Digdag など様々なOSSを積極的に採用し、より快適な分析基盤の構築に努めています。当セッションでは、ビッグデータ部発足時の分析基盤の課題を解決するためにこれまでにどのような取り組みを行ってきたかをご紹介します。
- bigdata
- hadoop
- dmm
- あとで読む
- digdag
- データ
タベリーを支えるアーキテクチャ - Koichi Ishida blog
- 102 users
- wapa5pow.com
- テクノロジー
- 2019/05/20
目次アーキテクチャフロントエンド・バックエンドアーキテクチャ分析アーキテクチャレコメンデーションアーキテクチャ最後に「タベリー」は株式会社10Xが提供するパーソナルな献立を推薦するアプリです。iOSとAndroidとWebで提供しています。先日、プレスリリースで「オンライン注文機能リリース」と「2.5億円の第三者割当増資を実施したこと」をお知らせしました。献立作成、献立からの買い物リスト作成、買い物リストをネットスーパーで注文、料理を作るということがタベリー１つでできます。特にこの「オンライン注文機能」はいままでネットスーパーの商品を１つ１つ選択して注文していたものを、自動でカートに追加し注文できるのでとても便利です。 10Xではよりよいチームを目指しメンバーを募っています。エンジニアも募集しています。チームがどのように開発しているかは社長の矢本さんが書いた「10Xなプロダクト
- gcp
- kubernetes
- アーキテクチャ
- あとで読む
- architecture
- grpc
- k8s
- golang
- cloud
Digdag - Open Source Workflow Engine for the Multi-Cloud Era
- 101 users
- www.digdag.io
- テクノロジー
- 2016/02/16
Digdag is a simple tool that helps you to build, run, schedule, and monitor complex pipelines of tasks. It handles dependency resolution so that tasks run in series or in parallel. Digdag replaces cron, facilitates IT operations automation, orchestrates data engineering tasks, coordinates machine learning pipelines, and more.
- digdag
- workflow
- automation
- scheduler
- cron
- treasuredata
- flow
- build
- あとで読む
- システム開発
Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita
- 101 users
- qiita.com/hiroysato
- テクノロジー
- 2015/02/19
Embulk(エンバルク) (2016/10/05からロゴが変わりました。変更理由) Embulkのまとめ2ndを作ってます。更新時にコメントを書くようにしました。変更内容に興味のある方は編集履歴をご覧ください。 2018年1月30日リリースのembulk 0.9からgemは提供されなくなりました。gem版は0.8.39までとなっています種類バージョンロゴの下のバージョンは開発版の最新バージョンを表しています。一般の方は0.9系を利用しましょう 2015年1月27日、Fluentdのメインコミッターの一人古橋さんが中心となって開発した、fluentdのバッチ版のようなツールEmbulk(エンバルク)がリリースされました。この記事は、Embulkってなに？、どんなプラグインがあるの？、どうやって独自プラグインを開発するの？ということをまとめたページです。内容は随時更新する予定です。
- embulk
- fluentd
- あとで読む
- qiita
近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG
- 97 users
- techblog.zozo.com
- テクノロジー
- 2020/06/11
はじめにこんにちは。ZOZO研究所のshikajiroです。主に研究所のバックエンド全般を担当しています。ZOZOでは2019年夏にAI技術を活用した「類似アイテム検索機能」をリリースしました。商品画像に似た別の商品を検索する機能で、画像検索と言った方が分かりやすいかもしれません。MLの開発にはChainer, CuPy, TensorFlow, GPU, TPU, Annoy、バックエンドの開発にはGCP, Kubernetes, Docker, Flask, Terraform, Airflowなど様々な技術を活用しています。今回は私が担当した「近似最近傍探索Indexを作るワークフロー」のお話です。 corp.zozo.com 目次はじめに目次画像検索の全体像説明 Workflow Develop Application 推論APIの流れ近似最近傍探索とAnnoy 近似
- ZOZO
- あとで読む
- 検索
- 機械学習
- API
- アルゴリズム
- 開発
- index
- machine learning
- machineLearning
EmbulkとDigdagとデータ分析基盤と
- 96 users
- www.slideshare.net/ToruTakahashi4
- テクノロジー
- 2016/06/18
モノタロウの1900万商品を検索する Elasticsearch構築運用事例（2022-10-26 第50回Elasticsearch 勉強会発表資料）
- digdag
- embulk
- fluentd
- treasuredata
- あとで読む
- データ分析
- 資料
ワークフローエンジンDigdagのまとめ - Qiita
- 92 users
- qiita.com/hiroysato
- テクノロジー
- 2016/06/15
2016/06/15に、トレジャーデータがオープンソースとして公開したワークフローエンジンDigdagのリンク集です。内容は随時更新します。またトレジャーデータではDigdagを自社でTreasure Workflowとして提供しています。こちらの情報も収集しています。変更内容が気になる方は変更履歴をご覧ください。 1. 開催されるイベント 2. オフィシャルページオフィシャルページソースリポジトリ 3. チュートリアル Getting started (英語) Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag (日本語) Digdag 入門 Digdagのアーキテクチャとコンセプトを理解する Treasure Workflow for ビギナー環境構築編 digファイル書き方編 Digdag公式ドキュメントからDigdagを学ぶ
はてな・ペパボ技術大会〜インフラ技術基盤〜@京都行ってきたメモ - haya14busa
- 90 users
- haya14busa.com
- テクノロジー
- 2016/07/02
はてな・ペパボ技術大会〜インフラ技術基盤〜@京都 7/2 はてな・ペパボ技術大会〜インフラ技術基盤〜@京都 - connpass 行ってきました．メモってたのでせっかくなので共有しておきます． gistでいいかとおもったけどスライド埋め込みとか考えたらブログに雑に投げたほうが見なおしやすそうと思ったのでブログで．自分で発表したわけでもないし，感想とか書いてるわけでもないけどまぁいいかってカンジ．注意わかってない人が書いたメモなのでいろいろわかってないメモが書かれてます．理解度に関係なく聞き漏らしたところ雑に書いたりしてるので発表様がおっしゃってた話とちがうところもあるかもしれない．特に座談会の内容とかは Twitterのハッシュタグみてたら @matsumotory さんと @yumu19 さんがまとめてたのでそっち見たほうがわかりやすいかも． Togetter http://t
Digdagを使ったジョブ管理 - MicroAd Developers Blog
- 89 users
- developers.microad.co.jp
- テクノロジー
- 2018/10/03
はじめまして。アプリケーションエンジニアの中野です。以前、MicroAdのデータ基盤の記事で紹介されていましたが、マイクロアドではデータ基盤刷新のタイミングでワークフロー管理ツールのDigdagを採用しました。今回の記事では、Digdag採用の経緯やワークフローを作成する際に注意した点を紹介します。 Digdag採用の経緯マイクロアドのDSP*1であるBLADEではBidRequestやImpression*2、Click、Conversion*3、その他BLADEから出力される様々なログやマイクロアドの他のプロダクトのログ、他社から提供されるデータなど、様々なデータを広告配信最適化の分析に活かしています。これらのログを分析するバッチ処理は各々のジョブが複雑な依存関係を持っています。これまではcronやJenkinsを用いてこれらの処理を行っていましたがコード管理が出来ていない
- Digdag
- あとで読む
- log
- Python
- アクセス解析
- Docker
- techfeed
分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
- 88 users
- www.slideshare.net/frsyuki
- テクノロジー
- 2016/05/30
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design PatternAmazon Web Services Japan
データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
- 86 users
- tech.jxpress.net
- テクノロジー
- 2020/07/29
JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke（しんよーく）です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策プロダクト・サービスの改善に関する分析日々のイベントをメトリクス化して可視化（いわゆるBI的なもの）を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず（スーパー優秀な）インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py
- ETL
- データ基盤
- python
- workflow
- コンテナ
- データ
- あとで読む
- 運用
- docker