並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 471件

新着順 人気順

digdagの検索結果1 - 40 件 / 471件

  • VSCodeの拡張機能、なに使ってますか? はてなエンジニア世論調査 #2 - Hatena Developer Blog

    こんにちは、Webアプリケーションエンジニアのid:hogashiです。 半年ほど前に公開した「開発環境のフォントなに使ってますか?」に続く、はてなエンジニア世論調査の第2回「VSCodeの拡張機能、なに使ってますか?」です。 ソースコードエディタであるVisual Studio Code(以下、VSCode)は多くのエンジニアに利用されています。VSCodeにはソースコードのシンタックスハイライトやデバッグなど、さまざまな拡張機能をインストールして使うことができますが、公開されている拡張機能は膨大にあります。 その中から、はてなのエンジニアはどんな拡張機能をインストールして、日頃の開発に使っているのでしょうか? 前回と同様にアンケート調査してみました。 アンケート方法 アンケート結果から見える人気の機能拡張 6割の拡張機能は1人だけが使用 人によってかなり異なるインストール数 興味深いコ

      VSCodeの拡張機能、なに使ってますか? はてなエンジニア世論調査 #2 - Hatena Developer Blog
    • FLINTERS Engineer's Blog

      2023-04-06 DigdagからBigQueryを動かす - ChatGPTを使用してエラーを解決した話 AI BigQuery Digdag こんにちは、植村です。今回は弊チームで使用しているワークフローエンジンのdigdag(AWS, EC2)からGCPへアクセスしてBigQueryを動かした時のお話を書きます。やりたいこと:DigdagからBigQueryのExport機能を使用してGCSにデータを格納するGCPの環境は既にで… digdag BigQuery Chat GPT 2023-04-01 週休7日に興味あり?新しいBingが弊社の魅力をご紹介します! AI こんにちは、菅野です。 もう一年の4分の1が終わりましたね。 新生活の季節となった4月1日なので(?)唐突に弊社を紹介する記事を書きました! と言っても、私が紹介するのでは面白くないので「新しいBing」に会社の

        FLINTERS Engineer's Blog
      • 初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog

        背景 お題 技術の差別化 差別化から分かること 情報資産からToBeを考える 俯瞰的・相対的な技術選定 これまでの話から学んだこと 最後に はじめまして、MonotaROでデータエンジニアをやっています、芝本です。 エンジニアのみなさん、技術を使って何か作ってみるのって楽しいですよね。 私は、公私ともに日々物作りに励んでいます。プライベートだと、最近はマイクロフロントエンドについて学んでいます。 技術を使うためには、技術を学ばなければいけません。 プライベートにおいては、好奇心に従って自由に学びますよね。 とりあえずgit cloneして動かしてみたり、書籍を購入して読んでみたりします。 というようにプライベートでは主に次のような選択肢があると思います。 書籍を読んで好きなものを選ぶ 実際に手を動かしてみて好きなものを選ぶ 人に教えてもらって好きなものを選ぶ 基本的にプライベートの場合は何

          初めての技術選定を頼まれた時に大事だったのは俯瞰的・相対的な考え方だった - MonotaRO Tech Blog
        • S3のコストを大幅に削減した話 - Gunosy Tech Blog

          広告技術部のUTです。 最近はカービィディスカバリーをゆっくりやってます 概要 過去の失敗 どうやったか 仕組み 結果 まとめ 概要 昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。 データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。 弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。 またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。 普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか? そのようなS3でも巨大な

            S3のコストを大幅に削減した話 - Gunosy Tech Blog
          • DeNAからZOZOテクノロジーズに転職しました

            2018年12月に株式会社DeNAを退職し、2019年01月に株式会社ZOZOテクノロジーズに入社しました。 誰?瀬尾と言います。インターネット上では sonots (そのっつ) というIDで活動しています。 著名どころでは CRuby, Fluentd, Chainer といったOSSのコミッタをしています。 DeNAには2012年10月に入社し、6年弱勤めたことになります。 当初は mobage プラットフォームのインフラチームでWebインフラの運用、自動化を行うと同時に、Fluentdを用いたログ監視システムの開発、Railsアプリケーションの本番導入のための下周りの開発を行いました。 その後、分析基盤部に異動して、データエンジニアの経験を積むと同時に、分析用のウェブアプリケーション開発、AWS、GCPを使ったAI基盤の構築などを行いました。 最後の一年弱は縁あって、Preferre

            • 続々・リトライと冪等性のデザインパターン - あらゆる操作を冪等にする方法 - Blog by Sadayuki Furuhashi

              いつも心に冪等性。古橋です。 リトライと冪等性のデザインパターンの完結編です。 だいぶ間が空いてしまいましたが! 最後に冪等性を実装する汎用的な実装手法についてまとめていきます。 パターン6:操作ログとリクエストIDでUPDATEを冪等にする 同じIDで識別される値がUPDATEされる場合、つまりmutableである値の管理は、一般に冪等に行うのが難しい。 例えば、ユーザーごとに「最後に購入したアイテム」を更新する操作を考えてみると: 1. ユーザーAが最後に購入したアイテムをアイテム1に変更する(UPDATE) 2. ユーザーAが最後に購入したアイテムをアイテム2に変更する(UPDATE) この操作に何の対策もなくリトライを実装した場合、後続のUPDATE処理の結果を古い内容で上書きしてしまう可能性がある: 1. ユーザーAが最後に購入したアイテムをアイテム1に変更する(UPDATE)→

                続々・リトライと冪等性のデザインパターン - あらゆる操作を冪等にする方法 - Blog by Sadayuki Furuhashi
              • Treasure Data を退職しました - k0kubun's blog

                約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。 仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィー やっていたこと APIチーム 元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実

                  Treasure Data を退職しました - k0kubun's blog
                • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

                  こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

                    エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
                  • 【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita

                    書籍化されました 本記事をベースに監修者の村上さんが1冊の本にまとめてくれました(感謝) データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。 まえがき はじめに 皆さん、「データサイエンティスト」という職種をご存知でしょうか? この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか? 実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。 データサイエンティストは求められるスキルの幅が広く

                      【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
                    • データ分析基盤まとめ(随時更新)

                      はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf

                        データ分析基盤まとめ(随時更新)
                      • 会社の本番環境をDocker(ECS)に置き換えるために準備したこと気づいたこと

                        エンジニアの@macs_6です。 このブログでは社内のAWS EC2上で運用しているアプリケーション群をECS移行したプロジェクトについて紹介します。 ローカルの開発環境をDockerした話は以前の記事(複数の rails プロジェクトが共存する開発環境を Docker 化した話を晒してみる)で西辻が紹介しているので、そちらを参照して下さい。 概要 プロジェクトを始める前に感じていた課題 目指す状態 ECSを選択する理由 設計 移行のために必要な作業 Digdagによるスケジューリングについて ECSを使って見て気づいたこと 今後やりたいこと プロジェクトを始める前に感じていた課題 ローカル・本番で再現性のある環境を簡単に作れるようにしたい 簡単にスケールできるようにしたい コストを抑えたい ECS移行プロジェクトを始める前にはこれらの3つの事に課題感を持っていました。 1.ローカル・本番

                          会社の本番環境をDocker(ECS)に置き換えるために準備したこと気づいたこと
                        • Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ

                          Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln— Sadayuki Furuhashi (@frsyuki) 2016年6月15日 Digdagが先日リリースされたのをきっかけにデータ分析基盤構築の夢を見た。 今回は、Google Cloud Platform(以下、GCP)のコストを可視化かつ分析可能にしてみて、まずはDigdagの使用感を試してみることにする。 事前知識 Digdagとは Workload Automation Systemである。以下の記事が詳しい。 EmbulkとDigdagとデータ分析基盤と 分散ワークフローエンジン『DigDag』の実装 at Tokyo RubyKaigi

                            Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ
                          • Fluentd / Embulk / Elasticsearch / Digdag を学ぶのに最高な「データ分析基盤構築入門」を読んだ - kakakakakku blog

                            出版されてから少し時間がたってしまったけど,「データ分析基盤入門」を読み終えた.ページ数が多く,持ち運ぶようなサイズではないので,家でちょこちょこ読み進める感じになってしまって,想定以上に時間がかかってしまった. データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化] 作者: 鈴木健太,吉田健太郎,大谷純,道井俊介出版社/メーカー: 技術評論社発売日: 2017/09/21メディア: 単行本(ソフトカバー)この商品を含むブログを見る はじめに 目次にも書いてある通り,「データ分析基盤」というテーマで Fluentd / Elasticsearch / Kibana の解説が詳細にまとまっている.さらに付録には Embulk と Digdag の解説もあり,このあたりの技術スタックに興味がある人にとって最高な一冊なのではないかなと思う.また,

                              Fluentd / Embulk / Elasticsearch / Digdag を学ぶのに最高な「データ分析基盤構築入門」を読んだ - kakakakakku blog
                            • 【Elasticsearch】1900万点に及ぶ商品データ作成の時間を約67%短縮できた構成と工夫 - MonotaRO Tech Blog

                              初めまして、EC基盤グループ サーチチームの壷井です。 モノタロウでは2019年10月頃より新規検索システムの設計・開発を進め、今年の4月頃にECサイト(monotaro.com) 検索ページの裏側の検索システムを従来のSolrからElasticsearchに100%移行*1しました。この移行は将来の商品点数やリクエスト数の増加を見据えたバックエンドの大規模な改修で、ここまで約2年半ほどプロジェクトを進めてきました。今後もECサイトのすべてのページの完全移行に向け引き続き開発・運用を行っていきます。 今回はこのプロジェクトのなかで私が担当してきたElasticsearchへの日々のデータの洗い替え(日次更新と呼んでいます)ワークフローのシステム構成と工夫などについてお話します。 モノタロウの検索システムの紹介 日次更新のシステム構成 処理の流れ ① リアルタイムデータ同期 ② 日次商品デー

                                【Elasticsearch】1900万点に及ぶ商品データ作成の時間を約67%短縮できた構成と工夫 - MonotaRO Tech Blog
                              • 【資料公開】AWS Summit Tokyo 2017にてDMMのAWS移行について紹介してきました - DMM.comラボエンジニアブログ

                                2017 - 06 - 02 【資料公開】AWS Summit Tokyo 2017にてDMMのAWS移行について紹介してきました Tweet Share on Tumblr 本日AWSSummitにて岩崎、飯田、西村の3名が登壇して来ました! 『DMMにおける会員基盤プラットフォームへのAWS導入から活用事例の紹介』 と言うタイトルでお話をさせていただきました。 導入時期が特段早かったという訳ではないですが、 開始してからはかなりのスピード感で移行を行うことが出来たと考えております。 内製DMM API GatewayのAWS移行で特にお伝えしたいポイントは4点 ・オンプレミスのミドルウェア⇒AWSのマネージドサービスの置換 ・EC2パラメータストアによるシークレット値管理 ・ElastiCache Redis Clusterの選定理由 ・Multi-AZ構成環境下のシステム統

                                  【資料公開】AWS Summit Tokyo 2017にてDMMのAWS移行について紹介してきました - DMM.comラボエンジニアブログ
                                • Jenkinsの無秩序なジョブをDigdagで再定義する - log.fstn

                                  jenkins で回してる ci のジョブを digdag で書き直してみたけど、フローがひと目で分かるし、git で管理できるし、並列化も簡単だし最高だ。— Kosuke Adachi (@foostan) October 8, 2016 ということで Jenkins のジョブを Digdag に置き換えて Git で管理すると最高なので、今困っている人はやりましょう。1日あれば多分終わります。 今回試したのは CI のジョブですが、どんなジョブでも応用できると思います。 詳しく こないだ Rebuild 152 聴いていたらその会話の中に「Jenkinsおじさん」ってワードが出てきたんですよ。 rebuild.fm Jenkinsをそれなりの規模で使っている人ならお馴染みだと思うんですが、Jenkinsって自由度が高くてジョブの編集も簡単にできるから気をつけないとジョブがカオスな状態に

                                    Jenkinsの無秩序なジョブをDigdagで再定義する - log.fstn
                                  • ひしだまのコンピューター関連技術メモ

                                    S-JIS[1998-01-11/2024-03-10] 変更履歴 ひしだま's 技術メモページ 自作ソフトを作った時などに気付いた事などをメモにしています。(自分のノート代わり) Access [/2005-03-15] Ant [/2015-12-28] Apache [/2007-09-28] AsakusaFW [/2021-12-21] awk [/2014-05-01] AWS [/2021-07-13] C言語 [/2016-04-09] Cassandra [/2010-10-21] CMake [/2016-04-27] CVS [/2007-10-04] Cygwin [/2016-11-26] DigDag [/2021-10-30] Docker [2023-10-07] DOS [/2016-12-10] Eclipse [/2018-09-22] Embulk

                                    • 『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏

                                      データ分析基盤Night #2 - connpass 2017/04/26 データ分析基盤Night #2 #データ分析基盤Night - Togetterまとめ 前回第1回に引き続き抽選に当たったのでこの日参加してきました。 『 データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏 会場は株式会社FiNC様@有楽町。有楽町駅ビックカメラのすぐ隣、交通の便は超良い場所です。 会場内もとてもオシャレで綺麗なオフィスでした! 挨拶 ウェルネスタイム(軽いストレッチ) by FiNC FiNCの分析基盤の概要 発表資料 発表内容 freee のデータ分析基盤の全容 発表資料 特徴:他のサービスとどこが違うのか 構成:アーキテクチャ マーケティング 販売・サポート エンジニア ダッシュボード バッチ処理 辛み 展望・チャレンジ まとめ mercariのデータ分析基

                                        『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏
                                      • "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog

                                        こんにちは。MackerelチームにおいてCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。 なぜ壊れにくいデータ基盤を構築するのか データ基盤が“壊れている”とはどういうことか 壊れてないだけでなく、壊れたら気付ける 前提とするシステム構成 壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視する そもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除 おわりに 参

                                          "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
                                        • Hive (SQL-style) Query Language | Treasure Data

                                          {"serverDuration": 35, "requestCorrelationId": "b45a8231fbaabbfb"}

                                          • 数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング

                                            SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。 本記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。 背景 当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。 しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。 課題 メルカリでは販売済み商品を物理削除していないため、

                                              数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング
                                            • Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag | DevelopersIO

                                              Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln — Sadayuki Furuhashi (@frsyuki) 2016年6月15日 という訳で試してみました。注目度の高かったワークフローエンジン『Digdag』がついにOSS化されました!Githubリポジトリ及びドキュメントは以下となります。 treasure-data/digdag: Workload Automation System Getting started — Digdag 0.8 documentation 目次 インストール 環境の準備 Digdagのインストール実施 その他ドキュメントの内容について Digdagサンプルワークフロ

                                                Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag | DevelopersIO
                                              • 自前CIサーバをスクラッチで書いた

                                                依存するgitリポジトリが数十あり、Mac上でしか動作しないビルドを動かしている、Jenkinsの移行をすることになった。 Jenkinsについては詳しくない。もちろん勉強すりゃいいという話なのだが、アラフォーで覚えが悪いので、今回は自前で簡単なCIサーバを書いてみました。今回のプロジェクトはRubyメインなので、Rubyで。 JenkinsはMovable Typeであり、Wordpressである 僕は、JenkinsをMovable Type/Wordpressのようなソフトウェアだと捉えています。 Movable Typeは「ブログ」というコンテンツ形式を広めたソフトウェアです。Wordpressは、Webの管理画面経由で簡単にプラグインを導入することができ、CMSとしてエコシステムが確立しています。 JenkinsのおかげでContinuous Integrationの概念は広まっ

                                                  自前CIサーバをスクラッチで書いた
                                                • 2019年のワークフローエンジンまとめ - Qiita

                                                  概要 データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました 最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思います ワークフローエンジンとは ワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです 古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題があります ジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを1時に開始してそれが完了するとみなして依存するタスクBを2時に開始するというような書き方をすることになるが、実際にタスクAが2時までに終わらなかった場合に処理が上手く実行できない タス

                                                    2019年のワークフローエンジンまとめ - Qiita
                                                  • Gunosyのパーソナライズを支える技術 -計算モデルとアーキテクチャ編- - Gunosy Tech Blog

                                                    この記事は Gunosy Advent Calendar 2017 の1日目の記事です(フライング) qiita.com §1. はじめに こんにちは。データ分析部ロジックチームの @mathetakeです。いつもはデータ分析ブログにいるのでテックブログは初めてです。怖いです。Twitterとかやったことないですね。 最近は仕事でニュースパスというプロダクトの記事配信ロジックの改善を行っており、その一環としてパーソナライズロジックの開発プロジェクトに従事しています。 パーソナライズとはユーザーひとりひとりに対して別々の記事配信を行う事です。下記の記事でパーソナライズプロジェクト発足に至るまでの背景が語られているので、興味のある方はぜひご覧ください。 gunosiru.gunosy.co.jp この記事ではニュースパスの記事配信アルゴリズムのパーソナライズプロジェクトに関連して、 パーソナラ

                                                      Gunosyのパーソナライズを支える技術 -計算モデルとアーキテクチャ編- - Gunosy Tech Blog
                                                    • 分析と改善 Gunosyの大規模ログ解析を支える2つのアーキテクチャの裏側

                                                      2018年6月22日、Architecture Nightが主催するイベント「Architecture Night #1」が開催されました。単一のAPIではなく、複数のAPIが絡まって成立するような複雑性の高いアーキテクチャをどのように構成し、運用しているのか? 各社が自社の知見を披露します。第1回となる今回は、Gunosyとサイバーエージェントの2社が登壇し、自社で用いられるアーキテクチャを紹介します。プレゼンテーション「Gunosyのログ収集基盤」に登壇したのは、株式会社Gunosy、開発・運用推進部 SREの茂木大夢氏。ニュースアプリGunosyのログ収集基盤で用いられる大規模アーキテクチャについて解説します。 グノシーのアクセスログ解析基盤 茂木大夢氏(以下、茂木):「グノシーのアクセスログ解析基盤」というタイトルで発表させていただきます、茂木と申します。mgi166という名前でや

                                                        分析と改善 Gunosyの大規模ログ解析を支える2つのアーキテクチャの裏側
                                                      • Blog by Sadayuki Furuhashi

                                                        MessagePackフォーマット仕様のPull Request #209をマージし、MessagePackにTimestamp型を追加しました。 ※この記事の英語版は XXX にあります(翻訳中) Extension型の型コード -1 として定義されているため、後方互換性が維持されています。つまり、既にExtension型に対応しているデシリアライザであれば、Timestamp型を使用して作成されたデータを、Timestamp型に対応していない古いデシリアライズで読み出すことができます。 新しいTimestamp型には timestamp 32、timestamp 64、timestamp 96 の3つのフォーマットがあり、よく使う値をより少ないバイト数で保存できるようになっています。例えば、1970年〜2106年までの時刻で、秒までの精度しか持たない時刻であれば、合計6バイトで保存でき

                                                          Blog by Sadayuki Furuhashi
                                                        • ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG

                                                          こんにちは、SRE部MA基盤チームの谷口(case-k)です。私達のチームでは、データ連携基盤の開発・運用をしています。 データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデータ連携基盤についてご紹介します。 既存のデータ連携基盤の紹介 リアルタイムデータ連携基盤の紹介 なぜ必要なのか 活用事例の紹介 データ連携の仕組みと課題 リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討 アーキテクチャ概要と処理の流れ Fluentdのプラグインを使った差分データの取得 Dataflowでメッセージの重複を排除 Dataflowで動的にBigQueryの各テーブルに出力 Pub/Subのメッセージ管理 イベントログ収集基盤 個人情報の取り扱い ビルド・デプロイ戦略 監視 データ

                                                            ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG
                                                          • Gunosyのパーソナライズを支える技術 -ワークフロー編- - Gunosy Tech Blog

                                                            この記事は Gunosy Advent Calendar 2017 4日目の記事です qiita.com はじめに こんにちは、データ分析部のy-abeです。 パーソナライズシリーズの続きになります。 tech.gunosy.io tech.gunosy.io 今回はワークフロー編です。 パーソナライズにおいてユーザーや記事の素性抽出や、モデル作成をするコンポーネントや記事リストを生成するAPIが必要です。 それらのコンポーネント間でうまくデータを取り回すためにはワークフローが重要です。 ワークフローは、いわばシステム上における兵站といってもいいでしょう。 「戦争のプロは兵站を語り、戦争の素人は戦略を語る」という名言もあるくらいです。 さて、パーソナライズ記事配信のタスクの流れをざっくりいうと、 ユーザーと記事の素性を集めて整形(ベクトル化) -> 機械学習でモデルを作成 -> 素性とモデ

                                                              Gunosyのパーソナライズを支える技術 -ワークフロー編- - Gunosy Tech Blog
                                                            • DMM.comのビッグデータ基盤を支える技術

                                                              TECH PLAY Conference 2017 の発表資料となります ビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ 鈴木 翔太 / 吉田 龍馬 === 弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用を行っており、それに加えアドホック分析には Presto、エンジニア・アナリストが利用するBIツールとして Zeppelin / Re:dash、ETLにワークフローエンジン Digdag など様々なOSSを積極的に採用し、より快適な分析基盤の構築に努めています。当セッションでは、ビッグデータ部発足時の分析基盤の課題を解決するためにこれまでにどのような取り組みを行ってきたかをご紹介します。

                                                                DMM.comのビッグデータ基盤を支える技術
                                                              • タベリーを支えるアーキテクチャ - Koichi Ishida blog

                                                                目次 アーキテクチャ フロントエンド・バックエンドアーキテクチャ 分析アーキテクチャ レコメンデーションアーキテクチャ 最後に 「タベリー」は株式会社10Xが提供するパーソナルな献立を推薦するアプリです。iOSとAndroidとWebで提供しています。先日、プレスリリースで「オンライン注文機能リリース」と「2.5億円の第三者割当増資を実施したこと」をお知らせしました。献立作成、献立からの買い物リスト作成、買い物リストをネットスーパーで注文、料理を作るということがタベリー1つでできます。特にこの「オンライン注文機能」はいままでネットスーパーの商品を1つ1つ選択して注文していたものを、自動でカートに追加し注文できるのでとても便利です。 10Xではよりよいチームを目指しメンバーを募っています。エンジニアも募集しています。チームがどのように開発しているかは社長の矢本さんが書いた「10Xなプロダクト

                                                                  タベリーを支えるアーキテクチャ - Koichi Ishida blog
                                                                • Digdag - Open Source Workflow Engine for the Multi-Cloud Era

                                                                  Digdag is a simple tool that helps you to build, run, schedule, and monitor complex pipelines of tasks. It handles dependency resolution so that tasks run in series or in parallel. Digdag replaces cron, facilitates IT operations automation, orchestrates data engineering tasks, coordinates machine learning pipelines, and more.

                                                                  • Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita

                                                                    Embulk(エンバルク) (2016/10/05からロゴが変わりました。変更理由) Embulkのまとめ2ndを作ってます。 更新時にコメントを書くようにしました。変更内容に興味のある方は編集履歴をご覧ください。 2018年1月30日リリースのembulk 0.9からgemは提供されなくなりました。gem版は0.8.39までとなっています 種類 バージョン ロゴの下のバージョンは開発版の最新バージョンを表しています。一般の方は0.9系を利用しましょう 2015年1月27日、Fluentdのメインコミッターの一人古橋さんが中心となって開発した、fluentdのバッチ版のようなツールEmbulk(エンバルク)がリリースされました。 この記事は、Embulkってなに?、どんなプラグインがあるの?、どうやって独自プラグインを開発するの?ということをまとめたページです。内容は随時更新する予定です。

                                                                      Fluentdのバッチ版Embulk(エンバルク)のまとめ - Qiita
                                                                    • 近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG

                                                                      はじめに こんにちは。ZOZO研究所のshikajiroです。主に研究所のバックエンド全般を担当しています。ZOZOでは2019年夏にAI技術を活用した「類似アイテム検索機能」をリリースしました。商品画像に似た別の商品を検索する機能で、 画像検索 と言った方が分かりやすいかもしれません。MLの開発にはChainer, CuPy, TensorFlow, GPU, TPU, Annoy、バックエンドの開発にはGCP, Kubernetes, Docker, Flask, Terraform, Airflowなど様々な技術を活用しています。今回は私が担当した「近似最近傍探索Indexを作るワークフロー」のお話です。 corp.zozo.com 目次 はじめに 目次 画像検索の全体像説明 Workflow Develop Application 推論APIの流れ 近似最近傍探索とAnnoy 近似

                                                                        近似最近傍探索Indexを作るワークフロー - ZOZO TECH BLOG
                                                                      • EmbulkとDigdagとデータ分析基盤と

                                                                        モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)

                                                                          EmbulkとDigdagとデータ分析基盤と
                                                                        • ワークフローエンジンDigdagのまとめ - Qiita

                                                                          2016/06/15に、トレジャーデータがオープンソースとして公開したワークフローエンジンDigdagのリンク集です。内容は随時更新します。またトレジャーデータではDigdagを自社でTreasure Workflowとして提供しています。こちらの情報も収集しています。 変更内容が気になる方は変更履歴をご覧ください。 1. 開催されるイベント 2. オフィシャルページ オフィシャルページ ソースリポジトリ 3. チュートリアル Getting started (英語) Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag (日本語) Digdag 入門 Digdagのアーキテクチャとコンセプトを理解する Treasure Workflow for ビギナー 環境構築編 digファイル書き方編 Digdag公式ドキュメントからDigdagを学ぶ

                                                                            ワークフローエンジンDigdagのまとめ - Qiita
                                                                          • はてな・ペパボ技術大会〜インフラ技術基盤〜@京都 行ってきたメモ - haya14busa

                                                                            はてな・ペパボ技術大会〜インフラ技術基盤〜@京都 7/2 はてな・ペパボ技術大会〜インフラ技術基盤〜@京都 - connpass 行ってきました.メモってたのでせっかくなので共有しておきます. gistでいいかとおもったけどスライド埋め込みとか考えたらブログに雑に投げたほうが見なおしやすそうと思ったのでブログで. 自分で発表したわけでもないし,感想とか書いてるわけでもないけどまぁいいかってカンジ. 注意 わかってない人が書いたメモなのでいろいろわかってないメモが書かれてます. 理解度に関係なく聞き漏らしたところ雑に書いたりしてるので発表様がおっしゃってた話とちがうところもあるかもしれない. 特に座談会の内容とかは Twitterのハッシュタグみてたら @matsumotory さんと @yumu19 さんがまとめてたのでそっち見たほうがわかりやすいかも. Togetter http://t

                                                                            • Digdagを使ったジョブ管理 - MicroAd Developers Blog

                                                                              はじめまして。アプリケーションエンジニアの中野です。 以前、MicroAdのデータ基盤の記事で紹介されていましたが、マイクロアドではデータ基盤刷新のタイミングでワークフロー管理ツールのDigdagを採用しました。 今回の記事では、Digdag採用の経緯やワークフローを作成する際に注意した点を紹介します。 Digdag採用の経緯 マイクロアドのDSP*1であるBLADEではBidRequestやImpression*2、Click、Conversion*3、その他BLADEから出力される様々なログやマイクロアドの他のプロダクトのログ、他社から提供されるデータなど、様々なデータを広告配信最適化の分析に活かしています。 これらのログを分析するバッチ処理は各々のジョブが複雑な依存関係を持っています。 これまではcronやJenkinsを用いてこれらの処理を行っていましたが コード管理が出来ていない

                                                                                Digdagを使ったジョブ管理 - MicroAd Developers Blog
                                                                              • 分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11

                                                                                AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design PatternAmazon Web Services Japan

                                                                                  分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
                                                                                • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

                                                                                  JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

                                                                                    データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ