embulkの人気記事 11件 - はてなブックマーク

1 - 11 件 / 11件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

embulkの検索結果1 - 11 件 / 11件

エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
- 318 users
- www.m3tech.blog
- テクノロジー
- 2021/10/01
こんにちは、エムスリーエンジニアリンググループの鳥山 (@to_lz1)です。ソフトウェアエンジニアとして製薬企業向けプラットフォームチーム / 電子カルテチームを兼任しています。ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。データ基盤の全体像収集部分の構成 RDBデータログデータ活用部分の構成データマートの実例「データ基
- 設計
- あとで読む
- データ
- architecture
- データ基盤
- aws
- bigquery
- 分析
- db
- チーム
【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
- 297 users
- qiita.com/masso
- テクノロジー
- 2020/11/25
書籍化されました本記事をベースに監修者の村上さんが１冊の本にまとめてくれました（感謝）データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。まえがきはじめに皆さん、「データサイエンティスト」という職種をご存知でしょうか？この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか？実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。データサイエンティストは求められるスキルの幅が広く
データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog
- 242 users
- www.yasuhisay.info
- テクノロジー
- 2020/07/09
FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙するまず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi
- zendesk
- あとで読む
- BigQuery
- 分析
- アナリティクス
- faq
- firebase
- データ
- mackerel
- api
ビジネスとオープンソースの狭間で〜 Embulk の場合 (前編)
- 178 users
- zenn.dev/dmikurube
- テクノロジー
- 2024/01/25
2023 年はビジネスとオープンソースの関係が難しくなった年であったように思います。 6 月には、フルタイムの Ruby コミッターとして研究開発を行っていたお二人がクックパッド社の人員削減の影響を受けたことに端を発して、オープンソースに深く関わってきた一部のソフトウェア・エンジニアを中心に、ビジネスとオープンソースの関係について議論がありました。 8 月には HashiCorp 社が自社のオープンソース製品群のライセンスを Business Source License 1.1 (BSL) に変更したことも話題になりました。また 2023 年は、一年を通して大規模言語モデル (Large Language Models; LLM) が話題になった年でもあり、ビジネスにも大きな影響がありました。大規模言語モデルとオープンソースの関係に焦点を絞っても、「非オープンソースのライセンスで公開
EmbulkでPostgreSQLをMySQLに移行した話 - LIVESENSE ENGINEER BLOG
- 135 users
- made.livesense.co.jp
- テクノロジー
- 2022/11/16
こんにちは。マッハバイトを運営するアルバイト事業部エンジニアの mnmandahalf です。先日、マッハバイトの販売管理システムで使っているデータベースをオンプレPostgreSQLからAmazon Aurora MySQLに移行しました。本記事では移行に至った背景、吸収する必要があった差分や苦労した点についてお話しします。環境移行前のバージョン: PostgreSQL 9.4 ※ドキュメントはバージョン14のものを添付しています移行後のバージョン: Aurora MySQL 3.02.0 (compatible with MySQL 8.0.23) 環境 MySQL移行の背景データ移行方法の検討 Embulkの実行で考慮したポイント Embulkの設定 scram-sha-256認証への対応タイムスタンプが9時間巻き戻る FK制約を無効化できない PostgreSQLとM
- postgresql
- mysql
- あとで読む
- db
- embulk
- database
- tech
- blog
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
- 108 users
- developer.hatenastaff.com
- テクノロジー
- 2020/04/16
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
- 86 users
- tech.jxpress.net
- テクノロジー
- 2020/07/29
JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke（しんよーく）です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策プロダクト・サービスの改善に関する分析日々のイベントをメトリクス化して可視化（いわゆるBI的なもの）を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず（スーパー優秀な）インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py
- ETL
- データ基盤
- python
- workflow
- コンテナ
- データ
- あとで読む
- 運用
- docker
Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
- 85 users
- techblog.finatext.com
- テクノロジー
- 2021/03/18
はじめにこんにちは、Finatextで証券プラットフォーム（Brokerage as a Service、以下BaaS）の開発に携わっている石橋（@bashi0501）です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善（後述します）に活かしていきたいという意図があるため、マ
- bigquery
- あとで読む
- embulk
- firehose
- finatext
- ログ
- Athena
- logging
- aws
- log
Dockerのログ収集方法の調査 - Qiita
- 84 users
- qiita.com/rururu_kenken
- テクノロジー
- 2020/05/15
すべてのログは標準出力・標準エラー出力に出力・Dockerのlogging driver ・ログの集約がしづらい・Fluentdに転送設定コンテナ起動時に既にFluentdが死んでいる場合、コンテナが起動できないなど。詳細は以下のサイトを参照 Dockerコンテナ上のログ集約に関するまとめ Dockerのlogging driver: それぞれの特徴と使いどころ(json-file, syslog, journald, fluentd) 対象のログリアルタイムに出力されるログが対象・Fluentd / fluentd-ui ・FluentBit ・Filebeat ・Logstash 既にあるログが対象・Embulk Fluentdのバッチ版Embulk(エンバルク)のまとめ Docker-composeを使ってEmbulk,Elasticsearch,Kibana環境を構築
- docker
- fluentd
- ログ
- elasticsearch
- あとで読む
- kibana
- logging
- log
全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
- 79 users
- techblog.zozo.com
- テクノロジー
- 2022/09/15
こんにちは、データ基盤の開発、運用をしていた谷口（case-k）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。データ基盤の紹介旧データ基盤の紹介旧データ基盤の課題変更があっても更新されないデータ性質の異なるテーブルを同じ命名規則で管理
- BigQuery
- あとで読む
- データ
- gcp
- 分析
Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
- 55 users
- www.m3tech.blog
- テクノロジー
- 2020/12/19
こんにちは、エムスリーエンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。これはエムスリー Advent Calendar 2020 の19日目の記事です。エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです（勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!） www.youtube.com これに関連して私のチームでも最近「データ基盤（Digdag + Embulk）のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。エムスリーのデータ基盤についてそれまでの構成クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する併