タグ

ブックマーク / satoshihirose.hateblo.jp (2)

  • (翻訳) データエンジニアの没落 - satoshihirose.log

    訳者まえがき 下記の翻訳記事と対になる、データエンジニアの役割についての記事を翻訳しました。 satoshihirose.hateblo.jp オリジナルの記事は下記のリンク先のもので、原著者は上記記事と同様に、Apache Airflow や Apache Superset のクリエーターで現在は Lyft で Data Engineer をしている Maxime Beauchemin です。 medium.com 以下から、翻訳記事の内容です。 データエンジニアの没落(翻訳) この記事では、データエンジニアリングを定義しようとした最近のブログ記事である「The Rise of the Data Engineer」(訳者注: 拙訳「データエンジニアの始まり」)をフォローアップし、この新しい役割がデータ空間において歴史的、現代的な役割にどのように関係しているかを説明します。 この記事では、

    (翻訳) データエンジニアの没落 - satoshihirose.log
    sh19910711
    sh19910711 2022/08/07
    2018 / "人々が依然として一日おきに「Single Source of Truth(信頼できる唯一の情報源)」と言っている / インセンティブが安定性と連動している場合 ~ 何も壊さない最良の方法は何も変えないことである、と速やかに学ぶ"
  • Data Lineage したい - satoshihirose.log

    条件 現職で管理している現行のデータパイプラインである Treasure Workflow(managed digdag on TD)+ Presto に適用できること ウェブでメタデータのドキュメントが公開でき、社内に共有できること Data Lineage 的なデータの依存関係がわかること dbt dbt は構築したプロジェクトとその内部のクエリを元にドキュメントを自動で生成してくれる。データの依存関係のDAGを可視化してくれるようで、良さそう。dbt docs serve というドキュメントサイトをホストする機能も提供しているが、現時点では番稼働を想定していないものらしい。その代わりに dbt Cloud を使う、生成したドキュメントを S3 でホストするなどの方法を推奨している。 The dbt docs serve command is only intended for lo

    Data Lineage したい - satoshihirose.log
  • 1