タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
奈良県でリモートワーク中の玉井です。 日本では全くと言っていいほど知名度がありませんが、国外(アメリカ?)のデータ分析界隈では既にメジャーな存在になりつつある「dbt」(data build tool)について、ご紹介します。 dbtとは? 公式情報など 公式はこちら(ググラビリティが低い名前なので検索しづらい)。 (死ぬほどざっくりいうと)データ変換を効率よく実施できるツールです。SaaSとしての提供になっているので(最初からあったわけではなく、後から登場したようです)、Webブラウザさえあれば、すぐに利用することができます。 主な特徴 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と呼称することがありますが、それの「T(変換)」を担当します。E(抽出)やL(ロード)はやりません。 そして、その変換処理をどうやって設定す
昨年12月に Dataform の Google Cloud 加入が発表 されて以来, 関心を持って調べています. Dataform は BigQuery などのデータウェアハウス上で SQL を中心としたデータ変換パイプラインを構築するための仕組みです. 先日は Dataform で Google Analytics 4 の BigQuery Export データ を変換するパイプラインを作ってみたりもしました(GitHub: terashim/dataform-google-analytics-4-example). Dataform は非常に強力なツールで, 簡単な SELECT 文を書けば CREATE TABLE 文や MERGE 文などデータ更新用のクエリを自動生成してくれます. しかし詳しく調べていくにつれて, より本格的なパイプラインを構築するにはやはり BigQuery
米Microsoftは10月20日(現地時間)、自動データ変換の設定を改善し、日付のように見える値を日付に自動変換する機能を無効にできるようにしたと発表した。 自動データ変換機能は、入力データをExcelが適切だと判断した表記に変換する(本来は便利な)機能。CSVファイルで大きなデータを読み込み、製品番号の頭の0が消えていたりすることで問題になるケースなどがあった。 今回の改善で、自動データ変換してほしくない値の変換を無効にできるようになった。無効を選択できるのは、以下の4種類。 先頭のゼロを削除して数値に変換する ロング数値の最初の15桁を保持し、科学的記数法で表示する 文字「E」を囲む数字を科学的記数法に基づく数値に変換する 連続する文字と数字を日付に変換する また、CSVファイルまたは同様のファイルを読み込む際に自動データ変換があれば通知するオプションも追加された。 設定は、[ファイ
Excel PowerQuery(パワークエリ)は超簡単!基本(複数のエクセルデータを自動読み込み、データ変換編) #データ分析 #PowerQuery #パワークエリ #外部データ取込み 今回は、かなり便利なのにあまり使われていないエクセルの機能の一つ、PowerQuery(パワークエリ)について解説したいと思います。おそらく少しとっつきにくい印象があるのではないかと思いますが、色んなデータ分析の作業過程で発生するであろうデータの加工作業が自動化できます。 たまにRPAでこれらの作業工程(コピー&貼り付け)をしている人を見かけますが、そんなことは必要ありません。マクロを使う必要もありません。エクセルのPowerQuery(パワークエリ)だけで完結できます。つまり、マウスの操作ができれば実現できますので、一緒に頑張っていきましょう! PowerQuery(パワークエリ)で実現できること で
※この投稿は米国時間 2019 年 12 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。 構造化データ上で機械学習モデルを構築するには、通常、大量のデータを変換する必要があります。さらに、こうした変換は予測時に適用する必要もあるため、モデルのトレーニングを担当したデータ サイエンス チームではなく、データ エンジニアリング チームが担当する場合が少なくありません。この 2 つのチームで使用するツールセットが異なると、トレーニングと推論で一貫した変換を維持することは極めて難しくなります。そこで、単純な SQL 関数を使ってデータを前処理して変換できる、BigQuery ML の新機能をご紹介します。また、BigQuery は予測時点でこうした変換を自動的に適用するので、ML モデルの本稼働を大きく簡易化できます。 調査的なデータ マイニングに関する 2003
Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開 先日 (2021/03/30) 開催しました AWS Black Belt Online Seminar「AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. S3 経由で PostgreSQL Database に J
Dataform とは 先日Google Cloud のブログでDataformが Google Cloud に買収されたとの記事が公開されました。 Dataform をかんたんに説明すると、ELT(Extract/Load/Transform)のうちの Transform を SQLX で記述し、テーブル定義やデータ変換のドキュメント化・依存関係の管理による DAG の自動生成・テストなどができるツールです。 現在以下の DWH をサポートしています。 BigQuery Snowflake Redshift Postgres Azure SQL data warehouse Presto (under development) GUI・CLI・REST API(beta)での機能が提供されており、基本的には無料(ただし DWH のプロジェクト側の利用料で課金)で利用できます。 Googl
Dataform が Google Cloud の傘下に: BigQuery で SQL を使用してデータ変換をデプロイする ※この投稿は米国時間 2020 年 12 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。 データの持つ価値とそれに含まれる情報はさらに大きくなり続けています。Google は 10 年以上にわたり、チームがそのデータをさらに活用できるようにするテクノロジーに投資してきました。Google Cloud は、Gartner の初となるクラウド データベース管理システム(DBMS)のマジック クアドラントで、リーダーに選出されました。あらゆる業種でますます多くの企業が、この増加するすべてのデータを解明するために、Google のクラウド データ ウェアハウスである BigQuery を利用し続けています。 このたび、Google Cloud
はじめに 本記事は第一回関数型プログラミング(仮)の会における発表内容の詳細です。 関数型言語において、Maybe/Option型データを外部データベースに保存する際やJSONに変換する際、NULL許容データに変換して扱われることが多いです。 しかしながら、Maybe/Option型とNULL許容データは細かい点で異なるため、注意してデータ変換を実装しないと思わぬバグを生むことになります。 そこで本記事では、Maybe/Option型をNULL許容データに変換することに対して、形式検証の視点から考察していきます。 また、Haskellによる実装例もありますので、コードを確認したい方はそちらも参考にしていただけると幸いです。 形式検証による視点 形式検証を考える際に必要なのは、プログラムの仕様を論理式で形式的に記述することです。 今回は、まずデータ変換自体の数学的なモデルを考えて、その後、H
[レポート] Amazon S3 Object Lambdaを使用したデータ変換を学ぶワークショップに参加しました #AWSreInvent #STG302-R Transforming your data with Amazon S3 Object Lambda(STG302-R)のセッションレポートとなります。 はじめに ネクストモードの南です。 Amazon S3 Object Lambdaを使用したデータ変換を試すことのできるワークショップTransforming your data with Amazon S3 Object Lambda(STG302-R)に参加してきました。 本エントリではそのセッションレポートをお届けします。 ワークショップの概要 Amazon S3 Object Lambda works with your existing applications an
当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 3日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern
PDFの内容がJSONに! ChatGPTによるデータ変換のインパクト トップバッターは山梨でソフトウェア開発会社を営む西見公宏氏(@mah_lab)。ChatGPTをデータ変換に利用した事例を通して、データ変換ツールとしての大規模言語モデルの可能性について語った。 プログラマー/システムデザイナー 西見公宏氏 ChatGPTといえば、自然言語処理における大規模言語モデルの1つだ。しかし西見氏は「データを生み出しているのではなく、プロンプトを入力してデータを変換するモデルであるという仮説を考えました。プロンプトという非定型なデータであっても、ChatGPTを用いて変換することで、意図したデータを生成できるのであれば、あらゆるデータ変換に活用できるかもしれない」と語る。 もしこの仮説が正しければ、無秩序な非構造化データを秩序ある構造化データに変換することも可能だ。西見氏はLangChainな
はじめに テクノロジー戦略本部データサイエンス部データアナリストの森山です。 バイセルでは事業部組織(以下、Biz メンバー)が自立してデータに基づいた意思決定を行うことを目的に、データ基盤を整備しグループの全社員に公開しています。 Biz メンバーは自分自身で SQL を書きデータ基盤から必要なデータを抽出しますが、そのためには基盤に蓄積したデータを必要な形式に変換・加工(以下、データ変換パイプライン)する必要があります。 今回は、データ変換パイプラインの構築のために導入した Google Cloud が提供する Dataform の利用事例をご紹介します。 Dataform をこれから活用しようと思っている方、実例が見つからず悩んでいる方の参考になれば幸いです。 ※なぜ Biz メンバーが SQL を書く環境を整備しているかは、以下の記事をご確認ください。 tech.buysell-t
さがらです。 DevelopersIO 2022において、dbt Labs社よりビデオセッションとして発表をして頂きました。 本ブログでは、こちらのビデオセッションのアウトラインをまとめます。(詳細はぜひ動画をご覧ください!) セッション概要 概要 原文 Have you heard about dbt, but perhaps not sure what it is or what it can do for your team? Join us for this demonstration where you’ll get to see dbt’s workflow and implementation best practices first hand. The session will cover how to develop, test, document, and deploy
はじめに デジタル庁が登記所備付地図データ変換コンバータ(mojxml2geojson)なるものを公開しました。 これは、G空間情報センターが公開しているデータセット(地図XML形式)をgeojson形式に変換するものということです。このデータセットについては法務省から発表されています。 ということで、登記所備付地図データの地図XML→geojson変換を試してみました。 環境 試した環境はWindows 10+WSL2 Ubuntu 20.04ですが、Ubuntuというところ以外はあまり環境に依存することはないでしょう。 インストール mojxml2geojsonはgithubにて公開されています。デジタル庁やりますね! GDALのインストール README.mdに要件が記載されています。 GDAL python 3.* pip 22.* Python3とpip3はインストールされている
こちらの記事は Gunosy Advent Calendar 2020 の5日目の記事です。 昨日の記事はコウ(@yuanzhi.ke)さんの 新卒入社して半年が経ちました vol.4 〜クーポン改善〜でした!! おはようございます!こんにちは!こんばんは! 最近は goでlambda ばかり書いている @625 です。 世の中、生きているとlambdaのログをいい感じにaggregateしつつs3に出力しないといけない!みたいな状況、ありますよね。 そんなときには lambda + cloudwatch logs + subscription の firehose が役に立ちます! 全体の説明とかはだいたい以下のawsのドキュメントを見ていただければ良いので、cloudwatch logsのログをgoで書かれたlambdaを使っていい感じの形式に変えてs3に出力したいって部分だけを書きま
Microsoftが数値データの先頭の0や15有効桁数、Eを含む科学表記などの数値データの自動データ変換を無効化するオプションを追加した「Excel for Mac 16.78」をリリースしています。詳細は以下から。 Microsoftは現地時間2023年10月10日、同社のオフィススイート「Microsoft 365/Office 2021」をバージョン16.78へアップデートし、いくつかの不具合を脆弱性を修正していますが、表計算ソフトである「Excel for Mac v16.78」では、新たに「自動データ変換 (Automatic Data Conversions)」という機能が追加されています。 Control your data conversions: You’ve been asking for more control over how Excel automaticall
※この投稿は米国時間 2021 年 3 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。 移動中、保存時、使用中のデータを保護する方法として最初に思い付くのが、データ検出、そしてデータ損失の検知と防止です。保護目的でデータの変換や変更を即座に思い浮かべる人はほとんどいません。 しかし、それこそがデータ損失を防止するための強力かつ簡単な方法なのです。Google Cloud のデータ セキュリティ ビジョンには、変換によるデータ保護が含まれています。Google Cloud の DLP サービスに高度なデータ変換機能が用意されているのもそのためです。 では、データ保護に使えるデータ変更手法とユースケースにはどのようなものがあるのでしょうか。 センシティブな要素を削除まずは簡単な例からご紹介します。支払いカードのデータ保護と PCI DSS の遵守を実現するうえ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く