サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
note.com/dd_techblog
1.概要この記事では、Google Analytics 4(GA4)とGoogle Search Console(GSC)のデータを組み合わせて分析する方法や分析に必要なSQLについて記載します。 GA4のデータ、GSCのデータの結合の仕方や可視化、解釈の仕方の一例としてご覧ください。 なお、分析に際してBigQueryを使用しています。 GA4、GSCデータのBigQuery連携方法は以下ページを参考にしてください 2.GA4 と GSC のデータをつなげてわかることGA4のデータは自社サイト内のパフォーマンス、ユーザー行動を収集しています。 GSCのデータは、自社サイトがGoogleの検索結果として表示されたページ、検索キーワードを収集しています。 大前提として、GA4とGSCのデータは同じユーザーを識別できるデータを持っていません(2024年1月時点)。 そのため、特定の検索キーワー
この記事について 電通デジタルでデータサイエンティストをしている中嶋です。この記事では統計的因果推論で出てくるConditional Average Treatment Effect (条件付き平均処置効果、以下CATEと略記します)を算出する手法の一種であるCausal Tree(因果木)の仕組みを論文[1]に沿って解説します。前提知識として、機械学習手法の決定木の概要と因果推論の基本的なフレームについて理解している必要があります。 CATEについて最初に今回の手法で推定する対象となるCATEの定義を与えます。そのために記号の準備を行います。 記号の準備 今回扱うデータセットのサンプルサイズは N 件とし、各標本を i (=1,..,N) で表します。各標本に対する処置変数をWiで表し、Wi=1を処置ありの介入群、Wi=0 を処置無しの対照群とします。(Yi(1),Yi(0))を標本i
電通デジタル テクノロジートランスフォーメーション第2部門 データアクティベーション事業部の宮﨑です。 今回はLooker のテンプレートであるLooker Blocks に含まれる、GA4ダッシュボードの日本語化について記載します。 Blocks をそのまま使用するのではなく、一部カスタマイズして利用したい、という際の参考になればと思います。 Lookerの特徴まず、Lookerについて簡単にご紹介します。 Looker はGoogle が提供するBIツールでありつつ、データの可視化に留まらず、以下の特徴を持っています。 1. データをLooker内に保持しない同じくGoogle から提供されているBIツールLooker Studio と同様に、DWHに都度アクセスし、 DWH の処理能力をそのまま使用できます。 そのためBigQueryやSnowflakeといった DWH との相性が良
電通デジタルの中野です。 今回は、Google Analytics 4(GA4)をBigQueryで分析する際によく使うSQLをまとめました。 自身の業務でもよく使用するため備忘録的な側面もありますが、参考までに活用いただければと思います。 前提BigQueryに連携したGA4データにはいくつか前提条件があります。 その中で最も大きな点は、GA4のレポート画面と数値が一致しない場合がある、ということです。 詳細については、こちらのページに記載があります。 ユーザー数やセッション数といったユニーク数を算出する場合、データ量が多いと計算に時間がかかります。そこでGA4レポートではHyperLogLogというアルゴリズムを使用して近似値を算出しています。 精緻な値を計算する場合は、現状BigQuery以外に手段がありません。こういった制約からもBigQuery上でSQLを使った分析をする場面は増
電通デジタルでバックエンド開発をしている松田です。弊社ではデータパイプラインの構築や管理のために主にApache Airflowを利用しています[1, 2]。 本記事では、AirflowのOperatorを使ってタスク実行環境を分離する方法についてご紹介します。 タスク実行環境を分離するモチベーションはじめになぜAirflowにおけるタスク実行環境を分離したいのかについてですが、これには主に3つ(他の観点もあるかもしれませんが)挙げられると思います。 1つ目はPythonライブラリの競合回避やライブラリの特定のバージョンを使いたい場合です。Airflowのデータパイプライン構築において特定のライブラリを使いたいときに、Dockerを使ったbuildであればDockerfileにライブラリを追記するか、GCPのCloud ComposerであればPYPI PACKAGESからライブラリを追加
電通デジタルでデータサイエンティストをしている福田です。 これはDentsu Digital Advent Calendar 2021の10日目の記事です。 本記事ではXAIの手法の1つであるSHAPについて解説したいと思います。 XAIとはXAIとはexplainable AIの略で、説明可能なAIまたはAIの予測結果を説明する技術のことを指します。モデルの解釈性と精度は基本的にはトレードオフの関係にあり、重回帰や決定木のようなわかりやすいモデルがある一方で、精度を求めようとするとXGBoost、LightGBMのような複雑なモデルに頼ることが多いと思います。XAIは後者のような精度は高いが解釈性が低いモデルをターゲットとしています。 SHAPSHAP(SHapley Additive exPlanation)とは局所的なモデルの説明(1行のデータに対する説明)に該当します。予測値に対し
概要こんにちは。電通デジタルでデータサイエンティストをしている中嶋です。去年の年末にGoogle CloudのProfessiona Data Engineerの試験に合格しました。この記事では、私の経験を基に試験勉強の準備や合格に向けた勉強方法について振り返ってみたいと思います。 きっかけ今回受験をしたのは、筆者の所属する部署で同僚とデータ分析に関するスキルについて会話していた時に資格の話になり色々調べていたところ目に留まり興味を持ったのがきっかけです。自身のデータ利活用スキルを高めることにもつながると思い、折角の機会だしやってみようと思い立ち学習を始めました。 予備知識この試験を受ける前に、Associate Cloud Engineerの試験に受かっていたため一通りの基礎知識は身に着けていました。とはいえ普段の業務では主にデータ前処理・集計用にBigQueryを、データの管理用にGo
電通デジタル 事業戦略室 開発部の佐藤です。 コードのバージョン管理システムとしてGitHubを利用する企業も増えるなか、機密情報の漏洩も増加傾向にあります。そこで、GitHubのEnterpriseプランへ加入してセキュリティの強化について試してみました。 ※IoT OT Security News「GitHub 調査:不適切なソースコード管理によりパスワードなどの機密情報が漏洩」 EnterpriseプランではSecret scanningというセキュリティ機能に加えて、今年の4月より利用可能になったSecret scanningの機能の一部であるPush protectionという強力なセキュリティ機能が使えるようになります。Secret scanningについてはすでに具体的な記事がいくつかあがっている一方、Push protectionに関してはまだ具体的な記事があがっていなかっ
電通デジタル テクノロジートランスフォーメーション部門 データマネジメント第2事業部の中野です。 Universal Analytics(以後UA)で拡張Eコマース計測を行っている場合、GA4でも同じように計測するためには、ページに出力するdataLayerの形式を変更しなければなりません。 本来であれば、サイト開発会社や開発部門への依頼が必要となりますが、Google Tag Manager(以後GTM) だけでdataLayerの形式の変換とGA4計測を完結させることができます。 今回はその具体的な方法について説明します。 なお、ここで説明する移行方法はあくまで一例であり、実際にGTMだけで移行可能かどうかは、各サイトのdataLayer変数の実装方法や内容に依存します。 そもそもの形式の違いUAとGA4のEコマース計測に必要なdataLayer出力の形式は以下ページに記載されています
電通デジタル データマネジメント事業部の中野です。 ついに2022年3月17日、Google から Universal Analytics のサービス停止が告知されました。期限はおおよそ1年です。有料版の Google Analytics 360 も例外ではありません。 https://support.google.com/analytics/answer/11583528?hl=ja 今後は2020年10月にリリースされた Google Analytics 4 に置き換えを行わないとデータ収集ができなくなります。 この記事では、Universal Analytics 終了の業務への影響と Google Analytics 4への移行について説明します。 サービス停止の影響サービスの停止時期は2023年7月です(有償版の時期は別です)。サービス停止となると以下の対応が行われます。 Univ
電通デジタルでバックエンド開発をしている松田です。この記事は、Dentsu Digital Advent Calendar 2021の22日目の記事です。 本記事ではAirflow FAQにも記載のある以下2つのAirflowのdateについて、名称からだと実態の想定が少し難しいと思われるので紹介してみます。 ・start_date ・execution_date ( ~ Airflow 2.1) / logical date (Airflow 2.2 ~) ※ 本記事記載のスクリーンショット、コードはAirflow 2.2で確認しています。ローカルで動かしてみたい場合はAirflowのこちらのドキュメントを参照してみてください。 まずAirflowがどのように時間を認識してスケジュール実行しているかについて、Airflow2.2以降ではData Intervalという概念が取り入れられた
本記事は電通デジタルアドベントカレンダー2021 20日目の記事になります。 はじめにAWSに依存した実装箇所をテストする際、皆さんはどのように行なっているでしょうか?多くの場合 AWS SDK などでMockを用意する、自前でStubを用意されているかと思います。そしてこのテストがGitHub Actionsで走ってくれると嬉しいですよね。 電通デジタル開発部の長内です。 今回はLocalStackとGitHub Actionsを使って極々単純なテストを書いてみます。 LocalStackとLocalStack Proの紹介LocalStackのリポジトリには以下のように書かれています。 LocalStack 💻 is a cloud service emulator that runs in a single container on your laptop or in your C
電通デジタルで SRE をしている神田です。この記事は、電通デジタルアドベントカレンダー2021 17日目の記事になります。 私は、BOT BOOSTaR® というチャットボットツールの開発・運用に携わっています。BOT BOOSTaR®ではサーバーレスアーキテクチャを採用しており、AWS Lambda を利用する機会が多いです。また、私が所属する開発部ではもともとバックエンドサービスの開発言語として Go を採用することが多かったので一部テスト的に Go を使い始めています。本日は、Go で AWS Lambda 関数を開発する際のローカル環境でのテストについて話します。 GoでAWS Lambda関数を実装するときの問題 AWS Lambda 関数を開発する場合、開発言語ごとに用意されているランタイム から適当なバージョンを選びます。Go で Lambda 関数を開発しようとした場合、
電通デジタルでデータサイエンティストをしている中嶋です。本記事は電通デジタルアドベントカレンダー2021 14日目の記事になります。 この記事についてこの記事では実務におけるA/Aテストがどういうものかを説明し、統計的仮説検定を応用した非劣性検定(non-inferiority test)という手法を用いたA/Aテストのやり方を解説します。予備知識として統計的仮説検定の一般的な考え方、また効果量の概念的な理解を前提としています。もしこれらの内容を知らない場合は以前書いたこちらの記事をご参照ください。 A/AテストとはA/Aテストについて説明する前にA/Bテストについて簡単に解説します。 A/Bテスト 無作為化比較試験によって施策の効果を測定する方法です。検証したい集団をランダムに2つのグループ(群)に分けて、片方のテスト群に広告配信などの介入を行い、もう片方の何もしないコントロール群とCV
電通デジタルで機械学習エンジニアをしている今井です。 Advent Calendar 9日目となる本記事では、SQLでAUC(Area Under the Curve)を算出する方法について紹介します。 はじめに2値分類タスクでは以下のようなConfusion Matrix(混同行列)を算出します。 TP(True Positive, 真陽性): 正例に対して正例と予測した数 FN(False Negative, 偽陰性): 正例に対して負例と予測した数 FP(False Positive, 偽陽性): 負例に対して正例と予測した数 TN(True Negative, 真陰性): 負例に対して負例と予測した数 またこれらをもとに以下の指標も算出します。 Precision(適合率): $${\frac{\rm{TP}}{\rm{TP+FP}}}$$ Recall(再現率): $${\fra
電通デジタルでSite Reliability Engineer(SRE)をしている齋藤です。 本記事は電通デジタルアドベントカレンダー2021 8日目の記事になります。 本記事ではGitHub Actionsの利用遍歴と認証情報管理について、弊社の自社開発部門で検討した内容をご紹介させていただきます。 2021年末時点のGitHub Actionsパブリッククラウド認証情報管理ベストプラクティス結論から書くと本記事執筆時点(2021年11月)では弊社が検討した内容は横に置いて、多くのケースで2021年10月末のGitHub社のイベントで公表されたGitHub Actions Open ID Connect(プレスリリース, ドキュメント)を利用するのがよいと思います。 公式から図を引用すると GitHub Actions Open ID Connect FlowGitHub OIDC p
電通デジタル開発部の平沼です。 本記事は電通デジタルアドベントカレンダー2021 7日目の記事になります。 本記事では、DynamoDBに大量のデータを書き込む際、運用を少し楽にするために内製したツールをご紹介します。 課題感新しいサービスをリリースする際の初期データの登録やテストデータの登録など、DynamoDBにデータを書き込む場面は多いです。書き込む選択肢は主にAWS Command Line Interface (AWS CLI)やAWSマネジメントコンソールがあります。 DynamoDBへ書き込む選択肢のPros ConsAWS CLIで一度に複数の項目を追加する場合、batch-write-item APIやtransact-write-items APIがあります。それぞれのユースケースとしては下記が考えられます。(表内の例はAWSのサンプルを利用しています。ProductC
電通デジタルアドベントカレンダー2021 6日目の記事です。 はじめにこんにちは。電通デジタル開発部エンジニアの石原です。 データの分析基盤として、大規模データを扱えて処理が高速なBigQueryはとても便利ですよね。弊社でも日々活用しています。 特にBigQueryで中間テーブルを日々更新したり、分析用のテーブルを定期的に最新化するために、クエリのスケジューリング設定をよく使用しています。 この記事では、bqコマンドを使用してスケジューリング設定を行う際に、特にサービスアカウントを利用し、かつ特定の時間を指定する方法をご紹介します。 よくあるユースケースだと思いますが、Google Cloudの公式ドキュメントの該当ページには詳しく載っていないユースケース(2021年11月時点)なので、ぜひ皆さんの参考になればと思います! 特に、これまでコマンドからスケジューリング設定したことがない方は
電通デジタルでデータサイエンティストを務める吉田です。 これはDentsu Digital Advent Calendar 2021の3日目の記事です。 今回の記事では、今年出てきたばかりのddc.vimというVimの自動補完プラグインを試しに使ってみたので、基本的な実装例と使用感について紹介したいと思います。執筆時点ではまだBeta版とのことですが、動作は安定していて個人的にかなり使用感がよかったので紹介します。 エディタの自動補完についてこの記事での「自動補完」とは、入力中のテキストに応じてそのバッファでの既出単語やプログラミング言語の文法に沿った単語の入力候補を自動で表示し、選択できるようにする入力補助機能のことです。これがあるとコーディングスピードが上がったり、型や文法のヒントが表示されるので便利ですね。最近の高級エディタではデフォルトの状態でも自動補完機能が付いているものもありま
こんにちは、電通デジタル開発部エンジニアのリチャードです。この記事は、Dentsu Digital Advent Calendar 2021の2日目の記事です。 現在弊社の開発部内では、データマネジメント知識体系ガイド(以下DMBOK本)という本に注目していて、同書籍に関する社内勉強会を不定期で開催しています。 データ基盤などの開発経験が豊富なエンジニアからは、DMBOK本に対して以下のような好意的な意見があがっています。 - 「手探りで取り組んでいた課題が体系化されているので理解しやすい」 - 「自分たちのデータマネジメントの取り組みで、何が足りないのかわかる」 - 「概念を整理した図表が見やすく、コミュニケーションの助けになりそう」 一方でDMBOK本はデータマネジメントに関する知識を網羅的に扱っているので、672ページ、17章と、その分量に圧倒されそうになる書籍です。経験豊富なエンジ
こんにちは!電通デジタル開発部エンジニアのリチャードです。 技術ドキュメントを書く際に効果的な図解を用いると、文章だけの場合より内容も見やすくなります。 また図の見やすさだけでなく、描き変えやすさも重要です。その理由はソフトウェア開発の現場における技術ドキュメントは、継続的に更新し続けることが多く、図もそれに従って描き変えるからです。 この記事では見やすく描き変えやすい図解を作成するテクニックとして「図の分割」を紹介します。数ある図解テクニックの中でも、すぐに使えて効果の大きいものなのでぜひ利用してみてください。 1つの図に情報を詰め込みすぎない図の分割テクニックの詳細をお話しする前に、その反対である、たくさんの情報を1つの図に詰め込んでしまう例を紹介します。 以下はAWS上に構築した架空のアプリケーションのインフラ全体図です。図中の要素の数が多いので、見て理解するには時間がかかりますし、
電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQuery MLで共変量シフト分析を行うための方法について紹介します。 拡張配信における共変量の乖離 電通デジタルでは国内外の主要広告プラットフォーマーと協業してさまざまなマーケティング施策に取り組んでおり、その一例が下記のような拡張配信になります。 クライアント企業の保有する購買情報を各プラットフォーマーが保有するユーザーIDと突合することで、そのプラットフォーマーにおける購買期待層への拡張配信を実現するという仕組みです。 通常このような購買情報をプラットフォーマーが直接観測することはできない(例えば店舗来店や継続購買など)ため、事業収益に直結するKPIを基にマーケティング施策を行うのは非常に効果的だと考えます。 上記は理想的な拡張配信になりますが、現実ではID突合に偏りがある場合に適切に購買期待層にアプローチできな
電通デジタル 開発部 エンジニアの おのきです。 今回は開発部内で「スクラム実践者が知るべき97のこと」の読書会をやってみたということで、実施背景からその進め方とやってみて得られたことを紹介したいと思います。 背景私たち開発部では複数のチームでスクラムを導入し、日々開発を進めています。 その中で、 ・他チームのスクラムでの取り組みを参考にする、スクラムの考え方や現状の課題感を改めて部として議論するという場がなかったこと ・スクラムをプロセスとして黙々とこなしている状況から、もっとより良い方法がないかをチーム関係なく議論したい ・最近リモートの影響なのか読書会やコミュニケーションの場を持てていないのでちょっと気軽にやってみようというところから今回の「スクラム実践者が知るべき97のこと」読書会の開催に至りました。 この書籍の選定理由としては、エッセイ形式で短く読みやすいということやカテゴライズ
こんにちは!電通デジタル開発部のリチャードです。このたび弊社開発部から私を含む2人が以下の研修・およびその後の試験を受け、Scrum Alliance認定スクラムマスター(CSM: Certified Scrum Master)になりました。 20人ほどの組織である弊社開発部には、Scrum Inc.から認定されたスクラムマスターが以前から1人いるので、スクラムマスター有資格者は合計で3人となりました。 個人的には「スクラムとアジャイル開発の本を12冊一気に読んでみた!その中から初心者、中級者、上級者向けのおすすめを紹介」という記事を私が書いた時に感じた、 「断片的な知識や経験で乗り切るのではなく、基礎からしっかりとスクラムを学び直したい!」という希望をScrum Alliance公式の研修と認定という形でかなえられたので、大変うれしく思っています。 研修内容紹介冒頭でリンクを貼った株式会
電通デジタルでデータサイエンティストをしている中嶋です。 この記事では、これまで紹介したLiNGAMの派生形であるVAR-LiNGAM(Vector AutoRegression-LiNGAM)について紹介したいと思います。これは通常のLiNGAMにベクトル自己回帰モデル(Vector AutoRegression Model: VAR Model)の考え方を取り入れ、時系列性の因果も考慮した因果探索を行うものです。 今回の記事では分量の関係からGoogle Colabでの実装は割愛し、元論文[1]を参考にしながら主に理論的な部分の紹介を行います。 定式化VAR-LiNGAMの定式化を説明する前に論文の形式に倣ってまずはLiNGAMとVARそれぞれの定式化をおさらいします。個別の説明に入る前に全体像を以下に示します。 LiNGAM LiNGAMとはLinear Non-Gaussian A
この記事について電通デジタルでデータサイエンティストをしている中嶋です。今回の記事では統計的仮説検定における検出力や効果量の概念及び、それらを考慮した事前のサンプルサイズ設計について説明します。読者層としては、既に統計的仮説検定の基本的な使い方を理解している方を主な対象としていますが、そうでない方にもわかるように最初に簡単な復習をします。 統計的仮説検定について 概要 統計的仮説検定(以下、仮説検定)とは、性質の異なるグループ間で平均や分散など各グループを代表するような数値を比較する際に、その差が偶然生じたものか、そうでなく何かしら必然性がありそうかを検証するための統計手法です。例えば比較分析したい2つの群(ex. ユーザーグループ)があった時にある指標(ex. 各群の年齢の平均値)を比較して、統計的に偶然ではないレベルで差異が生じているかを判定したいときに仮説検定を使うことができます。
電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー
こんにちは、電通デジタル開発部エンジニアのリチャードです。 前回の記事ではGoogle Analytics 4プロパティの基礎知識について、GA4移行を技術的に正しく理解しながら進めるために、事前に抑えておくべきポイントを紹介しました。 前回の記事からの続きで後半にあたる本記事では、GA4移行ステップとそれに伴って私たちが行ったBigQueryエクスポートの設定をもとに、これらの作業でつまずかないための6つのポイントを紹介します。ビデオや公式ヘルプを見るだけでは設定を間違ってしまいそうな部分を中心に説明し、公式資料を見た方が早い部分についてはリンクを貼って、公式資料と重複する説明は避けています。 本記事の想定読者層本記事は主にエンジニアに読まれることを想定して書いています。自分が担当するアプリケーションにすでにGoogle Analyticsが導入されていて、ビジネスサイドからの要求などに
Google Analytics 4プロパティ移行を技術的にしっかり理解したい人のための、3つのポイントと迷わない資料のたどり方 はじめにこんにちは、電通デジタル開発部エンジニアのリチャードです。 Google Analytics 4プロパティ(以下GA4)は2020年に発表され、Googleの機械学習モデルを利用したトレンドの検知や、複数デバイスにまたがるユーザー行動の計測、それまでAnalytics 360で有償機能として提供されていたBigQuery連携の無料利用が可能など、様々な機能を持っています。 弊社では、社内開発しているプロダクトの1つで最近このGA4を導入しました。魅力的な機能が多いGA4ですが、私たちがその導入過程でトラブルシューティングに苦労した部分や、公式ドキュメントや動画を見ても当初誤解していた部分が多々ありました。全てをわかった上で公式資料を見直すと「丁寧に情報を
次のページ
このページを最初にブックマークしてみませんか?
『Dentsu Digital Tech Blog|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く