並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 701件

新着順 人気順

bigqueryの検索結果121 - 160 件 / 701件

  • 機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog

    電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー

      機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog
    • 2023 年の BigQuery 権限管理

      酒とゲームとインフラとGCP 第18回 発表資料

        2023 年の BigQuery 権限管理
      • BigQuery におけるコスト最適化の ベスト プラクティス | Google Cloud 公式ブログ

        ※この投稿は米国時間 2019 年 9 月 25 日に Cloud Blog に 投稿されたものの抄訳です。 あらゆる業務のデータが各所に分散する今日の状況において、データ ウェアハウスの運営、管理は厄介で手間のかかる作業となりがちです。こうしたデータの急激な増加に対応してシステムをスケーリングし、日々の運用を維持することは、これまでになく大きな課題となっています。課題はそれだけではありません。データ ウェアハウスをアップグレードするときにダウンタイムをできるだけ短くする、ML や AI に向けた取り組みを支えてビジネスニーズに応えるなどの必要にも迫られています。Google Cloud のサーバーレス、エンタープライズ向けデータ ウェアハウスである BigQuery は、インフラ管理に手間を取られず分析作業に集中できるという点が評価され、数々の企業に導入されています。 BigQuery

          BigQuery におけるコスト最適化の ベスト プラクティス | Google Cloud 公式ブログ
        • BigQueryで時を遡って過去のテーブルを再構成する - ZOZO TECH BLOG

          はじめに こんにちは、データシステム部データ基盤ブロックSREの纐纈です。 本記事では、過去に遡ってBigQueryのデータを参照する方法(以下、タイムトラベルと呼びます)をご紹介します。また、この機能はBigQueryが提供している、変更または削除されたデータにアクセスするタイムトラベルとは異なることをご了承ください。 開発背景 この機能は過去データを日次スナップショットより細かい粒度で見たい、また障害対応時に障害発生前などピンポイントで時間指定して参照したいという要望を受け、開発することになりました。 さらに、BigQueryからこの機能を作るのに役立ちそうなテーブル関数という機能がリリースされたのもきっかけとなりました。 cloud.google.com テーブル関数とは、事前にパラメータを使って定義したクエリをエイリアスのようにテーブルとして保存して、そのテーブルに対して関数を実行

            BigQueryで時を遡って過去のテーブルを再構成する - ZOZO TECH BLOG
          • AWSエンジニアから見たGCP(データ分析編)

            こんにちは、GMOアドマーケティング インフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ

              AWSエンジニアから見たGCP(データ分析編)
            • heyの統合データ基盤と今後の展望 - STORES Product Blog

              はじめに はじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。 突然ですが、みなさんデータ基盤って開発したことありますか? 私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら(助けてもらいながら)開発する中でようやく少し分かって来たような気がします。 (覚えることが大量にあり大変とても楽しいです!) 今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。 これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。 統合データ基盤ってなに 一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的

                heyの統合データ基盤と今後の展望 - STORES Product Blog
              • BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

                背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった 社内で他の方が使うケースをぼちぼち見ることがある 自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる 著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間です さすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきた そもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしました というわけで、

                  BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog
                • GA4+BigQuery ハンドブック / ga4_bigquery

                  Transcript GA4+BigQuery ハンドブック Ver 1.0.0α しんゆう @data_analyst_ 本資料について • GA4+BigQueryはまだオフィシャルサイトにも情報が少 なく手探り状態 • そこでいろいろな情報を1つにまとめておくことは有用だ と考えた • まだまだ取り組み始めたばかりなので間違いや効率の悪い 方法を見つけたら教えていただけると幸いです 本資料について About 本資料について • 2021/10/13 α版公開 更新履歴 About 名前:しんゆう @data_analyst_ ブログ:データ分析とインテリジェンス https://analytics-and-intelligence.net 最近の活動:データを使いやすくする人 (データアーキテクトまたはデータ整備人) スライドが表示されているページの下段にある説明欄からも リンクが

                    GA4+BigQuery ハンドブック / ga4_bigquery
                  • BigQuery のスーパーパワーを引き出す 10 個の重要なヒント | Google Cloud 公式ブログ

                    ※この投稿は米国時間 2020 年 1 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。 私たち開発者の多くは、日中仕事をしているときはテクノロジーのヒーローといえます。たとえば SQL について知っているなら、あなたはデータをインサイトに変換できる能力を持ったヒーローです。困っている人が助けを求めてきたら、ビジネス提案書に載せるべき魔法の数字を教えて窮地から救ってあげることができます。データレイクを調べて見つけたパターンで同僚を驚かせることも。 Google Cloud のエンタープライズ データ ウェアハウスである BigQuery を使用すれば、すぐにスーパーヒーローになれます。他の誰よりも速くクエリを実行でき、テーブル全体のスキャンだって恐くありません。データセットを高度に利用可能な状態にできるので、メンテナンスの時間枠におびえる必要もなくなります。

                      BigQuery のスーパーパワーを引き出す 10 個の重要なヒント | Google Cloud 公式ブログ
                    • ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0

                      ランサーズ Advent Calendar 2020 24日目の記事です。 昨日は まなみん さんの 「思考発話法でUXリサーチをしてみた話」 でした。 概要 社員ではなく、1人のフリーランス人材(ランサー)として、ランサーズ社を手伝っています。 「こんなことをやってきたよ!」という話を、書ける範囲で書きます。 CRM(顧客管理)x データ活用 の案件を主に担当しています。 注意 本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。 不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。 どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。 もくじ 概要 注意 もくじ きっかけ 案件1:顧客セグメント可視化 案件2:社内システム改善 案件3:オープンデータ活用 その他:データプラットフォームのメンテナンス性向上 意識している

                        ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
                      • ZOZOFITアプリにおけるGoogle Analytics 4導入の取り組み - ZOZO TECH BLOG

                        はじめに こんにちは。計測プラットフォーム開発本部 計測プロデュース部の井上です。 私たちはZOZOFIT、ZOZOMAT、ZOZOMAT for HandsやZOZOGLASSなどの計測技術に関わるプロダクトのサービス開発をしています。先日ローンチしたZOZOFITではGoogle Analytics 4(以下、GA4)を導入しました。本記事ではGA4を導入する際に工夫した点と注意点について紹介します。 目次 はじめに 目次 計測プラットフォーム開発本部 計測プロデュース部とは 計測プロダクトとデータ分析 ZOZOFITとは GA4の導入 自動計測screen_viewイベントの無効化 手動計測screen_viewイベントの実装 GA4のDebugView設定 GA4とBigQueryの連携 Looker Studio Looker Studioのフィルタ機能 Looker Studi

                          ZOZOFITアプリにおけるGoogle Analytics 4導入の取り組み - ZOZO TECH BLOG
                        • BigQueryの監査ログをリアルタイムに監視して使いすぎを防止してみる - ZOZO TECH BLOG

                          こんにちは。SRE部の塩崎です。七味唐辛子の粉末を7種類に分類するという趣味を発展させて、おっとっとを新口動物と旧口動物に分類するという趣味を最近発明しました。 BigQueryは非常にパワフルなData WareHouse(DWH) SaaSであり、大容量のデータを一瞬で分析できます。しかし、課金額がスキャンしたデータ量に比例するという特徴があるため、意図せずに大量のデータをスキャンしてしまい大金を溶かしてしまうことを懸念する人もいます。 qiita.com そのため、課金額が大きすぎるクエリを発見した際にSlackへ通知する仕組みを作りました。GCP Organization内の全プロジェクトで実行されたBigQueryの監査ログをリアルタイムにチェックすることによってこの仕組みは実現されています。本記事では作成したシステムを紹介します。 なお、本記事は以下のQiita記事に着想を得た

                            BigQueryの監査ログをリアルタイムに監視して使いすぎを防止してみる - ZOZO TECH BLOG
                          • データ分析基盤におけるオブザーバビリティの取り組み

                            GMOペパボ株式会社では主にGoogle Cloud Platformのサービスを利用してデータ分析基盤を構築し運用しています。その中心となるのがデータウェアハウスのBigQueryとワークフローエンジンのCloud Composerです。また、社内向けのデータ可視化(ダッシュボード)システムではCloud Runを利用しています。 データ分析基盤から得られる情報を重要な意思決定に用いるためには、ユーザーに提供しているインフラと同様に、可用性を明らかにし、継続的に可用性を高める Realiability エンジニアリングが必要となります。本講演ではGCPで構築されているデータ分析基盤を題材として、データ分析基盤に求められる可用性や、小規模なチームにおけるオブザーバビリティへの取り組みについてご紹介します。

                              データ分析基盤におけるオブザーバビリティの取り組み
                            • Google Analytics 4 + BigQueryでよく使う基本的なSQL例

                              マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。 Google Analytics 4 (以下GA4)がリリースされましたね。 というわけでGA4のBigQueryエクスポート機能を使って早速データを抽出してみましょう! 以前、GA360+BigQueryで私がよく使う基本的なSQL例を紹介しましたが、今回はそれのGA4バージョンです。 1. ページビュー数 GA4の日別ページビューを出してみます。 タイムゾーンを任意で変更したいので、event_dateカラムではなくevent_timestampを「Asia/Tokyo」にして使ってます。 そ

                                Google Analytics 4 + BigQueryでよく使う基本的なSQL例
                              • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

                                データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

                                  入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
                                • CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話

                                  https://event.cloudnativedays.jp/cicd2021/talks/1152 開発人数が多く、規模の大きいプロダクトでは最終的な成果物をビルドするだけで1時間以上かかってしまうことも珍しくありません。ですが最初からそれほど時間がかかっていたわけではなく、時間とともに巨大化するコードベース、追加されたステップなどによりいつの間にかどこかの処理がボトルネックとなっていることが多いでしょう。 CIサービスの多くは成功/失敗の情報、全体としてのビルド時間の情報は見やすく提供していますが、各ステップの時間やステップのエラー率などの細かい粒度の情報を時系列で確認する機能までは提供されていないことが多いです。そのため、ボトルネック箇所を特定するためには過去の生ビルドログを自分の目で確認するコストが高い作業が必要でした。 そこで、Jenkins, CircleCI, Githu

                                    CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話
                                  • GCPでセキュリティガードレールを作るための方法と推しテク

                                    July Tech Festa 2021 winter 登壇資料 #JTF2021w #GCP パブリッククラウドでのセキュリティ担保の方法として、利便性を犠牲にはせずセキュリティを担保しようというガードレールという考え方があり、GoogleCloudではガードレールを設置するために以下のようなサービスを使うことが出来ます。 ・SecurityCommandCenter ・CloudAssetInventory ・VpcServiceControls 本セッションではこれらのサービスの使い方や、GCPプロジェクトを作成したときにセキュリティ対策としてまずやったほうが良い設定などを紹介します。

                                      GCPでセキュリティガードレールを作るための方法と推しテク
                                    • BigQueryで行う、 機械学習のための データ前処理

                                      知識と実践を紡ぐGenAI / Connecting Knowledge and experience with GenAI

                                        BigQueryで行う、 機械学習のための データ前処理
                                      • Google Cloud Workflows でサーバレスなワークフローを構築したので概要を紹介 - Adwaysエンジニアブログ

                                        1 ヶ月ぶりに記事の場へ帰ってきました菊池です。 今回は前回の記事「データ基盤をサーバーレスで構築したので概要を紹介」で紹介したシステムで Workflows をどのように使っているのか、概要を紹介したいと思います。よろしくお願いいたします。ちなみに結構満足して使ってます。 Workflows そのものについては書いていないので、Workflows について知りたい方は以下の記事や公式ドキュメント等を参照してください。 Google Cloud のサーバーレス オーケストレーション エンジン、Workflows のご紹介 ワークフロー | Google Cloud とはいえ、自分の言葉で Workflows を簡単に紹介すると、YAML でワークフローを記述してサーバーレスで動かすサービスです。イメージ的には GitHub Actions でワークフローの YAML を書いて動かしているの

                                          Google Cloud Workflows でサーバレスなワークフローを構築したので概要を紹介 - Adwaysエンジニアブログ
                                        • BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note

                                          電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。 広告効果ってあったの?広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(例えば、購入金額や継続期間など)の差である、と言えます。 しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。 これを反実仮想(counterfactual)と呼びます。 そこで提案されたのが平均処置効果(average treatment effect, ATE)です。 広告に接触したユーザー群(𝑤=1)と接触していないユーザー群(𝑤=0)とのその後のコンバージョン(𝑦 )の差を広告効果とするものです。 ここで、介入(広告に接触する)の有無以外の条件が公平になるようにユーザー郡が分かれていれ

                                            BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note
                                          • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                                            こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                                              DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                                            • Google、BigQueryをAWSやAzureなどマルチクラウド展開へ、「BigQuery Omni」発表。Google Cloud Next '20:OnAir

                                              Google、BigQueryをAWSやAzureなどマルチクラウド展開へ、「BigQuery Omni」発表。Google Cloud Next '20:OnAir Googleは、BigQueryをAWSやMicrosoft Azureなどへも展開する「BigQuery Omni」を、オンラインイベント「Google Cloud Next '20:OnAir」で発表しました。 We’re introducing BigQuery Omni, a multicloud analytics solution powered by Anthos. #BigQueryOmni helps you access & analyze data across @googlecloud and other third-party public clouds, all without leaving t

                                                Google、BigQueryをAWSやAzureなどマルチクラウド展開へ、「BigQuery Omni」発表。Google Cloud Next '20:OnAir
                                              • BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog

                                                G-gen の杉村です。BigQuery のオンデマンドクエリの利用量にフタをする、つまりスキャンデータ量に上限を設けて突発課金を防止する工夫について紹介します。 はじめに 割り当て (Quota) の設定 Query usage per day 設定手順 割り当て画面へ遷移 対象の割り当てをフィルタ 編集ボタンをクリック 割り当てを設定 新しい割り当ての確認 動作確認 クエリのサイズ上限設定 クエリ単位での上限設定 設定手順 (コンソール) クエリ設定を開く 詳細オプションの設定 動作確認 設定手順 (bq コマンドライン) はじめに BigQuery の課金体系にはオンデマンドと Editions の2つから選択できます。前者はスキャンしたデータ量に応じた従量課金です。後者は確保するコンピュートリソースの量に応じた課金で、オートスケールの幅 (上限と下限) を設定できます。 Editi

                                                  BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog
                                                • BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ

                                                  こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス

                                                    BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ
                                                  • DeNAがデータプラットフォームで直面した課題と克服の取り組み

                                                    はじめにこんにちは。この記事はDeNAの小口(Rikiya Oguchi)と長谷川(Ryoji Hasegawa)がお届けします。 小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。 現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、

                                                      DeNAがデータプラットフォームで直面した課題と克服の取り組み
                                                    • MonotaROのデータ基盤10年史(後編) - MonotaRO Tech Blog

                                                      こんにちは。データ基盤グループの香川です。 本記事は、MonotaRO のデータ基盤の歴史についての社内での発表の文字起こし記事の後編になります。 前編の記事: tech-blog.monotaro.com 前編では データ基盤の変遷の概要 2010年頃のデータ基盤 販促基盤とDWH(2010~2015) データ基盤構想とBigQueryの導入(2015~2017年) 同期システムの改良とBigQueryデータ基盤の展開(2018) までお話しましたが、後半たる本記事では以下について説明をしていきます。 他システムへのデータ提供とEC基盤の展開(2018) 2020年におけるデータ基盤へのデータ同期と利用状況 データ基盤の課題:データの管理体制の未整備による局所最適化 データ管理のグループ発足、Looker導入・DWH構築 歴史を振り返っての学び 歴史を振り返ることの意義 最後に 最後まで

                                                        MonotaROのデータ基盤10年史(後編) - MonotaRO Tech Blog
                                                      • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

                                                        こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

                                                          家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
                                                        • MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita

                                                          本記事はMLOps Advent Calendar 2020の13日目の記事です。 こんにちは。昨年本番環境のComposerでやらかしちゃった人です。今年は比較的平穏に機械学習を使用したサービス開発・運用に携われています。 携わっているサービスの1つで「MLOpsに必要な情報BigQueryに全部おいてみた」ところ想像以上に便利だったので、その方法について共有させてい頂ければと思います。 なお本記事でのMLOpsは 予測モデル/ハイパーパラメータのバージョン管理・デプロイ履歴管理 推論結果の精度監視 + 入力データの傾向監視 を指しています。 特に今年はコロナでビジネス環境が日々絶えず変化しているため、これらの施策がサービス品質担保に大きく貢献してくれました。 背景 毎日一回24時間先までバッチで未来予測し、結果をAPIサーバーにキャッシュする単純なMLサービスに携わっています。なお、予

                                                            MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita
                                                          • BigQuery を使って分析する際の tips (part1)

                                                            TL;DR BigQuery で分析する際の tips をまとめてみる。長くなりそうなのでいくつかに分割して書く part1 はエディタとして何を使うかとか実行結果の連携などについて書く BigQuery console/DataGrip を使いつつ、結果を GitHub issues/Google Sheets/Bdash Server で共有するという感じで使っている 仕事で BigQuery を使って分析することが多いので、いくつかの回に分けて BigQuery を使って分析する際の tips をまとめていくことにする。今回は part1 としてエディタとして何を使うかとか実行結果の連携などについて書く。 個人的な探索的・アドホック分析用途の話に限定して、組織的にどういうデータ分析基盤を使うかとかそういう話はしない(会社だと ETL の L として dbt https://www.g

                                                              BigQuery を使って分析する際の tips (part1)
                                                            • OSSにコントリビュートしてログ収集基盤におけるCloud Pub/Subのリージョン間通信費用を削減した話 - ZOZO TECH BLOG

                                                              こんにちはSRE部の川津です。ZOZOTOWNにおけるログ収集基盤の開発を進めています。開発を進めていく中でCloud Pub/Subのリージョン間費用を削減できる部分が見つかりました。 今回、OSSであるfluent-plugin-gcloud-pubsub-customにコントリビュートした結果、Cloud Pub/Subのリージョン間費用を削減できました。その事例を、ログ収集基盤開発の経緯と実装要件を踏まえて紹介します。 目次 目次 ログ収集基盤の紹介 開発経緯 フロントエンドのログしか取得できない BigQuery ExportはSLAを担保されていない リアルタイムにログを保存できない 実装要件 ログ送信側の環境に依存しない共通の仕組みで実装する 転送されるログの量に応じてオートスケールする構成にする 送られてくるログをロストしない リアルタイムにログが保存される インフラ構成

                                                                OSSにコントリビュートしてログ収集基盤におけるCloud Pub/Subのリージョン間通信費用を削減した話 - ZOZO TECH BLOG
                                                              • SQLたったの2行で機械学習!BigQuery MLを用いたコロナ分析 - Qiita

                                                                はじめに 令和にもなるとSQLを2行書くだけで機械学習できてしまうようです。本記事では、表題の技術BigQuery MLの概要と使い方を調べ、世を騒がせているコロナの分析をしてみました。 「SQLで機械学習」や「コロナ分析」に興味がある方は覗いてみてください。 本記事の対象者 SQLだけで機械学習したい人 コロナ分析に興味ある人 機械学習を簡単に試してみたい人 機械学習はよく分からんけどデータベースはよくいじるという人 本記事の対象でない人 データとか機械学習とか難しいから興味ない人 機械学習モデルのアルゴリズムとか詳しく知りたい人 機械学習つよつよだから自分で独自モデル作って幅広い分析したい人 BigQuery ML概要 BigQueryとは BigQuery MLはBigQuery上のサービスです。BigQueryを知らない方のために簡単にBigQueryについて説明します。BigQu

                                                                  SQLたったの2行で機械学習!BigQuery MLを用いたコロナ分析 - Qiita
                                                                • GoとテストとSDKとGCP - KAYAC engineers' blog

                                                                  SREチーム(新卒)の市川恭佑です。これはKAYAC Advent Calendar 2022の9日目の記事です。 今年の弊社アドベントカレンダーは、筋肉やランニング、さらにはサウナなど、多様性に富んだ面白いエントリが出揃っています。 自分も好きなファッションについて書きたくなってしまったのですが、ここはグッと気持ちを抑えて、仕事で触った技術について書きます。 ※ この記事のタイトルは、酒とゲームとインフラとGCPというイベントのオマージュです。 仕事の近況報告 まず、最近どんな仕事をしているのかについて報告させてください。恐らく誰も興味がないと思いますが、年末のアドベントカレンダー企画ということもあるので...... Amazon Web Services(AWS)を用いた自社サービス 今年の4月に新卒入社してから、技術ブログを2本執筆しました。下記がそのリンクです。 techblog.

                                                                    GoとテストとSDKとGCP - KAYAC engineers' blog
                                                                  • BigQuery で ROW_NUMBER(), RANK() を使うな!

                                                                    どういうことか たとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。 先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量(計算量)が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。 ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい

                                                                      BigQuery で ROW_NUMBER(), RANK() を使うな!
                                                                    • メルカリShopsフロントエンドのパフォーマンスを可視化する | メルカリエンジニアリング

                                                                      はじめに こんにちは!ソウゾウのSoftware engineerの@yosanです。 「メルカリShops [フライング] アドベントカレンダー2022」5日目を担当します。 今回はメルカリShopsで行っている、フロントエンドのパフォーマンスの可視化について説明したいと思います。 メルカリShopsにおけるフロントエンドのパフォーマンス可視化 メルカリShopsはWebベースのアプリケーションであり、大まかに次のような構成で運用されています。 iOSやAndroidのネイティブアプリケーションに中おいても、メルカリShopsの部分はWebViewによって提供されています。 この記事における「フロントエンドのパフォーマンス」とは、いわゆるWeb Vitalsになります。例えば、ユーザがサイトにアクセスしてからコンテンツが表示されるまでに何秒かかっているか、あるいは意図せず画面レイアウトが

                                                                        メルカリShopsフロントエンドのパフォーマンスを可視化する | メルカリエンジニアリング
                                                                      • SQL で Matrix Factorization を実装しました - TVer Tech Blog

                                                                        こんにちは データを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。 現状 さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。 レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。 これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。 ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。 大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3

                                                                          SQL で Matrix Factorization を実装しました - TVer Tech Blog
                                                                        • 「スピード」と「品質」のスイッチング ~事業成長を支える生存戦略~ #devsumi / 20210218C1

                                                                          Developers Summit 2021【C-1】の発表資料です。 https://event.shoeisha.jp/devsumi/20210218 ---------------------------------------------------------------------------------------------------- メルペイでは「ベンチャーとしてのスピード」と「FinTech領域としての品 質」の両立が求められています。 目の前のビジネスチャンスに対して、システム開発が追いつかない。この悩みと向き合い、私たちが辿り着いたのは「スピード」と「品質」のスイッチングです。 「1.ツール活用によるスピード優先」と「2.システム開発による品質重視」をフェーズごとに使い分けることで、事業成長を支えてきました。 本セッションでは、ビジネスとエンジニアリングの両立

                                                                            「スピード」と「品質」のスイッチング ~事業成長を支える生存戦略~ #devsumi / 20210218C1
                                                                          • マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog

                                                                            こんにちは、マーケティング部門広告グループの小林です。この記事ではオンライン広告運用に使っているデータ変換処理をdbtに移行した過程と得られた効果についてご紹介します。 モノタロウでは、全社的なデータ活用研修などにより、マーケティングのようなビジネス系の部署でも、SQLを自身で書いてデータ抽出を行い、数字に基づいた意思決定を行っています。その一方で、集計後の数値のズレやドメイン固有のデータの品質管理など、活用が進んだ企業ならではの課題というのも表面化してくるようになってきました。 オンライン広告運用においては、投下した費用など配信実績のレポーティング、広告媒体へのデータ送信などのいわゆるELTを安定的に回す仕組みが必要になりますが、処理の自動化やデータの品質まで求められるようになると、「データが抽出できる」だけでは限界が見えてきていました。そこで今回、マーケター自身がデータを管理する立場に

                                                                              マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog
                                                                            • 非エンジニアがGoogle Analytics 4とBigQueryを使って3時間でSQLをマスターする(クエリサンプル、練習問題付き) ※2022年1月22日再編集|石渡貴大@マインディア

                                                                              優秀なインターン生にSQL ZOOだけぶん投げたらほんとに1日でSQL書けるようになった。多少手直しは必要だけど。ほんとにこの記事の通り。https://t.co/yh872H6KrY — Takahiro Ishiwata / 石渡貴大 (@takahirostone) March 3, 2020 このツイートは非常に反響が大きく、非エンジニアのSQL学習欲を改めて感じました。 私はもともとマーケターでSQLは書けなかったのですが、前職のGunosyでは全社員が誰でもSQLを書いて分析できる環境が整っていましたし、データ分析部の方が優しく教えてくれたおかげでSQLが書けるようになりました。 ただ、そういう環境が自社に整っていないとなかなかSQLを覚えることは難しいのではないでしょうか。かと言って自分で環境構築をするにはサーバーやデータベースの知識が必要になるのでかなり手間と時間がかかって

                                                                                非エンジニアがGoogle Analytics 4とBigQueryを使って3時間でSQLをマスターする(クエリサンプル、練習問題付き) ※2022年1月22日再編集|石渡貴大@マインディア
                                                                              • Lookerの埋め込みダッシュボードを社外提供する上での課題と解決策 - pixiv inside

                                                                                アドプラットフォーム事業部 アドプロダクト部 データチームでアナリティクスエンジニアをしているucchi-です。普段は主に、pixiv Adsという広告ネットワークのデータ周りを開発しています。 ads.pixiv.net 今回は、pixiv Adsで採用している、Lookerの埋め込みダッシュボードについて紹介します。 はじめに ピクシブでは全社的にLookerを使用しています。Lookerを使うことで、BigQueryに保存されている品質の高いデータを気軽に分析することができ、社内の仮説検証や意思決定に役立っています。 一方で、Lookerは社内の分析用途だけではなく、社外へのデータ提供にも活用できます。 具体的な手段はいくつかありますが、pixiv Adsでは、「シングルサインオン(SSO)組み込み」という形式で、クライアント向けの広告管理画面にLookerのダッシュボードを埋め込ん

                                                                                  Lookerの埋め込みダッシュボードを社外提供する上での課題と解決策 - pixiv inside
                                                                                • Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表

                                                                                  Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表 Google Cloudは、AWSやMicrosoft Azureなど競合他社のクラウドに10Gbpsもしくは100Gbpsの高速な専用回線を通じてインターコネクト可能なネットワークサービス「Cross-Cloud Interconnect」を発表しました。 Seamless #multicloud connectivity is here. Our new Cross-Cloud Interconnect lets you connect any public cloud with Google Cloud through our secure, high-bandwidth global network. pic.twi

                                                                                    Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表