[4ページ] bigqueryの人気記事 701件 - はてなブックマーク

121 - 160 件 / 701件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

bigqueryの検索結果121 - 160 件 / 701件

機械学習のデータドリフト検知を自動化する方法｜Dentsu Digital Tech Blog
- 53 users
- note.com/dd_techblog
- テクノロジー
- 2021/06/09
電通デジタルでデータサイエンティストを務める吉田です。本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー
- 機械学習
- MLOps
- あとで読む
- python
- GCP
2023 年の BigQuery 権限管理
- 52 users
- speakerdeck.com/na0
- テクノロジー
- 2023/02/17
酒とゲームとインフラとGCP 第18回発表資料
- BigQuery
- gcp
- IAM
- あとで読む
- security
- slide
- セキュリティ
BigQuery におけるコスト最適化のベストプラクティス | Google Cloud 公式ブログ
- 51 users
- cloud.google.com
- テクノロジー
- 2019/10/18
※この投稿は米国時間 2019 年 9 月 25 日に Cloud Blog に投稿されたものの抄訳です。あらゆる業務のデータが各所に分散する今日の状況において、データウェアハウスの運営、管理は厄介で手間のかかる作業となりがちです。こうしたデータの急激な増加に対応してシステムをスケーリングし、日々の運用を維持することは、これまでになく大きな課題となっています。課題はそれだけではありません。データウェアハウスをアップグレードするときにダウンタイムをできるだけ短くする、ML や AI に向けた取り組みを支えてビジネスニーズに応えるなどの必要にも迫られています。Google Cloud のサーバーレス、エンタープライズ向けデータウェアハウスである BigQuery は、インフラ管理に手間を取られず分析作業に集中できるという点が評価され、数々の企業に導入されています。 BigQuery
BigQueryで時を遡って過去のテーブルを再構成する - ZOZO TECH BLOG
- 51 users
- techblog.zozo.com
- テクノロジー
- 2022/05/17
はじめにこんにちは、データシステム部データ基盤ブロックSREの纐纈です。本記事では、過去に遡ってBigQueryのデータを参照する方法（以下、タイムトラベルと呼びます）をご紹介します。また、この機能はBigQueryが提供している、変更または削除されたデータにアクセスするタイムトラベルとは異なることをご了承ください。開発背景この機能は過去データを日次スナップショットより細かい粒度で見たい、また障害対応時に障害発生前などピンポイントで時間指定して参照したいという要望を受け、開発することになりました。さらに、BigQueryからこの機能を作るのに役立ちそうなテーブル関数という機能がリリースされたのもきっかけとなりました。 cloud.google.com テーブル関数とは、事前にパラメータを使って定義したクエリをエイリアスのようにテーブルとして保存して、そのテーブルに対して関数を実行
AWSエンジニアから見たGCP(データ分析編)
- 50 users
- techblog.gmo-ap.jp
- テクノロジー
- 2023/05/30
こんにちは、GMOアドマーケティングインフラ開発部のhakumaiです。前回の記事「AWS SAPを取得したら視野が広がった話」を読んでいただいた方々、ありがとうございます。今回のテーマは「AWSエンジニアから見たGCP」第2弾として、代表的なGCPのコンピューティング系サービスについてAWSと比較し感じた点についてお話いたします。 (第1弾の記事はこちら↓)IaaSCompute EngineAWSではEC2に相当するサービス。各種インスタンスタイプや提供OSイメージ、インスタンス向けのストレージ機能、オートスケール機能など、インスタンスのアーキテ... DWH BigQuery BigQueryはフルマネージドなサーバレスDWHサービスで、Googleが開発した大規模データ向けの分散システムであるDremelを基にしておりSQLクエリを使用して大規模データの分析を行うことができる。さ
- GCP
- aws
- あとで読む
- 分析
- データ
heyの統合データ基盤と今後の展望 - STORES Product Blog
- 50 users
- product.st.inc
- テクノロジー
- 2021/07/30
はじめにはじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。突然ですが、みなさんデータ基盤って開発したことありますか？私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら（助けてもらいながら）開発する中でようやく少し分かって来たような気がします。（覚えることが大量にあり大変とても楽しいです！）今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。統合データ基盤ってなに一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的
- データ
- あとで読む
- BigQuery
- 分析
- architecture
- DB
- management
- data
BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog
- 50 users
- www.yasuhisay.info
- テクノロジー
- 2022/03/14
背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった社内で他の方が使うケースをぼちぼち見ることがある自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間ですさすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきたそもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしましたというわけで、
- BigQuery
- SQL
- あとで読む
- *tips
- データ
- 便利
GA4+BigQuery ハンドブック / ga4_bigquery
- 50 users
- speakerdeck.com/shinu
- テクノロジー
- 2021/10/13
Transcript GA4+BigQuery ハンドブック Ver 1.0.0α しんゆう @data_analyst_ 本資料について • GA4＋BigQueryはまだオフィシャルサイトにも情報が少なく手探り状態 • そこでいろいろな情報を１つにまとめておくことは有用だと考えた • まだまだ取り組み始めたばかりなので間違いや効率の悪い方法を見つけたら教えていただけると幸いです本資料について About 本資料について • 2021/10/13 α版公開更新履歴 About 名前：しんゆう @data_analyst_ ブログ：データ分析とインテリジェンス https://analytics-and-intelligence.net 最近の活動：データを使いやすくする人（データアーキテクトまたはデータ整備人）スライドが表示されているページの下段にある説明欄からもリンクが
- BigQuery
- GA4
- slide
- analytics
- あとで読む
- 資料
- データ
- seo
- 書籍
- event
BigQuery のスーパーパワーを引き出す 10 個の重要なヒント | Google Cloud 公式ブログ
- 50 users
- cloud.google.com
- テクノロジー
- 2020/02/18
※この投稿は米国時間 2020 年 1 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。私たち開発者の多くは、日中仕事をしているときはテクノロジーのヒーローといえます。たとえば SQL について知っているなら、あなたはデータをインサイトに変換できる能力を持ったヒーローです。困っている人が助けを求めてきたら、ビジネス提案書に載せるべき魔法の数字を教えて窮地から救ってあげることができます。データレイクを調べて見つけたパターンで同僚を驚かせることも。 Google Cloud のエンタープライズデータウェアハウスである BigQuery を使用すれば、すぐにスーパーヒーローになれます。他の誰よりも速くクエリを実行でき、テーブル全体のスキャンだって恐くありません。データセットを高度に利用可能な状態にできるので、メンテナンスの時間枠におびえる必要もなくなります。
- BigQuery
- cloud
- google
- あとで読む
- blog
- tutorial
- wikipedia
- 技術
ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
- 49 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2020/12/24
ランサーズ Advent Calendar 2020 24日目の記事です。昨日はまなみんさんの「思考発話法でUXリサーチをしてみた話」でした。概要社員ではなく、1人のフリーランス人材（ランサー）として、ランサーズ社を手伝っています。「こんなことをやってきたよ！」という話を、書ける範囲で書きます。 CRM（顧客管理）x データ活用の案件を主に担当しています。注意本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。もくじ概要注意もくじきっかけ案件1:顧客セグメント可視化案件2:社内システム改善案件3:オープンデータ活用その他:データプラットフォームのメンテナンス性向上意識している
ZOZOFITアプリにおけるGoogle Analytics 4導入の取り組み - ZOZO TECH BLOG
- 49 users
- techblog.zozo.com
- テクノロジー
- 2023/02/15
はじめにこんにちは。計測プラットフォーム開発本部計測プロデュース部の井上です。私たちはZOZOFIT、ZOZOMAT、ZOZOMAT for HandsやZOZOGLASSなどの計測技術に関わるプロダクトのサービス開発をしています。先日ローンチしたZOZOFITではGoogle Analytics 4(以下、GA4)を導入しました。本記事ではGA4を導入する際に工夫した点と注意点について紹介します。目次はじめに目次計測プラットフォーム開発本部計測プロデュース部とは計測プロダクトとデータ分析 ZOZOFITとは GA4の導入自動計測screen_viewイベントの無効化手動計測screen_viewイベントの実装 GA4のDebugView設定 GA4とBigQueryの連携 Looker Studio Looker Studioのフィルタ機能 Looker Studi
BigQueryの監査ログをリアルタイムに監視して使いすぎを防止してみる - ZOZO TECH BLOG
- 49 users
- techblog.zozo.com
- テクノロジー
- 2021/01/12
こんにちは。SRE部の塩崎です。七味唐辛子の粉末を7種類に分類するという趣味を発展させて、おっとっとを新口動物と旧口動物に分類するという趣味を最近発明しました。 BigQueryは非常にパワフルなData WareHouse(DWH) SaaSであり、大容量のデータを一瞬で分析できます。しかし、課金額がスキャンしたデータ量に比例するという特徴があるため、意図せずに大量のデータをスキャンしてしまい大金を溶かしてしまうことを懸念する人もいます。 qiita.com そのため、課金額が大きすぎるクエリを発見した際にSlackへ通知する仕組みを作りました。GCP Organization内の全プロジェクトで実行されたBigQueryの監査ログをリアルタイムにチェックすることによってこの仕組みは実現されています。本記事では作成したシステムを紹介します。なお、本記事は以下のQiita記事に着想を得た
データ分析基盤におけるオブザーバビリティの取り組み
- 48 users
- speakerdeck.com/kojim
- テクノロジー
- 2022/04/28
GMOペパボ株式会社では主にGoogle Cloud Platformのサービスを利用してデータ分析基盤を構築し運用しています。その中心となるのがデータウェアハウスのBigQueryとワークフローエンジンのCloud Composerです。また、社内向けのデータ可視化(ダッシュボード)システムではCloud Runを利用しています。データ分析基盤から得られる情報を重要な意思決定に用いるためには、ユーザーに提供しているインフラと同様に、可用性を明らかにし、継続的に可用性を高める Realiability エンジニアリングが必要となります。本講演ではGCPで構築されているデータ分析基盤を題材として、データ分析基盤に求められる可用性や、小規模なチームにおけるオブザーバビリティへの取り組みについてご紹介します。
Google Analytics 4 + BigQueryでよく使う基本的なSQL例
- 48 users
- ex-ture.com
- テクノロジー
- 2020/10/23
マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください！ご要望の内容を記事に起こします！メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、エクスチュアの權泳東(権泳東/コン・ヨンドン)です。 Google Analytics 4 (以下GA4)がリリースされましたね。というわけでGA4のBigQueryエクスポート機能を使って早速データを抽出してみましょう！以前、GA360+BigQueryで私がよく使う基本的なSQL例を紹介しましたが、今回はそれのGA4バージョンです。 1. ページビュー数 GA4の日別ページビューを出してみます。タイムゾーンを任意で変更したいので、event_dateカラムではなくevent_timestampを「Asia/Tokyo」にして使ってます。そ
- BigQuery
- SQL
- google analytics
- google
入社４ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
- 47 users
- creators.bengo4.com
- テクノロジー
- 2024/04/19
データ分析基盤室の otobe（𝕏@UC_DBengineer）です。事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい
CI/CDのボトルネックを把握できていますか？BigQueryでビルド情報ダッシュボードを構築した話
- 47 users
- speakerdeck.com/kesin11
- テクノロジー
- 2021/09/03
https://event.cloudnativedays.jp/cicd2021/talks/1152 開発人数が多く、規模の大きいプロダクトでは最終的な成果物をビルドするだけで1時間以上かかってしまうことも珍しくありません。ですが最初からそれほど時間がかかっていたわけではなく、時間とともに巨大化するコードベース、追加されたステップなどによりいつの間にかどこかの処理がボトルネックとなっていることが多いでしょう。 CIサービスの多くは成功/失敗の情報、全体としてのビルド時間の情報は見やすく提供していますが、各ステップの時間やステップのエラー率などの細かい粒度の情報を時系列で確認する機能までは提供されていないことが多いです。そのため、ボトルネック箇所を特定するためには過去の生ビルドログを自分の目で確認するコストが高い作業が必要でした。そこで、Jenkins, CircleCI, Githu
- CI
- BigQuery
- DevOps
- あとで読む
- cd
GCPでセキュリティガードレールを作るための方法と推しテク
- 47 users
- speakerdeck.com/yuyamada
- テクノロジー
- 2021/01/24
July Tech Festa 2021 winter 登壇資料 #JTF2021w #GCP パブリッククラウドでのセキュリティ担保の方法として、利便性を犠牲にはせずセキュリティを担保しようというガードレールという考え方があり、GoogleCloudではガードレールを設置するために以下のようなサービスを使うことが出来ます。・SecurityCommandCenter ・CloudAssetInventory ・VpcServiceControls 本セッションではこれらのサービスの使い方や、GCPプロジェクトを作成したときにセキュリティ対策としてまずやったほうが良い設定などを紹介します。
- GCP
- セキュリティ
- security
- slide
- BigQuery
- あとで読む
- cloud
- クラウド
BigQueryで行う、機械学習のためのデータ前処理
- 47 users
- speakerdeck.com/hiroaki8388
- テクノロジー
- 2019/12/18
知識と実践を紡ぐGenAI / Connecting Knowledge and experience with GenAI
Google Cloud Workflows でサーバレスなワークフローを構築したので概要を紹介 - Adwaysエンジニアブログ
- 46 users
- blog.engineer.adways.net
- テクノロジー
- 2022/02/18
1 ヶ月ぶりに記事の場へ帰ってきました菊池です。今回は前回の記事「データ基盤をサーバーレスで構築したので概要を紹介」で紹介したシステムで Workflows をどのように使っているのか、概要を紹介したいと思います。よろしくお願いいたします。ちなみに結構満足して使ってます。 Workflows そのものについては書いていないので、Workflows について知りたい方は以下の記事や公式ドキュメント等を参照してください。 Google Cloud のサーバーレスオーケストレーションエンジン、Workflows のご紹介ワークフロー | Google Cloud とはいえ、自分の言葉で Workflows を簡単に紹介すると、YAML でワークフローを記述してサーバーレスで動かすサービスです。イメージ的には GitHub Actions でワークフローの YAML を書いて動かしているの
- GCP
- serverless
- あとで読む
- データ
- tech
BigQueryで傾向スコア分析｜Dentsu Digital Tech Blog｜note
- 46 users
- note.com/dd_techblog
- テクノロジー
- 2019/12/25
電通デジタルで機械学習エンジニアをしている今井です。本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。広告効果ってあったの？広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン（例えば、購入金額や継続期間など）の差である、と言えます。しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。これを反実仮想（counterfactual）と呼びます。そこで提案されたのが平均処置効果（average treatment effect, ATE）です。広告に接触したユーザー群（𝑤=1）と接触していないユーザー群（𝑤=0）とのその後のコンバージョン（𝑦 ）の差を広告効果とするものです。ここで、介入（広告に接触する）の有無以外の条件が公平になるようにユーザー郡が分かれていれ
- BigQuery
- あとで読む
DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
- 46 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/15
こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。データ基盤の全体像まずは、簡単にデータ基盤の全体像を紹介します。左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど
Google、BigQueryをAWSやAzureなどマルチクラウド展開へ、「BigQuery Omni」発表。Google Cloud Next '20:OnAir
- 46 users
- www.publickey1.jp
- テクノロジー
- 2020/07/15
Google、BigQueryをAWSやAzureなどマルチクラウド展開へ、「BigQuery Omni」発表。Google Cloud Next '20:OnAir Googleは、BigQueryをAWSやMicrosoft Azureなどへも展開する「BigQuery Omni」を、オンラインイベント「Google Cloud Next '20:OnAir」で発表しました。 We’re introducing BigQuery Omni, a multicloud analytics solution powered by Anthos. #BigQueryOmni helps you access & analyze data across @googlecloud and other third-party public clouds, all without leaving t
BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog
- 45 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/09/27
G-gen の杉村です。BigQuery のオンデマンドクエリの利用量にフタをする、つまりスキャンデータ量に上限を設けて突発課金を防止する工夫について紹介します。はじめに割り当て (Quota) の設定 Query usage per day 設定手順割り当て画面へ遷移対象の割り当てをフィルタ編集ボタンをクリック割り当てを設定新しい割り当ての確認動作確認クエリのサイズ上限設定クエリ単位での上限設定設定手順 (コンソール) クエリ設定を開く詳細オプションの設定動作確認設定手順 (bq コマンドライン) はじめに BigQuery の課金体系にはオンデマンドと Editions の2つから選択できます。前者はスキャンしたデータ量に応じた従量課金です。後者は確保するコンピュートリソースの量に応じた課金で、オートスケールの幅 (上限と下限) を設定できます。 Editi
BigQuery上のデータマートをクラスタ化したらクエリコストが９割カットできた話 - エムスリーテックブログ
- 45 users
- www.m3tech.blog
- テクノロジー
- 2023/07/07
こんにちは、エンジニアリンググループ、データ基盤チームの木田です。最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。この記事は【データ基盤チームブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに費用最適化のアプローチクラスタ化テーブルとはクラスタ化テーブルの作成方法実際に速く・安くなるのか複合キーによるクラスタリングクラス
- bigquery
- あとで読む
- コンピュータ・IT
- DB
- techfeed
- -
- Google
DeNAがデータプラットフォームで直面した課題と克服の取り組み
- 45 users
- medium.com
- テクノロジー
- 2020/05/19
はじめにこんにちは。この記事はDeNAの小口（Rikiya Oguchi）と長谷川（Ryoji Hasegawa）がお届けします。小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、
MonotaROのデータ基盤10年史（後編） - MonotaRO Tech Blog
- 45 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/12/23
こんにちは。データ基盤グループの香川です。本記事は、MonotaRO のデータ基盤の歴史についての社内での発表の文字起こし記事の後編になります。前編の記事： tech-blog.monotaro.com 前編ではデータ基盤の変遷の概要 2010年頃のデータ基盤販促基盤とDWH（2010~2015) データ基盤構想とBigQueryの導入（2015~2017年) 同期システムの改良とBigQueryデータ基盤の展開（2018) までお話しましたが、後半たる本記事では以下について説明をしていきます。他システムへのデータ提供とEC基盤の展開(2018) 2020年におけるデータ基盤へのデータ同期と利用状況データ基盤の課題：データの管理体制の未整備による局所最適化データ管理のグループ発足、Looker導入・DWH構築歴史を振り返っての学び歴史を振り返ることの意義最後に最後まで
家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
- 45 users
- tech.connehito.com
- テクノロジー
- 2021/05/18
こんにちは。インフラエンジニアの永井(shnagai)です。最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。内容は、ざっくりとこんな話を書こうと思います。データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組みデータ基盤作りに至った経緯コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー
- BigQuery
- embulk
- あとで読む
- ECS
- aws
MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita
- 44 users
- qiita.com/liberaldays
- テクノロジー
- 2020/12/13
本記事はMLOps Advent Calendar 2020の13日目の記事です。こんにちは。昨年本番環境のComposerでやらかしちゃった人です。今年は比較的平穏に機械学習を使用したサービス開発・運用に携われています。携わっているサービスの1つで「MLOpsに必要な情報BigQueryに全部おいてみた」ところ想像以上に便利だったので、その方法について共有させてい頂ければと思います。なお本記事でのMLOpsは予測モデル/ハイパーパラメータのバージョン管理・デプロイ履歴管理推論結果の精度監視 + 入力データの傾向監視を指しています。特に今年はコロナでビジネス環境が日々絶えず変化しているため、これらの施策がサービス品質担保に大きく貢献してくれました。背景毎日一回24時間先までバッチで未来予測し、結果をAPIサーバーにキャッシュする単純なMLサービスに携わっています。なお、予
BigQuery を使って分析する際の tips (part1)
- 44 users
- yoheikikuta.github.io
- テクノロジー
- 2021/11/16
TL;DR BigQuery で分析する際の tips をまとめてみる。長くなりそうなのでいくつかに分割して書く part1 はエディタとして何を使うかとか実行結果の連携などについて書く BigQuery console/DataGrip を使いつつ、結果を GitHub issues/Google Sheets/Bdash Server で共有するという感じで使っている仕事で BigQuery を使って分析することが多いので、いくつかの回に分けて BigQuery を使って分析する際の tips をまとめていくことにする。今回は part1 としてエディタとして何を使うかとか実行結果の連携などについて書く。個人的な探索的・アドホック分析用途の話に限定して、組織的にどういうデータ分析基盤を使うかとかそういう話はしない（会社だと ETL の L として dbt https://www.g
- bigquery
- あとで読む
- tips
- tech
- google
OSSにコントリビュートしてログ収集基盤におけるCloud Pub/Subのリージョン間通信費用を削減した話 - ZOZO TECH BLOG
- 44 users
- techblog.zozo.com
- テクノロジー
- 2021/04/12
こんにちはSRE部の川津です。ZOZOTOWNにおけるログ収集基盤の開発を進めています。開発を進めていく中でCloud Pub/Subのリージョン間費用を削減できる部分が見つかりました。今回、OSSであるfluent-plugin-gcloud-pubsub-customにコントリビュートした結果、Cloud Pub/Subのリージョン間費用を削減できました。その事例を、ログ収集基盤開発の経緯と実装要件を踏まえて紹介します。目次目次ログ収集基盤の紹介開発経緯フロントエンドのログしか取得できない BigQuery ExportはSLAを担保されていないリアルタイムにログを保存できない実装要件ログ送信側の環境に依存しない共通の仕組みで実装する転送されるログの量に応じてオートスケールする構成にする送られてくるログをロストしないリアルタイムにログが保存されるインフラ構成
- bigquery
- fluentd
- ZOZO
- ログ
- あとで読む
SQLたったの2行で機械学習！BigQuery MLを用いたコロナ分析 - Qiita
- 44 users
- qiita.com/k5-taguchi
- テクノロジー
- 2020/10/06
はじめに令和にもなるとSQLを2行書くだけで機械学習できてしまうようです。本記事では、表題の技術BigQuery MLの概要と使い方を調べ、世を騒がせているコロナの分析をしてみました。「SQLで機械学習」や「コロナ分析」に興味がある方は覗いてみてください。本記事の対象者 SQLだけで機械学習したい人コロナ分析に興味ある人機械学習を簡単に試してみたい人機械学習はよく分からんけどデータベースはよくいじるという人本記事の対象でない人データとか機械学習とか難しいから興味ない人機械学習モデルのアルゴリズムとか詳しく知りたい人機械学習つよつよだから自分で独自モデル作って幅広い分析したい人 BigQuery ML概要 BigQueryとは BigQuery MLはBigQuery上のサービスです。BigQueryを知らない方のために簡単にBigQueryについて説明します。BigQu
- BigQuery
- あとで読む
- sql
- qiita
- 機械学習
- データ
- tech
GoとテストとSDKとGCP - KAYAC engineers' blog
- 43 users
- techblog.kayac.com
- テクノロジー
- 2022/12/09
SREチーム(新卒)の市川恭佑です。これはKAYAC Advent Calendar 2022の9日目の記事です。今年の弊社アドベントカレンダーは、筋肉やランニング、さらにはサウナなど、多様性に富んだ面白いエントリが出揃っています。自分も好きなファッションについて書きたくなってしまったのですが、ここはグッと気持ちを抑えて、仕事で触った技術について書きます。 ※ この記事のタイトルは、酒とゲームとインフラとGCPというイベントのオマージュです。仕事の近況報告まず、最近どんな仕事をしているのかについて報告させてください。恐らく誰も興味がないと思いますが、年末のアドベントカレンダー企画ということもあるので...... Amazon Web Services(AWS)を用いた自社サービス今年の4月に新卒入社してから、技術ブログを2本執筆しました。下記がそのリンクです。 techblog.
- gcp
- golang
- go
- あとで読む
- テスト
- 開発
- *あとで読む
BigQuery で ROW_NUMBER(), RANK() を使うな！
- 43 users
- zenn.dev/smzst
- テクノロジー
- 2022/06/19
どういうことかたとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量（計算量）が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい
- BigQuery
- GCP
- performance
- database
- DB
メルカリShopsフロントエンドのパフォーマンスを可視化する | メルカリエンジニアリング
- 43 users
- engineering.mercari.com
- テクノロジー
- 2022/11/11
はじめにこんにちは！ソウゾウのSoftware engineerの@yosanです。「メルカリShops [フライング] アドベントカレンダー2022」5日目を担当します。今回はメルカリShopsで行っている、フロントエンドのパフォーマンスの可視化について説明したいと思います。メルカリShopsにおけるフロントエンドのパフォーマンス可視化メルカリShopsはWebベースのアプリケーションであり、大まかに次のような構成で運用されています。 iOSやAndroidのネイティブアプリケーションに中おいても、メルカリShopsの部分はWebViewによって提供されています。この記事における「フロントエンドのパフォーマンス」とは、いわゆるWeb Vitalsになります。例えば、ユーザがサイトにアクセスしてからコンテンツが表示されるまでに何秒かかっているか、あるいは意図せず画面レイアウトが
SQL で Matrix Factorization を実装しました - TVer Tech Blog
- 43 users
- techblog.tver.co.jp
- テクノロジー
- 2022/07/14
こんにちはデータを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。現状さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3
- BigQuery
- SQL
- 機械学習
- 統計
- データ
「スピード」と「品質」のスイッチング～事業成長を支える生存戦略～ #devsumi / 20210218C1
- 43 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/02/17
Developers Summit 2021【C-1】の発表資料です。 https://event.shoeisha.jp/devsumi/20210218 ---------------------------------------------------------------------------------------------------- メルペイでは「ベンチャーとしてのスピード」と「FinTech領域としての品質」の両立が求められています。目の前のビジネスチャンスに対して、システム開発が追いつかない。この悩みと向き合い、私たちが辿り着いたのは「スピード」と「品質」のスイッチングです。「1.ツール活用によるスピード優先」と「2.システム開発による品質重視」をフェーズごとに使い分けることで、事業成長を支えてきました。本セッションでは、ビジネスとエンジニアリングの両立
マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog
- 43 users
- tech-blog.monotaro.com
- テクノロジー
- 2023/02/15
こんにちは、マーケティング部門広告グループの小林です。この記事ではオンライン広告運用に使っているデータ変換処理をdbtに移行した過程と得られた効果についてご紹介します。モノタロウでは、全社的なデータ活用研修などにより、マーケティングのようなビジネス系の部署でも、SQLを自身で書いてデータ抽出を行い、数字に基づいた意思決定を行っています。その一方で、集計後の数値のズレやドメイン固有のデータの品質管理など、活用が進んだ企業ならではの課題というのも表面化してくるようになってきました。オンライン広告運用においては、投下した費用など配信実績のレポーティング、広告媒体へのデータ送信などのいわゆるELTを安定的に回す仕組みが必要になりますが、処理の自動化やデータの品質まで求められるようになると、「データが抽出できる」だけでは限界が見えてきていました。そこで今回、マーケター自身がデータを管理する立場に
非エンジニアがGoogle Analytics 4とBigQueryを使って3時間でSQLをマスターする（クエリサンプル、練習問題付き） ※2022年1月22日再編集｜石渡貴大@マインディア
- 43 users
- note.com/takastone
- テクノロジー
- 2020/12/24
優秀なインターン生にSQL ZOOだけぶん投げたらほんとに1日でSQL書けるようになった。多少手直しは必要だけど。ほんとにこの記事の通り。https://t.co/yh872H6KrY — Takahiro Ishiwata / 石渡貴大 (@takahirostone) March 3, 2020 このツイートは非常に反響が大きく、非エンジニアのSQL学習欲を改めて感じました。私はもともとマーケターでSQLは書けなかったのですが、前職のGunosyでは全社員が誰でもSQLを書いて分析できる環境が整っていましたし、データ分析部の方が優しく教えてくれたおかげでSQLが書けるようになりました。ただ、そういう環境が自社に整っていないとなかなかSQLを覚えることは難しいのではないでしょうか。かと言って自分で環境構築をするにはサーバーやデータベースの知識が必要になるのでかなり手間と時間がかかって
Lookerの埋め込みダッシュボードを社外提供する上での課題と解決策 - pixiv inside
- 43 users
- inside.pixiv.blog
- テクノロジー
- 2023/07/05
アドプラットフォーム事業部アドプロダクト部データチームでアナリティクスエンジニアをしているucchi-です。普段は主に、pixiv Adsという広告ネットワークのデータ周りを開発しています。 ads.pixiv.net 今回は、pixiv Adsで採用している、Lookerの埋め込みダッシュボードについて紹介します。はじめにピクシブでは全社的にLookerを使用しています。Lookerを使うことで、BigQueryに保存されている品質の高いデータを気軽に分析することができ、社内の仮説検証や意思決定に役立っています。一方で、Lookerは社内の分析用途だけではなく、社外へのデータ提供にも活用できます。具体的な手段はいくつかありますが、pixiv Adsでは、「シングルサインオン（SSO）組み込み」という形式で、クライアント向けの広告管理画面にLookerのダッシュボードを埋め込ん
- Looker
- あとで読む
Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表
- 42 users
- www.publickey1.jp
- テクノロジー
- 2023/06/06
Google Cloud、AWSやAzureと10Gbps/100Gbpsの専用回線でインターコネクトできる「Cross-Cloud Interconnect」を発表 Google Cloudは、AWSやMicrosoft Azureなど競合他社のクラウドに10Gbpsもしくは100Gbpsの高速な専用回線を通じてインターコネクト可能なネットワークサービス「Cross-Cloud Interconnect」を発表しました。 Seamless #multicloud connectivity is here. Our new Cross-Cloud Interconnect lets you connect any public cloud with Google Cloud through our secure, high-bandwidth global network. pic.twi
- gcp
- publickey
- あとで読む
- network
- techfeed
- software