[2ページ] bigqueryの人気記事 700件 - はてなブックマーク

41 - 80 件 / 700件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

bigqueryの検索結果41 - 80 件 / 700件

我が家の BigQuery による台所事情分析 - nownab.log
- 186 users
- blog.nownabe.com
- テクノロジー
- 2021/07/17
弊家では銀行やクレジットカードの明細を BigQuery に取り込んでダッシュボードを作ったりしています。また、そのために作った BigQuery 向けの Go 製 ETL フレームワークを OSS として公開しました。本記事ではざっくりどんなもんかを紹介して、どう作るのかを説明します。 Google Cloud Platform Advent Calendar 2020 の 13 日目の記事です。 Google Cloud Japan の Customer Engineer の Advent Calendar もぜひご覧ください。 TL; DR 明細が BigQuery にあると、可視化もできるしアラートも出せるし、まぁなんでもできて便利銀行明細レベルのデータならほぼ無料で保存、ETL、分析できる ETL フレームワーク bqloader を OSS として公開したから使ってくれよ
- BigQuery
- GCP
- あとで読む
- 家計簿
- 分析
- クラウド
［速報］Google、AIが支援してくれる「Duet AI」サービス群を多数展開へ。Google WorkspaceやBigQuery、Looker、Meet、Chatなど。Google Cloud Next '23
- 177 users
- www.publickey1.jp
- テクノロジー
- 2023/08/29
［速報］Google、AIが支援してくれる「Duet AI」サービス群を多数展開へ。Google WorkspaceやBigQuery、Looker、Meet、Chatなど。Google Cloud Next '23 Googleは、8月29日（日本時間の30日未明）から米サンフランシスコで開催中のイベント「Google Cloud Next '23」で、AIが人間の作業を支援してくれる「Duet AI」サービス群を多数発表しました。同社が提供するオフィススイート製品であるGoogle Workspaceをはじめ、大規模データ分析サービスのBigQuery、オンライン会議サービスのGoogle Meet、チャットサービスのGoogle Chatなど、多数のサービス向けにAIによる支援サービスが展開されます。オフィスツールから開発、運用、セキュリティ対応まで支援今回発表されたものとすで
- AI
- google
- あとで読む
- サービス
- Duet
- Google Cloud
- 人工知能
- techfeed
- Cloud
構造化ログのフォーマット logfmt vs JSON lines - methaneのブログ
- 173 users
- methane.hatenablog.jp
- テクノロジー
- 2024/03/04
構造化ログのプラクティスをあちこちで調べていたら、logfmtを推奨する記事を見つけたので調べてみました。先に結論を言うと、JSON linesを使っておくのが良さそうです。 logfmt について logfmtとはスペース区切りで key=value を並べたフォーマットです。文字列にはクォートとエスケープによってスペースや改行を含められます。 at=info method=GET path=/ host=mutelight.org fwd="124.133.52.161" dyno=web.2 connect=4ms service=8ms status=200 bytes=1653 (logfmt から引用) あちこちで logfmt のリファレンスとして紹介されているのはこの記事です。 https://brandur.org/logfmt 発明されたのはどこか分かりませんが、流行
- logging
- あとで読む
- json
- ログ
- log
300万テーブルのデータ流通を支えるエンジニアリング #GoogleCloud #GoogleCloudDay / 20230523
- 170 users
- speakerdeck.com/kazaneya
- テクノロジー
- 2023/06/09
テクノロジーカンファレンス「Google Cloud Day ’23 Tour in TOKYO」の登壇資料です。詳細は当社ニュースをご参照ください。 https://kazaneya.com/5a50c1c1bb7b42f1bd9eb7b35d813ba1 --- スモールチームで 300 万テーブル規模のデータ基盤を構築・運用し、社内・社外にデータを提供しています。スケーラブルな仕組みやデータ流通を実現するヒントになればと思います。具体的には - BigQuery へのマイグレーション - dbt によるデータモデリング - IAM や AnalyticsHub によるデータ共有 - BigQueryML による異常検知 - CS 活動におけるデータ活用といったテーマを扱います。 ---------------------------------------------------
- GCP
- あとで読む
- BigQuery
- データベース
- データ
- 技術
- data
ログ調査基盤を構築してみた
- 169 users
- zenn.dev/coconala
- テクノロジー
- 2024/03/28
こんにちは。株式会社ココナラのインフラ・SREチーム所属のかずです。システム運用において、有事の際に迅速かつ適切なシステム稼働状況の確認は欠かせません。その手段の1つとして、ログの調査や分析の効率化は切っても切れない関係です。システムが成長するにあわせ、ログの種類や量が多くなり、結果としてログの調査や分析が難しくなるのはよくある話かと思います。弊社でもサービスのグロースに伴って、ログの種類や量が多くなり、結果としてログの調査や分析で課題を抱えていました。具体的には以下の2点です。ログから原因調査を行うには、複数ログを横断・突き合わせが必要ログの追跡に必要な情報がログに出力されない場合があるそこで、課題への対応としてログ調査基盤の構築を行いました。本記事では背景や苦労したこと、効果についてご紹介します。複数ログの横断調査実現に向けてログ調査基盤の構築苦労したこと
- ログ
- あとで読む
- log
- 分析
- システム
- 統計
- aws
- 開発
- インフラ
AWSが提唱するゼロETLとは何か？概念と登場の背景の推察 - NRIネットコムBlog
- 163 users
- tech.nri-net.com
- テクノロジー
- 2023/02/27
こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。データ分析とETLの現状と課題ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか？単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて
- aws
- etl
- あとで読む
- Aurora
- redshift
- データ
- sql
- data
- bigquery
- データ分析
"壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
- 158 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/04
こんにちは。MackerelチームにおいてCRE（Customer Reliability Engineer）をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。なぜ壊れにくいデータ基盤を構築するのかデータ基盤が“壊れている”とはどういうことか壊れてないだけでなく、壊れたら気付ける前提とするシステム構成壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視するそもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除おわりに参
- bigquery
- あとで読む
- Mackerel
- データ
- データ分析
- 監視
- データ基盤
- sql
- monitoring
- チーム
Google CloudがBigQueryでAWS、Azure上のデータを動かさずに分析できる「BigQuery Omni」を発表
- 157 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/14
Google Cloudは2020年7月14日（米国時間）、アナリティクスサービス「BigQuery」のマルチクラウド対応を発表した。Amazon Web Services（AWS）やMicrosoft Azure上のデータを動かすことなく、BigQueryによるマルチクラウドのデータ分析ができる。 Google Cloudは同日、AWSの「Amazon S3」に対応したプライベートα版の提供を開始した。Azureへの対応は近い将来（「soon」）に行うという。 BigQuery Omniでは、Google Cloudがマルチクラウド対応を進めるマネージドKubernetesサービス、「Anthos」を活用する。BigQuery OmniとしてAWSやAzureに展開するAnthosクラスタ上で、BigQueryのクエリエンジンである「Dremel」をマネージドサービスとして動かす。その上
- BigQuery
- aws
- GCP
- Azure
- google
- データ
- あとで読む
- cloud
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
Google、iPaaS「Application Integration」正式リリース。Salesforceやkintone、BigQuery、MySQLなど多数のサービスをGUIで接続
- 147 users
- www.publickey1.jp
- テクノロジー
- 2023/07/25
Google、iPaaS「Application Integration」正式リリース。Salesforceやkintone、BigQuery、MySQLなど多数のサービスをGUIで接続 Google Cloudは新サービス「Applicatoin Integration」の正式リリースを発表しました。 Application Integrationは、さまざまなサービスを統合する、いわゆる「iPaas」（Integration PaaS）と呼ばれるサービスです。 Announcing the general availability of Application Integration—part of our Integration Services portfolio to help you connect your apps visually, with no code Get st
- gcp
- あとで読む
- google
- bigquery
- cloud
GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから
- 146 users
- www.publickey1.jp
- テクノロジー
- 2020/09/01
GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるからいまから6年前の2014年、当時ようやくDockerコンテナが世の中に知られるようになってきた頃、Googleはすでに社内のすべてのソフトウェアをコンテナ化しており、毎週20億個ものコンテナをクラウド上で起動していると発表し、多くのエンジニアを驚かせました。この大規模なコンテナの制御、すなわちオーケストレーションを行っていたのが同社内で「Borg」と呼ばれるソフトウェアです。そしてKubernetesはこのBorgを基に、Googleがオープンソース化したコンテナオーケストレーションソフトウェアだとされています。 Borgの大規模分散コンテナ基盤でBigQueryが成立するこのBorgによる大規模分散コンテナ基盤があるからこそ、BigQueryが安価に提供できるのだと、Google
- GCP
- あとで読む
- Google
- bigquery
- 仮想化
- techfeed
- AWS
［速報］マイクロソフト、「Azure Synapse」発表。BigQuery対抗の大規模並列データ処理サービス。Ignite 2019
- 144 users
- www.publickey1.jp
- テクノロジー
- 2019/11/05
フロリダ州オーランドで開催中のマイクロソフトのイベント「Microsoft Ignite 2019」が開催中です。その基調講演において同社CEOのサティア・ナデラ氏は、大規模並列データ分析サービス「Azure Synapse Analytics」を発表しました。同社は現在、大規模データウェアハウス向けのサービスとして「Azure SQL Data Warehouse」を提供していますが、「Azure Synapse」はそれをさらに発展させたもの。データウェアハウス、ビッグデータ分析、データ統合などを1つのサービスとして統合し、事実上データ容量に上限がなく、ペタバイトクラスのデータでも高速に処理できる性能を提供します。リレーショナルデータベースのような構造化されたデータおよび非構造化データのいずれにも対応し、SQLによって分析可能です。そのために「Azure Synapse」では最
- azure
- microsoft
- BigQuery
- あとで読む
- sql
- データ
- publickey
- analysis
- ms
- インフラ
データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog
- 138 users
- product.10x.co.jp
- テクノロジー
- 2023/07/31
Analytics Engineerの吉田(id:syou6162)です。BigQueryを中心に10X社内のデータ関連の管理をしています。10Xに入社してそろそろ一年になろうかとしていますが、データ基盤を適切に管理 / 運用するためにSQLによる監視を少しずつ取り入れています。この記事では、具体的にどのようなSQLを書いて監視しているのか紹介したいと思います。なお、SQLを使ったデータ基盤の監視自体については私の前職のTech Blogで詳細に書いていますので、そちらを参照してください。 SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog データ管理に役立つメタデータに関する勉強会を社内外で開催しました - MonotaRO Tech Blog 本エントリはこれをベースに「dbtをフルに活用している10Xの環境向けに入れた監視」や「BigQuer
- bigquery
- SQL
- あとで読む
- データ
- 監視
- ToDo
- techfeed
- 統計
機械学習を記事配信に採用したママリ - 0から構築したレコメンドエンジンのアーキテクチャ設計 - エンジニアHub｜Webエンジニアのキャリアを考える！
- 138 users
- eh-career.com
- テクノロジー
- 2020/03/24
機械学習を記事配信に採用したママリ - 0から構築したレコメンドエンジンのアーキテクチャ設計コネヒト株式会社が運営する女性向け情報サービス「ママリ」では、2019年12月に記事配信で機械学習によるレコメンドエンジンを構築、2020年初頭にテストが完了しました。機械学習を採用した背景、設計したアーキテクチャとテストの結果について伺いました。コネヒト株式会社が運営する、女性を対象とした情報サービス「ママリ」は、2014年のリリース以降、着実にユーザーを増やし、2020年3月現在、アプリ会員数は240万人（日本で2019年に出産した中で3人に1人が利用）、ママたちが集まるオンラインコミュニティとして定着しています。ママリでは2019年12月、サービス内に掲載する記事の配信について機械学習を採用したレコメンドエンジンへ変更し、2020年初頭にテストが完了、いよいよ正式リリースとなりました
Four Keys 〜自分たちの開発レベルを定量化してイケてる DevOps チームになろう〜
- 136 users
- blog.recruit.co.jp
- テクノロジー
- 2021/03/31
はじめにこの記事タイトルに興味をもって読み始めていただいている方の多くは、ソフトウェアエンジニアとしてチームで開発をしていたり、エンジニアリングマネージャーとしてチームビルディングやマネジメントをされている方なのではないかと思います。実際、この記事を書いている加藤も、リクルートライフスタイルのデータプラットフォームグループ (以前は CETチームと呼ばれていました) に所属するデータエンジニアとして、データ活用のための基盤開発・運用を行っている一人です。また、担当している社内データプロダクトのプロダクトマネージャーも兼任しています。本記事では、自分の所属している DevOps チームを「イケてる DevOps チーム」にするために取り組んだ内容や気づいた点をお伝えしたいと思っています。目次はじめに「イケてる」DevOps チームってなに？ Four Keys とはなぜ Fo
- devops
- あとで読む
- 開発
- チーム
- BigQuery
- development
- google
- github
データマネジメントなき経営は、破綻する。by @yuzutas0 / 20200419
- 133 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/04/19
データマネジメントなき経営は、破綻する。〜2つのデータ分析プロジェクトに学ぶ「残酷な真実」〜第1回 DLG Cross (データマネジメントとデータパイプライン) の発表資料です。 https://data-learning-guild.connpass.com/event/170177/ データマネジメントの Why（なぜ必要か） What（どんな活動なのか） How（どうやるのか）について、データ分析プロジェクトの成功例と失敗例を比べながら紹介します。参考文献『データマネジメントが30分でわかる本』 https://amazon.co.jp/dp/B085W4YSZJ/ [2020-04-21] 一部表現を修正しました。
- データ基盤
- データ
- 分析基盤
- マネジメント
- あとで読む
- DX
- 分析
- data
- 経営
- データ分析
ZennにみるCloudRunとBigQueryによるアプリケーション構築 / zenn-cloudrun-bigquery-serverless
- 131 users
- speakerdeck.com/wadayusuke
- テクノロジー
- 2023/09/23
Zennは、クラスメソッドが展開する技術者向けの知識共有プラットフォームです。Cloud Runを中心としたGoogle Cloudのソリューションをメインで使用しており、スケーラブルなWebアプリケーションとなっています。このセッションでは、「サーバーレスとはなにか」という部分から改めてディスカッションし、アプリケーションをスケーラブルに、ビジネスに集中するという目的に対してZennがどうアプローチしているかを解説します。また、Google Cloud を利用するモチベーションのひとつにBigQueryの存在があると思います。Zennでも統計機能に利用しており、アプリケーションとどのように統合しているか紹介、それがどの程度 Google Cloud を使う理由になるか議論します。サーバーレスアプリケーションを組むときに、みなさまの選択肢をひとつ増やし、結果的によりニーズに合致したア
- cloudrun
- あとで読む
- BigQuery
- serverless
- zenn
- GCP
- アーキテクチャ
- slide
- cloud
- architecture
GoでSQLの複雑なクエリのテストを書いてみた - ZOZO TECH BLOG
- 125 users
- techblog.zozo.com
- テクノロジー
- 2023/10/10
はじめにこんにちは。ブランドソリューション開発本部FAANSバックエンドブロックの佐野です。普段はサーバーサイドエンジニアとして、FAANSのバックエンドシステムを開発しています。 FAANSとは、弊社が2022年8月に正式ローンチした、アパレル店舗で働くショップスタッフの販売サポートツールです。例えば、コーディネート投稿機能や成果確認機能などを備えています。投稿されたコーディネートはZOZOTOWNやWEAR、Yahoo!ショッピング、ブランド様のECサイトへの連携が可能です。成果確認機能では、投稿されたコーディネート経由のEC売上やコーディネート閲覧数などの成果を可視化しています。本記事では、成果データの集計処理におけるBigQueryのクエリ実行処理のユニットテストをGoで実装した取り組みと、その際の工夫についてご紹介します。目次はじめに目次成果データの集計処理とは抱え
- SQL
- あとで読む
- BigQuery
- golang
- go
- テスト
- test
- tdd
ネットスーパーにおける商品在庫データのアプリケーション構築事例
- 123 users
- speakerdeck.com/10xinc
- テクノロジー
- 2022/11/11
テストの完了をゴールにしない！～仮説検証を繰り返し、開発・QA・ユーザーが交流しながら開発することで見えてくる理想の姿～ - #RSGT2024 #DevSumi / Shift left and Shift right
- 設計
- あとで読む
- BigQuery
- データ
- テスト
- システム
- 開発
データ集計基盤の改善でLooker導入に至ったワケ - ZOZO TECH BLOG
- 118 users
- techblog.zozo.com
- テクノロジー
- 2019/11/15
こんにちは。開発部データエンジニアの遠藤です。現在、私はデータ×テクノロジーでZOZOグループのマーケティングを支援するデータチームに所属して、データ処理基盤の運用などに従事しています。本記事では、Lookerを用いて運用中のデータ集計基盤をきれいなデータをスマートに取り出せる基盤に改良した件について報告します。データ集計基盤で燻っていた問題 1. クエリ管理の限界 2. 集計定義に対するデータの信憑性が謎 Lookerは何が良い？～データガバナンス機能～ LookML データディクショナリ Gitによるバージョン管理データ集計基盤（改）の設定フローデータ集計基盤（改）でのデータマート更新まとめデータ集計基盤で燻っていた問題 ZOZOでは、サービスに関するあらゆるデータをBigQueryに集約しています。BigQueryに集約した大量のデータからデータマートとして必要なデータ
- Looker
- あとで読む
- データ
- locker
- データ基盤
- sql
- BigQuery
- git
［速報］BigQueryが非構造化データのサポートを発表。これで構造化データ（RDB）、半構造化データ（JSON）、非構造化データをサポート。Google Cloud Next '22
- 117 users
- www.publickey1.jp
- テクノロジー
- 2022/10/12
Google Cloudは、開催中のイベント「Google Cloud Next '22」において、大規模データ分析サービスのBigQueryで非構造化データのサポートを発表しました。 BigQueryは今年1月にJSON型データへのネイティブ対応をパブリックプレビューとして公開しています。参考：BigQueryがJSONにネイティブ対応。SQLでJSONに対するクエリが可能にこれでBigQueryは今回の非構造化データのサポートにより、RDBのテーブルに格納された構造化データと、JSONなどによる半構造化データそして非構造化データの3つをすべてサポートする柔軟な大規模データ分析基盤になるわけです。 Google Cloud Storageバケットのテーブル形表現 BigQueryの非構造化データサポートはObjectテーブルによって実現され、画像や動画、音声、テキストなどのデータが扱
- bigquery
- あとで読む
- google
- GCP
- database
BigQueryのセキュリティ対策手順
- 116 users
- techblog.kazaneya.com
- テクノロジー
- 2022/08/30
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。風音屋アドバイザーの山田雄（@nii_yan）です。データ活用においてセキュリティ対策が最重要トピックであることは言うまでもありません。風音屋でBigQueryの導入支援を行うにあたって、どのようなセキュリティ対策を行っているのかをご紹介します。この記事の全体像この記事は2つのパートに分かれています。最初に、BigQuery導入プロジェクトを始めるにあたって、セキュリティ観点でどのようなコミュニケーションが必要になるかを説明します。次に、一般的な情報セキュリティ対策である「抑止」「予防」「検知」「回復」の4つの観点にもと
はじめての「簡単なお仕事」は簡単ではない。 - MonotaRO Tech Blog
- 115 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/06/22
モノタロウでスマホアプリを担当しているuw_shioです。今回は増員をしていった結果、各自がそれぞれ頑張るようなチームとなってしまった状況から、ペアワークをきっかけに、ペアプロ、モブプロが文化となってチームとしてワークできるようになったお話をします。組織の規模が拡大していく過程において、属人化された業務を個人単位で行う働き方から組織としてワークする形へのシフトは避けて通れない道となります。そんな時に悩みの種となりやすいのが、業務の属人化やメンバーの育成ではないでしょうか。部下や後輩に新しい業務を引き継ごうとしても時間がかかり上手くいかない、そんな経験ありませんか？私は過去に何度もありました。例えば、アフリカーンスなど未知の言語を習得するというタスクをアサインされたとしたら、何から始めて良いか分からず漠然とした不安を感じるのではないでしょうか。新しいこと、とりわけ新しい業務に対しては
GCPをフル活用して東京五輪の2週間で約5000万ツイートをさばいた話 - JX通信社エンジニアブログ
- 115 users
- tech.jxpress.net
- テクノロジー
- 2021/09/08
はじめまして。JX通信社でデータアナリストをしている @nrtaking です。弊社では、7/23〜8/8に行われた東京オリンピック、8/25〜9/5に行われた東京パラリンピックにあわせて関連した日本語ツイートを全量収集し、Twitter Japanなど各社に提供していました。内容に関する簡単な分析についてはプレスリリースでお伝えしているので、そちらもあわせてご覧ください。 prtimes.jp 実はこのツイート収集システムは、2週間ほどでほぼゼロから立ち上げたものでした。今回は五輪関連のツイート収集を支えた技術について紹介します。叶えたかった要件五輪に関するツイートを、NTTデータの提供するAPIからストリームで受け取り続けるツイート量などの統計情報やRTが多いツイート情報をダッシュボードの形で見ることができる上記を（ほぼ）リアルタイムで実現できる実はこの取り組みにあたり
- gcp
- 監視
- あとで読む
- BigQuery
- Python
- 通信
Big Data is Dead
- 111 users
- motherduck.com
- テクノロジー
- 2023/02/08
For more than a decade now, the fact that people have a hard time gaining actionable insights from their data has been blamed on its size. “Your data is too big for your puny systems,” was the diagnosis, and the cure was to buy some new fancy technology that can handle massive scale. Of course, after the Big Data task force purchased all new tooling and migrated from Legacy systems, people found t
ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG
- 109 users
- techblog.zozo.com
- テクノロジー
- 2020/08/27
こんにちは、SRE部MA基盤チームの谷口（case-k）です。私達のチームでは、データ連携基盤の開発・運用をしています。データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデータ連携基盤についてご紹介します。既存のデータ連携基盤の紹介リアルタイムデータ連携基盤の紹介なぜ必要なのか活用事例の紹介データ連携の仕組みと課題リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討アーキテクチャ概要と処理の流れ Fluentdのプラグインを使った差分データの取得 Dataflowでメッセージの重複を排除 Dataflowで動的にBigQueryの各テーブルに出力 Pub/Subのメッセージ管理イベントログ収集基盤個人情報の取り扱いビルド・デプロイ戦略監視データ
- fluentd
- BigQuery
- あとで読む
- データ
- cloud
- クラウド
- ZOZO
- google
- GCP
- data
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
- 108 users
- developer.hatenastaff.com
- テクノロジー
- 2020/04/16
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
バッチ処理のスケジューリングパターン
- 105 users
- medium.com
- テクノロジー
- 2019/12/12
この記事はこの記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 12日目の記事です。はじめにGoogle Cloud Platform (GCP) でバッチ処理を起動するための以下のパターンについてご紹介したいと思います。以下、８パターンあげてみました。とはいえ、最後の3つは GCP のバッチスケジューリングという観点からは少し外れますが、バッチの起動時に使われるということでご容赦を。 Cloud Scheduler : フルマネージドな cron ジョブスケジューラです。フルマネージドという点が非常に大きなメリットであり、多くの処理を自動化し実行することが可能です。Google App Engine cron サービス : HTTP GET を利用して、特定の URLを呼び出します。Google AppEng
- GCP
- cron
- あとで読む
- BigQuery
- google
- airflow
- batch
- パターン
- cloud
列指向、行指向データベースの特性を木構造を用いた集計クエリから理解する
- 101 users
- zenn.dev/loglass
- テクノロジー
- 2024/04/12
この記事は毎週必ず記事がでるテックブログ "Loglass Tech Blog Sprint" の 34 週目の記事です！ 1 年間連続達成まで残り 19 週となりました！株式会社ログラスの龍島（りゅうしま）です。最近はもっぱら新生姜をガリにしてクラフトビールのつまみにする毎日を送っています。今日はデータベースとデータ構造の話です。この記事でやることデータ集計の高速化のため、多くの場合、列指向データベースが選ばれます。列指向が大量のデータ操作を効率的に処理できるためです。行指向のデータベースを利用している状況で、データ集計のパフォーマンス向上のため列指向データベースへの移行をすることはよくある例です。しかし、行指向データベースで有効なデータ構造やクエリが列指向で同様に優れているとは限りません。この記事では、行指向のPostgreSQLと列指向のBigQueryを使って、それぞれに
メルペイにおける大規模バッチ処理 | メルカリエンジニアリング
- 101 users
- engineering.mercari.com
- テクノロジー
- 2019/06/05
この記事は MERPAY TECH OPENNESS MONTH の 13日目の記事です。こんにちは、メルペイソフトウェアエンジニアの laughngman7743 です。メルペイではマイクロサービスにおけるデータストアのデータや、アプリケーションのログを有効活用できるような基盤づくりをデータプラットフォームチームとして行っています。データプラットフォームではラムダアーキテクチャに基づき、スピードレイヤとして Cloud PubSub と Cloud Dataflow を利用した仕組みに加え、バッチレイヤとして Cloud Composer と Cloud Dataflow を利用した仕組みを構築しています。この記事ではバッチレイヤのアーキテクチャについてご紹介します。スピードレイヤのアーキテクチャについては「GCPでStreamなデータパイプライン始めました」を参照くださ
より信頼できるクエリを書くために、SQLでもテストを書く - ハヤオキスルフクロウ
- 97 users
- fkubota.hatenablog.com
- テクノロジー
- 2024/01/29
はじめにこんにちは、久しぶりに技術系の記事を書きます、株式会社カンムで機械学習エンジニアをしている fkubota です。今日はSQLについてです。弊社に入社してから毎日のようにSQLのクエリを書いてきました。クエリを書き始めてからもう3年が経とうとしています。日々クエリを書きながら少しずつ自分のスタイルが出来上がってきているのを日々実感しています。僕は正確で読みやすく再利用しやすいクエリを高速に生み出すための工夫を重ねてきました。結果的にテスト駆動開発ぽいスタイルが生まれたので今日は紹介してみようと思います。似たような記事がないので少しドキドキですが温かい気持ちで読んでもらえると嬉しいです。対象読者対象読者は、分析のためにクエリを書いている人とします。プロダクトに乗せるクエリというより、ビジネス的になにか示唆を得たいときにクエリを書く人を想定します。痛み
- sql
- あとで読む
- テスト
- test
- DB
データエンジニア / Analytics Engineer向けの権限管理のためのTerraform紹介 - yasuhisa's blog
- 96 users
- www.yasuhisay.info
- テクノロジー
- 2023/03/09
これは何? 背景: 権限管理とTerraform 権限管理の対象誰に権限を付与するのかどのスコープで権限を付与するのかどの強さで権限を付与するのか Terraformについて Terraformの概要: 権限管理でTerraformを使うと何がうれしいのか例: roles/bigquery.jobUserを付与してみるコラム: どこでTerraformを実行するか Terraformでの権限管理の例例: データセットの作成例: データセットに対する権限付与サービスアカウントの管理 iam_member関連の注意点: AdditiveとAuthorativeを意識する Terraformで管理されていなかったリソースをTerraform管理下に置く: terraform import Terraformの登場人物 terraform planやterraform applyの
- Terraform
- あとで読む
- bigquery
- iam
- gcp
- データ
dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
- 90 users
- tech.high-link.co.jp
- テクノロジー
- 2022/09/09
はじめにこんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。私たちもまさにこのような問題に直面し、導入したのがdbtです。今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。私たちのようにデータマネジメントにがっつり人的リソースを割けない
DMM 百万長者を支える技術 - DMM inside
- 90 users
- inside.dmm.com
- テクノロジー
- 2020/03/02
｜DMM inside
- Nuxt.js
- aws
- あとで読む
- dmm
- CloudFront
- 技術
- サーバ
お手軽な検索API構築 | メルカリエンジニアリング
- 89 users
- engineering.mercari.com
- テクノロジー
- 2021/09/07
こんにちは、メルペイソリューションチーム所属エンジニアの＠orfeonです。この記事は Merpay Tech Openness Month 2021 5日目の記事です。メルペイソリューションチームでは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。基本的なアイデア全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二
- solr
- あとで読む
- 検索
- API
派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog
- 87 users
- www.yasuhisay.info
- テクノロジー
- 2023/10/09
3行まとめテーブルの撤退時にはテーブルの参照回数を見ることが多いと思いますが、テーブル単独の参照回数を見るだけだと不十分なことが多いです派生先のテーブルの参照回数まで考慮すると、テーブルが撤退できるか安全に判断することができますリネージ上の親子関係をWITH RECURSIVEで考慮しながら、累積参照回数をSQLで導出できるようにし、安全にテーブル撤退を判断できるようにしました 3行まとめ背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分アイディア: 累積参照回数を計算する実装テーブル間の親子関係を抽出する WITH RECURSIVEでテーブルの親子関係を辿るテーブルの親子関係を考慮しながら、累積参照回数を計算するまとめ背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分データエンジニアやアナリティクスエンジニアの仕事をしていると、
- BigQuery
- あとで読む
- dbt
- SQL
- DB
- development
- 資料
Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
- 85 users
- techblog.finatext.com
- テクノロジー
- 2021/03/18
はじめにこんにちは、Finatextで証券プラットフォーム（Brokerage as a Service、以下BaaS）の開発に携わっている石橋（@bashi0501）です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善（後述します）に活かしていきたいという意図があるため、マ
- bigquery
- あとで読む
- embulk
- firehose
- finatext
- ログ
- Athena
- logging
- aws
- log
ZOZOTOWNの事業を支えるBigQueryの話 / BigQuery behind ZOZOTOWN
- 85 users
- speakerdeck.com/shiozaki
- テクノロジー
- 2020/07/18
タイムトラベルはじめました〜時をかけるBigQuery〜 / Now serving Time Machine 〜BigQuery Which Leapt Through Time〜
BigQueryによる最大内積検索の実装
- 83 users
- blog.recruit.co.jp
- テクノロジー
- 2022/11/04
はじめに機械学習エンジニアの本田志温です。最近担当した類似アイテム推薦の案件で、BigQueryを使って最大内積検索（MIPS; maximum inner-product search）1 を実装したので、その方法と高速化のテクニックを紹介します。類似アイテム推薦は「多数のアイテム候補から、クエリとなるアイテムに最も類似したK件を抽出する」というタスクなので、MIPSないし近傍探索の枠組みで解くことが一般的です。一定の規模を持つサービスでMIPSを実装しようとすると、アイテム数×特徴量次元の行列が何かと厄介です2。第一に、MIPSを素朴な行列積で実装すると、時間・空間計算量がアイテム数の2乗でかかってきます。典型的には空間計算量の方がボトルネックになりやすく、RAMの制約に収めるための工夫が必要になるでしょう。第二に、アイテム数が膨大な場合、特徴量マートから全アイテムの特徴量を転送
- BigQuery
- あとで読む
- 検索
- techfeed
- tech
- 技術