タグ

BigQueryに関するyubessyのブックマーク (8)

  • MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog

    おしらせ:12/23 に後編記事がでました! tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。 現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。 およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。 データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。 そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを

    MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
  • Google Cloud Platformを用いた形態素解析 - ペパボ研究所ブログ

    ペパボ研究所 研究員の野村(@komei)です。 ペパボでは、自社が運用するウェブサービスのユーザの行動ログや属性情報などを収集・分析・活用するための基盤として「Bigfoot」を運用しており、今年Google Cloud PlatformGCP)を使った構成への移設を行いました。 記事では、Bigfootの移設先であるGCPを用いて形態素解析を行う方法についてお話しします。 形態素解析を行う動機 ペパボでは、ユーザの行動ログや属性情報だけでなく、ユーザからのお問い合わせや商品情報など様々なデータをBigfootに蓄積しています。 これらのデータの中には、ユーザからのお問い合わせの文書や商品の説明文などの日語の文書データも多く含まれています。 このような文書データから意味のある情報を抽出し活用するためには、まず文書に含まれている単語を把握する必要があります。 そして、TF-IDFやw

    Google Cloud Platformを用いた形態素解析 - ペパボ研究所ブログ
  • 数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング

    SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。 記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。 背景 当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。 しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。 課題 メルカリでは販売済み商品を物理削除していないため、

    数百GBのデータをMySQLからBigQueryへ同期する | メルカリエンジニアリング
  • BigQuery の SQL で類似文字列検索をする - 唯物是真 @Scaled_Wurm

    BigQuery自体には類似文字列検索の機能はないので、文字n-gramのコサイン類似度を求めるSQLを書いて似ている文字列の検索をします ちなみに単純にある文字列が別の文字列に含まれているかどうかをみたいならWHEREにカラム名`LIKE '%探したい文字列%'のような条件を書いたりStandard SQLならSTRPOS(カラム名, '探したい文字列') != 0、Legacy SQLならカラム名 CONTAINS '探したい文字列'のように書けばよいはずです 文字n-gramのコサイン類似度による類似文字列検索 方針としては文字列同士を、文字n-gramのベクトルとみなしてコサイン類似度を計算します 文字n-gram 文字n-gramは連続したn文字のことで、これをカウントしたものをベクトルの要素とみなします 例えば文字bigram(2文字のn-gram)のベクトルを「BigQuer

    BigQuery の SQL で類似文字列検索をする - 唯物是真 @Scaled_Wurm
  • BigQuery に関する12の誤解の真相を明らかにする

    この記事は Busting 12 myths about BigQuery の著者の許可を得た上で @yutah_3 が日語訳、補足したものです。個人的に気になった話等を含めて “訳者注” を入れながら翻訳します。 割と最近、 Forrester Research のレポート The Forrester Wave™: Insight Platforms-As-A-Service, Q3 2017 では Google Cloud は Leader のポジションとして位置付けられました。 BigQuery がこの中で果たした功績は間違いなく大きいでしょう。 私達は日々、スタートアップから大企業のお客様に至るまで、多様な Google BigQuery をお使いのお客様と、お客様の分析やデータウェアハウスに関する課題を解決するために一緒に取り組んでいます。多くの場合、私達のお客様は BigQu

    BigQuery に関する12の誤解の真相を明らかにする
  • Digdagを使ってBigQueryからテーブルをAvroフォーマットでExportする - Qiita

    Digdagのワークフロー定義で直接BigQueryを操作できるようになっていたので試してみた。 実行環境:GCP CloudShell digdag version: 0.9.5 digdagのインストール手順は省略: 今回試したのはBigQueryのあるテーブルをAvroフォーマットでGCSに格納する例。 BigQueryやGCSにアクセスするためには個人のアカウントやサービスアカウントを利用するが、処理の自動化を行う際はサービスアカウントを作るのが妥当。 サービスアカウントを作成し、鍵をjson形式でファイル出力する。このファイルをjson.keyとしてCloudShell上に配置。 DigdagのワークフローからGCPにアクセスするためには、Secrets情報としてgcp.credentialを設定する必要がある。 Digdagは秘密情報(パスワードや鍵など)をセキュアに管理するた

    Digdagを使ってBigQueryからテーブルをAvroフォーマットでExportする - Qiita
  • Google Cloud Functions [Alpha] を使って GCP の課金データを BigQuery に投入してみた - Qiita

    Google Cloud Functions [Alpha] を使って GCP の課金データを BigQuery に投入してみたGoogleBigQueryGoogleCloudFunctionsgooglecloud こんにちは。Google I/O 2016 の開催が近づきワクワクしている wezardnet です。 さて、今回はアルファ版で公開された Google Cloud Functions を使って Google Cloud Platform(以下GCP) の課金データを BigQuery に入れる仕組みをサンプルとして作ってみたので紹介したいと思います。 1. Cloud Functions ってなに? Cloud Functions では、クラウド環境でイベントが発生したときに実行される Node.js を書くことができ、巷では「サーバレスアーキテクチャ」とか呼ばれているそ

    Google Cloud Functions [Alpha] を使って GCP の課金データを BigQuery に投入してみた - Qiita
  • Amazon Redshift v. Google BigQuery: Similarities and Differences - Treasure Data Blog

    Redshift v. BigQuery: Similarities, Differences and the Serverless Future? Redshift v. BigQuery: Similarities, Differences and the Serverless Future? Last modified: August 17, 2019 Redshift v. BigQuery: Similarities, Differences and the Serverless Future? In broad strokes, both BigQuery and Redshift are cloud data warehousing services. Honestly, the similarities are greater than the differences, a

    Amazon Redshift v. Google BigQuery: Similarities and Differences - Treasure Data Blog
  • 1