タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

BigQueryに関するtanakaBoxのブックマーク (3)

  • BigQuery に関する12の誤解の真相を明らかにする

    この記事は Busting 12 myths about BigQuery の著者の許可を得た上で @yutah_3 が日語訳、補足したものです。個人的に気になった話等を含めて “訳者注” を入れながら翻訳します。 割と最近、 Forrester Research のレポート The Forrester Wave™: Insight Platforms-As-A-Service, Q3 2017 では Google Cloud は Leader のポジションとして位置付けられました。 BigQuery がこの中で果たした功績は間違いなく大きいでしょう。 私達は日々、スタートアップから大企業のお客様に至るまで、多様な Google BigQuery をお使いのお客様と、お客様の分析やデータウェアハウスに関する課題を解決するために一緒に取り組んでいます。多くの場合、私達のお客様は BigQu

    BigQuery に関する12の誤解の真相を明らかにする
  • BigQueryにTwitterのタイムラインを入れる [Ruby]

    Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、MongoDBMySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の MongoDB クラスタで BigQuery に対抗している」という

    BigQueryにTwitterのタイムラインを入れる [Ruby]
  • BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

    まだ入門もしてないので「ことはじめ」じゃないです。 大体触ってみたのを載せます。 Wikipedia 集計 サンプルデータのwikipediaを集計してみました。 データは3億行ほどあり、サイズは36GBほどあります。 今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。 上位陣はbotさん達ですね。 結果としては、3億行のデータを、 何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。 ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。 わお。 データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

    BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita
  • 1