[B! dwh][--] sh19910711のブックマーク

Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita

はじめに本記事は、Snowflake Data Cloud Summit 2024 の Platform Keynote で発表されたデータアプリケーション機能に関連するアップデート情報を紹介します！セッションとしては、後半の後半のあたりに該当する部分です。本キーノートの配信を視聴することもできるので、気になる方はぜひ御覧ください！本記事では、下記の項目で解説します。 Snowpark for Python Snowflake Notebooks Snowflake Cortex Snowpark Container Services Hybrid Table Dev/MLOps また先日、同様のカテゴリで各機能の概要を解説した記事も投稿しています。ぜひあわせて御覧ください！概要 Platform Keynote では、様々なアップデートの発表がありました！特に、アプリ・LLM 系の

sh19910711 2024/06/06

"Snowpark for Python: ローカルでPandas形式のデータフレーム処理を実行すると、Snowflake側でSQLクエリが実行 + データはSnowflake側にあるままで、処理もSnowflake側にPush-down"

リンク

LLMの事前評価のシステムアーキテクチャを紹介します

この記事の概要こんにちは。PharmaX でエンジニアをしている諸岡（@hakoten）です。この記事では、「YOJO事業部のプロダクト内で使用されているLLM（Large Language Models）の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何かまず、プロダクトにおけるLLM（Large Language Models）機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である（毎回異なる）」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。弊社における定量的な計測は、大きく次の2

sh19910711 2024/05/09

"LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"

リンク

Google Cloudの監査ログを理解する&長期間保存方法 - NRIネットコムBlog

こんにちは、上野です。前回に引き続き、Google Cloudのセキュリティ設定第２弾です。今回は監査ログ（Cloud Audit Logs）です。監査ログは「誰が、いつ、どこで、何をしたか」を残すログで、AWSだとCloudTrailですね。目的はAWSと同じなのですが、設定方法や見え方がけっこう異なるので、概要を掴みつつ追加の保存設定を見ていきます。 Google Cloudの監査ログ監査ログには、管理アクティビティ監査ログ、データアクセス監査ログ、システムイベント監査ログ、ポリシー拒否監査ログの4種類存在します。管理アクティビティ監査ログユーザーが VM インスタンスを作成したときや IAM権限を変更したときに記録されるログで、いわゆる一般的な監査ログです。デフォルト有効で、無効にできません。データアクセス監査ログ BigQueryやCloud Storageなど、データ

sh19910711 2024/05/06

"デフォルトの状態でも、管理系の操作は400日間、BigQueryへのデータアクセス、ポリシー拒否監査ログが30日間確認可能 / BigQuery以外のデータアクセスログも見たい場合は追加の設定が必要" 2021

リンク

Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

はじめにこんにちは。レバレジーズデータ戦略室の辰野です。前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT（抽出、読み込み、変換）処理における、T（変換）の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できるテーブル同士の依存関係を管理できるテーブルの品質テストができるこれらの機能を利用することで、すべてのデータプロセスを管理することが可能です。（参考：Google Cloud,Dataform の概要） Dataformを導入

sh19910711 2024/05/06

"人事の採用管理システムをリプレイスするプロジェクト / 元々、採用データを専任で管理しているメンバーがいなかった / 採用に関するローデータ保管から、BIツールへ接続させるまで全てGoogle Cloudのサービスで完結" 2023

リンク

Cloud Asset Inventory を使用してGoogle Cloud上のアセットを分析する - NRIネットコムBlog

こんにちは、最近はGoogle Cloudの記事を書いている上野です。（AWSももちろんやってます）今回はCloud Asset Inventoryを見ていきます。 Cloud Asset Inventoryとは？ Google Cloud上の、アセットを管理できるサービスです。アセットとは、大きく以下の2種類を指します。リソース Compute Engine 仮想マシン（VM）やCloud Storage バケットなどのGoogle Cloud上で作成されたリソースのメタデータポリシー IAMポリシー、Organizationsポリシーなど、誰が何にアクセスできるかという情報（ポリシーのメタデータ） Google Cloud上に5 週間分の履歴情報が保管されています。 AWSで言うとAWS Configに近いサービスになります。 Cloud Asset Inventoryの開始方法

sh19910711 2024/05/05

"AWSで言うとAWS Config / feeds: Pub/Subを使用して、リソースの変更が発生したら通知するという運用も可能 / BigQuery テーブル内のコンテンツが変更されたときにtopic_nameという Pub/Sub トピックから通知" 2021

リンク

AWS Cost and Usage Report(CUR)をTerraformで作成する

AWS Cost and Usage Report（AWSのコストと使用状況レポート、以下CUR）は、AWSのコストやリソースの使用状況をS3やRedshiftにアップロードしてくれる機能です。EC2インスタンスIDなどのリソース単位を含めることができるため、コストの追跡が容易になります。 Cost Explorerと異なり、EC2以外のAWSサービスのリソースも含まれます。1日1回以上、S3にアップロードされるので、自分たちの使い慣れたBIツールなどで分析・可視化することができます。 AWSマネジメントコンソールからCURを設定することが多いのですが、今回はTerraform（一部CloudFormation）で作成する方法を紹介します。プロバイダの設定今回は、CURのデータを保存するS3バケットを東京リージョン（ap-northeast-1）に作成します。後述しますが、CURを作

sh19910711 2024/05/02

"aws_cur_report_definition: コストやリソースの使用状況をS3やRedshiftにアップロード + リソース単位を含めることができる / AthenaでCURデータをクエリできるようにするため、AWSから提供されているCloudFormationスタックを実行"

リンク

Streamlitを使ってデータカタログを作ってみた

sh19910711 2024/04/27

"SQLを実行する時にどのテーブルを使うべきか理解するのに苦労 / カタログ型のソフトウェアは高額 + StreamlitがイケてそうだからStreamlitで作ろう / Streamlit in Snowflakeにて、簡単にアプリをデプロイすることもできる"

リンク

【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO

Google Cloudデータエンジニアのはんざわです。現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。本記事では早速この新機能を触ってみたいと思います！ BigQuery data canvas とは？ BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメントそれでは早速触ってみたいと思います！注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data

sh19910711 2024/04/27

"BigQuery data canvas: DAGで操作できる分析用のインターフェイス / ドキュメントによるとテーブルの検索はdataplexのメタデータと連携 + 積極的に活用するためには、メタデータの整備の重要性が上がってくる"

リンク

SnowflakeネイティブなMLパイプライン

この記事は Snowflake Advent Calendar 2023 Series 2 の 22日目です。はじめに SnowflakeSummit 2023やSnowday2023ではML関連機能が多く発表されました． Snowpark ML Modeling API (PuPr) Snowpark ML Preprocessing API (PuPr) Snowpark ML Operations API (PrPr) Snowpark Container Services (PrPr) Snowflake FeatureStore (PrPr) Snowflake Cortex (PrPr) Snowflake Notebook (PrPr) とは言うものの，SnowflakeでML実践している事例をあまり聞くことがないので，現状どこまで可能か試してみました．目指すアーキテクチャ

sh19910711 2024/04/27

"SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表 / とは言うものの，SnowflakeでML実践している事例をあまり聞くことがない / 前処理で実施できることが限定的 + ハイパーパラメータの探索が効率的ではなかったりする" 2023

リンク

初手BQMLのメリデメ

概要スタートアップで初めて機械学習を用いた予測システムをデプロイするときにBigQueryMLを採用したので、やったこととメリデメを整理する。背景・課題機械学習を用いて需要予測を行うシステムをデプロイしたい予測システムの導入は初めてなので、現在簡単にデプロイできるような体制はない dbtでデータ基盤を管理している予測モデルがワークするか確かめられるまでは、リッチなシステム構築は避けたいやったこと BigQueryMLを用いて、学習・モデルデプロイ・予測を行うシステムを組んだ https://cloud.google.com/bigquery/docs/bqml-introduction?hl=ja あらかじめデータ基盤やジョブスケジューリング機能を作れていたので、実装自体は調査含めて4日くらいでできたシステム構成・データ処理はdbtで管理する。これにより異常データなどが入っ

sh19910711 2024/04/27

"BigQuery ML + dbt_ml: 学習結果がvertex aiで自動的に表示されるため、性能指標のモニタリングについてゼロから開発する必要がない + データをBigQuery外に出すことなく、学習・予測が完了 / model_registryでvertex aiを指定"

リンク

Snowflakeで感情分析を試してみようとして失敗した話 - Qiita

はじめに最近急激に暑くなってきましたね... この記事を書いている前の週にSnowflake Summit 2023が開催され、DWH×AIがさらに加速するような内容がさまざま発表され、私もすっかりSnowflakeに御熱なわけですが、SnowflakeでAIモデルを動かしてみたいと思い、いろいろ試行錯誤をした内容をまとめておこう！ということで、この記事を書いていこうと思います。初めてのQiitaでの記事投稿でかなり緊張しており、拙い部分が多いと思いますが、Snowflakeの特徴的な部分をお伝えできればと思います！この記事の対象者 Snowflake×AIに興味がある方 Snowflakeで感情分析をやってみたい方 ONNXをSnowflakeで使うにはどうすればいいのかわからない方この記事の内容完成図の確認利用する技術の説明感情分析をSnowflakeで行うための準備や

sh19910711 2024/04/23

"Snowpark: WarehouseのサイズをXLARGEを指定して100行のみの推論で大体¥1000〜¥2000くらい / Snowflake Summit 2023では「Snowpark Container Service」という機能が発表 + GPUを利用した処理をSnowflakeだけで完結" 2023

リンク

Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います！新機能が発表されたセッションとその内容を簡単に紹介していきます！気になる内容があった方は是非、YouTubeの動画を確認してみてください。注意点本記事の内容にBigQuery ML関連のサービスは含まれていません。不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

sh19910711 2024/04/14

"BigQuery workflows: SQLクエリや後述するdata canvas、data preparationなどの各タスクをワークフローとしてスケジュール実行 + ワークフローをDataformやCloud Composerにエクスポートすることも可能"

リンク

「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside

はじめにアドプラットフォーム事業部でアナリティクスエンジニアをしているucchi-です。ピクシブは、2022年11月24日に「pixiv Ads」という広告ネットワークをリリースしました。広告主は、pixivに広告を少額予算から簡単に出稿できます。 ads.pixiv.net pixiv Adsのデータ基盤では、大きく分けて以下の課題と向き合っています。鮮度：広告の配信状況をリアルタイムに見たいクライアントは、ユーザーに広告を届けるため、常にお金を払い続けます。広告配信条件を誤ると、それだけお金を無駄にしてしまうため、少なくとも数十分以内に配信状況を確認できる必要があります精度：広告の支払い金額は1円の誤差も許さないクライアントは、広告の配信ログから集計した配信実績に基づきお金を支払います。請求金額が絡むため、非常に高い精度のデータ品質が求められますこれらの課題に対し、データ

sh19910711 2023/01/30

"pixiv Adsでは、Lookerのダッシュボードを広告管理画面に埋め込んでいます / 広告配信ログの取り込みにはCloud Loggingのシンク、DBの同期にはDatastream for BigQuery + おおむね数秒〜数十秒の遅延"

リンク

データ基盤のアラートにNew Relicを導入しました - TVer Tech Blog

はじめまして、エンジニアの黒瀬と申します。弊社では、これまでバックエンドの監視にNew Relicを利用してきましたが、今回データ基盤にも導入を開始しました。この記事では、その経緯についてご紹介したいと思います。背景と課題弊社ではTVerのサービス利用状況を日々収集し、それをBigQueryを中心としたデータ基盤に集約・可視化することで、日々のサービス改善に活用しています。このプロセスは、おおむね次のような役割分担となっています。収集処理：バックエンドを担当するバックエンドチームがAWSに構築集約処理：データ基盤を担当するデータチームがGCPに構築これらのうちデータチームでは、集約処理を構成するバッチごとにアラートを実装していましたが、下記のような問題がありました。バッチごとに異なった方法でアラートを実装していたため、保守がしにくいアラートの通知先が散らばっており、毎回

sh19910711 2022/12/01

"BigQueryを中心としたデータ基盤 / バッチとしてはCloud Loggingにエラーログが出しておくだけで済むようになり / 収集処理: バックエンドチームがAWSに構築 / 集約処理: データチームがGCPに構築"

リンク

「Lisp はカッコが多い！」のか実際に調べてみた - Qiita

この記事は ABEJA アドベントカレンダー 2020 の 20 日目の記事です。 ABEJA ではエンジニアをやっており毎日、Clojure Python を書いています。動機 Wikipedia のLISP のページにも書かれているように、LISP は一般に「括弧が多い」といった印象を持たれています。 LISP の用いる S 式は括弧を大量に使用するため、批判を受けることもある。「LISP は『lots of irritating superfluous parentheses』（過剰でいらいらさせる大量の括弧）に由来する」というジョークもある。この「括弧が多い」印象で、LISP 嫌いを多く排出しているようなのですが、そもそも「本当に括弧が多いのか？」が前から気になっていました。ちょうど、Dataflow, BigQuery を勉強しておきたいと思っていたことも重なり、今回は、

sh19910711 2022/11/16

2020 / "LISP は一般に「括弧が多い」といった印象 + そもそも「本当に括弧が多いのか？」が前から気になって / Dataflow, BigQuery のお勉強がてら調査 / 残念ながら、皆が思っていた「Lisp はカッコは多い！」を補強する結果"

リンク

ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

ジモティーiOSチーム所属のエンジニアの橋本です。普段はiOSアプリの開発に従事していますが､ Webやネイティブアプリ（iOS/Android）の各種計測データの収集や社内への展開などの業務にも従事しています。今回は､自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ（iOS/Android）が生み出す様々なデータは収集･蓄積・加工 ▶ 分析･活用という過程を経るわけですが､その利用目的は大きくは2つです。ジモティーというサービスの現状がどうなのか､サービスのコンディションの善し悪しを判断するための利用ユーザーの利用状況の傾向を把握し､次の打ち手を決める判断材料としての利用この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。エンジニア

sh19910711 2022/11/11

2020 / "パフォーマンス面とコストメリットの部分で検討をして､2017年にBigQueryの利用を開始 + RedshiftとBigQueryを併用 / 両方で持っているデータで JOIN ができないデメリットがあり､2018年にBigQueryにすべてのデータが集約"

リンク

SodaSQLを使ってBigQueryのデータをテストする

これは何か SodaSQLを触ってみて、BigQuery上のデータのテストを実行してみたので、所感を書いてみる。 sodaSQLとはデータ品質監視のためのツール。公式ページのコンセプトを見た感じ、データの品質維持を行うためには、カタログ化・テスト・モニタリング・プロファイリングを行った上で、observabilityを保つ必要があるが、SodaSQLはそれらを行う機能を提供してくれるらしい。 CLI版とマネージドのCloud版がある。準備開発環境準備 soda SQLを実行する環境を準備する。 FROM python:3.8-slim RUN pip install --upgrade pip && pip install soda-sql-bigquery RUN apt-get -y update && apt-get install -y vim nano CMD ["/bi

sh19910711 2022/09/01

"Great Expectations: 高機能だが癖が強く取っ付きづらい / SodaSQL: シンプルかつライト / PrefectやAirflowなどのオーケストラレーションツールを使ってSodaSQLを実行し、出力結果を受けて通知を出したりは簡単にできそう"

リンク

お手軽な検索API構築 | メルカリエンジニアリング

こんにちは、メルペイソリューションチーム所属エンジニアの＠orfeonです。この記事は Merpay Tech Openness Month 2021 5日目の記事です。メルペイソリューションチームでは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。基本的なアイデア全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二

sh19910711 2022/07/14

2021 / "Apache Solr + BigQuery + Cloud Run / データの更新をリアルタイムには行わない + サーバ1台で管理できない規模のデータを扱わない / インデックス変更などに伴うマイグレーションなどの面倒なデータの運用を無くします"

リンク

BigQueryで営業日を考慮したリードタイムを計算する

リードタイムを計算する会員登録→購入、応募→採用、初回購入→2回目購入など、顧客のリードタイム分析を行う際に、簡易に集計するのであれば、DATE_DIFF関数を利用することで簡単に2期間の差分を出すことができる。ただし、BtoB業種や、週の中で定休日がある店舗などでは、営業日に限定したリードタイムを計算したいということもあるだろう。 NETWORKDAYS.INTL関数 ExcelやGoogle スプレッドシートには、NETWORKDAYS.INTLという、特定の曜日 & 祝日リストを排除して営業日計算してくれる便利な関数がある。 BigQueryでもこれを再現できないかと思い、作ってみた。集計の方針大まかな集計のながれ祝日・定休日カレンダーテーブルを作成レコード（ユーザー）ごとに開始日～終了日の日単位のカレンダーを作成 2のカレンダーに1のカレンダーテーブルをLEFT JOI

sh19910711 2022/07/02

"リードタイム分析: 簡易に集計するのであればDATE_DIFF + 営業日に限定したリードタイムを計算したい / スプレッドシートにはNETWORKDAYS.INTLという特定の曜日 & 祝日リストを排除して営業日計算してくれる便利な関数がある"

リンク

有価証券報告書のR&D部分をみつつ特許データ探索（ダッシュボード作成） - Qiita

0.はじめに動機特許の情報を分析する際には、特許だけじゃなくて他の情報もみましょうねと長く言われてきてますが、自分としては特許検索とは別にネット検索でしこしこみたり、エクセルにメモを取ったりしながら、特許の情報と他の情報を行ったり来たりすることがあり結構面倒だった。そこで特許検索を中心にしつつ、いろんな情報を参照できるダッシュボードがあるといいなあと思い、作ることに。まずは、かなり綺麗に情報が入っている有価証券報告書と、その中の「研究開発について」の部分の文章を一覧にしようと検討。。「研究開発について」の部分の文章はこんな感じで、その企業がどんな研究開発を進めようとしているか書いてあり参考になる。６【研究開発活動】当社グループは、電子デバイスシステム、ファインテックシステム、科学・医用システム、産業・ＩＴシステムの各セグメントで、製品競争力の強化と新製品の開発、新規事業製品の開

sh19910711 2022/05/14

"有価証券報告書と、その中の「研究開発について」の部分 > その企業がどんな研究開発を進めようとしているか / EDINETからxbrl形式のデータを取ってきてcoarijでR&D部分を抜き出す + 分かち書きをしておいてBigQueryに投入"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

dwhと--に関するsh19910711のブックマーク (27)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス