[B! *data] [7ページ] sh19910711のブックマーク

BigQuery & Crashlytics & Zapier - 毎日アプリのクラッシュ数をチャットに流れるようにする - Chatwork Creator's Note

こんにちは、モバイルアプリケーション開発部のAndroid エンジニアのジェローム(@yujiro45)です。最近寒いですね。寒くても、まだタンクトップを着ています〜 ChatworkのAdvent Calendar 2022の22日目の記事です。どんなに気をつけていても、予期せずアプリがクラッシュしてしまうことはあるんじゃないですか？発生したクラッシュが初の場合チャットへ通知したり、メールが送ったりすることがよくあると思いますが、クラッシュ数がどれくらいあるのかは、Firebase consoleでしか見れません。エンジニアでないと把握しづらいですね。この記事では毎日モバイルアプリのクラッシュ数をチャットに流れるようにする方法についてを記載したいと思います。 BigQueryとは Crashlyticsとは Zapierとはクラッシュ数をチャットに流れる方法 Crashlytics

sh19910711 2024/05/02

"Crashlytics: クラッシュの検知とその原因の究明 + どのクラスの何行目で発生したかまで確認することができ原因の特定が行いやすい / Firebaseのコンソールを開いて、プロジェクト→プロジェクト設定→統合→BigQuery" 2022

リンク

Vertex AI Agent Builder の検索システムを Python SDK から試してみる

はじめに Vertex AI Agent Builder で作る検索システム Vertex AI Agent Builder（旧 Vertex AI Search & Conversation）を使用すると文書検索システムが簡単に構築できて、コンソール上のデモ用検索ポータルから検索処理が体験できます。検索キーワードの「意味」を理解して検索するセマンティックサーチを行うので、次のように微妙にタイプミスをしても、こちらの意図を汲み取って検索結果を返してくれます。また、検索結果のサマリーテキストも表示されます。コンソールの検索ポータルで検索する例 Vertex AI Agent Builder による検索システムは、次のような構成になります。「データストア」と「検索アプリ」の2つのコンポーネントを作成して利用します。 Agent Builder による検索システムの構成図データストアは、ドキ

sh19910711 2024/05/02

"Agent Builder: Cloud Storage などのデータソースからドキュメントをインポートするとドキュメントの内容を分析して検索に必要な情報を抽出・保存 / discoveryengine.viewer: ACL を設定して検索できるユーザーを制限"

リンク

PandasのData FrameとElasticsearchのindexを相互変換する - Qiita

はじめに Elasticsearchの特定のインデックスにサンプルデータを投入したい。でも手元にあるのはキー項目は共通な別々のCSVファイル。えーこれ全部手でマージすんの？　それかスクリプト書く？　めんどくさ。。　そんな経験みなさんにもありますよね？そんな時、（結局Pythonスクリプトは書きますが）Elandを使うとPandasのData FrameをそのままElasticsearchとやりとりできるので便利です。というかPandasが便利です。依存ライブラリ今回、Pythonのpandas, elasticsearch, elandの各ライブラリを使いますので、インストールされていない場合は以下のコマンドでインストールします。

sh19910711 2024/05/02

"Eland: PandasのData FrameをそのままElasticsearchとやりとりできるので便利 + 条件を絞り込んで読み込むなどの操作も可能 / Data Frameのindexになっていた日付情報が、ドキュメントIDとして格納されている" 2023

リンク

[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。本記事は、その中で発表されたData warehouse as a product: Design to delivery（データウェアハウスを製品として捉える：設計から実現までの一貫した流れ）というセッションについて、レポートをお届け致します。セッション概要登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH（のデータ）を製品・プ

sh19910711 2024/05/02

"ユーザーが抱える課題を理解し、それに対してどのように最善のサービスを提供できるかを考える / PoCとして始まったシステムがビジネス上不可欠なものに / データは全て生のままストア + 後から必要なものを選別" 2023

リンク

Uplift Modelling for Location-based Online Advertising

第３回CFML勉強会

sh19910711 2024/05/02

"最適な特徴量の組み合わせ / 来店頻度や直近の来店といった従来重要とされていた特徴量が採用されなかった / 店舗からの距離が近いユーザーより遠いユーザーに効果的 → 広告効果は移動コストが高い層に効く？" 2019

リンク

Apache Beam Python SDK でパイプラインのテストコードを書く - public note

sh19910711 2024/05/01

"Apache Beam: SDK には testing パッケージが用意 + パイプラインに対するテストコードを書けます / Beam パイプラインは、一般のコードと比較すると読んだだけでは挙動をイメージしにくい印象" 2023

リンク

Looker Studioのデータ抽出（Extract data）機能を利用してスキャン量を減らす - LayerX エンジニアブログ

こんにちは！LayerX バクラク事業部機械学習・データ部データチームの石橋（@saaaaaaky）です。 Looker Studioのカスタムクエリが1日300回以上実行される課題弊社ではBIツールとしてLooker Studioを利用しています。データマートがまだまだ整備できていないので、Looker StudioからGoogleのBigQueryに接続し、カスタムクエリをデータソースとしてダッシュボードが作成されています。ダッシュボードが閲覧される毎やパラメータの変更をする毎にクエリが実行されるため、よく見られているダッシュボードだと同じクエリの実行数が1日に300回ほどになるものも存在しました。スキャン量での課金であることと、単純にクエリが実行されることでダッシュボードの表示速度も遅くなり作業効率も落ちてしまいます。ヒアリングしたところ、リアルタイムのデータが必要とさ

sh19910711 2024/05/01

"既存のデータソースから特定のフィールドだけを含む「抽出済みデータソース」を作成することができる / 日次、週次、月次での自動更新 / 上限が 100 MB + 上限を超えデータの抽出が止まった際にアラートが出てこない"

リンク

BigQueryでGROUP BY ALLがプレビューになりました | DevelopersIO

Google Cloudデータエンジニアのはんざわです 2024年2月26日にGROUP BYに関して大きく2つのアップデートがありました。リリースノート： February 27, 2024 1つ目は、以前に紹介したGROUP BY GROUPING SETSなどの3つの関数が正式にGAになったアップデートです。 2つ目は、今回紹介するGROUP BY ALLが新たにプレビューとして追加されたアップデートになります。さっそくGROUP BY ALLを簡単に紹介し、実際に触ってみたいと思いますそもそも GROUP BY ALL とは簡単に説明するとSELECT句から集計関数などを除く全てのカラムでグループ化してくれます。今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省

sh19910711 2024/05/01

"GROUP BY ALL: 今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省ける + SELECT句で指定するカラムを増やしてもそのままで正常に実行することが可能"

リンク

[R] 予測モデルを作るには formula を活用せよ - ill-identified diary

概要 formula オブジェクトは変数変換や交互作用項など, 多彩な表現ができる. xgboost や glmnet では model.matrix() を併用することで formula を利用できる. 統計モデリング/機械学習で予測モデルを構築するとき, 予測性能の向上のため, しばしば変数を入れ替えたり, 変換したりといった推敲が必要となる. R ではこういうときに formula オブジェクトを使うと, いちいちデータフレームに変換後の数値を追加したり書き換えたりする必要がなくなる. glmnet や xgboost など, formula が直接使えないものでも model.matrix() 等を併用すれば可能である*1. formula オブジェクトを解説した記事を探すと, かなり前から存在する. 例えば以下の記事. m884.hateblo.jp なお, 上記はタイトルが「f

sh19910711 2024/05/01

"変数を入れ替えたり, 変換したりといった推敲 / R ではこういうときに formula オブジェクトを使う / formula にはいろいろな構文 / xgboost や glmnet では model.matrix() を併用することで formula を利用できる" 2017

リンク

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。この記事はこんな人にオススメ機械学習パイプラインにおける実行基盤を検討さ

sh19910711 2024/05/01

"Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数により、訓練したモデルを Vertex AI Model Registory に登録"

リンク

Pythonを使用して数値標高モデル（DEM）からMinecraftの地形を作成する - Qiita

はじめにこの記事では、Pythonのライブラリであるanvil-parserを使用して、数値標高モデル（DEM）からMinecraft（Java版）のワールドデータを作成する方法を紹介します。この方法により、実世界の地形をMinecraftで再現することが可能になります。 DEMデータをダウンロードするまずは基盤地図情報ダウンロードサイトよりDEMのデータをダウンロードします。今回は岐阜県岐阜市のこちらのメッシュ（533616）を使います。ダウンロードしたDEMはそのままでは利用できないので、QGISのQuickDEM4JPプラグインを使用してtiffファイルに変換します。詳しい使い方はこちらの記事を参照してください。「国土地理院の標高データ（DEM）をQGIS上でサクッとGeoTIFFを作って可視化するプラグインを公開しました！（Terr ain RGBもあるよ）」 QGIS上

sh19910711 2024/04/30

"数値標高モデル（DEM）からMinecraftのワールドデータを作成 / マインクラフトの世界は設定上1ブロック＝1m + これに合わせるため、gdalを使用して、DEMのラスター解像度を1m x 1mに変換" 2023

リンク

Apache Igniteインメモリーデータ処理プラットフォーム：特徴＆利活用

本セッションでは、Apache Igniteインメモリーデータ処理プラットフォームをご紹介し、そのインメモリ技術を採用した活用シナリオをいくつか取り上げます。

sh19910711 2024/04/30

"Apache Ignite: メモリを中心に据えた分散データベース・キャッシュ・データ処理プラットフォーム + 2014年からASF + GridGain社から寄贈 / Ignite SQL: 分散JOIN (collocation) + トランザクション (MVCC) + index in RAM/disk" 2019

リンク

超爆速なcuDFとPandasを比較した - Taste of Tech Topics

皆さんこんにちは。 @tereka114です。今年末はKaggleで開催される面白いコンペも多くて日々、エンジョイしています。最近は巨大なデータを扱うことが増えており、Pandasだと時間がかかりすぎて効率が悪いと感じています。そのため、データを高速に処理できるcuDFを利用することも多くなってきました。この記事ではcuDFの魅力と扱う際の注意点を説明していきます。 ※この記事は「Pythonその2 アドベントカレンダー」10日目の記事です。 qiita.com cuDFとは cuDFはNVIDIAさんが開発している、Pandasの代わりに利用することができるGPUのライブラリです。最も大きな特徴はGPUで計算するため、高速であることです。主に、カテゴリ変数ごとの平均計算や、テーブル同士の結合といった、時間のかかるテーブル処理で、効果を発揮します。 github.com cuD

sh19910711 2024/04/30

"cuDF: 特徴量を簡単に作れるライブラリであるxfeatでもサポート / Pandasのmergeは元のテーブルと順番が変わりません + cuDFの出力結果は並列計算の都合で元のテーブルと順番が異なります" 2020

リンク

R の線形回帰 lm 関数の実装を辿る

この記事は？この記事では、R にデフォルトで入っている stats パッケージの線形回帰関数 lm を題材に、R のパッケージ・関数がどのように実装されているかを辿っていく。はじめに R のパッケージ・関数の使い方は、? コマンドや Web 上でドキュメントを読めば一通り知ることができる。しかし、時としてどうしてもドキュメントには書かれていないような詳細を知りたくなるケースに遭遇することがある。このような時には、実装コードを読みにいくことで疑問が解決することが多い。また、定評のあるパッケージの実装を知ることで、それまで知らなかった書き方や言語仕様に触れることができ、コードを書く際の参考にもなる。そこで、この記事では線形回帰の lm 関数に着目して、実装の辿り方を紹介するとともに、R パッケージの実装がどのように行われているかを見ていく。実装を辿るうえでの着目ポイント実装を辿

sh19910711 2024/04/30

"ジェネリック関数: R のオブジェクトには class 属性を付与することができ + print 関数や summary 関数は、引数の class 属性に応じて振る舞いを変える + <ジェネリック関数名>.<class 属性名> という名前で定義"

リンク

Mahout使って分析しちゃいました。

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

sh19910711 2024/04/30

"Mahout: Luceneの成果の中で、機械学習に関するものがMahoutというサブプロジェクトとして分離 / Hadoopも同じく、Luceneプロジェクトの中のNutchというWeb検索エンジンのサブプロジェクトから派生" 2013

リンク

複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。前提どこでも必要とされたスキルデータマネジメントに関する概要レベルの知識と実行力セキュリティや法令に関する知識事業ドメインに関する興味関心他職種とのコミュニケーション能力コスト管理 / コスト削減のスキルソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力分析用のSQLを書く力古いテーブルやデータパイプラインを置き換えていくスキルや胆力あるとやりやすいスキル関連部署の動きを何となく把握しておく力

sh19910711 2024/04/29

"走りながら勉強していく: 準備ができてからデータエンジニアをやろうとすると、範囲が膨大なためこれは現実的ではない / セキュリティや法令に関する知識 / 関連部署の動きを何となく把握しておく"

リンク

関数型言語XQueryで大量のXMLを楽にさばく - Qiita

まえがきオープンデータ隆盛のこのご時世、意外と XML でデータを公開しているケースは多い。 XML形式で公開されているオープンデータを扱う際に XMLデータベースの一つである BaseX を活用してみた経験についてざっと書いてみる。公開されている実世界のオープンデータを、事前知識なしで扱うのはなかなか大変だ。ドキュメントが整備されていなかったり、不揃いであったりして、ざっとデータの傾向を見てみないと活用しづらいケースが多々ある。しかし、帯域幅の制限もあって一回のアクセスでは十分な量のデータを得られない API があまり作り込まれていないため、欲しい情報をピンポイントで得るための検索ができないなどというのは日常茶飯事だ。そこで試しにちょっとしたスクリプトを書いて、まとまった量のデータをマイルドな周期でダウンロードすることになるけれど、書き捨てのスクリプト一々書くのは億劫だ。

sh19910711 2024/04/29

"テンポラリーなXMLの格納場所として XMLデータベースを使う / BaseX: XMLデータベース + XQuery が案外リッチで書いていて楽しかったり、同時に大量の XML ファイルを解析できて楽" 2015

リンク

MySQL Innovation Day Tokyo で MySQL 8 の文字コードについて話した - @tmtms のメモ

MySQL Innovation Day Tokyo に参加して10分ほど喋ってきました。ひさびさに巨大サキラちゃん登場。本人曰く5年間ほど倉庫に隠れてたそうです。昼ごはんは今半のすき焼弁当でした。豪華！会場の様子。百数十人で満員でした以下わたしの発表内容。スライドはこちら https://tmtm.github.io/mysql-innovation-tokyo/ MySQL恒例「RCとはいったい…」案件 utf8の指定でwarningが出るようになった mysql> set names utf8; Query OK, 0 rows affected, 1 warning (0.00 sec) Warning (Code 3719): 'utf8' is currently an alias for the character set UTF8MB3, which will be

sh19910711 2024/04/29

"Charset=utf8mb4 を指定しただけでは 5.7 と 8.0 で動きが異なる / 各collationの特徴を知って適切なものを使いましょう / utf8mb4_0900_ai_ci: アクセントの違いを区別しない + 大文字小文字を区別しない +🍣≠🍺" 2018

リンク

時系列データ／BRINインデックス対応 - KaiGaiの俺メモ

PG-StromにBRINインデックス対応機能を実装してみた。まずは、以下のEXPLAIN ANALYZEの実行結果をご覧いただきたい。条件句で参照しているymd列は日付型（date）で、テーブルにデータを挿入する際には意図的に日付順にINSERTを行っている。 postgres=# EXPLAIN (analyze, buffers) SELECT * FROM dt WHERE ymd BETWEEN '2018-01-01' AND '2018-12-31' AND cat LIKE '%bbb%'; QUERY PLAN ---------------------------------------------------------------------------------------------------------------------------------

sh19910711 2024/04/29

"B-treeインデックスは、インデックス対象列の値とレコード位置を各レコード毎に持っており + 大規模データの脇に大規模インデックスが控えている / 一方で、BRINインデックスのdt_ymd_idxのサイズは僅か128kBに留まって" 2018

リンク

『Pythonでスラスラわかるベイズ推論「超」入門』を読んでみた。 - いものやま。

『Pythonでスラスラわかるベイズ推論「超」入門』を読んでみたので、軽く感想とか。 Pythonでスラスラわかるベイズ推論「超」入門 (KS情報科学専門書) 作者:赤石雅典講談社Amazon 概要と感想ベイズ推論の本はいろいろあるけど、この本は理論というよりツールとして活用することに重きをおいた感じの本。サンプリングをどう計算するのかとかはライブラリ（PyMC）に任せてしまって本では解説せず、統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心になってる。数理最適化でたとえると、単体法とかの解説はしないでPuLP使ったモデリングの解説をしている感じ。そういうこともあってすごく読みやすかったし、実用としてはこういう本の方が助かるよね。別に研究者として新しいアルゴリズムを作りたいとかでもないし。数理最適化もそうだけど、理論とか勉強しても実際に使うときはライブラ

sh19910711 2024/04/29

"統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心 / 実際に使うときはライブラリ叩くだけで、一番壁になるのはモデルを作る部分なので、その部分がちゃんと解説されてるのはとてもよかった"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (332)

*dataに関するsh19910711のブックマーク (3,717)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス