タグ

関連タグで絞り込む (332)

タグの絞り込みを解除

*dataに関するsh19910711のブックマーク (3,717)

  • BigQuery & Crashlytics & Zapier - 毎日アプリのクラッシュ数をチャットに流れるようにする - Chatwork Creator's Note

    こんにちは、モバイルアプリケーション開発部のAndroidエンジニアのジェローム(@yujiro45)です。 最近寒いですね。寒くても、まだタンクトップを着ています〜 ChatworkのAdvent Calendar 2022の22日目の記事です。 どんなに気をつけていても、予期せずアプリがクラッシュしてしまうことはあるんじゃないですか? 発生したクラッシュが初の場合チャットへ通知したり、メールが送ったりすることがよくあると思いますが、クラッシュ数がどれくらいあるのかは、Firebase consoleでしか見れません。エンジニアでないと把握しづらいですね。この記事では毎日モバイルアプリのクラッシュ数をチャットに流れるようにする方法についてを記載したいと思います。 BigQueryとは Crashlyticsとは Zapierとは クラッシュ数をチャットに流れる方法 Crashlytics

    BigQuery & Crashlytics & Zapier - 毎日アプリのクラッシュ数をチャットに流れるようにする - Chatwork Creator's Note
    sh19910711
    sh19910711 2024/05/02
    "Crashlytics: クラッシュの検知とその原因の究明 + どのクラスの何行目で発生したかまで確認することができ原因の特定が行いやすい / Firebaseのコンソールを開いて、プロジェクト→プロジェクト設定→統合→BigQuery" 2022
  • Vertex AI Agent Builder の検索システムを Python SDK から試してみる

    はじめに Vertex AI Agent Builder で作る検索システム Vertex AI Agent Builder(旧 Vertex AI Search & Conversation)を使用すると文書検索システムが簡単に構築できて、コンソール上のデモ用検索ポータルから検索処理が体験できます。検索キーワードの「意味」を理解して検索するセマンティックサーチを行うので、次のように微妙にタイプミスをしても、こちらの意図を汲み取って検索結果を返してくれます。また、検索結果のサマリーテキストも表示されます。 コンソールの検索ポータルで検索する例 Vertex AI Agent Builder による検索システムは、次のような構成になります。「データストア」と「検索アプリ」の2つのコンポーネントを作成して利用します。 Agent Builder による検索システムの構成図 データストアは、ドキ

    Vertex AI Agent Builder の検索システムを Python SDK から試してみる
    sh19910711
    sh19910711 2024/05/02
    "Agent Builder: Cloud Storage などのデータソースからドキュメントをインポートするとドキュメントの内容を分析して検索に必要な情報を抽出・保存 / discoveryengine.viewer: ACL を設定して検索できるユーザーを制限"
  • PandasのData FrameとElasticsearchのindexを相互変換する - Qiita

    はじめに Elasticsearchの特定のインデックスにサンプルデータを投入したい。でも手元にあるのはキー項目は共通な別々のCSVファイル。えーこれ全部手でマージすんの? それかスクリプト書く? めんどくさ。。 そんな経験みなさんにもありますよね? そんな時、(結局Pythonスクリプトは書きますが)Elandを使うとPandasのData FrameをそのままElasticsearchとやりとりできるので便利です。というかPandasが便利です。 依存ライブラリ 今回、Pythonのpandas, elasticsearch, elandの各ライブラリを使いますので、インストールされていない場合は以下のコマンドでインストールします。

    PandasのData FrameとElasticsearchのindexを相互変換する - Qiita
    sh19910711
    sh19910711 2024/05/02
    "Eland: PandasのData FrameをそのままElasticsearchとやりとりできるので便利 + 条件を絞り込んで読み込むなどの操作も可能 / Data Frameのindexになっていた日付情報が、ドキュメントIDとして格納されている" 2023
  • [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。 米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。 記事は、その中で発表されたData warehouse as a product: Design to delivery(データウェアハウスを製品として捉える:設計から実現までの一貫した流れ)というセッションについて、レポートをお届け致します。 セッション概要 登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要 社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜的な再設計を行った話です。その際、DWH(のデータ)を製品・プ

    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
    sh19910711
    sh19910711 2024/05/02
    "ユーザーが抱える課題を理解し、それに対してどのように最善のサービスを提供できるかを考える / PoCとして始まったシステムがビジネス上不可欠なものに / データは全て生のままストア + 後から必要なものを選別" 2023
  • Uplift Modelling for Location-based Online Advertising

    第3回CFML勉強会

    Uplift Modelling for Location-based Online Advertising
    sh19910711
    sh19910711 2024/05/02
    "最適な特徴量の組み合わせ / 来店頻度や直近の来店といった従来重要とされていた特徴量が採用されなかった / 店舗からの距離が近いユーザーより遠いユーザーに効果的 → 広告効果は移動コストが高い層に効く?" 2019
  • Apache Beam Python SDK でパイプラインのテストコードを書く - public note

    sh19910711
    sh19910711 2024/05/01
    "Apache Beam: SDK には testing パッケージが用意 + パイプラインに対するテストコードを書けます / Beam パイプラインは、一般のコードと比較すると読んだだけでは挙動をイメージしにくい印象" 2023
  • Looker Studioのデータ抽出(Extract data)機能を利用してスキャン量を減らす - LayerX エンジニアブログ

    こんにちは!LayerX バクラク事業部 機械学習・データ部 データチームの石橋(@saaaaaaky)です。 Looker Studioのカスタムクエリが1日300回以上実行される課題 弊社ではBIツールとしてLooker Studioを利用しています。 データマートがまだまだ整備できていないので、Looker StudioからGoogleのBigQueryに接続し、カスタムクエリをデータソースとしてダッシュボードが作成されています。 ダッシュボードが閲覧される毎やパラメータの変更をする毎にクエリが実行されるため、よく見られているダッシュボードだと同じクエリの実行数が1日に300回ほどになるものも存在しました。 スキャン量での課金であることと、単純にクエリが実行されることでダッシュボードの表示速度も遅くなり作業効率も落ちてしまいます。 ヒアリングしたところ、リアルタイムのデータが必要とさ

    Looker Studioのデータ抽出(Extract data)機能を利用してスキャン量を減らす - LayerX エンジニアブログ
    sh19910711
    sh19910711 2024/05/01
    "既存のデータソースから特定のフィールドだけを含む「抽出済みデータソース」を作成することができる / 日次、週次、月次での自動更新 / 上限が 100 MB + 上限を超えデータの抽出が止まった際にアラートが出てこない"
  • BigQueryでGROUP BY ALLがプレビューになりました | DevelopersIO

    Google Cloudデータエンジニアのはんざわです 2024年2月26日にGROUP BYに関して大きく2つのアップデートがありました。 リリースノート: February 27, 2024 1つ目は、以前に紹介したGROUP BY GROUPING SETSなどの3つの関数が正式にGAになったアップデートです。 2つ目は、今回紹介するGROUP BY ALLが新たにプレビューとして追加されたアップデートになります。 さっそくGROUP BY ALLを簡単に紹介し、実際に触ってみたいと思います そもそも GROUP BY ALL とは 簡単に説明するとSELECT句から集計関数などを除く全てのカラムでグループ化してくれます。 今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省

    BigQueryでGROUP BY ALLがプレビューになりました | DevelopersIO
    sh19910711
    sh19910711 2024/05/01
    "GROUP BY ALL: 今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省ける + SELECT句で指定するカラムを増やしてもそのままで正常に実行することが可能"
  • [R] 予測モデルを作るには formula を活用せよ - ill-identified diary

    概要 formula オブジェクトは変数変換や交互作用項など, 多彩な表現ができる. xgboost や glmnet では model.matrix() を併用することで formula を利用できる. 統計モデリング/機械学習で予測モデルを構築するとき, 予測性能の向上のため, しばしば変数を入れ替えたり, 変換したりといった推敲が必要となる. R ではこういうときに formula オブジェクトを使うと, いちいちデータフレームに変換後の数値を追加したり書き換えたりする必要がなくなる. glmnet や xgboost など, formula が直接使えないものでも model.matrix() 等を併用すれば可能である*1. formula オブジェクトを解説した記事を探すと, かなり前から存在する. 例えば以下の記事. m884.hateblo.jp なお, 上記はタイトルが「f

    [R] 予測モデルを作るには formula を活用せよ - ill-identified diary
    sh19910711
    sh19910711 2024/05/01
    "変数を入れ替えたり, 変換したりといった推敲 / R ではこういうときに formula オブジェクトを使う / formula にはいろいろな構文 / xgboost や glmnet では model.matrix() を併用することで formula を利用できる" 2017
  • BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

    はじめに こんにちは、クラウドエース データソリューション部の松です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。 この記事はこんな人にオススメ 機械学習パイプラインにおける実行基盤を検討さ

    BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築
    sh19910711
    sh19910711 2024/05/01
    "Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数 により、訓練したモデルを Vertex AI Model Registory に登録"
  • Pythonを使用して数値標高モデル(DEM)からMinecraftの地形を作成する - Qiita

    はじめに この記事では、Pythonのライブラリであるanvil-parserを使用して、数値標高モデル(DEM)からMinecraftJava版)のワールドデータを作成する方法を紹介します。この方法により、実世界の地形をMinecraftで再現することが可能になります。 DEMデータをダウンロードする まずは基盤地図情報ダウンロードサイトよりDEMのデータをダウンロードします。 今回は岐阜県岐阜市のこちらのメッシュ(533616)を使います。 ダウンロードしたDEMはそのままでは利用できないので、QGISのQuickDEM4JPプラグインを使用してtiffファイルに変換します。 詳しい使い方はこちらの記事を参照してください。 「国土地理院の標高データ(DEM)をQGIS上でサクッとGeoTIFFを作って可視化するプラグインを公開しました!(Terrain RGBもあるよ)」 QGIS

    Pythonを使用して数値標高モデル(DEM)からMinecraftの地形を作成する - Qiita
    sh19910711
    sh19910711 2024/04/30
    "数値標高モデル(DEM)からMinecraftのワールドデータを作成 / マインクラフトの世界は設定上1ブロック=1m + これに合わせるため、gdalを使用して、DEMのラスター解像度を1m x 1mに変換" 2023
  • Apache Igniteインメモリーデータ処理プラットフォーム:特徴&利活用

    セッションでは、Apache Igniteインメモリーデータ処理プラットフォームをご紹介し、そのインメモリ技術を採用した活用シナリオをいくつか取り上げます。

    Apache Igniteインメモリーデータ処理プラットフォーム:特徴&利活用
    sh19910711
    sh19910711 2024/04/30
    "Apache Ignite: メモリを中心に据えた分散データベース・キャッシュ・データ処理プラットフォーム + 2014年からASF + GridGain社から寄贈 / Ignite SQL: 分散JOIN (collocation) + トランザクション (MVCC) + index in RAM/disk" 2019
  • 超爆速なcuDFとPandasを比較した - Taste of Tech Topics

    皆さんこんにちは。 @tereka114です。 今年末はKaggleで開催される面白いコンペも多くて日々、エンジョイしています。 最近は巨大なデータを扱うことが増えており、Pandasだと時間がかかりすぎて効率が悪いと感じています。 そのため、データを高速に処理できるcuDFを利用することも多くなってきました。 この記事ではcuDFの魅力と扱う際の注意点を説明していきます。 ※この記事は「Pythonその2 アドベントカレンダー」10日目の記事です。 qiita.com cuDFとは cuDFはNVIDIAさんが開発している、Pandasの代わりに利用することができるGPUのライブラリです。 最も大きな特徴はGPUで計算するため、高速であることです。 主に、カテゴリ変数ごとの平均計算や、テーブル同士の結合といった、時間のかかるテーブル処理で、効果を発揮します。 github.com cuD

    超爆速なcuDFとPandasを比較した - Taste of Tech Topics
    sh19910711
    sh19910711 2024/04/30
    "cuDF: 特徴量を簡単に作れるライブラリであるxfeatでもサポート / Pandasのmergeは元のテーブルと順番が変わりません + cuDFの出力結果は並列計算の都合で元のテーブルと順番が異なります" 2020
  • R の線形回帰 lm 関数の実装を辿る

    この記事は? この記事では、R にデフォルトで入っている stats パッケージの線形回帰関数 lm を題材に、R のパッケージ・関数がどのように実装されているかを辿っていく。 はじめに R のパッケージ・関数の使い方は、? コマンドや Web 上でドキュメントを読めば一通り知ることができる。 しかし、時としてどうしてもドキュメントには書かれていないような詳細を知りたくなるケースに遭遇することがある。 このような時には、実装コードを読みにいくことで疑問が解決することが多い。 また、定評のあるパッケージの実装を知ることで、それまで知らなかった書き方や言語仕様に触れることができ、コードを書く際の参考にもなる。 そこで、この記事では線形回帰の lm 関数に着目して、実装の辿り方を紹介するとともに、R パッケージの実装がどのように行われているかを見ていく。 実装を辿るうえでの着目ポイント 実装を辿

    R の線形回帰 lm 関数の実装を辿る
    sh19910711
    sh19910711 2024/04/30
    "ジェネリック関数: R のオブジェクトには class 属性を付与することができ + print 関数や summary 関数は、引数の class 属性に応じて振る舞いを変える + <ジェネリック関数名>.<class 属性名> という名前で定義"
  • Mahout使って分析しちゃいました。

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    Mahout使って分析しちゃいました。
    sh19910711
    sh19910711 2024/04/30
    "Mahout: Luceneの成果の中で、機械学習に関するものがMahoutというサブプロジェクトとして分離 / Hadoopも同じく、Luceneプロジェクトの中のNutchというWeb検索エンジンのサブプロジェクトから派生" 2013
  • 複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

    最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。 前提 どこでも必要とされたスキル データマネジメントに関する概要レベルの知識と実行力 セキュリティや法令に関する知識 事業ドメインに関する興味関心 他職種とのコミュニケーション能力 コスト管理 / コスト削減のスキル ソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力 分析用のSQLを書く力 古いテーブルやデータパイプラインを置き換えていくスキルや胆力 あるとやりやすいスキル 関連部署の動きを何となく把握しておく力

    複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
    sh19910711
    sh19910711 2024/04/29
    "走りながら勉強していく: 準備ができてからデータエンジニアをやろうとすると、範囲が膨大なためこれは現実的ではない / セキュリティや法令に関する知識 / 関連部署の動きを何となく把握しておく"
  • 関数型言語XQueryで大量のXMLを楽にさばく - Qiita

    まえがき オープンデータ隆盛のこのご時世、意外と XML でデータを公開しているケースは多い。 XML形式で公開されているオープンデータを扱う際に XMLデータベース の一つである BaseX を活用してみた経験についてざっと書いてみる。 公開されている実世界のオープンデータを、事前知識なしで扱うのはなかなか大変だ。ドキュメントが整備されていなかったり、不揃いであったりして、ざっとデータの傾向を見てみないと活用しづらいケースが多々ある。 しかし、 帯域幅の制限もあって一回のアクセスでは十分な量のデータを得られない API があまり作り込まれていないため、欲しい情報をピンポイントで得るための検索ができない などというのは日常茶飯事だ。 そこで試しにちょっとしたスクリプトを書いて、まとまった量のデータをマイルドな周期でダウンロードすることになるけれど、 書き捨てのスクリプト一々書くのは億劫だ。

    関数型言語XQueryで大量のXMLを楽にさばく - Qiita
    sh19910711
    sh19910711 2024/04/29
    "テンポラリーなXMLの格納場所として XMLデータベースを使う / BaseX: XMLデータベース + XQuery が案外リッチで書いていて楽しかったり、同時に大量の XML ファイルを解析できて楽" 2015
  • MySQL Innovation Day Tokyo で MySQL 8 の文字コードについて話した - @tmtms のメモ

    MySQL Innovation Day Tokyo に参加して10分ほど喋ってきました。 ひさびさに巨大サキラちゃん登場。人曰く5年間ほど倉庫に隠れてたそうです。 昼ごはんは今半のすき焼弁当でした。豪華! 会場の様子。百数十人で満員でした 以下わたしの発表内容。スライドはこちら https://tmtm.github.io/mysql-innovation-tokyo/ MySQL恒例「RCとはいったい…」案件 utf8の指定でwarningが出るようになった mysql> set names utf8; Query OK, 0 rows affected, 1 warning (0.00 sec) Warning (Code 3719): 'utf8' is currently an alias for the character set UTF8MB3, which will be

    MySQL Innovation Day Tokyo で MySQL 8 の文字コードについて話した - @tmtms のメモ
    sh19910711
    sh19910711 2024/04/29
    "Charset=utf8mb4 を指定しただけでは 5.7 と 8.0 で動きが異なる / 各collationの特徴を知って適切なものを使いましょう / utf8mb4_0900_ai_ci: アクセントの違いを区別しない + 大文字小文字を区別しない +🍣≠🍺" 2018
  • 時系列データ/BRINインデックス対応 - KaiGaiの俺メモ

    PG-StromにBRINインデックス対応機能を実装してみた。 まずは、以下のEXPLAIN ANALYZEの実行結果をご覧いただきたい。 条件句で参照しているymd列は日付型(date)で、テーブルにデータを挿入する際には意図的に日付順にINSERTを行っている。 postgres=# EXPLAIN (analyze, buffers) SELECT * FROM dt WHERE ymd BETWEEN '2018-01-01' AND '2018-12-31' AND cat LIKE '%bbb%'; QUERY PLAN ---------------------------------------------------------------------------------------------------------------------------------

    時系列データ/BRINインデックス対応 - KaiGaiの俺メモ
    sh19910711
    sh19910711 2024/04/29
    "B-treeインデックスは、インデックス対象列の値とレコード位置を各レコード毎に持っており + 大規模データの脇に大規模インデックスが控えている / 一方で、BRINインデックスのdt_ymd_idxのサイズは僅か128kBに留まって" 2018
  • 『Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみた。 - いものやま。

    Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみたので、軽く感想とか。 Pythonでスラスラわかる ベイズ推論「超」入門 (KS情報科学専門書) 作者:赤石 雅典講談社Amazon 概要と感想 ベイズ推論のはいろいろあるけど、このは理論というよりツールとして活用することに重きをおいた感じの。 サンプリングをどう計算するのかとかはライブラリ(PyMC)に任せてしまってでは解説せず、統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心になってる。 数理最適化でたとえると、単体法とかの解説はしないでPuLP使ったモデリングの解説をしている感じ。 そういうこともあってすごく読みやすかったし、実用としてはこういうの方が助かるよね。 別に研究者として新しいアルゴリズムを作りたいとかでもないし。 数理最適化もそうだけど、理論とか勉強しても実際に使うときはライブラ

    『Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみた。 - いものやま。
    sh19910711
    sh19910711 2024/04/29
    "統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心 / 実際に使うときはライブラリ叩くだけで、一番壁になるのはモデルを作る部分なので、その部分がちゃんと解説されてるのはとてもよかった"