タグ

関連タグで絞り込む (326)

タグの絞り込みを解除

*dataに関するsh19910711のブックマーク (3,650)

  • Debeziumで変更データキャプチャを学ぼう #jjug_ccc

    JJUG CCC 2021 Fallの 「15:00 ~ 15:50 Debeziumで変更データキャプチャを学ぼう」の資料です

    Debeziumで変更データキャプチャを学ぼう #jjug_ccc
    sh19910711
    sh19910711 2024/05/14
    "Debezium: RedHatがサポート + データベースの行レベルの変更をキャプチャする分散サービスのセット / Kafkaが嫌ならEmbedded Engineという手もある + お好みのメッセージブローカーに送信することも出来る" 2021
  • ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー

    タイトルが全てなんですけどね。 以下のような記事を見つけまして。 駄文:ABテストがモノづくりを破壊する | nekokak's blog いろいろと突っ込みどころはあるんですが、まず最初の「ABテストとは何か」が間違ってるんですよね。 ABテストって簡単に言うと2つ以上ある選択肢のうち一番良い結果を出すことのできるものを見つける事ですね。 もしこの記事を書いた方の組織がABテストをこのように捉えているなら、そりゃモノづくりもクソもあったもんじゃないよなと思います。 ABテストって、単に複数のクリエイティブから良いものを見つけ出す手法じゃないんです。 仮説を検証する行為なんです。テストなんですから。 単に複数のクリエイティブから良いものを見つけ出すなら、クリエイティブのパーツを機械的に作って、何千何万パターンと試せばいい。逆に言えば2つやそこらのパターン試しても意味ないです。数少なすぎ。

    ABテストツールは「数打ちゃ当たる」を機械化するためのツールではない - 絶倫ファクトリー
    sh19910711
    sh19910711 2024/05/13
    "事前のリサーチから得られた仮説を検証する / 仮説のあるテストならば、テスト結果が悪くても学びはあり + 良い仮説は良いテストを生み出し、良いテストは良い仮説を生み出します" 2015
  • 入門 統計的因果推論 | MoT Lab (GO Inc. Engineering Blog)

    AI技術開発部分析グループマネージャーの島田です。分析グループは、タクシーアプリ「GO」におけるデータドリブンなビジネス意思決定を行うために、様々なユーザ分析、乗務員分析を行っています。記事では、分析グループ内で開催した統計的因果推論の勉強会について紹介したいと思います。 勉強会のモチベーション「データドリブンなビジネス意思決定」という文脈においては、機械学習モデルの精度を向上させる能力はあまり重要ではありません。どちらかといえば、物事をどうモデリングすべきか不明なケースで、状況を整理して課題を明確にし、適切に定式化したり、データ分析に落とし込む能力が重要で、その一助となるであろう「統計的因果推論」をチームのスキルとして身につけようということで勉強会を開始しました。つぎのような場面で統計的因果推論が活躍してくれることを期待しています。 A/Bテストでは効果なしとなったが、あるサブグループ

    入門 統計的因果推論 | MoT Lab (GO Inc. Engineering Blog)
    sh19910711
    sh19910711 2024/05/13
    "Introduction to Causal Inference: カナダのモントリオール大学で設立されたAI研究所であるMilaで開講されたコースで、講義資料やテキストブックが公開されているだけではなく、講義動画はYouTubeで公開" 2021
  • MicrosoftにおけるBIの歴史 - テクテク日記

    歴史というと、実は学生の時に殆ど興味がなかった分野だったのですが、今思えば自分が歴史よりも現在・将来について興味があったのが原因だったのかもしれません。ただし、例外として自分が今最も活用しているテクノロジーについての歴史は面白くて堪りません。今回はMicrosoftのBIに関する歴史について簡単に紹介してみようと思います。Power BIの登場背景、MicrosoftのBIテクノロジーの登場逸話等に興味がある人は最後まで読んでみて下さい。 凄い人達 当時のBIテクノロジー 混沌の2000年代 セルフサービスBIの登場 MicrosoftのBIに対する戦略 凄い人達 MicrosoftのBIテクノロジーを開発した人たちがいます。有名なところでAmir Netz氏とChristian Wade氏が挙げられます。Amir氏はTechnical Fellowというタイトルを持っており、Micros

    MicrosoftにおけるBIの歴史 - テクテク日記
    sh19910711
    sh19910711 2024/05/11
    "90年代のMicrosoftはエンタープライズ向けBIツールで世の中を席巻 / 当初データを集計するためにはMOLAP、ROLAPという技術を使用 / 手軽に分析できる環境ではないことから、ひと昔のBIは全てエンタープライズBIと呼ばれ" 2021
  • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括部 システム技術部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)
    sh19910711
    sh19910711 2024/05/11
    "従来のデータレイク: 高度化する要件に対してデータの整合性を保つのが難しい・更新の重複への対応が難しいなどの課題 / データレイクを進化させるOSSのストレージレイヤソフトウェアが登場" 2021
  • 「回帰分析から分かること」と「変数選択」

    10/23にp.11をアップデート

    「回帰分析から分かること」と「変数選択」
    sh19910711
    sh19910711 2024/05/10
    "仮定としての誤差と、分析結果として確認できる残差が違うことは注意 / DAGはコミュニケーションツール / 自分の考える因果構造を伝えたり、なぜバイアスが生じるのか説明するのに有用" 2021
  • 匿名化技術についてまとめてみた【k匿名性, l多様性,t近接性,差分プライバシ】 - Qiita

    概要 昨今ビックデータやそれを活用するAI技術などが特に技術的な注目を浴びていますが、これに伴って個人情報が侵害される危険性も増しました。しかし、個人情報を保護するような技術AIなどの技術に比べて軽視される傾向にあると思います。 僕はそんな個人情報を保護する技術、匿名化技術を研究しています。匿名化技術をより皆さんに理解して頂きたくて、この記事を書くことに決めました。 注意 この記事を書くにあたり、できるだけ正しい記述を心がけますが、内容のわかりやすさを優先して僕の解釈を混ぜています。よって、不正確な部分が生じていることがあると思います。お気づきの際は適宜コメント等で指摘してくださると大変助かります。 そもそも匿名化とは? 匿名化という言葉が指す行為とは「データから名前や社会福祉番号などのすぐに個人が特定されるような情報を削除すること」と判断される方が多いと思います。しかし、例えば位置情報

    匿名化技術についてまとめてみた【k匿名性, l多様性,t近接性,差分プライバシ】 - Qiita
    sh19910711
    sh19910711 2024/05/10
    "一つでは個人を特定できない情報も集まれば個人を特定するに足る / 準識別子: 集まることで個人の特定につながる可能性のある情報 / k匿名性: 準識別子が全く同一の個人が少なくともk人以上存在" 2019
  • Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成

    はじめに こんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。 記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。 その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成

    Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成
    sh19910711
    sh19910711 2024/05/10
    "ARF; Adversarial Random Forests: その名の通りGANとRandom Forestを組み合わせた手法 + 元のテーブルデータと類似したデータを生成 / 個人情報・秘匿情報をマスクしたモックデータの生成といった場面での活用可能性"
  • SHAPで因果関係を説明できる?

    2023年6月19日に社内で発表したLT資料です. SHAPでありがちなミスリーディングや,特徴量が予測に与える影響(因果効果)を推定できるケースについて紹介しました. 資料内で出てくるリンクは以下です(参照日: 2023年6月13日) https://arxiv.org/abs/2011.01625 https://christophm.github.io/interpretable-ml-book/shapley.html https://christophm.github.io/interpretable-ml-book/shap.html https://econml.azurewebsites.net/ https://qiita.com/s1ok69oo/items/0bf92b84e565789a2191 https://shap.readthedocs.io/en/late

    SHAPで因果関係を説明できる?
    sh19910711
    sh19910711 2024/05/09
    "SHAP値をそのまま因果効果として解釈すると交絡や未観測要因の影響によりミスリーディング / 特徴量間の独立性: 強い無視可能性を満たす + 交絡がすべて観察されているケース" 2023
  • ベイズ統計学入門 〜頻度主義からベイズ主義へ〜

    connpassで開催した勉強会『ベイズ統計学入門 〜頻度主義からベイズ主義へ〜』の内容スライドです。 統計学は、「データに潜む規則や構造を抽出し、現象の理解や未知の現象に対する予測を行う」ための学問です。 実験や社会調査の解析だけではなく、ビッグデータ分析AI開発でも統計学は不可欠であり、現代人にとって必須の学問と言っても過言ではないでしょう。 一方で、その背後には単なる数学的論理には収まらない様々な哲学的問題が横たわっています。 そんな統計学の歴史にあって、最大にして今なお継続中の議論が、ベイズ主義vs頻度主義についてでしょう。 統計学が台頭してきた19世紀から20世紀には、頻度主義が主流でしたが、21世紀になった今やベイズ主義こそが統計学の主流になりつつあります。 ベイズ推論は、自動運転から迷惑メールフィルタリング、画像復元やノイズキャンセリングなど、様々な分野に爆発的に応用されて

    ベイズ統計学入門 〜頻度主義からベイズ主義へ〜
    sh19910711
    sh19910711 2024/05/09
    "頻度主義とベイズ主義: 推測という行為の不確実性をどこに閉じ込めるのかが異なる / ベイズ主義では推測しようとしているパラメータそのものに不確実性を持たせる / 仮説・命題がどの程度正しそうかを確率で表す" 2022
  • 【AWS】Amazon Security Lakeの概要とアクセス管理の検証 - Qiita

    はじめに 2023年5月に一般提供を開始したAmazon Security Lake(以後Security Lakeと記載)についてサービスの概要と特徴であるアクセス管理(データアクセス,クエリアクセス)に焦点をあてて記載します。 今回解説を行わない内容 Security Lake 環境構築の諸設定解説 Security Lake に蓄積したデータの可視化 目次 ・Security Lakeとは ・メリット ・システム構成図とアクセス管理の検証箇所 ・導入ステップ ・アクセス管理動作検証 ・どのような活用が期待されるか ・注意点 Security Lakeとは Security Lakeは、フルマネージド型のセキュリティデータレイクサービスです。 AWS環境・SaaSプロバイダー・オンプレミス・クラウドソースからのセキュリティデータ(ログ・イベントデータ)を、アカウントに保存されている専用

    【AWS】Amazon Security Lakeの概要とアクセス管理の検証 - Qiita
    sh19910711
    sh19910711 2024/05/09
    "Security Lake: 検知したデータと他のログデータと組み合わせて分析や機械学習に利用する + サードパーティのデータもOSCF形式に変換することで一元管理 / 従量課金: データの取込みとデータ変換(正規化)"
  • メルカリにおける人事データ活用の現在地点 HR Millennial Lounge #13

    HR Millennial Lounge #13 「科学とデータが変えるHRとチームの未来」 2021年10月14日(木) 12:00-

    メルカリにおける人事データ活用の現在地点 HR Millennial Lounge #13
    sh19910711
    sh19910711 2024/05/09
    "人事データ活用が求められるようになった背景: 株式市場からのプレッシャー + 欧米を中心にISO30414準拠のHRレポート公開義務化 / 人事もデータを用いた戦略部門になっていく必要がある" 2021
  • Data Wrangler Extension for Visual Studio Code がGAになったよ | DevelopersIO

    はじめに データアナリティクス事業部の大谷(おおや)です。 ついにData Wrangler Extension for Visual Studio Code(以降Data Wrangler)がプレビュー版から正式版になりました! この記事では、前回紹介できなかった、ファイルからData Wranglerを起動する方法についてまとめていきたいと思います。 Data Wrangler とは VSCode および VSCode Jupyter Notebook で、データの表示や分析を直感的に行うことができるようになる VSCode拡張機能です。 セットアップ インストール方法や、ランタイムの設定などは前回記事をご確認ください。 実践 ファイルから Data Wrangler を開く方法は3パターンあります。 それぞれ確認していきましょう。 1. VSCode のエクスプローラー上で右ク

    Data Wrangler Extension for Visual Studio Code がGAになったよ | DevelopersIO
    sh19910711
    sh19910711 2024/05/09
    "Data Wrangler Extension: VSCode の拡張機能 + データの表示や分析を直感的に行うことができる / 一発でParquetファイルの中身を確認 / ワークスペースにないファイルを開きたい場合は、コマンドパレットから開くと便利"
  • MeiliSearchを使ってみる

    MeiliSearchを最近知ったので、使い勝手などを検証するメモです。 環境 OS: Ubuntu 20.04 MeiliSearch: 0.22.0 MeiliSearchとは? meilisearch/MeiliSearch: Powerful, fast, and an easy to use search engine Rustで実装された全文検索エンジン、という認識。 メイリサーチ という読み方でいいのかな? 各プログラミング言語向けのライブラリが公式で提供されていたりしてすごい。 meilisearch/meilisearch-rails: MeiliSearch integration for Ruby on Rails meilisearch/meilisearch-ruby: Ruby SDK for the MeiliSearch API meilisearch/me

    MeiliSearchを使ってみる
    sh19910711
    sh19910711 2024/05/09
    "MeiliSearch: 各プログラミング言語向けのライブラリが公式で提供 + シンプル / API叩いてから非同期でindexing + 100万件なげるとindexがすべて作成されるまでに多少時間がかかる + 1h30m くらい" 2021
  • 運用6年目・500万人が使うアプリのDBをSQLiteからFirestoreに移行した話(iOSDC 2021)

    https://fortee.jp/iosdc-japan-2021/proposal/b1b94452-dd4b-4581-8797-f348919ee362

    運用6年目・500万人が使うアプリのDBをSQLiteからFirestoreに移行した話(iOSDC 2021)
    sh19910711
    sh19910711 2024/05/09
    "データは各端末のSQLiteデータベースに保存 + 書き込み・読み取りロジックが元々クライアントサイドに寄っていた / 一度に多くの問題を解決しない + ふわっとした課題に対しては、ふわっとした解決策になりがち" 2021
  • redashmanを使ってRedashのクエリをお手軽にバックアップする - ariarijp’s blog

    今日はRedash Advent Calendar 16日目ですが、この記事はAdvent Calendarの記事ではありません。 qiita.com 12/16の記事はvankobeさんによる、Redashの結果をGoogleスプレッドシートで扱う事例の記事です。 qiita.com Redashの便利さと、その裏にあるつらみ Redashを活用しはじめて1年半ほど経ちますが、今ではRedashなしで業務が回らなくなるほどに使い倒しています。 しかし、Redashの活用が進んだことによって「Redashが落ちたら全てが止まる」といった状況になりつつあることも事実で、たまにRedashの収容サーバーからアラートが飛んでくると、背筋が凍る思いをしています。 それだけでなく、Redashの利点でもある「誰でもクエリを実行・編集できる」というのが、運用上問題になることも何度か経験してきました。

    redashmanを使ってRedashのクエリをお手軽にバックアップする - ariarijp’s blog
    sh19910711
    sh19910711 2024/05/09
    "活用が進んだことによって「Redashが落ちたら全てが止まる」といった状況になりつつある / アラートが飛んでくると、背筋が凍る思いをして / 自作のツールを用いて、Redashのクエリを定期的にバックアップ" 2017
  • LLMの事前評価のシステムアーキテクチャを紹介します

    この記事の概要 こんにちは。PharmaX でエンジニアをしている諸岡(@hakoten)です。 この記事では、「YOJO事業部のプロダクト内で使用されているLLM(Large Language Models)の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何か まず、プロダクトにおけるLLM(Large Language Models)機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である(毎回異なる)」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。 弊社における定量的な計測は、大きく次の2

    LLMの事前評価のシステムアーキテクチャを紹介します
    sh19910711
    sh19910711 2024/05/09
    "LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"
  • ElasticsearchとNeo4jをKafkaで連携する - Qiita

    どうしてこの記事を書いたのか Elasticsearch/Neo4j 活用していらっしゃいますでしょうか? どちらも著名なデータベース(DB)ですが,その特徴・用途は異なります. Elasticsearch は文字情報の検索に強く,Neo4j は関連性を早く調べたいという場合に利用されているイメージです. 所感ですが,Neo4j でもデータのプロパティを基準にクエリをかけたいこともありますし,Elasticsearch に入っているデータ同士を紐づけたいことも往々にしてあります. しかし,愚直にそうしてしまうとスループットが低くなったり,実装に継続的な作りこみが必要だったり,なかなか考え物です. そこで,データ構造を見直しつつ何とか良いとこ取りできないかなと検討するようになりました. Neo4j と Elasticsearch の連携を行うことで, Elasticsearchに投入したデー

    ElasticsearchとNeo4jをKafkaで連携する - Qiita
    sh19910711
    sh19910711 2024/05/09
    "Neo4j でもデータのプロパティを基準にクエリをかけたい + Elasticsearch に入っているデータ同士を紐づけたい / Neo4j Connector は Sink と Source のどちらもサポート" 2022
  • Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

    概要 Splunkが DeepLearningに対応しました(驚き)。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。 もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして 複数の NLP ライブラリが利用可能です。 今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。 ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた

    Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita
    sh19910711
    sh19910711 2024/05/08
    "Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019
  • Intel Optane Persistent Memory を使ってみた - VA Linux エンジニアブログ

    1. はじめに 1.1 この記事について 1.2 使用した環境 2. Intel Optane Persistent Memory (DCPMM) とは 2.1 概要 2.2 各種概念 2.2.1 mode 2.2.2 region 2.2.3 namespace 3. 管理ツール 4. 実機確認 4.1. 状況確認 4.2 memory mode への変更 4.3 app direct mode への変更 4.4 namespace の作成 5. 最後に 執筆者 : 西村 大助 1. はじめに 1.1 この記事について 稿では、Intel Optane Persistent Memory (以下、「DCPMM」1) を使うにあたり必要な、基的な概念や Linux 上での使用方法などを説明したいと思います。 私自身、Linux の DCPMM 関連の開発を行っているわけではなく、たまた

    Intel Optane Persistent Memory を使ってみた - VA Linux エンジニアブログ
    sh19910711
    sh19910711 2024/05/08
    "DCPMM: Intel から発売されている 3D-Xpoint 技術を使った NVDIMM (不揮発性メモリ) + 電源断によりデータが失われない / 性能は DRAM には劣るが、SSD などのストレージよりは優れている / CPU からはメモリとして扱える" 2021