JJUG CCC 2021 Fallの 「15:00 ~ 15:50 Debeziumで変更データキャプチャを学ぼう」の資料です
JJUG CCC 2021 Fallの 「15:00 ~ 15:50 Debeziumで変更データキャプチャを学ぼう」の資料です
タイトルが全てなんですけどね。 以下のような記事を見つけまして。 駄文:ABテストがモノづくりを破壊する | nekokak's blog いろいろと突っ込みどころはあるんですが、まず最初の「ABテストとは何か」が間違ってるんですよね。 ABテストって簡単に言うと2つ以上ある選択肢のうち一番良い結果を出すことのできるものを見つける事ですね。 もしこの記事を書いた方の組織がABテストをこのように捉えているなら、そりゃモノづくりもクソもあったもんじゃないよなと思います。 ABテストって、単に複数のクリエイティブから良いものを見つけ出す手法じゃないんです。 仮説を検証する行為なんです。テストなんですから。 単に複数のクリエイティブから良いものを見つけ出すなら、クリエイティブのパーツを機械的に作って、何千何万パターンと試せばいい。逆に言えば2つやそこらのパターン試しても意味ないです。数少なすぎ。
AI技術開発部分析グループマネージャーの島田です。分析グループは、タクシーアプリ「GO」におけるデータドリブンなビジネス意思決定を行うために、様々なユーザ分析、乗務員分析を行っています。本記事では、分析グループ内で開催した統計的因果推論の勉強会について紹介したいと思います。 勉強会のモチベーション「データドリブンなビジネス意思決定」という文脈においては、機械学習モデルの精度を向上させる能力はあまり重要ではありません。どちらかといえば、物事をどうモデリングすべきか不明なケースで、状況を整理して課題を明確にし、適切に定式化したり、データ分析に落とし込む能力が重要で、その一助となるであろう「統計的因果推論」をチームのスキルとして身につけようということで勉強会を開始しました。つぎのような場面で統計的因果推論が活躍してくれることを期待しています。 A/Bテストでは効果なしとなったが、あるサブグループ
歴史というと、実は学生の時に殆ど興味がなかった分野だったのですが、今思えば自分が歴史よりも現在・将来について興味があったのが原因だったのかもしれません。ただし、例外として自分が今最も活用しているテクノロジーについての歴史は面白くて堪りません。今回はMicrosoftのBIに関する歴史について簡単に紹介してみようと思います。Power BIの登場背景、MicrosoftのBIテクノロジーの登場逸話等に興味がある人は最後まで読んでみて下さい。 凄い人達 当時のBIテクノロジー 混沌の2000年代 セルフサービスBIの登場 MicrosoftのBIに対する戦略 凄い人達 MicrosoftのBIテクノロジーを開発した人たちがいます。有名なところでAmir Netz氏とChristian Wade氏が挙げられます。Amir氏はTechnical Fellowというタイトルを持っており、Micros
概要 昨今ビックデータやそれを活用するAI技術などが特に技術的な注目を浴びていますが、これに伴って個人情報が侵害される危険性も増しました。しかし、個人情報を保護するような技術はAIなどの技術に比べて軽視される傾向にあると思います。 僕はそんな個人情報を保護する技術、匿名化技術を研究しています。匿名化技術をより皆さんに理解して頂きたくて、この記事を書くことに決めました。 注意 この記事を書くにあたり、できるだけ正しい記述を心がけますが、内容のわかりやすさを優先して僕の解釈を混ぜています。よって、不正確な部分が生じていることがあると思います。お気づきの際は適宜コメント等で指摘してくださると大変助かります。 そもそも匿名化とは? 匿名化という言葉が指す行為とは「データから名前や社会福祉番号などのすぐに個人が特定されるような情報を削除すること」と判断される方が多いと思います。しかし、例えば位置情報
はじめに こんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。 本記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。 その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成
2023年6月19日に社内で発表したLT資料です. SHAPでありがちなミスリーディングや,特徴量が予測に与える影響(因果効果)を推定できるケースについて紹介しました. 資料内で出てくるリンクは以下です(参照日: 2023年6月13日) https://arxiv.org/abs/2011.01625 https://christophm.github.io/interpretable-ml-book/shapley.html https://christophm.github.io/interpretable-ml-book/shap.html https://econml.azurewebsites.net/ https://qiita.com/s1ok69oo/items/0bf92b84e565789a2191 https://shap.readthedocs.io/en/late
connpassで開催した勉強会『ベイズ統計学入門 〜頻度主義からベイズ主義へ〜』の内容スライドです。 統計学は、「データに潜む規則や構造を抽出し、現象の理解や未知の現象に対する予測を行う」ための学問です。 実験や社会調査の解析だけではなく、ビッグデータ分析やAI開発でも統計学は不可欠であり、現代人にとって必須の学問と言っても過言ではないでしょう。 一方で、その背後には単なる数学的論理には収まらない様々な哲学的問題が横たわっています。 そんな統計学の歴史にあって、最大にして今なお継続中の議論が、ベイズ主義vs頻度主義についてでしょう。 統計学が台頭してきた19世紀から20世紀には、頻度主義が主流でしたが、21世紀になった今やベイズ主義こそが統計学の主流になりつつあります。 ベイズ推論は、自動運転から迷惑メールフィルタリング、画像復元やノイズキャンセリングなど、様々な分野に爆発的に応用されて
はじめに 2023年5月に一般提供を開始したAmazon Security Lake(以後Security Lakeと記載)についてサービスの概要と特徴であるアクセス管理(データアクセス,クエリアクセス)に焦点をあてて記載します。 今回解説を行わない内容 Security Lake 環境構築の諸設定解説 Security Lake に蓄積したデータの可視化 目次 ・Security Lakeとは ・メリット ・システム構成図とアクセス管理の検証箇所 ・導入ステップ ・アクセス管理動作検証 ・どのような活用が期待されるか ・注意点 Security Lakeとは Security Lakeは、フルマネージド型のセキュリティデータレイクサービスです。 AWS環境・SaaSプロバイダー・オンプレミス・クラウドソースからのセキュリティデータ(ログ・イベントデータ)を、アカウントに保存されている専用
はじめに データアナリティクス事業本部の大谷(おおや)です。 ついにData Wrangler Extension for Visual Studio Code(以降Data Wrangler)がプレビュー版から正式版になりました! この記事では、前回紹介できなかった、ファイルからData Wranglerを起動する方法についてまとめていきたいと思います。 Data Wrangler とは VSCode および VSCode Jupyter Notebook で、データの表示や分析を直感的に行うことができるようになる VSCode の拡張機能です。 セットアップ インストール方法や、ランタイムの設定などは前回記事をご確認ください。 実践 ファイルから Data Wrangler を開く方法は3パターンあります。 それぞれ確認していきましょう。 1. VSCode のエクスプローラー上で右ク
MeiliSearchを最近知ったので、使い勝手などを検証するメモです。 環境 OS: Ubuntu 20.04 MeiliSearch: 0.22.0 MeiliSearchとは? meilisearch/MeiliSearch: Powerful, fast, and an easy to use search engine Rustで実装された全文検索エンジン、という認識。 メイリサーチ という読み方でいいのかな? 各プログラミング言語向けのライブラリが公式で提供されていたりしてすごい。 meilisearch/meilisearch-rails: MeiliSearch integration for Ruby on Rails meilisearch/meilisearch-ruby: Ruby SDK for the MeiliSearch API meilisearch/me
今日はRedash Advent Calendar 16日目ですが、この記事はAdvent Calendarの記事ではありません。 qiita.com 12/16の記事はvankobeさんによる、Redashの結果をGoogleスプレッドシートで扱う事例の記事です。 qiita.com Redashの便利さと、その裏にあるつらみ Redashを活用しはじめて1年半ほど経ちますが、今ではRedashなしで業務が回らなくなるほどに使い倒しています。 しかし、Redashの活用が進んだことによって「Redashが落ちたら全てが止まる」といった状況になりつつあることも事実で、たまにRedashの収容サーバーからアラートが飛んでくると、背筋が凍る思いをしています。 それだけでなく、Redashの利点でもある「誰でもクエリを実行・編集できる」というのが、運用上問題になることも何度か経験してきました。
この記事の概要 こんにちは。PharmaX でエンジニアをしている諸岡(@hakoten)です。 この記事では、「YOJO事業部のプロダクト内で使用されているLLM(Large Language Models)の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何か まず、プロダクトにおけるLLM(Large Language Models)機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である(毎回異なる)」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。 弊社における定量的な計測は、大きく次の2
どうしてこの記事を書いたのか Elasticsearch/Neo4j 活用していらっしゃいますでしょうか? どちらも著名なデータベース(DB)ですが,その特徴・用途は異なります. Elasticsearch は文字情報の検索に強く,Neo4j は関連性を早く調べたいという場合に利用されているイメージです. 所感ですが,Neo4j でもデータのプロパティを基準にクエリをかけたいこともありますし,Elasticsearch に入っているデータ同士を紐づけたいことも往々にしてあります. しかし,愚直にそうしてしまうとスループットが低くなったり,実装に継続的な作りこみが必要だったり,なかなか考え物です. そこで,データ構造を見直しつつ何とか良いとこ取りできないかなと検討するようになりました. Neo4j と Elasticsearch の連携を行うことで, Elasticsearchに投入したデー
概要 Splunkが DeepLearningに対応しました(驚き)。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。 もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして 複数の NLP ライブラリが利用可能です。 今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。 ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた
1. はじめに 1.1 この記事について 1.2 使用した環境 2. Intel Optane Persistent Memory (DCPMM) とは 2.1 概要 2.2 各種概念 2.2.1 mode 2.2.2 region 2.2.3 namespace 3. 管理ツール 4. 実機確認 4.1. 状況確認 4.2 memory mode への変更 4.3 app direct mode への変更 4.4 namespace の作成 5. 最後に 執筆者 : 西村 大助 1. はじめに 1.1 この記事について 本稿では、Intel Optane Persistent Memory (以下、「DCPMM」1) を使うにあたり必要な、基本的な概念や Linux 上での使用方法などを説明したいと思います。 私自身、Linux の DCPMM 関連の開発を行っているわけではなく、たまた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く