[B! 収集] sh19910711のブックマーク

Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

概要 Splunkが DeepLearningに対応しました（驚き）。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして複数の NLP ライブラリが利用可能です。今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた

sh19910711 2024/05/08

"Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019

リンク

n8nでワークフローを自動化した話 / 20220914_n8n

2022ランキング圏外から2023ランキング入りを実現したテックブログ運営について / 2023-07-28-QiitaEngineerFesta

sh19910711 2024/05/07

"iPaaS: 異なるSaaS同士を接続してデータ統合したりタスクを実行 / n8n: 柔軟性があり拡張性の高いワークフロー自動化ツール + セルフホスティングも可能 / OGP取得 + サムネイル用画像をS3に保存 + Notionに投稿" 2022

リンク

スクレイピング時に本文だけを抽出する最高精度ツールが優秀！【日本語版も公開】 - Qiita

n,pはそれぞれnegative(ノイズ),positive(本文)を基準とした時の評価を表します。例としてノイズ部分をN,本文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に本文を抽出できているかを評価していると考えればよいでしょう。元のデータでの再現学習も問題無く行えました。また日本語対応版もおおよそ元論文と同程度の精度が出ています。要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

sh19910711 2024/05/06

"boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020

リンク

OktaログをMicrosoft Sentinelに取り込んでみた - APC 技術ブログ

はじめにこんにちは、エーピーコミュニケーションズ iTOC事業部 BzD部 0-WANの坂口です。今回は、OktaのログをMicrosoft Sentinelに格納する方法をご紹介します。想定アーキテクチャ想定するアーキテクチャは、下図のとおりです。 Azure Functions 定期的にOktaに接続してログを収集します。 Log Analytics workspace 収集したOktaログを格納します。 Microsoft Sentinel Log Analytics workspaceに格納されたログを参照・分析します。ログ格納の手順 Oktaの監査ログとイベントログを収集する手順です。下記データコネクタを利用します。 learn.microsoft.com 手順1. Okta API Tokenの作成手順2. Okta Single Sing-Onコンテンツのインスト

sh19910711 2024/04/20

"Azure Functions + Log Analytics workspace + Microsoft Sentinel / Microsoft Sentinel: 様々なコネクタが準備されており、Microsoft製品でなくても容易にログを収集することができ + 従量課金のため、パイロット導入もしやすい"

リンク

NLBでfluentdのforwardパケットを分散させてみた - Qiita

AWSの新しいロードバランサであるNLB(Network Load Balancer)を使ってfluentdのforwardパケットを分散してみたので、レポートをまとめておく。 NLB自体については、クラスメソッドのブログ等で紹介されているのでそちらを参照するのが分かり易い。静的なIPを持つロードバランサーNetwork Load Balancer（NLB）が発表されました！試してわかった NLB の細かいお作法ざっくり言うと、TCPプロトコルを対象にしたALBって感じ。ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い。ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる。利用までの流れターゲットグループを作成し、TCPレベルでコネクションが貼れるかのヘルスチェックの設定をするインスタンスもしくは対象IPと、ポートの組を

sh19910711 2024/04/20

"NLB: TCPプロトコルを対象にしたALB + ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い / ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる" 2017

リンク

FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある

三行で FireLens を使うことで ECS で稼働するアプリケーションのログ転送を簡単に実装できるしかし、ドキュメントに記載されている設定例をそのまま利用しただけでは実はログの取りこぼしがあったログの取りこぼしを防ぐためにコンテナ間の依存関係とHealthcheckの設定を行った FireLens とは FireLens　を簡単に言うと、「ECS のタスク定義の記述だけで Fluent Bit / Fluentd を使ったログ転送用のサイドカーコンテナが利用できる機能」でしょうか。 FireLens という個別のサービスやソフトウェアが存在するわけでは無いようです。詳細は以下を参照ください。症状私が関わったとあるサービスでは ECS を使ってアプリケーションを稼働させていて、アプリケーションのログは FireLens により Fluent Bit を使ってログ転送を行っていま

sh19910711 2024/04/20

"FireLens: ログ転送用のサイドカーコンテナが利用できる機能 + ECS で稼働するアプリケーションのログ転送を簡単に実装できる / 依存元コンテナが立ち上がった段階でその依存先コンテナが立ち上がっていないケース"

リンク

分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS

sh19910711 2024/04/14

"Aurora MySQLにあるデータをEmbulkを用いてBigQueryに連携 + Lookerなどを通して社内利用 / Aurora S3 Export: 100GBで$1.2~1.3程度 / RdsStartExportTaskOperator: Airflowサーバーのバージョンが低くて利用ができなかった"

リンク

請求書発行のためにEmbulkを使って爆速でデータを集約した話 - 一休.com Developers Blog

こんにちは。宿泊開発チームの菊地です！このエントリは一休.com Advent Calendar 2023 12日目の記事です。昨日は id:rotom によるSlack Enterprise Grid における情報バリアの設計でした。その他の素敵なエントリも以下のリンクからご覧ください。 qiita.com 私はEmbulkを使って、各プロダクトの請求データを集約する機能を担当しました。今回は、Embulkの紹介とふりかえりをしていきたいと思います！背景課題解決策 Embulkとは？今回の課題に対してEmbulkがマッチした理由 union: 複数のデータソースを連結する config.ymlの記述例 lookup: 複数のデータソースを結合する config.ymlの記述例ふりかえりとくに良かったこと config.ymlの取り回しのよさが開発スピードをあげてくれた c

sh19910711 2024/04/12

"Embulk: 2023年3月からは、社に限定せず広くコアチームを結成し設計検討を行っていく方針が発表 + 業務としてのOSS開発のアンビバレンスなど、かなり実情に即した部分まで言及 / union: input プラグインを組み合わせられる" 2023

リンク

Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog

こんにちは、スタッフエンジニアの @kenkoooo です。Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb をオープンソースとして公開しました。 github.com Embulk とは？データをロードするすごい OSS です。プラグイン形式でデータの入力や出力を定義することができるため、各種 SQL や BigQuery などだけでなく、スプレッドシートやアクセス解析など様々な入力元・出力先に対応しています。公式サイト: Embulk Snowflake とは？データを集めたり加工したりするデータプラットフォームです。estie でメッチャ流行ってます。 dbt-snowflake のテストフレームワークを作った話 - estie inside blog estie にデータを使って意思決定したいことが 62 個もある話

sh19910711 2024/02/11

"Embulk を使って Snowflake からデータを読み込むプラグインが存在しない / embulk-input-jdbc: あくまで一般的な JDBC ドライバーに対応 + Snowflake 特有のキーペア認証などには一部のみしか対応していません"

リンク

300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークスエンジニアブログ

これはクラウドワークスアドベントカレンダー 24日目の記事です。前日は畑中さんの制作会社出身のデザイナーが事業会社に入って感じた５つの悩み事でした。事業会社とデザイン制作会社の違いから生まれる悩みをどう解決したかが伝わる記事でした。クラウドワークスSREチームの @kangaechu です。最近はM1 Macを購入しました。M1 Macはアプリケーションの対応状況がまだまだなので、Goをソースからクロスコンパイルするなど、今までやったことがないことができてちょっと楽しいです。でももう少しネイティブのアプリが揃うと嬉しいな。アドベントカレンダーはSREチームに入ってからの2年間にチームでやってきたことに続き、2つめのエントリとなります。前回の記事で、Docker化したシステムの一つとしてfluentd（ログ基盤）を挙げました。ここではそのログ基盤についての詳細を書いていきます。

sh19910711 2023/03/29

2020 / "Fluent Bit: クラウドプロバイダや、ElasticsearchやKafkaなどのプラグインが同梱 / Kinesis Firehoseへの出力プラグインはFluent Bit 1.6から本家で実装されているので、現在は追加のプラグインは不要です"

リンク

Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

構想は半年ほど前？ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか？』という問題があります。例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。そこで、大量に収集するログデータを、少ない時間ロスで（つまり一時ファイルに保存したデータを再度DBにインポート

sh19910711 2022/09/10

fluent-plugin-arrow-file / "発生したデータを『どうやってSQLで処理できるようDBにインポートするか？』 / Fluentd から Apache Arrow 形式ファイルを出力 + 直接 PG-Strom から読み出す / データをインポートする事なく PostgreSQL から参照"

リンク

メモ Embulkの歴史、過去・現在、これから #shinjukugl - by shigemk2

メモ Embulkの歴史、過去・現在、これから #shinjukugl embulkとは embulk fluentdのバッチプラグインアーキテクチャ JRuby/Java/Scala/Kotlin 並列処理並行処理 guess リトライレジューム yamlベース -2015 プラグインの数はfluentdよりは少ない初期はcsvパースとかvim出力とか Qiitaのembulkのまとめ(2015/2/16) http://www.embulk.org/plugins/ 組み込みプラグイン覚書コマンドヘルプさまざまな人々の貢献 sakamaさん BQ用プラグイン BQにデータをアップロードできる組み込みCSVフォーマッターの修正 hito4_tさん JDBCまわりの大幅な回収 Oracle/SQLServerまわり civitaspoさん JSONまわりのプラグインを作成 s

sh19910711 2022/07/06

2017 / "2015: プラグインの数はfluentdよりは少ない + 初期はcsvパースとかvim出力とか / 2016: WebDBとかでの紹介 + Excelプラグインが脚光を浴びる"

リンク

NetFlowを使ってネットワーク機器のトラフィックを見てみる

はじめまして、プラットフォームサービスの恩田です。今回はNetFlowを利用してネットワーク機器を通過するパケットをコレクタサーバに収集し、elasticsearch＋kibanaで可視化してみようと思います。 NetFlowとは？ NetFlowとはネットワーク上を流れるトラフィックフローを受動的にモニタできる機能です。これまでもSNMP等でネットワーク機器を通過するパケットのトラフィック量や CPU、メモリ使用率などについては情報を取得できました。 NetFlowでは、SNMPでは取得できなかったクライアントPCのIPアドレスや宛先IPアドレス、ポート番号(TCP/80番ポート)などネットワーク機器を通過するパケットの詳細な情報を取得することが可能です。検証環境今回はVM環境に以下のような検証環境を構築してみます。 VyOS ： OSSのソフトウェアルータ。今回NetFl

sh19910711 2022/04/13

"NetFlow: ネットワーク上を流れるトラフィックフローを受動的にモニタできる機能 + SNMPで取得していた情報よりも細かく情報を取得できる / fluent-plugin-netflow: VyOSを経由する通信をNetFlowでサーバーに転送"

リンク

絶対的に使った方がいいLogstashのMultiple Pipelinesについて書いてみた - Qiita

はじめにおはです！ Logstashのフィルタの中でもGrokが好きなぼくが、Advent Calendar11日目を書かせていただきますーあ、でも今回は、Grokについては書かないですよ！じゃあ、何書くの？Grokしか脳のないお前が何を書くのさーそりゃ、あれだよ！Logstash 6.0がGAされたので、待ちに待ったMultiple Pipelinesについて書くしかないでしょ！てことで、LogstashのMultiple Pipelinesについて、ゆるーく書いていきます( ﾟДﾟ)ゞﾋﾞｼｯ構成について今回テストするにあたって使用した構成は以下です。 Amazon Linux AMI 2017.09.1 (HVM) Logstash 6.0 logstash-input-s3 Elasticsearch 6.0 Kibana 6.0 X-Pack 6.0 ちなみに、もろ

sh19910711 2022/02/09

2017 / "Multiple Pipelines: hoge.confに対して複数のデータソースを組み込んでいたものを、分割することができちゃう / Worker数などもPipeline毎に割り当てることができる"

リンク

fluentdでPostgreSQLで起こった変更を取得する - Qiita

先日、PostgreSQLで発生した変更をfluentdに送る方法としてLogical Decodingが使えないかなと思い、fluentdのINPUTプラグインを作ってみたのでそれの使い方をまとめておきます。このプラグインを使うと、PostgreSQLのLogical Decoding機能(WALをデコードしてどこかに転送する機能)を使って、PostgreSQL上で起こった全ての変更をfluentd上に流すことができます。 SQL経由でDB上の情報を取ってくるのとは異なり、Logical DecodingではPostgreSQLが出力したトランザクションログ（WAL）から変更情報を取ってくるので、他の処理への影響を少なく抑えることができます（トリガを仕掛けたりもいりません）。また、Logical Decoding側もプラグイン形式なっているので、好きな形式に変更結果を表すことができるの

sh19910711 2022/02/07

2018 / "PostgreSQLが出力したトランザクションログ（WAL）から変更情報を取ってくるので、他の処理への影響を少なく抑えることができます / Logical Decoding側もプラグイン形式 + 好きな形式に変更結果を表すことができる"

リンク

LogstashのPipeline to Pipeline Communicationを試す - CLOVER🍀

これは、なにをしたくて書いたもの？ Logstashのパイプラインを書いていると、だんだん設定ファイルが大きくなってきて、困るなぁと。こういう時、どうしたらいいのだろうと調べたら、こういうのがあったので試してみることにしました。 Pipeline-to-Pipeline Communication | Logstash Reference [7.5] | Elastic Pipeline to Pipeline Communication Logstashのパイプラインでfilterを使い、変換処理やパース処理を書いていると、だんだん設定ファイルが大きくなってきます。あんまり大きくなりすぎるのも見通しが悪くなるので嫌なのですが、includeみたいな方法で分割することはできなさそうです。 'include functionality' for logstash config files

sh19910711 2022/02/05

*data
収集

リンク

大量データの転送にEmbulkを使ってみたら本当に楽だった - CARTA TECH BLOG

はじめまして。Zucks Affiliateでエンジニアをしている宗岡です。今回は、リアルタイム性は求めないけど、簡単に大量のデータをどこか別の場所に転送したい。という要望に答えてくれるEmbulkを紹介したいと思います。実際に導入に至ったきっかけや、運用上よくある課題なども触れていきたいと思います。同じ境遇の人が「簡単そうだしEmbulk使ってみようかな」となっていただければ幸いです。目次目次背景 Embulk以外にも出てきた案実際のEmbulkの導入と使い方 1. Embulkのインストールとセットアップ 2. 必要なプラグインのインストール 3. 設定ファイルを書く実務でcodecommitを使った例設定ファイルの書き方 4. まずはpreviewで問題なさそうか確認 5. 問題なさそうなのでrunして実行 Embulkの運用上、よくぶつかる課題 1. 重複に気付

sh19910711 2022/01/23

"previewは、dry-run機能として使えます + 実際にEmbulkを実行する前にどんなデータが転送されそうかを確認出来ます / 設定ファイルが増えてくると重複が多くなる > liquidテンプレートのinclude機能を使う"

*data
収集

リンク

Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

こんにちは、エムスリーエンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。これはエムスリー Advent Calendar 2020 の19日目の記事です。エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです（勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!） www.youtube.com これに関連して私のチームでも最近「データ基盤（Digdag + Embulk）のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。エムスリーのデータ基盤についてそれまでの構成クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する併

sh19910711 2021/12/22

"DigdagとEmbulkの分離 > DigdagにはEmbulkのECS Taskのキックだけに集中 + Embulk自身も「1テーブルの連携 = 1コンテナ」の粒度となるように設計 > 影響範囲を小さく変更リリースできるように / Digdagの sla: ディレクティブ"

リンク

FluentdとGrowthForecastを使って自分の行動をロギング・可視化する - すぎゃーんメモ

おそらくはそれさえも平凡な日々: もにかじでオレオレ監視ツールについて話してきました GrowthForecast.plで自分ロギングしてみた - by edvakf in hatena の記事のように、FluentdやGrowthForecastを使ったロギングって面白そうだなーと思って自分でもやってみた。アプリケーション毎のアクティブな時間を取るまず考えたのはこれ。キーイベント発火回数ほど細かくなくても、「アクティブにしている時間の割合」が取れたらそれはそれで良いかな、と。 1秒ごとにアクティブなアプリを調べてロギングしていく。Mac OS Xにおいてアクティブなアプリケーションを調べるならAppleScriptが簡単。 name of (info for (path to frontmost application)) これだけでアクティブにしているアプリケーション名が取れる。

sh19910711 2021/09/18

" Mac OS Xにおいてアクティブなアプリケーションを調べるならAppleScriptが簡単 / 「あぁ、このへんはずっとEmacsで何か書いてて、このへんはずっとTwitter見てるな」とかが分かる"

リンク

Cloud Composer（Airflow）で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog

はじめにこんにちは。Data Engineer の @shase です。弊社ではいくつかのユースケースでCloud Composer（Airflow）を使っているのですが、今回はデータチームで開発している、分析者向けBigQuery SQL実行基盤（社内の通称はSaved Query Workflow）について紹介します。このシステムは今年の春から動いているものです。システム概要今回紹介するシステムの概要です。分析者はSQLとYAMLをGitHubにコミットしてPRを作成します。エンジニアがレビューをします。 Cloud ComposerでSQLがスケジュール実行され、結果がGoogle Sheets などに出力されます。背景組織全体のKPI集計やレポーティングとは別に、分析者個人や特定のチームが使うテーブルやレポートを定期的に作成する場合を想定したユースケースとして、分

sh19910711 2021/06/16

quipper/embulk-output-google_sheets / "Google Sheets 連携には、Embulkのoutput pluginを自作して利用しています。（少し検索したのですが、良い既存のpluginがなかったというのもあります）"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (48)

収集に関するsh19910711のブックマーク (81)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス