タグ

収集に関するsh19910711のブックマーク (81)

  • Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita

    概要 Splunkが DeepLearningに対応しました(驚き)。昨年(2018年)の .conf で発表があり beta 版としてアングラで動いてたらしいですが、今回正式に Deep Learning Toolkit もリリースされて追加できるようになりました。 もちろんGPUなどにも対応しており、Tensorflow /Keras / PyTorch そして 複数の NLP ライブラリが利用可能です。 今回はどんな感じで実装できるのか、まずはセットアップしてみたいと思います。 ちなみに Youtubeで概要とセットアップなどが紹介されてますので、こちらも合わせてチェックしてください。 https://www.youtube.com/watch?v=IYCvwABLyh4 マニュアルはなさそうでして、DL Toolkit アプリをインストールすると簡単なセットアップガイドが載ってるた

    Deep learning に対応!! Splunk DL Toolkit に触ってみた - Qiita
    sh19910711
    sh19910711 2024/05/08
    "Splunk DLTK: Tensorflow/Keras/PyTorch + 複数の NLP ライブラリが利用可能 / 苦労するデータ収集や前処理、そして最後の実装部分をSplunkに任せ + いいモデルができてしまえば、後は通常の Splunkの知識さえあれば実装ができます" 2019
  • n8nでワークフローを自動化した話 / 20220914_n8n

    2022ランキング圏外から2023ランキング入りを実現したテックブログ運営について / 2023-07-28-QiitaEngineerFesta

    n8nでワークフローを自動化した話 / 20220914_n8n
    sh19910711
    sh19910711 2024/05/07
    "iPaaS: 異なるSaaS同士を接続してデータ統合したりタスクを実行 / n8n: 柔軟性があり拡張性の高いワークフロー自動化ツール + セルフホスティングも可能 / OGP取得 + サムネイル用画像をS3に保存 + Notionに投稿" 2022
  • スクレイピング時に本文だけを抽出する最高精度ツールが優秀!【日本語版も公開】 - Qiita

    n,pはそれぞれnegative(ノイズ),positive(文)を基準とした時の評価を表します。 例としてノイズ部分をN,文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に文を抽出できているかを評価していると考えればよいでしょう。 元のデータでの再現学習も問題無く行えました。また日語対応版もおおよそ元論文と同程度の精度が出ています。 要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

    スクレイピング時に本文だけを抽出する最高精度ツールが優秀!【日本語版も公開】 - Qiita
    sh19910711
    sh19910711 2024/05/06
    "boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020
  • OktaログをMicrosoft Sentinelに取り込んでみた - APC 技術ブログ

    はじめに こんにちは、エーピーコミュニケーションズ iTOC事業部 BzD部 0-WANの坂口です。 今回は、OktaのログをMicrosoft Sentinelに格納する方法をご紹介します。 想定アーキテクチャ 想定するアーキテクチャは、下図のとおりです。 Azure Functions 定期的にOktaに接続してログを収集します。 Log Analytics workspace 収集したOktaログを格納します。 Microsoft Sentinel Log Analytics workspaceに格納されたログを参照・分析します。 ログ格納の手順 Oktaの監査ログとイベントログを収集する手順です。下記データコネクタを利用します。 learn.microsoft.com 手順1. Okta API Tokenの作成 手順2. Okta Single Sing-Onコンテンツのインスト

    OktaログをMicrosoft Sentinelに取り込んでみた - APC 技術ブログ
    sh19910711
    sh19910711 2024/04/20
    "Azure Functions + Log Analytics workspace + Microsoft Sentinel / Microsoft Sentinel: 様々なコネクタが準備されており、Microsoft製品でなくても容易にログを収集することができ + 従量課金のため、パイロット導入もしやすい"
  • NLBでfluentdのforwardパケットを分散させてみた - Qiita

    AWSの新しいロードバランサであるNLB(Network Load Balancer)を使ってfluentdのforwardパケットを分散してみたので、レポートをまとめておく。 NLB自体については、クラスメソッドのブログ等で紹介されているのでそちらを参照するのが分かり易い。 静的なIPを持つロードバランサーNetwork Load Balancer(NLB)が発表されました! 試してわかった NLB の細かいお作法 ざっくり言うと、TCPプロトコルを対象にしたALBって感じ。 ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い。 ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる。 利用までの流れ ターゲットグループを作成し、TCPレベルでコネクションが貼れるかのヘルスチェックの設定をする インスタンスもしくは対象IPと、ポートの組を

    NLBでfluentdのforwardパケットを分散させてみた - Qiita
    sh19910711
    sh19910711 2024/04/20
    "NLB: TCPプロトコルを対象にしたALB + ターゲットグループはポートレベルで設定できるので、コンテナ環境と相性が良い / ポート違いで複数fluentdが立っていても同じグループとしてまとめて分散できる" 2017
  • FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある

    三行で FireLens を使うことで ECS で稼働するアプリケーションのログ転送を簡単に実装できる しかし、ドキュメントに記載されている設定例をそのまま利用しただけでは実はログの取りこぼしがあった ログの取りこぼしを防ぐためにコンテナ間の依存関係とHealthcheckの設定を行った FireLens とは FireLens を簡単に言うと、「ECS のタスク定義の記述だけで Fluent Bit / Fluentd を使ったログ転送用のサイドカーコンテナが利用できる機能」でしょうか。 FireLens という個別のサービスやソフトウェアが存在するわけでは無いようです。 詳細は以下を参照ください。 症状 私が関わったとあるサービスでは ECS を使ってアプリケーションを稼働させていて、アプリケーションのログは FireLens により Fluent Bit を使ってログ転送を行っていま

    FireLensでログ転送するときは依存関係とHealthcheckを設定しないとログを取りこぼすことがある
    sh19910711
    sh19910711 2024/04/20
    "FireLens: ログ転送用のサイドカーコンテナが利用できる機能 + ECS で稼働するアプリケーションのログ転送を簡単に実装できる / 依存元コンテナが立ち上がった段階でその依存先コンテナが立ち上がっていないケース"
  • 分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

    はじめに こんにちは!Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。 分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。 このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。 切替前のデータ連携処理 先述した通り、BAS

    分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
    sh19910711
    sh19910711 2024/04/14
    "Aurora MySQLにあるデータをEmbulkを用いてBigQueryに連携 + Lookerなどを通して社内利用 / Aurora S3 Export: 100GBで$1.2~1.3程度 / RdsStartExportTaskOperator: Airflowサーバーのバージョンが低くて利用ができなかった"
  • 請求書発行のためにEmbulkを使って爆速でデータを集約した話 - 一休.com Developers Blog

    こんにちは。宿泊開発チームの菊地です! このエントリは 一休.com Advent Calendar 2023 12日目の記事です。昨日は id:rotom によるSlack Enterprise Grid における情報バリアの設計でした。その他の素敵なエントリも以下のリンクからご覧ください。 qiita.com 私はEmbulkを使って、各プロダクトの請求データを集約する機能を担当しました。今回は、Embulkの紹介とふりかえりをしていきたいと思います! 背景 課題 解決策 Embulkとは? 今回の課題に対してEmbulkがマッチした理由 union: 複数のデータソースを連結する config.ymlの記述例 lookup: 複数のデータソースを結合する config.ymlの記述例 ふりかえり とくに良かったこと config.ymlの取り回しのよさが開発スピードをあげてくれた c

    請求書発行のためにEmbulkを使って爆速でデータを集約した話 - 一休.com Developers Blog
    sh19910711
    sh19910711 2024/04/12
    "Embulk: 2023年3月からは、社に限定せず広くコアチームを結成し設計検討を行っていく方針が発表 + 業務としてのOSS開発のアンビバレンスなど、かなり実情に即した部分まで言及 / union: input プラグインを組み合わせられる" 2023
  • Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog

    こんにちは、スタッフエンジニアの @kenkoooo です。Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb をオープンソースとして公開しました。 github.com Embulk とは? データをロードするすごい OSS です。プラグイン形式でデータの入力や出力を定義することができるため、各種 SQL や BigQuery などだけでなく、スプレッドシートやアクセス解析など様々な入力元・出力先に対応しています。 公式サイト: Embulk Snowflake とは? データを集めたり加工したりするデータプラットフォームです。estie でメッチャ流行ってます。 dbt-snowflake のテストフレームワークを作った話 - estie inside blog estie にデータを使って意思決定したいことが 62 個もある話

    Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog
    sh19910711
    sh19910711 2024/02/11
    "Embulk を使って Snowflake からデータを読み込むプラグインが存在しない / embulk-input-jdbc: あくまで一般的な JDBC ドライバーに対応 + Snowflake 特有のキーペア認証などには一部のみしか対応していません"
  • 300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークス エンジニアブログ

    これは クラウドワークス アドベントカレンダー 24日目の記事です。前日は 畑中 さんの制作会社出身のデザイナーが事業会社に入って感じた5つの悩み事でした。事業会社とデザイン制作会社の違いから生まれる悩みをどう解決したかが伝わる記事でした。 クラウドワークスSREチームの @kangaechu です。最近はM1 Macを購入しました。M1 Macはアプリケーションの対応状況がまだまだなので、Goをソースからクロスコンパイルするなど、今までやったことがないことができてちょっと楽しいです。でももう少しネイティブのアプリが揃うと嬉しいな。 アドベントカレンダーはSREチームに入ってからの2年間にチームでやってきたことに続き、2つめのエントリとなります。前回の記事で、Docker化したシステムの一つとしてfluentd(ログ基盤)を挙げました。ここではそのログ基盤についての詳細を書いていきます。

    300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークス エンジニアブログ
    sh19910711
    sh19910711 2023/03/29
    2020 / "Fluent Bit: クラウドプロバイダや、ElasticsearchやKafkaなどのプラグインが同梱 / Kinesis Firehoseへの出力プラグインはFluent Bit 1.6から本家で実装されているので、現在は追加のプラグインは不要です"
  • Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ

    構想は半年ほど前?ここ一ヶ月ほど集中して開発に取り組んでいた、Fluentd向けApache Arrowプラグインがようやく動くようになったので、今回はこちらのモジュールについてご紹介します。 そもそもPG-Stromは、IoT/M2M領域で大量に発生するデータを高速に処理できますというのがセールスポイントで、GPU-Direct SQLはじめ、各種の機能によってそれを実現しているワケですが、実際に運用する際には、発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』という問題があります。 例えば、PostgreSQLに一行ずつINSERTするというのも一つの解です。ただし、単純なI/Oに比べると、DBへの書き込みはどうしても処理ボトルネックになりがちです。 そこで、大量に収集するログデータを、少ない時間ロスで(つまり一時ファイルに保存したデータを再度DBにインポート

    Fluentd向けApache Arrowプラグインについて - KaiGaiの俺メモ
    sh19910711
    sh19910711 2022/09/10
    fluent-plugin-arrow-file / "発生したデータを『どうやってSQLで処理できるようDBにインポートするか?』 / Fluentd から Apache Arrow 形式ファイルを出力 + 直接 PG-Strom から読み出す / データをインポートする事なく PostgreSQL から参照"
  • メモ Embulkの歴史、過去・現在、これから #shinjukugl - by shigemk2

    メモ Embulk歴史、過去・現在、これから #shinjukugl embulkとは embulk fluentdのバッチ プラグインアーキテクチャ JRuby/Java/Scala/Kotlin 並列処理 並行処理 guess リトライ レジューム yamlベース -2015 プラグインの数はfluentdよりは少ない 初期はcsvパースとかvim出力とか Qiitaのembulkのまとめ(2015/2/16) http://www.embulk.org/plugins/ 組み込みプラグイン覚書 コマンドヘルプ さまざまな人々の貢献 sakamaさん BQ用プラグイン BQにデータをアップロードできる 組み込みCSVフォーマッターの修正 hito4_tさん JDBCまわりの大幅な回収 Oracle/SQLServerまわり civitaspoさん JSONまわりのプラグインを作成 s

    メモ Embulkの歴史、過去・現在、これから #shinjukugl - by shigemk2
    sh19910711
    sh19910711 2022/07/06
    2017 / "2015: プラグインの数はfluentdよりは少ない + 初期はcsvパースとかvim出力とか / 2016: WebDBとかでの紹介 + Excelプラグインが脚光を浴びる"
  • NetFlowを使ってネットワーク機器のトラフィックを見てみる

    はじめまして、プラットフォームサービスの恩田です。 今回はNetFlowを利用してネットワーク機器を通過するパケットを コレクタサーバに収集し、elasticsearch+kibanaで可視化してみようと思います。 NetFlowとは? NetFlowとはネットワーク上を流れるトラフィックフローを受動的にモニタできる機能です。 これまでもSNMP等でネットワーク機器を通過するパケットのトラフィック量や CPU、メモリ使用率などについては情報を取得できました。 NetFlowでは、SNMPでは取得できなかったクライアントPCIPアドレスや宛先IPアドレス、 ポート番号(TCP/80番ポート)などネットワーク機器を通過するパケットの 詳細な情報を取得することが可能です。 検証環境 今回はVM環境に以下のような検証環境を構築してみます。 VyOS : OSSのソフトウェアルータ。今回NetFl

    NetFlowを使ってネットワーク機器のトラフィックを見てみる
    sh19910711
    sh19910711 2022/04/13
    "NetFlow: ネットワーク上を流れるトラフィックフローを受動的にモニタできる機能 + SNMPで取得していた情報よりも細かく情報を取得できる / fluent-plugin-netflow: VyOSを経由する通信をNetFlowでサーバーに転送"
  • 絶対的に使った方がいいLogstashのMultiple Pipelinesについて書いてみた - Qiita

    はじめに おはです! Logstashのフィルタの中でもGrokが好きなぼくが、Advent Calendar11日目を書かせていただきますー あ、でも今回は、Grokについては書かないですよ! じゃあ、何書くの?Grokしか脳のないお前が何を書くのさー そりゃ、あれだよ!Logstash 6.0がGAされたので、待ちに待ったMultiple Pipelinesについて書くしかないでしょ! てことで、LogstashのMultiple Pipelinesについて、ゆるーく書いていきます( ゚Д゚)ゞビシッ 構成について 今回テストするにあたって使用した構成は以下です。 Amazon Linux AMI 2017.09.1 (HVM) Logstash 6.0 logstash-input-s3 Elasticsearch 6.0 Kibana 6.0 X-Pack 6.0 ちなみに、もろ

    絶対的に使った方がいいLogstashのMultiple Pipelinesについて書いてみた - Qiita
    sh19910711
    sh19910711 2022/02/09
    2017 / "Multiple Pipelines: hoge.confに対して複数のデータソースを組み込んでいたものを、分割することができちゃう / Worker数などもPipeline毎に割り当てることができる"
  • fluentdでPostgreSQLで起こった変更を取得する - Qiita

    先日、PostgreSQLで発生した変更をfluentdに送る方法としてLogical Decodingが使えないかなと思い、fluentdのINPUTプラグインを作ってみたのでそれの使い方をまとめておきます。 このプラグインを使うと、PostgreSQLLogical Decoding機能(WALをデコードしてどこかに転送する機能)を使って、PostgreSQL上で起こった全ての変更をfluentd上に流すことができます。 SQL経由でDB上の情報を取ってくるのとは異なり、Logical DecodingではPostgreSQLが出力したトランザクションログ(WAL)から変更情報を取ってくるので、他の処理への影響を少なく抑えることができます(トリガを仕掛けたりもいりません)。また、Logical Decoding側もプラグイン形式なっているので、好きな形式に変更結果を表すことができるの

    fluentdでPostgreSQLで起こった変更を取得する - Qiita
    sh19910711
    sh19910711 2022/02/07
    2018 / "PostgreSQLが出力したトランザクションログ(WAL)から変更情報を取ってくるので、他の処理への影響を少なく抑えることができます / Logical Decoding側もプラグイン形式 + 好きな形式に変更結果を表すことができる"
  • LogstashのPipeline to Pipeline Communicationを試す - CLOVER🍀

    これは、なにをしたくて書いたもの? Logstashのパイプラインを書いていると、だんだん設定ファイルが大きくなってきて、困るなぁと。 こういう時、どうしたらいいのだろうと調べたら、こういうのがあったので試してみることにしました。 Pipeline-to-Pipeline Communication | Logstash Reference [7.5] | Elastic Pipeline to Pipeline Communication Logstashのパイプラインでfilterを使い、変換処理やパース処理を書いていると、だんだん設定ファイルが大きくなってきます。 あんまり大きくなりすぎるのも見通しが悪くなるので嫌なのですが、includeみたいな方法で分割することはできなさそうです。 'include functionality' for logstash config files

    LogstashのPipeline to Pipeline Communicationを試す - CLOVER🍀
  • 大量データの転送にEmbulkを使ってみたら本当に楽だった - CARTA TECH BLOG

    はじめまして。Zucks Affiliateでエンジニアをしている宗岡です。 今回は、リアルタイム性は求めないけど、簡単に大量のデータをどこか別の場所に転送したい。 という要望に答えてくれるEmbulkを紹介したいと思います。 実際に導入に至ったきっかけや、運用上よくある課題なども触れていきたいと思います。 同じ境遇の人が「簡単そうだしEmbulk使ってみようかな」となっていただければ幸いです。 目次 目次 背景 Embulk以外にも出てきた案 実際のEmbulkの導入と使い方 1. Embulkのインストールとセットアップ 2. 必要なプラグインのインストール 3. 設定ファイルを書く 実務でcodecommitを使った例 設定ファイルの書き方 4. まずはpreviewで問題なさそうか確認 5. 問題なさそうなのでrunして実行 Embulkの運用上、よくぶつかる課題 1. 重複に気付

    大量データの転送にEmbulkを使ってみたら本当に楽だった - CARTA TECH BLOG
    sh19910711
    sh19910711 2022/01/23
    "previewは、dry-run機能として使えます + 実際にEmbulkを実行する前にどんなデータが転送されそうかを確認出来ます / 設定ファイルが増えてくると重複が多くなる > liquidテンプレートのinclude機能を使う"
  • Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

    こんにちは、エムスリー エンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。 これは エムスリー Advent Calendar 2020 の19日目の記事です。 エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです(勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!) www.youtube.com これに関連して私のチームでも最近「データ基盤(Digdag + Embulk)のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。 エムスリーのデータ基盤について それまでの構成 クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する 併

    Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
    sh19910711
    sh19910711 2021/12/22
    "DigdagとEmbulkの分離 > DigdagにはEmbulkのECS Taskのキックだけに集中 + Embulk自身も「1テーブルの連携 = 1コンテナ」の粒度となるように設計 > 影響範囲を小さく変更リリースできるように / Digdagの sla: ディレクティブ"
  • FluentdとGrowthForecastを使って自分の行動をロギング・可視化する - すぎゃーんメモ

    おそらくはそれさえも平凡な日々: もにかじでオレオレ監視ツールについて話してきました GrowthForecast.plで自分ロギングしてみた - by edvakf in hatena の記事のように、FluentdやGrowthForecastを使ったロギングって面白そうだなーと思って自分でもやってみた。 アプリケーション毎のアクティブな時間を取る まず考えたのはこれ。キーイベント発火回数ほど細かくなくても、「アクティブにしている時間の割合」が取れたらそれはそれで良いかな、と。 1秒ごとにアクティブなアプリを調べてロギングしていく。Mac OS Xにおいてアクティブなアプリケーションを調べるならAppleScriptが簡単。 name of (info for (path to frontmost application)) これだけでアクティブにしているアプリケーション名が取れる。

    FluentdとGrowthForecastを使って自分の行動をロギング・可視化する - すぎゃーんメモ
    sh19910711
    sh19910711 2021/09/18
    " Mac OS Xにおいてアクティブなアプリケーションを調べるならAppleScriptが簡単 / 「あぁ、このへんはずっとEmacsで何か書いてて、このへんはずっとTwitter見てるな」とかが分かる"
  • Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog

    はじめに こんにちは。Data Engineer の @shase です。 弊社ではいくつかのユースケースでCloud Composer(Airflow)を使っているのですが、今回はデータチームで開発している、分析者向けBigQuery SQL実行基盤(社内の通称はSaved Query Workflow)について紹介します。 このシステムは今年の春から動いているものです。 システム概要 今回紹介するシステムの概要です。 分析者はSQLYAMLGitHubにコミットしてPRを作成します。 エンジニアがレビューをします。 Cloud ComposerでSQLがスケジュール実行され、結果がGoogle Sheets などに出力されます。 背景 組織全体のKPI集計やレポーティングとは別に、分析者個人や特定のチームが使うテーブルやレポートを定期的に作成する場合を想定したユースケースとして、分

    Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog
    sh19910711
    sh19910711 2021/06/16
    quipper/embulk-output-google_sheets / "Google Sheets 連携には、Embulkのoutput pluginを自作して利用しています。 (少し検索したのですが、良い既存のpluginがなかったというのもあります)"