並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 2756件

新着順 人気順

batchの検索結果201 - 240 件 / 2756件

  • Sentence BERTをFine TuningしてFAQを類似文書検索してみる - Taste of Tech Topics

    こんにちは。社内データサイエンスチームYAMALEXの@Ssk1029Takashiです。 最近はRTX4090のマシンを買って電気代が上がってきています。 昨今NLP界隈では事前学習モデルが出てからは、検索というのもキーワードでの検索だけではなく、文章を入力にして似たような文章を探す類似文書検索も使われるようになりました。 そんな中で、今回はFAQを対象にした類似文書検索をSentence BERTを使って試してみます。 FAQでよくある困りごと 今回やること Sentence BERTとは 検証 FAQデータセットから文章ベクトルを学習する 回答文から文章ベクトルを生成する 質問文から近しい回答を見つける 単語が揺れてもいい感じに回答を取得できるのか検証 まとめ FAQでよくある困りごと FAQはあらゆる場面で重要な情報源ですが、いまいち検索がしづらい情報でもあります。 FAQを利用し

      Sentence BERTをFine TuningしてFAQを類似文書検索してみる - Taste of Tech Topics
    • [レポート] SNSとSQSとLambdaによるスケーラブルでサーバーレスなイベント駆動アーキテクチャ #reinvent #svs303 | DevelopersIO

      [レポート] SNSとSQSとLambdaによるスケーラブルでサーバーレスなイベント駆動アーキテクチャ #reinvent #svs303 こんにちは。サービスグループの武田です。開催中のre:Invent 2020でScalable serverless event-driven architectures with SNS, SQS & Lambdaのセッションを視聴しましたのでレポートします。 こんにちは。サービスグループの武田です。 開催中のre:Invent 2020でScalable serverless event-driven architectures with SNS, SQS & Lambdaのセッションを視聴しましたのでレポートします。 何度か配信がありますので視聴したい方はスケジュールを確認してみてください。 AWS re:Invent 2020 セッション概要

        [レポート] SNSとSQSとLambdaによるスケーラブルでサーバーレスなイベント駆動アーキテクチャ #reinvent #svs303 | DevelopersIO
      • shellスクリプトで学ぼう!プログラミングがちょっと上手になる(かも)Tips集!! | DevelopersIO

        こんにちは(U・ω・U) AWS事業部の深澤です。 さて皆さん、いざプログラミングをしようとしてもなかなかテストがしにくいとか、良い書き方ないかな〜って感じたりしませんか?出来上がったソースコードを数ヶ月後の自分が読んでみて、「あれ?この処理って何してるんだっけ??」って思うのもよくあることです。また中には実際にスクリプトをbatch処理で使おうとしているけど、どんな風に書いたら良いか悩んでいる方とかいらっしゃるのではないでしょうか。今回は僕が運用の中で学んだ「こう書くと良いんじゃない」というTipsを書いて見ました!今回はshellスクリプトを採用しています。 環境 Amazon Linux 2 AMI (HVM), SSD Volume Type カーネル 4.14.173-137.229.amzn2.x86_64 Bashバージョン GNU bash, version 4.2.46(

          shellスクリプトで学ぼう!プログラミングがちょっと上手になる(かも)Tips集!! | DevelopersIO
        • 【保存版】Instagramマーケティングに関する設計思考ガイドブック2020|ライスカレー🍛川上

          こんにちは、株式会社ライスカレーの川上(@okyaaaann)です。 弊社ではInstagramを中心に、さまざまなSNSマーケティング支援やコミュニティ構築・活用支援などのサービスを提供しています。また、自社では複数のInstagramメディアも運営しており(フォロワー数10万人以上が4つ、その他数万規模のアカウントがいくつか)、私は「シンプルホーム」というフォロワー数約36万人の住まい・暮らし系のメディアを見ています。相変わらずカレーは作ってません。 今回、企業のSNSマーケティング担当者さんがInstagramを自社の際のマーケティングコミュニケーションに活用する際に、頭の片隅に少しでも置いておくと役に立つ(かもしれない)ような内容を、個人的な解釈にはなりますが基礎的な部分から応用的な部分まで少しまとめてみました。 少々長文となってしまいましたが、みなさんにとって少しでも参考になりま

            【保存版】Instagramマーケティングに関する設計思考ガイドブック2020|ライスカレー🍛川上
          • AWSの新価格モデル Savings Plans とは?オンデマンドやリザーブドインスタンスと比較する - Qiita

            AWSの新価格モデル Savings Plans とは?オンデマンドやリザーブドインスタンスと比較するAWSEC2lambdaFargateCostExplorer 2019/11/7に、AWSからSavings Plansという新しいAWS利用料節約のための価格モデルが登場しました。 このSavings Plansについて調べてみました。 更新履歴 2019/11/07: 初版。EC2とFargate (for ECS) が割引対象に。 2020/02/21: 更新。新たにLambdaが割引対象に追加。 2020/04/06: 更新。Organizationsのメンバーアカウントから推奨事項が確認可能に。 2020/05/10: 更新。価格改定により、EC2 Instance Savings Plansの一部のEC2インスタンスタイプで、従前に比べて最大18%の値下げ。 2020/08/

              AWSの新価格モデル Savings Plans とは?オンデマンドやリザーブドインスタンスと比較する - Qiita
            • Python(PyTorch)で自作して理解するTransformer

              1. はじめに Transformerは2017年に「Attention is all you need」という論文で発表され、自然言語処理界にブレイクスルーを巻き起こした深層学習モデルです。論文内では、英語→ドイツ語翻訳・英語→フランス語翻訳という二つの機械翻訳タスクによる性能評価が行われています。それまで最も高い精度を出すとされていたRNNベースの機械翻訳と比較して、 精度(Bleuスコア) 訓練にかかるコストの少なさ という両方の面で、Transformerはそれらの性能を上回りました。以降、Transformerをベースとした様々なモデルが提案されています。その例としては、BERT,XLNet,GPT-3といった近年のSoTAとされているモデルが挙げられます。 ここで、「Attention is all you need」内に掲載されているTransformerの構造の図を見てみま

                Python(PyTorch)で自作して理解するTransformer
              • ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG

                はじめに こんにちは、MA部の松岡(@pine0619)です。MA部ではマーケティングオートメーションシステムの開発・運用に従事しています。 ZOZOTOWNでは、マーケティングオートメーションシステム(以下、MAシステム)を使い、メールやLINE、アプリプッシュ通知といったチャネルへのキャンペーンを配信しています。 MA部では、複数のMAシステムが存在しており、MAシステムそれぞれに各チャネルへの配信ロジックが記述されていました。これにより、現状の運用保守ならびに今後の改修コストが高いかつ、使用している外部サービスのレートリミットの一元管理が出来ていないなどの問題を抱えていました。そのため、外部サービスへのリクエスト部分をチャネルごとにモジュールとして切り出し、複数のMAシステムから共通で使える配信基盤を作成しました。 また、社内の他チームの持つシステムからのキャンペーン配信の要望があっ

                  ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG
                • Raspberry Pi 3 B+ & PyTorchの深層学習で、カメラ映像内の複数物体をリアルタイム分類 - Qiita

                  Raspberry Pi 3 B+ & PyTorchの深層学習で、カメラ映像内の複数物体をリアルタイム分類PythonOpenCVRaspberryPiDeepLearningPyTorch 大学の授業関係でラズパイ3B+とpicameraをゲット。暇なので、ラズパイに深層学習を用いた分類をさせてみようと思い立ちました。ただ、前もって撮った写真を分類させるのではなく、picameraからのリアルタイムの映像内の物体を分類させ、いい感じに表示させます。 学生レベルかもしれませんが、一部分でも参考になれば幸いです。 思い描いたこと 「固定されたpicameraの視野内に複数の私物を置くと、それをリアルタイムに分類し、表示する機能」をラズパイ内に作ってみようと思いました。 具体的には、背景差分(背景画像と変化した部分を抜き出す手法)で物体を抽出し、PyTorch [パイトーチ](Keras,

                    Raspberry Pi 3 B+ & PyTorchの深層学習で、カメラ映像内の複数物体をリアルタイム分類 - Qiita
                  • ディープラーニングのモデリングの経験則を語る会についての有識者からの反応まとめ

                    かまろ/Camaro @mlaass1 ディープラーニングのモデリングの経験則を語る会をやってみたい。理論的な背景は不要(あってもいい)で、こういうときはこうする、こういうデータにはこうすると上手くいく、初手はいつもこれ、などのヒューリスティックを無責任に語る会。 2020-08-03 12:23:09 かまろ/Camaro @mlaass1 画像だとデータの特徴と合わせてこの辺り話してみたい。 ・image sizeとmodelの大きさ ・batch sizeの決め方とBatch norm ・fp16使うか ・デバイス(GPU/TPU)の違い ・間違いないaugmentation ・間違いないscheduling ・frameworkの違い(tf/pytorch) ・lossの選び方 ・optimizerの違い ・headの設計方法 2020-08-03 12:46:04 かまろ/Cam

                      ディープラーニングのモデリングの経験則を語る会についての有識者からの反応まとめ
                    • Best practices  |  Firestore  |  Google Cloud

                      Send feedback Stay organized with collections Save and categorize content based on your preferences. Best practices Use the best practices listed here as a quick reference when building an application that uses Firestore. Database location When you create your database instance, select the database location closest to your users and compute resources. Far-reaching network hops are more error-prone

                        Best practices  |  Firestore  |  Google Cloud
                      • SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ

                        Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと思ったのでした。 しかし、よくよく考えてみればかのVapnik御大がかつてSVMを考案する際にベースとしたアイデアはNNとは方向性の違う代物だったわけです。故に、例えばSVMとNNとがどのような点で異なるかが「見える化」出来れば、SVMが復権するための条件のようなものが見えてきそうです。 ということで、久しぶりに「サンプルデータで試す機械学習シリーズ」をやってみようと思います。実はDNNについては6年前にも似たようなことをやっているのですが、SVMとDNNとでサンプルサイズを変えながら比較するというのはやったこ

                          SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ
                        • パーフェクトな言語であるRustでGoogle spreadsheetをJson APIに変換してみる

                          タイトルにはやや釣り要素が混じっています。 概要 私が今まで所属していた開発チームでは、非エンジニアとエンジニアで気軽にデータを共有する方法としてGoogle Spreadsheetがよく使われていました。 Spreadsheetの優れている点の1つとしてAPIを経由してデータの取り込みを自動化できる事が挙げられるかと思いますが、そのAPIの呼び出し周りの実装はやや手間がかかる(し、それほど面白いものではない、)のが悩みどころです。 なのでシンプルなフォーマットのSpreadsheetをNo-Code or Low-CodeでJson API化できたら便利です。 SpreadsheetのAPI化のサービスとしては、SaaSとして提供されている使い勝手の良いものがいくつかありますが、外部と共有できないデータを扱う場合は自前で用意した環境内だけでSpreadsheetを共有する必要がでてきます

                            パーフェクトな言語であるRustでGoogle spreadsheetをJson APIに変換してみる
                          • 日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning - radiology-nlp’s blog

                            TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くした はじめに 日本語Wikipediaで事前学習されたBERTモデルとしては, 以下の2つが有名であり, 広く普及しています: SentencePieceベースのモデル (Yohei Kikuta さん提供) TensorFlow版 Juman++ベースのモデル (京大黒橋研提供) TensorFlow版 PyTorch版(Hugging Face transformers準拠) このうち, SentencePieceベースのものは現在TensorFlow版のみの提供となっており, PyTorch版は存在しません。 そのため, 私のよう

                              日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning - radiology-nlp’s blog
                            • 不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ

                              はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題ってなに? 何かしらのカテゴリを機械学習などで分類予測しようとする際、カテゴリごとのデータ件数に偏りがある、特に正例のデータが極端に少ないケースで予測精度が上がりにくい、という問題をこのように呼んでいます。 例: 不正決済と正常な注文、不正商品と健全な商品、がん患者と正常な患者 普通はどうやって対処するの? ベースとなるアプローチは下記3つにまとめられます。 アプローチ 内容 デメリット アンダーサンプリング 多数派データを

                                不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ
                              • GPUDirect SQL on NFS-over-RDMAを試す - KaiGaiの俺メモ

                                タイトルでほぼほぼ出オチですが、先日、NVIDIAからCUDA Toolkit 11.4と共にリリースされた新機能GPUDirect Storage 1.0のドキュメントを読んでいると、面白い記述を見つけた。 曰く、MOFEDドライバ5.3以降と、Mellanox Connect-X4/5の組み合わせで、NFS-over-RDMAとGPUDirect Storageを組み合わせ、リモートのNFS区画からローカルのGPUへと直接のデータ転送を行う事ができるようになる、と。 14.10. NFS Support with GPUDirect Storage This section provides information about NFS support with GDS. 14.10.2. Install GPUDirect Storage Support for the NFS Cli

                                  GPUDirect SQL on NFS-over-RDMAを試す - KaiGaiの俺メモ
                                • データ分析プロジェクトの品質をキープしつつ効率的な検証をサポートする一時ファイル群の管理 - クックパッド開発者ブログ

                                  研究開発部の takahi_i です。本稿はデータ分析、 機械学習関係のプロジェクトで数多く生成される一時オブジェクトおよびそれらのオブジェクトを保持するファイル(一時ファイル)を管理する取り組みについて解説します。 本稿の前半はデータを分析するプロジェクトの一般的なフローと起こりがちな問題(コードの品質管理)について解説します。後半はプログラム上で生成されるオブジェクト群をファイルに自動でキャッシュを管理するツール(Hideout)を使って、コードを整理整頓しやすくする施策について紹介します。 データを分析するプロジェクトの一般的なフロー まずデータを処理するプロジェクトや機械学習プロジェクトの典型的なフローについて考えてみます。まずは単純に機械学習器を取得した入力に対して適用するプロジェクト、次にもう少し複雑な事例、アプリケーションで利用するデータを生成するプロジェクトのフローについて

                                  • 環境変数にパスを通すとコマンドが認識されるワケ - Qiita

                                    はじめに 学びはじめのころ。 なんかコマンドが認識されないが...? 先輩が言うとおりに、環境変数に何らかのパスを追加したら解消したが...? 仕組みが分かってないけど「解消したし、まあええか」で終了 となりがち(個人的見解)な、「パスを通す」の自分の理解度を確認するために説明してみます。 目次 よくあるエラー なんで環境変数にパスを通すとコマンドが認識されるの? いろいろある環境変数 コマンド実行の流れ コマンドには種類がある Linuxにおいて環境変数を設定するための方法 方法1:シェルの途中でPATHを通す 方法2:初期化ファイルでPATHを通す コラム:外部コマンドのプログラムを確認してみる まとめ おわりに よくあるエラー git コマンド使いたいのに...。 $ git status 'git' is not recognized as an internal or exter

                                      環境変数にパスを通すとコマンドが認識されるワケ - Qiita
                                    • [レポート]サーバレスアプリケーションのコツ総ざらえ!(SVS401-R Optimizing your serverless applications) #reinvent | DevelopersIO

                                      [レポート]サーバレスアプリケーションのコツ総ざらえ!(SVS401-R Optimizing your serverless applications) #reinvent 「サーバーレスアーキテクチャのフルパワーを解き放つ便利なガイド、欲しくない?」 って言われたらそりゃ欲しいですよね!これはこのセッションの紹介文にあった一節です。この言葉に釣られて参加したセッションのレポートをお届けします。「まだre:Inventの話してるのかよ!」とツッコまれたあなた、おっしゃるとおりです。ですが二ヶ月ほど経った今でも十分有用な情報ばかりなのでぜひご一読いただければと思います。紹介文に偽りはなかったです! セッションタイトル SVS401-R1 - [REPEAT 1] Optimizing your serverless applications セッション概要 あなたは経験豊富なサーバーレス開

                                        [レポート]サーバレスアプリケーションのコツ総ざらえ!(SVS401-R Optimizing your serverless applications) #reinvent | DevelopersIO
                                      • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

                                        エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM

                                          検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
                                        • Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka

                                          「Google Colab」で 「PEFT」による大規模言語モデルのファインチューニングを試したので、まとめました。 1. PEFT「PEFT」(Parameter-Efficient Fine-Tuning)は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 大規模言語モデルのファインチューニングは、多くの場合、法外なコストがかかりますが、「PEFT」は少数のパラメータのみをファインチューニングするため、計算コストとストレージ コストが大幅に削減でき、さらには、完全なファインチューニングに匹敵するパフォーマンスを実現します。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning 2. Colabでの実行Google Colab

                                            Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka
                                          • 画像生成AIで自分が作りたいイメージから類似画像を見つけてプロンプト・呪文を次々に探していける「KREA」

                                            画像生成AI「Stable Diffusion」は「プロンプト」として文字列を入力することで、その文字列の内容に沿った絵や写真を自動で生成してくれます。しかし、自分の理想により近い画像を生成してもらうためには、多種多様な文字列を大量にプロンプトとして入力する必要があり、この複雑なプロンプトを探ることが画像を生成する工程の中でも特に大変な作業の1つです。「KREA」はAIで生成された画像とそのプロンプトをまとめたデータベースで、自分が理想とする画像を生成するためのプロンプトを探る作業がはかどります。 KREA — create better prompts. https://www.krea.ai/ KREAのトップページはこんな感じ。 上段の「search for prompt」に「anime」と入力してみると、以下のようにサジェストが表示されました。 今回はサジェストを無視し、「anim

                                              画像生成AIで自分が作りたいイメージから類似画像を見つけてプロンプト・呪文を次々に探していける「KREA」
                                            • SageMakerとStep Functionsを用いた機械学習パイプラインで構築した検閲システム(前編) - コネヒト開発者ブログ

                                              皆さん,こんにちは!機械学習エンジニアの柏木(@asteriam)です. 今回はタイトルにもあるようにモデルの学習からデプロイまで一気通貫した機械学習パイプラインをSageMakerとStep Functionsで構築し,新しく検閲システムを開発したお話になります. こちらのエントリーで紹介されている機械学習を用いた検閲システムの技術的な内容になります. ※ 検閲システムの細かい要件や内容については本エントリーでは多くは触れないのでご了承下さい. tech.connehito.com はじめに 今回のエントリーは内容が盛り沢山になっているので,前編と後編の2つに分けて紹介することにします. 前編:SageMaker TrainingJobを用いたモデル学習を行い,SageMaker Experimentsに蓄積された実験結果をS3に保存するまでの話 前回紹介したテックブログ「SageMak

                                                SageMakerとStep Functionsを用いた機械学習パイプラインで構築した検閲システム(前編) - コネヒト開発者ブログ
                                              • はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場

                                                前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに 本記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra

                                                  はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場
                                                • Tensorflowの転移学習サンプルを機械学習の初心者がギリ分かるところまで噛み砕いてみた | DevelopersIO

                                                  せーのでございます。 機械学習というワードはかなり一般化され、エンジニアじゃない方なら「ああ、自動運転とかのやつでしょ」くらいに浸透しています。 特にエンジニアの方であれば「教師あり学習」「教師なし学習」「強化学習」がどういうものを指すか、というのはぼんやりイメージできるかと思います。 そんな機械学習、せっかくなので始めてみたい、とざっくり中身を見出した、、、くらいの方が今日のエントリーの読者対象となります。 今日のテーマは「転移学習」です。 転移学習のやり方を知りたい。最短で。 転移学習、というのはざっくり言うと「元々学習されているモデルを使って自分たちの使いたい方向に再学習すること」です。 機械学習をやりだすと必ず当たる壁が「データが足りない」というものです。特にディープラーニングを使って例えば画像の分類をしたい、とした場合、精度を出すには最低でも数百枚、一般的には数千枚〜数十万枚とい

                                                    Tensorflowの転移学習サンプルを機械学習の初心者がギリ分かるところまで噛み砕いてみた | DevelopersIO
                                                  • ml-system-design-pattern

                                                    Skip to the content. English Korean 機械学習システム デザインパターン 機械学習システムを本番稼働させるために必要な学習、推論、運用のアーキテクチャ・デザイン・パターン集です。 目的 このドキュメントの目的は機械学習システムを本番稼働させるためのシステム・デザイン・パターンを説明することです。 このドキュメントは機械学習のモデル開発でパフォーマンスを向上させる方法(正解率やRMSE)を説明するものではありませんが、パターンによってはその手法に言及することもあります。 前提 このドキュメントで書かれる機械学習システムパターンのほとんどは、パブリック・クラウドおよびKubernetesを使って稼働させることを前提に記述されています。特定のプログラミング言語に依存しない内容にするよう努めますが、機械学習で使われる最もポピュラーな言語がPythonであるため、ほ

                                                    • Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog

                                                      地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 Hugging Faceってご存じですか? AIを使用したプログラム・スクリプトを作る際、ゼロから起こす場合は以下のような部分を作り込んだり、Githubなどのリポジトリサイトからソースを入手したりする必要があったりします。 AIモデル トレーニングのためのロジック 評価・テストのためのロジック データローダ トレーニング・評価データを読み込むためのフォーマット、読み込み処理・変換処理など チェックポイントの書き出し Hugging Faceというサイトは、学習済みモデルやデータセッ

                                                        Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog
                                                      • 実践 AWSデータサイエンス

                                                        AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。本書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。本書の目的は、Amazon SageMakerをはじめとしたAWSの機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や

                                                          実践 AWSデータサイエンス
                                                        • Data validation for machine learning 読んだ

                                                          Breck, Eric, et al. "Data validation for machine learning." Conference on Systems and Machine Learning (SysML). https://mlsys.org/Conferences/2019/doc/2019/167.pdf . 2019. 読み手のコンテキスト現職で機械学習予測モデルをプロダクトに投入する様になって3年程経った。そうもなると開発時に想定していた訓練データの分布と現状の分布が乖離して、予測の動作不良を引き起すケースがしばしば見られる様になった。明らかな予測の不具合として目立っていなくとも性能が落ちている部分はもっとあるはずで、これに早く気づいて対応したいモチベーションがある。かつ運用専任メンバーはいないので、できるだけ運用は手を抜きたい。概要著者らはData Validat

                                                            Data validation for machine learning 読んだ
                                                          • CI/CDとAWS Batchが体系的に学べるハンズオンをやってみた | DevelopersIO

                                                            JP Contents Hub から CI/CD for AWS Batch Workshop をやってみました! はじめに こんにちは、AWS事業本部コンサルティング部の酒井です。 直近で携わるプロジェクトでAWS Batchが使われているのですが、経験がなかったので概要を把握するべくハンズオンをやってみました。 同時に CI/CDも触れる「CI/CD for AWS Batch Workshop」というハンズオンがあったので、紹介したいと思います。 ハンズオンに記載のなかった削除リソースも一覧化しているので、参考にしてみてください。 概要 ハンズオンでは以下のことが学べました。 Cloud9 ECR CodeCommit CodeBuild CodePipeline AWS Batch 基本的なGitコマンド 基本的なDockerコマンド やってみる 1. 事前準備 Adminのロール

                                                              CI/CDとAWS Batchが体系的に学べるハンズオンをやってみた | DevelopersIO
                                                            • OpenTelemetry Collector導入の実践編とその後 - Gaudiy Tech Blog

                                                              はじめまして。Gaudiyでエンジニアをしているあんどう(@Andoobomber)です。 以前、「OpenTelemetry Collector導入のPoCと今後に向けて」という記事を弊エンジニアの sato(@yusukesatoo06)より公開しました。簡単に記事を要約すると、 OpenTelemetry及びOpenTelemetry Collectorの説明 実際にPoCを作ってみる 実導入を試みたがOpenTelemetry Collectorのホスティングに悩み、今後の課題として保留となった といった内容でした。 あれから1年経ち、GaudiyではOpenTelemetry Collectorを本番環境に組み込み、OpenTelemetryの仕様に準拠して計装し、データの分析や監視を行っています。この記事では、前回からの進捗を紹介すると共にOpenTelemetryの導入方法を

                                                                OpenTelemetry Collector導入の実践編とその後 - Gaudiy Tech Blog
                                                              • 機械学習のための日本語前処理 - Qiita

                                                                はじめに 機械学習を使ったチャットボットの仕組みを理解するために、テキストを訓練データとする簡単なニューラルネットワークを作成した際の備忘録。 目的 英文テキストで作成したルールベース型チャットボットを、日本語テキストにも適用して動作させること。日本語テキストを前処理し、それをニューラルネットワークへ通せることを確認する。訓練データとして、Niantic社の"Pokemon GO"に関連したサポートページをWebスクレイピングしたものを使用した。 Nianticサポートページ 使用しているCSVファイル(GitHub) マルチクラス分類 予め用意された応答文を入力にあわせて返す「ルールベース型」を参考に、"Intents"(意図)を識別して予測するマルチクラス分類の部分までを形にした。 「生成型」ではなく、入力情報から関連した「よくある質問(FAQ)」を予測するものであるため、”RNN”で

                                                                  機械学習のための日本語前処理 - Qiita
                                                                • Next.js 13 vs Remix: An In-depth case study

                                                                  Next.js 13 vs Remix: An In-depth case studyLast updated on 29 Sep 2023 by Prateek Surana   •   - min read When it comes to building web applications, React has been at the forefront for a while now, and its adoption continues to grow. Among the most common approaches to building web applications with React, Next.js stands out as one of the most preferred options. Next.js has also been in the limel

                                                                    Next.js 13 vs Remix: An In-depth case study
                                                                  • 【2020年5月版】AWSのサービスをゆるく大体3行で - Qiita

                                                                    はじめに 本記事はAWS SAAの勉強中に、「とりあえず主要なサービスの概要ぐらい知っておいたほうがいいよな...」と思い立ち、自分用にまとめたものです。 2/3ほど記事を作成した後に見つけてしまった(悶絶) クラスメソッド先生の 【2020年】AWS全サービスまとめ がこの上なく、コンパクトで的確にまとまっていた ので、こちらを見たほうがいいと思います(本末転倒) 各サービスの雰囲気を掴むぐらいの温度感で見ていただければ(逃げ道) 対象のサービス 本記事で取り扱うサービスは2020年5月時点のAWSマネジメントコンソールの ここをクリックした際に表示されるサービス群が対象です。 結構な頻度でレイアウトが変更されたり、サービスが追加されるので 「おい!!!このサービスが書いてねーぞ!!!」 とかは許してほしいのだ(ハム太郎) コンピューティング アプリケーションを動作させるためのマシンリソ

                                                                      【2020年5月版】AWSのサービスをゆるく大体3行で - Qiita
                                                                    • 【異常検知】学習ゼロの衝撃!を可視化する - Qiita

                                                                      以前に以下のツイートをしました。 この論文の凄さは、「DNNは学習していない」ということ。学習済モデルを全面的に信用している。それでAUC95.80%は驚愕。 凄まじく早い(学習)ので、エッジなんかで威力を発揮しそう。 (続く) https://t.co/1u6BUQsJnt — shinmura0 @ 2/27参加者募集中 (@shinmura0) September 14, 2020 個人的に、この論文は画像分野において異常検知の決定版と認識しています。 ただ、弱点を挙げるとすれば「可視化手法がない」ということです。 本稿では、この手法で異常検知しつつ、異常部分を可視化する方法を模索します。 ※コードはこちら 先に結論 本稿のターゲットは、「高精度に異常検知しつつ(detection)」、「低速+ある程度の 可視化(segmentation)」です。本稿の内容が適合していない場合、お好

                                                                        【異常検知】学習ゼロの衝撃!を可視化する - Qiita
                                                                      • Go製CLIツールGatling Commanderによる負荷試験実施の自動化 - ZOZO TECH BLOG

                                                                        はじめに こんにちは、ML・データ部MLOpsブロックの岡本です。 MLOpsブロックでは機械学習モデルの実験基盤の作成、機械学習モデルを組み込んだAPI・Batchの開発・運用・保守を行なっています。APIを開発する際には負荷試験を実施し、本番環境で運用する際に求められるスループット・レイテンシを達成できるか確認します。 MLOpsブロックでの従来の負荷試験実施には人手を要する定型的な作業が複数ありました。また頻繁に行う作業でもありトイルとなっていました。 本記事ではMLOpsブロックで抱えていた負荷試験実施の課題と、解決のために開発したOSSのCLIツール、Gatling Commanderについて紹介します。Gatling Commanderが負荷試験の実施におけるトイル削減の一助になれば幸いです。 github.com 目次 はじめに 目次 背景・課題 従来の負荷試験実施の方法 分

                                                                          Go製CLIツールGatling Commanderによる負荷試験実施の自動化 - ZOZO TECH BLOG
                                                                        • この IAM ユーザーが過去30日間にアクセスした AWS サービスを一覧化してください と言われたら | DevelopersIO

                                                                          コンバンハ、千葉(幸)です。 タイトルの通りですが、特定の IAM ユーザーが過去一定期間でアクセスした AWS サービスを一覧で見たい、と言われたら皆さんはどのようなアプローチをとりますか? IAM ユーザーに限らず、グループ、ロール、ポリシーに置き換えてもよいです。 実は、以下の AWS CLI コマンドを使えば簡単にそのような要件に対応できます。 generate-service-last-accessed-details — AWS CLI 2.0.42 Command Reference get-service-last-accessed-details — AWS CLI 2.0.42 Command Reference これらのコマンドはまったく目新しい機能ではないですが、たまたま流れてきたツイートで存在を知りました。試したところ面白そうだったのでご紹介します。 1/ Hey

                                                                            この IAM ユーザーが過去30日間にアクセスした AWS サービスを一覧化してください と言われたら | DevelopersIO
                                                                          • Amazon Personalizeでリアルタイムに変化をするレコメンドを試してみました! - BASEプロダクトチームブログ

                                                                            この記事はBASEアドベントカレンダー2021 17日目の記事です。 はじめに DataStrategyチームの杉です。 ショッピングアプリPay IDではさまざまなショップでの商品購入が可能です。 "探す"タブにはおすすめ機能がついており、利用者にあった商品やショップのレコメンドを行なっています。 おすすめ商品の掲載例 おすすめの商品ではさまざまなアルゴリズムを並行に運用しており、その中のひとつとしてAmazon Personalizeを利用しています。 このアルゴリズムの計算は今まで1日に1回のbatch処理で行なっていました。 しかし、閲覧や購入のログをリアルタイムに利用することでよりマッチしたおすすめ商品を掲載することができるのではという想いでevent trackerを用いたリアルタイムに変化をするレコメンドに挑戦をしました。 この記事では、event trackerをどう実装し

                                                                              Amazon Personalizeでリアルタイムに変化をするレコメンドを試してみました! - BASEプロダクトチームブログ
                                                                            • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

                                                                              今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (本記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

                                                                                はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
                                                                              • 機械学習モデルの推論web APIサーバーの構成 [FastAPIの実装例あり] - Qiita

                                                                                本記事の目的 機械学習の推論web APIの典型的な構成を紹介します。必ずしもWEBの知識や機械学習の知識はなくても読める内容だと思います。(実装例は除く) 紹介する構成は、業務でいくつかの機械学習モデルの推論web APIをたてた経験からきていますが、あくまでも個人的見解なので、こっちのほうがいいよーってのがあればコメントで教えていただけると幸いです。 実装例ではweb frameworkは非同期処理の扱いやすさ、実装のシンプルさの観点からFastAPIを使います。 目次 機械学習の推論web APIの構成 実装例 1. 機械学習の推論web APIの構成 本記事では、2つのパターンを紹介します。 注) まず、共通部分の説明をします。機械学習の知見が必要なのは基本的に共通部分だけです。もし、機械学習に詳しくない or webに詳しくない場合は、共通部分と後述の部分で役割を分担できるので、

                                                                                  機械学習モデルの推論web APIサーバーの構成 [FastAPIの実装例あり] - Qiita
                                                                                • Git's database internals I: packed object store

                                                                                  EngineeringOpen SourceGit’s database internals I: packed object storeThis blog series will examine Git’s internals to help make your engineering system more efficient. Part I discusses how Git stores its data in packfiles using custom compression techniques. Developers collaborate using Git. It is the medium that allows us to share code, work independently on our own machines, and then finally com

                                                                                    Git's database internals I: packed object store