タグ

ブックマーク / zenn.dev/yner (3)

  • ElasticsearchとXGBoostを組み合わせた検索ランキング作成と評価

    最近検索周りで「機械学習による検索ランキング改善ガイド」というが出版されて気になって読んでみたので、それを読んで勉強しつつ手を動かしてみてわかったことや感想を紹介してみようと思います。 この記事に書くこと&書かないこと この記事では以下のようなことに焦点を当てて書きます。 ElasticsearchとXGBoostを組み合わせたときの性能・負荷変化の実験 Elasticsearch上での特徴量エンジニアリングの体験 逆に、実験の下準備といったことについては最低限しか書かないので具体的なElasticsearchの使い方等については他の記事もしくは書籍を参照してください。 実験を行う検索システムの構成 書籍で使われているコードをベースとして色々と自分で実験を行いました。 実験を通して知りたかったこと 自分の手を動かして実験することで知りたかったことをまとめると以下のようになります。 Ela

    ElasticsearchとXGBoostを組み合わせた検索ランキング作成と評価
    sh19910711
    sh19910711 2024/04/24
    "ElasticsearchをFeature store的に利用する / LTRプラグイン: match_explorer という機能を使えば基本的な統計量が計算でき + 書籍ではこれをフルに使って特徴量を作っていた" 2023
  • VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する

    LLM周りの基的な知識とTransformersをもっと扱えるようになりたくて、最近 大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。 実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験 文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0

    VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する
    sh19910711
    sh19910711 2024/04/17
    "大規模言語モデル入門: 「メモリ効率の良いファインチューニング」という節 / 勾配チェックポインティング: メモリ使用量を抑える代わりに計算スピードが少し落ちる + VRAMの使用量は半分以下まで激減" 2023
  • ChatGPT/LangChainを使ってgitの差分からドキュメントを自動で更新する

    ChatGPT/LangChainによるチャットシステム構築[実践]入門」というを読んで学んだ知識を使って、自分で簡単なツールを作ってみたのでそれについて紹介しようと思います。作ってみたツールは、git diff の結果を入力として、この差分によって更新が必要になるドキュメントを検知して書き換えるというものです。 動作例 この記事で紹介するツールの実際の動作例を最初に示します。 ❯ dupdate --repo ../dummy_project --model_name gpt-4 --k 2 2023-11-05 15:22:42.471 | INFO | __main__:main:123 - Using mode: gpt-4 2023-11-05 15:22:43.440 | INFO | __main__:main:125 - Created DB 2023-11-05 15

    ChatGPT/LangChainを使ってgitの差分からドキュメントを自動で更新する
    sh19910711
    sh19910711 2023/11/11
    便利そう / "リポジトリに存在するドキュメントのembeddingをVector Storeに入れておく + gitの差分と類似度が高いドキュメントtop-Kを取り出す / 差分とドキュメント本文をChat APIに投げる"
  • 1