sh19910711のブックマーク - はてなブックマーク

ElasticsearchとXGBoostを組み合わせた検索ランキング作成と評価
最近検索周りで「機械学習による検索ランキング改善ガイド」という本が出版されて気になって読んでみたので、それを読んで勉強しつつ手を動かしてみてわかったことや感想を紹介してみようと思います。この記事に書くこと＆書かないことこの記事では以下のようなことに焦点を当てて書きます。 ElasticsearchとXGBoostを組み合わせたときの性能・負荷変化の実験 Elasticsearch上での特徴量エンジニアリングの体験逆に、実験の下準備といったことについては最低限しか書かないので具体的なElasticsearchの使い方等については他の記事もしくは書籍を参照してください。実験を行う検索システムの構成書籍で使われているコードをベースとして色々と自分で実験を行いました。実験を通して知りたかったこと自分の手を動かして実験することで知りたかったことをまとめると以下のようになります。 Ela
sh19910711 2024/04/24
"ElasticsearchをFeature store的に利用する / LTRプラグイン: match_explorer という機能を使えば基本的な統計量が計算でき + 書籍ではこれをフルに使って特徴量を作っていた" 2023

*data

search

tree*
リンク
VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する
LLM周りの基本的な知識とTransf ormersをもっと扱えるようになりたくて、最近大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0
sh19910711 2024/04/17
"大規模言語モデル入門: 「メモリ効率の良いファインチューニング」という節 / 勾配チェックポインティング: メモリ使用量を抑える代わりに計算スピードが少し落ちる + VRAMの使用量は半分以下まで激減" 2023

*algorithm

機械学習

search

--

*book

NLP
リンク
ChatGPT/LangChainを使ってgitの差分からドキュメントを自動で更新する
「ChatGPT/LangChainによるチャットシステム構築[実践]入門」という本を読んで学んだ知識を使って、自分で簡単なツールを作ってみたのでそれについて紹介しようと思います。作ってみたツールは、git diff の結果を入力として、この差分によって更新が必要になるドキュメントを検知して書き換えるというものです。動作例この記事で紹介するツールの実際の動作例を最初に示します。 ❯ dupdate --repo ../dummy_project --model_name gpt-4 --k 2 2023-11-05 15:22:42.471 | INFO | __main__:main:123 - Using mode: gpt-4 2023-11-05 15:22:43.440 | INFO | __main__:main:125 - Created DB 2023-11-05 15
sh19910711 2023/11/11
便利そう / "リポジトリに存在するドキュメントのembeddingをVector Storeに入れておく + gitの差分と類似度が高いドキュメントtop-Kを取り出す / 差分とドキュメント本文をChat APIに投げる"

*program

prompt

git*
リンク
1