sh19910711のブックマーク - はてなブックマーク

LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇（@catshun_）です。本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。おことわり本記事では対象とする研究棟の詳細な解説は含みません。詳細は元の論文を参照ください。不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事の目次 Google I/O '24 での Gemini Nano × Android の発表
sh19910711 2024/05/29
"Gemini Nano: オンデバイス + スマホがネット環境下にない状態でも動作 + Pixel 8 Pro および Samsung S24 シリーズのデバイスでのみ利用可能 / HTLM: Common Crawl から抽出された HTML で学習された BART ベースのモデル"

*program

prompt

browser

mobile
リンク
LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
こんにちは、Algomatic LLM STUDIO インターンのなべ（@_h0jicha）です。前回の記事では、LLM の日本語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。ベンチマークの導入に負担がかかってしまうため、もっと気軽に評価したい既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基本的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたいそこで本記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。目次 promptfoo とは？導入方法環境構築実験設定評価実行アサーションについてアサーションタイプの概要決定的評価指
sh19910711 2024/05/27
"ベンチマークの導入: LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたい / promptfoo: ソフトウェアのテスト設計に影響 + 出力に対してテスト項目を指定することで、LLM の応答品質を定量的に評価"

*program

prompt

testing

評価
リンク
Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog
最近はAI エンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AI エンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか？項目がオプショナルの場合はどうするか？項目が存在しない、空文字や 0 や undefined や nu
sh19910711 2024/05/24
"XMLでプロンプトを与えると良いという話 + Markdownで見出しを与えると良いとか / 構造化データをうまく吐き出させるのは難しい / 陳腐化: 不要になったプロンプトは逆に邪魔になる + 不要な指示を削った方がうまくいく傾向"

*program

prompt

schema
リンク
複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能
sh19910711 2024/05/02
"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

*algorithm

NLP

search

W

--

cs.CL
リンク
LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog
はじめにこんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇（@catshun_）です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。直近ではコード生成からデバッグ、デプロイまで自律的に行う
sh19910711 2024/03/20
"LLM エージェント: AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど / SIMA: 自然言語の指示通りゲームをプレイ / LangGraph: ループを伴う連鎖が実現"

*program

prompt

python
リンク
1