タグ

ブックマーク / tech.algomatic.jp (5)

  • LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog

    こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇(@catshun_)です。 記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。 社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、記事を読んだ方の議論のネタ程度になってくれれば幸いです。 以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。 おことわり 記事では対象とする研究棟の 詳細な解説は含みません。詳細は元の論文を参照ください。 不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 記事の目次 Google I/O '24 での Gemini Nano × Android の発表

    LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/29
    "Gemini Nano: オンデバイス + スマホがネット環境下にない状態でも動作 + Pixel 8 Pro および Samsung S24 シリーズのデバイスでのみ利用可能 / HTLM: Common Crawl から抽出された HTML で学習された BART ベースのモデル"
  • LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog

    こんにちは、Algomatic LLM STUDIO インターンのなべ(@_h0jicha)です。 前回の記事では、LLM の日語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。 ベンチマークの導入に負担がかかってしまうため、もっと 気軽に評価したい 既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい そこで記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。 目次 promptfoo とは? 導入方法 環境構築 実験設定 評価実行 アサーションについて アサーションタイプの概要 決定的評価指

    LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/27
    "ベンチマークの導入: LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい / promptfoo: ソフトウェアのテスト設計に影響 + 出力に対してテスト項目を指定することで、LLM の応答品質を定量的に評価"
  • Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog

    最近はAIエンジニアを名乗ってるerukitiです。フロントエンドもバックエンドも、LLMを触るあれこれもやってるので、「AIエンジニア」くらいを名乗るとちょうどよさそうだなと思ってます。いずれLLM自体の開発なんかもやってるかもしれません。 LLMプロダクトを開発していると、構造化データを作りたいのに、Anthropic ClaudeのAPIにはJSONモードが無いことや、なんならJSONモードやfunction callingを使っても、データが正しい形式に従ってることは保証しがたい、みたいな自体に遭遇することがあります。 JSONが出力できたとしても、構造化データをうまく吐き出させるのは難しいものです。文字列を出力させたいけど、複数あるときは、配列なのか、それともカンマ区切りなのか?項目がオプショナルの場合はどうするか?項目が存在しない、空文字や 0 や undefined や nu

    Zodスキーマでプロンプト生成を行い構造化データを自由自在に扱えて、LLMプロダクト開発が圧倒的に効率化した話 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/24
    "XMLでプロンプトを与えると良いという話 + Markdownで見出しを与えると良いとか / 構造化データをうまく吐き出させるのは難しい / 陳腐化: 不要になったプロンプトは逆に邪魔になる + 不要な指示を削った方がうまくいく傾向"
  • 複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

    こんにちは。Algomatic の宮脇(@catshun_)です。 記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり 記事では精読レベルの 詳細な解説は含みません。 詳細については 参照元の論文をご確認ください。 不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 記事で紹介する 論文 は Work in progress とコメントされており今後内容が更新される可能

    複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/02
    "ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216
  • LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog

    はじめに こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。 直近ではコード生成からデバッグ、デプロイまで自律的に行う

    LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/03/20
    "LLM エージェント: AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど / SIMA: 自然言語の指示通りゲームをプレイ / LangGraph: ループを伴う連鎖が実現"
  • 1