タグ

ブックマーク / blog.shikoan.com (2)

  • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

    2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

    Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
  • SIGNATEの個人情報要求がすごかったので経済産業省に電話した話 – Shikoan's ML Blog

    https://commons.wikimedia.org/wiki/File:Keizaisangyosho1.jpgより CC 表示-継承 3.0 アメリカにはKaggleというデータサイエンスのコンペティションがある。これはNASAやGoogle、エアバスといった大手企業と提携し、データを提供してもらい、参加者はそのデータを元に予測モデルを構築し、最も良い予測ができるよう競い合うという、データサイエンスの競技プログラミングみたいなものだ。 日にも最近そういったものがあり、SIGNATEというサイトである。経済産業省やNEDO、JRなどがデータを提供し、保線のデータや新幹線の積雪など非常に面白いデータを使ってコンペが開催されている。 個人情報要求しすぎじゃない?? まずメールアドレスを登録して、登録画面に行って思った。 https://signate.jp/register/com

    SIGNATEの個人情報要求がすごかったので経済産業省に電話した話 – Shikoan's ML Blog
  • 1