Tawaraのブックマーク (48)

  • 外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

    はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ

    外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
  • 【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説 - 学習する天然ニューラルネット

    はじめに Streamlit vs Gradio Gradioの設計思想 Interface 入出力に応じたUI Interface String Shortcut 入力データのサンプルのセット ドキュメンテーション テーマの変更 タイムアウトへの対処 中級者への第一歩、デモを作る際に知っておきたい処理 Gradioが担当する前処理について プログレスバー もろもろの出力結果を保存するには? 認証認可(というか認可) その他、解説しないが需要の有りそうなもの まとめ 追記 : 動画になりました。 はじめに 機械学習系のデモアプリを作成することがしばしばありStreamlitを使用していたが、パラメーターなどをいじるたびに処理が最初から走るなどといった挙動に悩まされていた。 同僚がGradioというのを使っていたのでサーベイがてらメモしていたらブログが出来上がってしまった。 ブログでは、G

    【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説 - 学習する天然ニューラルネット
  • その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ

    はじめに Gunosy Tech Lab - Media ML のsuchidaです。 最近はPythonの型アノテーションがないとあたふたする人生です。 こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。 前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを実施しましたでした。 さて皆さん、Pythonを利用する際に静的解析ツールを利用していますか?これは、コードを綺麗に保ち、保守運用を行いやすくするために非常に重要なツールです。 記事では、Pythonコードフォーマッターなどの静的解析ツールとその設定ファイルの管理方法について簡単に紹介します。 静的解析ツールの導入 チーム内では主に、アルゴリズムの開発・運用にPythonを利用しています。 また、コードを綺麗に保ち、保守運用を行いやすくするためにコードフォーマッターな

    その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ
    Tawara
    Tawara 2022/02/06
  • 不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ

    はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題ってなに? 何かしらのカテゴリを機械学習などで分類予測しようとする際、カテゴリごとのデータ件数に偏りがある、特に正例のデータが極端に少ないケースで予測精度が上がりにくい、という問題をこのように呼んでいます。 例: 不正決済と正常な注文、不正商品と健全な商品、がん患者と正常な患者 普通はどうやって対処するの? ベースとなるアプローチは下記3つにまとめられます。 アプローチ 内容 デメリット アンダーサンプリング 多数派データを

    不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ
    Tawara
    Tawara 2022/02/06
  • 「経験の浅いソフトウェア開発者が気になっていること」という募集への反応のまとめ - 覚書

    数日前にブログや記事、書籍執筆ネタ集めのためにこういうtweetをしました。 [ゆるぽ] 経験の浅いソフトウェア開発者が気になっていること、とくにすでにそれなりのキャリアを積んだ人に聞きたいこと もっというと別に(ソフトウェア技術者としての)私個人について聞きたいことでもいいです— sat🧊 (@satoru_takeuchi) 2020年2月28日 その結果、返信および引用RTで数十個のネタが寄せられたので、まとめてみました。その場で回答したものについては回答一緒に書いています。それに加えて、私がわからないと言ったことについて別のかたから回答をしていただいたものについても書きました。さらに、既に経験豊富なかたがたから「経験の浅いソフトウェア開発者が気になっていそうなこと」や「知っておいてほしいこと」のようなネタもいただいたので、こちらもまとめました。 文面は基的には改変せずにそのまま

    「経験の浅いソフトウェア開発者が気になっていること」という募集への反応のまとめ - 覚書
    Tawara
    Tawara 2022/02/06
  • なぜ分散は2乗の和なのか - 小人さんの妄想

    Q.なぜ分散は、単純な差(偏差の絶対値)ではなく、差の2乗を計算するのか? A.分散を最も小さくする点が平均値だから。(単純な差を最も小さくする点は中央値となる。) “分散”というキーワードは統計学の基礎中の基礎であり、どんな教科書にも“平均”の次くらいに載っていることがらです。 しかしながら、いきなり登場する“分散”の意味が分からず、統計学の入り口で挫折する人は少なくありません。 偏差の2乗の平均、つまり、各値と平均との差の2乗の平均を分散といい、 分散の平方根の正の方を標準偏差という。 統計で、ちらばりを表すものとして、標準偏差や分散が多く用いられる。 -- 高校の教科書(啓林館)より. 教科書にはこのように書かれているのですが、これで分かった気になるでしょうか。 ・なぜ、差の2乗を計算するのか? ・差そのものであってはいけないのか? ・なぜ、分散と標準偏差の2種類があるのか? 最後の

    なぜ分散は2乗の和なのか - 小人さんの妄想
    Tawara
    Tawara 2022/02/06
  • 初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳

    こんにちは、品川です。記事は強化学習 Advent Calendar 2021 17日目の記事です。 今回は以前献いただいた「深層強化学習入門」についてご紹介したいと思います。 www.kyoritsu-pub.co.jp 噂の深層強化学習を頂いたので拝読しました!概論として基礎知識や問題設定、課題感がギュッとコンパクトにまとまってました。特に7章以降は学習させるための工夫とか実験の作法だとか重要な点がさらっと詰め込まれてて勉強になりました。分厚いと組合せて行ったり来たり読み進めると良さそうです pic.twitter.com/3nIEoQmGkE— Seitaro Shinagawa (@sei_shinagawa) 2021年4月14日 オレンジと黒白の装丁がカッコよくて素晴らしいです。 目次 前置き 題:「深層強化学習入門」は誰向けの? 前置き 強化学習は様々な分野で用い

    初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳
  • 博士後期課程に行くか延々悩んだ結果やめた - kuri8iveにいきてこ。

    こんにちは,@kuri8iveです. 進学を検討していた背景ややめた理由などを書き留めておきます. 一言で言うと なぜ博士後期課程進学を検討していたか 身近に尊敬できる博士がいた 研究のプロセスが好き 研究コミュニティが好き じっくり学問と向き合う時間を確保できそう 小さくとも世界一詳しい領域を持ってみたかった 国外就職の可能性を広げられる 今なら身軽 検討するにあたって何をしていたか 話をたくさん聞いた ブログを読んだ を読んだ なぜやめたか 心身健康な博士後期課程生活を送れる気がしなかった 内定と学振(かも)では比較できなかった 学振を取れると確信できるテーマを考えつけなかった 妹に借金させたくなかった 仕事が楽しそう その他 おわりに 参考文献 一言で言うと 奨学金の借金が700万くらいあり、学振や各種支援制度を勝ち取れそうな能力や実績がない私にはD進する勇気が出なかった— るいす

    博士後期課程に行くか延々悩んだ結果やめた - kuri8iveにいきてこ。
  • 統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編) - 統計応用合格君’s diary

    この記事は何? タイトルの通り、2021年の統計検定1級試験を受験し統計数理に合格してきたので、記憶が鮮明なうちに勉強してきた内容をメモしておこうと思います。ちなみに、統計検定は私にとって今回が(級によらず)初めての受験でした。 対策・勉強した内容以外の、当日の受験体験記は以前に公開していますので、そちらもご興味あればぜひ併せてご覧ください。 taro-masuda.hatenablog.com 免責 あくまで個人的な方法論であるため、記事の情報が必ずしも今後の試験においてそのまま有効であるとは限りませんのでご注意ください。損失等をこうむられた場合であっても、筆者は一切の責任を負いかねます。 TL;DR 久保川先生の教科書『現代数理統計学の基礎』の2~8章の章末問題((*)印は飛ばす) + 統計数理は過去問を仕上げました。過去問は1ヶ月以上前からやるのがお勧めです。 現代数理統計学の基礎

    統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編) - 統計応用合格君’s diary
  • 『バッタを倒しにアフリカへ』行き、必殺技を見つけてきました - 砂漠のリアルムシキング

    皆さまがお元気であることを信じてやまない2021年の秋。 今回、久しぶりのブログのため、力が入っており、めちゃ長です。 全部読むのに12分はかかるので、心してお読みくださいませ。 吉報です。 長い修行の末、とうとうバッタを退治する必殺技を編み出しました! (殴っているフリです。植物を痛めつけるようなことはしておりません) 私の正拳突きでも愛するバッタを叩き潰すことは可能ですが、彼らは空を飛ぶため、私のこぶしは彼らに届きません。 そこで、彼らの繁殖行動を研究し、その習性を逆手に取って、バッタをやっつけ放題になる状況を突き止めました。 研究内容に触れる前に、まずは今回の研究を実行するための私の心構えを先に説明いたします。 私は今、婚活中で、異性との出会いに大変興味があります。 出会うだけではダメです。相手に気に入ってもらい、そして私も相手を気に入るという、マッチングも望んでいます。 さらに、ゆ

    『バッタを倒しにアフリカへ』行き、必殺技を見つけてきました - 砂漠のリアルムシキング
    Tawara
    Tawara 2021/10/31
  • 「Patches Are All You Need?」のからくりを読み解く | Shikoan's ML Blog

    ICLR2022のレビューとして投稿された「Patches Are All You Need?」という論文が気になったので読んでみて、少し試してみました。画像の高周波の成分の活用や、スループットと精度のトレードオフが見えてくる興味深い論文でした。 論文の概要 Transformerっぽいモデルを従来のConvolutionを使って再現したところ、Transfomerベースのモデルよりも精度も計算効率も良かった。 Patches Are All You Need? https://openreview.net/forum?id=TVHS5Y4dNvM ※図はこちらの論文からの引用です パラメーター数 vs 精度の比較 ConvMixerがこの論文、ResMLPは、DeiTはそれぞれ既存の研究でTransfomerからの発想を受けて作られたもの。ResNetは非Transfomerで従来のCo

    「Patches Are All You Need?」のからくりを読み解く | Shikoan's ML Blog
  • 源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」 | Ledge.ai

    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

    源氏物語が好きすぎてAIくずし字認識に挑戦でグーグル入社 タイ出身女性が語る「前人未到の人生」 | Ledge.ai
    Tawara
    Tawara 2021/10/08
  • ML Test Scoreを使って現状の機械学習システムをスコアリングしました - コネヒト開発者ブログ

    皆さん,こんにちは!機械学習エンジニアの柏木(@asteriam)です. コネヒトでは,テクノロジー推進部に所属し,組織横断的に機械学習(ML)施策の実施・推進を通してサービスグロースする役割を担っています. はじめに MLチームでは,少人数ながらレコメンドエンジンの開発*1やカテゴリ類推*2などの機械学習を用いたサービス開発を実施しています.一方でプロダクション環境に投入するMLシステムの数が増えると,それら1つ1つが属人的になったり,テストが不十分だったり,運用が疎かになったり,それ以外に技術的にも負債が蓄積するケースがあります.私たちのチームでもこれらが課題の1つとなっています. 上図はよく目にするMLシステムの技術的負債の図*3ですが,MLシステムはモデル開発だけでなく,MLシステムを支える周辺のインフラや各種メトリクスのモニタリングなど考慮すべき項目が多くあります.加えてMLシス

    ML Test Scoreを使って現状の機械学習システムをスコアリングしました - コネヒト開発者ブログ
  • バングラデシュのマスク研究から何を結論すべきか? - himaginary’s diary

    バングラデシュでのRCTの結果を基に、マスクはコロナ感染防止に有効である、という報告が出されたが、UCバークレーの機械学習の研究者であるBen Rechtが「Effect size is significantly more important than statistical significance.」と題したブログエントリでその結果に疑問を呈し、タイラー・コーエンが表題のコメント(原文は「What should we conclude from the Bangladesh mask study?」)を付けてそれにリンクした。以下はエントリの概要。 マスク着用がコロナ感染を減らすというバングラデシュでのクラスターランダム化比較試験(クラスターRCT)の報告は、マスク支持派の間では自説を支持する実証結果として歓迎されているが、統計的曖昧さがあるため、同報告から言えることはあまりないので

    バングラデシュのマスク研究から何を結論すべきか? - himaginary’s diary
  • 猫でもわかるTabNet

    Python と Snowflake はズッ友だょ!~ Snowflake の Python 関連機能をふりかえる ~

    猫でもわかるTabNet
  • 「業務スーパー」はなぜ強い 創業者が語る、唯一無二の経営論

    業務スーパーを運営する神戸物産は、フランチャイズチェーン(FC)展開を始めて約20年で売上高3000億円以上を稼ぐまでになった。同店の前身である品スーパーを1981年にオープンさせ、2001年には神戸物産を創業して16年まで経営に専念、今は日料・エネルギー問題解決を大義名分とする会社を率いる沼田昭二氏に話を聞いた。 ※日経トレンディ2021年10月号の記事を再構成 町おこしエネルギー(兵庫県加古川市)会長兼社長。1954年兵庫県生まれ、兵庫県立高砂高校卒業後、三越に入社。81年品スーパー創業。業務スーパーをFC方式で全国展開し、外事業や国内に20を超える品工場も運営。2012年に長男の博和氏に社長職を引き継ぎ、以降は最高経営責任者(CEO)として博和氏とダブルトップで経営に携わる。16年、日が問題として抱える「料自給率とエネルギー自給率の低さ」を解決することを大義名分とし

    「業務スーパー」はなぜ強い 創業者が語る、唯一無二の経営論
    Tawara
    Tawara 2021/09/19
  • 個人的Surveyのやり方 - 重み元帥によるねこにっき

    はじめに 論文surveyのやり方メモ 「論文の読み方」などでググって自分に合うやり方を探すのが一番良いと思いますが, 飲みの席で先輩から「後輩にsurveyのやり方教えてよ」と言われたのでメモ. 主にCS向け. 論文の読み方 自分の興味分野,研究テーマに関連する学会,Journalをリストアップする 学会は Top Computer Science Conference Ranking | Research.com,JournalはTop Computer Science Journals Ranking | Research.comから探す 学会が強い分野とJournalが強い分野があるので注意する 画面上部にCategoryを指定するところがあるので,そこから選ぶ とりあえず上位3つに絞る よくわからない場合は先輩かインターネット老人におすすめの学会/Journalを聞く 一部の学会

    個人的Surveyのやり方 - 重み元帥によるねこにっき
  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
  • 研究で詰まっている時におススメな本 - Seitaro Shinagawaの雑記帳

    こんにちは、品川です。 学生さんが自分の研究の進め方に悩んでいるのを最近(通年)よく見ます。例えば、何をしたら新規性が出るのかとか、指導教員との研究議論や進捗報告のコミュニケーションがうまくいかないといったことです。 こういうところで苦しんだり悩むようになるのは成長の証でもあると思っていて、「ああ~~成長しているんじゃ~~もっと成長した姿を見せてくれ~~」と嬉しくなってしまいますが、具体的な行動としてどのような選択肢をとれば改善できるのかが頭にないと、ただ悩んだだけで何も解決しない可能性もあります。私もできた学生ではなかったので、学生時代ずいぶん四苦八苦していたのですが、そんな中で、私が学生時代に読んでいたor読みたかった書籍で特にためになったを5冊紹介したいと思います。こういう方法もあるんだということを知ることで、この記事を読まれた学生さんの気持ちが少しでも楽になれば幸いです。 新規性

    研究で詰まっている時におススメな本 - Seitaro Shinagawaの雑記帳
    Tawara
    Tawara 2021/08/29
  • 社会人博士課程に入学したら研究時間を確保できるのか? - yumulog

    先日、@hrjn さんのこのようなFacebook投稿を見ました。(「もっと見る」から全文読めます) この前半部分は起業したい人の話ですけど、社会人博士の入学を検討している人にも同じ話だなあと思って読みました。社会人博士の入学について相談を受けることがたまにありまして、研究時間が確保できるなら入学すればいいんじゃないかなと思っています。自分が研究時間を確保できるのかどうかというのはなかなか客観的に判断しにくいかもしれませんが、この話は具体的なのでイメージしやすいのかなと思いました。 人間は何かきっかけがないとなかなか変われないものなので、大学院入学を生活を変えるきっかけにするというのはそれはそれでよいと思います。ただ、入学したからといって、1日が36時間に増えるわけではないので、研究時間を確保するためには何かをやめないといけないというのは意識しておくのがよいでしょう。 大学院に入学するだけ

    社会人博士課程に入学したら研究時間を確保できるのか? - yumulog
    Tawara
    Tawara 2021/08/29