タグ

Qiitaに関するdeejayrokaのブックマーク (43)

  • Command R+はトークナイザーもすごかった - Qiita

    はじめに 最近Command R+が界隈を賑わせています。 その賑わいの中でも「Command R+の日語の応答速度が速い。」という声を良く聞きます。(半分以上X経由なので、よく聞くというよりも良く見るが近いですが、) そこで今回はCommand R+の日語の応答速度が当に速いのか、なぜ速いのかについてトークナイザー観点で述べたいと思います。 応答速度とトークナイザーの関係及びCommand R+のトークンナイザー まず前提として、入力あたりのトークン数が少なければ少ないほど応答時間が短くなります。よってトークナイザーは応答速度に大いに関係します。 詳しくは以下の記事で解説しています。少しだけ述べるとトークン数縮小に伴う語彙数増加によるEmbedding層肥大化による速度遅延<<トークン数増加による速度遅延となっています。ELYZAのfastのモデルが速い理由の一つもこの理由です。

    Command R+はトークナイザーもすごかった - Qiita
    deejayroka
    deejayroka 2024/04/30
    “LLMのモデルの応答速度の違いは、GPU等の環境差分がなければ以下2つの要因が考えられます。 トークナイザーの処理 モデルの処理”
  • PandasからPolarsへ移行した方がいいのか - Qiita

    なぜこの記事を書くのか 皆さん、データ解析を行う際にどのようなライブラリを用いているでしょうか。 おそらく大半の人はpandasを使っているのではないでしょうか。 私もpandas使ってます。簡単だよね(´・ω・`) しかし、業務でバカクソでけえデータを読み込もうとしたときに、読み込み時間がとんでもなくかかったり、メモリ不足でそもそも読み込めもしないことが起きていました。 読み込みにメモリわれすぎて他の作業ができずに待機した挙句、燃え尽きたかのようにノーパソのファンが止まると同時にメモリ不足のエラーが出たときには切れ散らかします。 (画像元:葬送のフリーレン公式Xアカウントのポストより) そんなこともあり、AWSなどのクラウドサービスでメモリに余裕を持たせるためにめちゃくちゃ良いインスタンスを使用していましたが、コストの問題で断念しました。 しかし、どうしても読み込みたいということもあり

    PandasからPolarsへ移行した方がいいのか - Qiita
    deejayroka
    deejayroka 2024/04/19
    “Polras特有の書き方に慣れる必要がある 欠損値の読み込み方などが面倒 ぐらいですかね。”
  • LLM自身が自分をチューニングする手法:Self-Rewarding について - Qiita

    先日、LLMに関する記事を読んでいた際に、Metaから1月下旬に発表された「Self-Rewarding Language Models」という興味深い論文を発見しました。この論文では、新しいLLMのチューニング手法「Self-Rewarding」を紹介しています。Self-Rewardingは名前の通りに、LLMが自分自身へ報酬を与えて、チューニングすることです。 この手法は、従来の「RLHF」を改善したようなものです。RLHFは、人間がLLMのoutputにスコアをつけて、このスコア付けされたデータを基に、LLMの出力を評価できる教師モデル(reward model)を作成します。その後、この教師モデルの評価を参考してLLMをトレーニングします。(RLHFはGPTモデルを訓練際に、非常に効果がよかったので、その後はほとんどLLMのトレーニングで使われる手法です。) Self-Rewar

    LLM自身が自分をチューニングする手法:Self-Rewarding について - Qiita
  • 【npm】キャッシュが壊れてnpm installに失敗する - Qiita

    はじめに 久しぶりにcreate-react-appを叩いたら、失敗しました。 調べたことを簡単にメモメモ。 ※認識間違っている所があれば、ご指摘お願いします。 現象 下記コマンド実行時にエラーが発生。 コマンド: npx create-react-app {プロジェクト名} --template typescript エラー: ERR! cb() never called! 環境は以下の通り。 ・OS :Docker上のUbuntu:20.04 ・nvm :0.38.0 ・node:14.17.4 ・npm :6.14.14 原因 まとめてくださっている記事によると、どうやらnpmのキャッシュの不具合らしい。(キャッシュが壊れている?) この現象はcreate-react-appに限ったものではなく、npm installでも発生するそうです。 npmのキャッシュとは? npmのDocに

    【npm】キャッシュが壊れてnpm installに失敗する - Qiita
    deejayroka
    deejayroka 2024/02/08
    “npm cache verify ”
  • RAG評価ツールの "RAGAS" を使って、RAGパイプラインの性能を測定する - Qiita

    はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 LLMで何かしたい勢のみなさま、検索拡張生成こと RAG (Retrieval Augmented Generation)、やってますか? 自社で持っているデータを使ってエンタープライズサーチを実現したい、それができればきっと無敵。そう考えて色々やろうとしているんじゃないでしょうか。私です。 RAGを使って意図した出力を得られるようにするには、十分なデータセットを準備したりパラメータを変更しながらチューニングをするなど、地道な作業が必要となります。 開発ライフサイクルにおける評価・テストステップで有効な、評価用フレームワーク RAGAS を使ってみましたので、記事ではそれについてまとめます。 RAGASとは RAGパイプラインを評価/テストするためのフレームワークです。 パイプラインを構築するためのツールは多く

    RAG評価ツールの "RAGAS" を使って、RAGパイプラインの性能を測定する - Qiita
  • 【2023年】モダンフロント学習教材まとめ - Qiita

    はじめに 今回はフロントエンド(主にReact, Next, TypeScript)でおすすめの学習教材をまとめました。 対象者 エンジニア初心者 モダンフロント技術を学びたい人 ロードマップ Developer Roadmaps エンジニア向けの学習ロードマップが整理されています。 現在の自分の立ち位置を把握し、次にやるべきことの方向性を知ることができます。 エンジニアが使うであろう、ほぼ全技術が網羅的にまとめられているので、まずはこのロードマップを使って現在の立ち位置を掴んでみてください。 TypeScript typescriptlang 公式が提供している学習サービス。 基文法から実践的な内容まで学ぶことができる。英語が苦手でなければここで一通り学ぶべき。 サバイバルTypeScript 実務で使えるTypeScriptの実装方法を学ぶことができる。応用的な内容も多いが、解説が丁

    【2023年】モダンフロント学習教材まとめ - Qiita
  • Notionでの論文管理をサポートするツールを作りました - Qiita

    変更履歴 231108 現在、Pythonのバージョンが3.12だとpipでのインストールに失敗することがあるようです。 バージョン3.10または3.11のPythonを使うのがオススメです。 詳細を記載しました。 インストールの失敗について、ご報告いただきありがとうございました。 230614 Notionデータベース作成の方法に誤りがあったため修正しました。 Firstプロパティも、Selectタイプにする必要があります。 ご指摘ありがとうございました。 前置き 私はこんな感じでNotionを使って論文の管理をしているのですが、 その際に使っているPythonプログラムをコマンドラインツールとしてまとめて、配布してみました。 その名も Papnt です。 所詮素人が作ったプログラムなので大目に見てください。 このプログラムを使った結果について、一切責任は取れません。 なにができるの?

    Notionでの論文管理をサポートするツールを作りました - Qiita
  • Gmailが2024年2月から(大量)送信者に求めてることが分からない闇への防衛術(前編) - Qiita

    メールの世界にGmailさんが新たな闇を投入 (インターネットの)メール受信・送信は闇あふれる世界だと思うのですが(*1)、そこに 2023年10月7日、新たな闇要素をGmailさんが投げ込んでくれました。(正しくは2023/12月頭現在、闇がモリモリ増えてる。補足①②参照) (*2 最下部キャプチャあり) えーと、「1日あたり 5,000 件を超えるメールを送信する送信者」はこの事項を守ってね……とあります。要件と書いてあり、2024/2/1から実施と急なうえに、項目が SPFとDKIMの設定 逆引き 迷惑メール率 メール形式 Gmail の From: ヘッダーのなりすまし ARC DMARC ダイレクトメールの場合(……なんとかかんとか) 登録解除 と9個もある。 何これ……?と様々な人を戸惑わせています。 インターネットにつながっているそこそこの規模の組織は、1日あたり 5,000

    Gmailが2024年2月から(大量)送信者に求めてることが分からない闇への防衛術(前編) - Qiita
  • M1版とIntel版のHomebrewを併用するときpyenvがうまく動かない問題を解決する - Qiita

    arch -arch x86_64 env PATH=${PATH/\/opt\/homebrew\/bin:/} pyenv install 3.8.7 python-build: use openssl@1.1 from homebrew python-build: use readline from homebrew Downloading Python-3.8.7.tar.xz... -> https://www.python.org/ftp/python/3.8.7/Python-3.8.7.tar.xz Installing Python-3.8.7... python-build: use readline from homebrew python-build: use zlib from xcode sdk BUILD FAILED (OS X 11.2.2 using p

    M1版とIntel版のHomebrewを併用するときpyenvがうまく動かない問題を解決する - Qiita
    deejayroka
    deejayroka 2023/11/27
    “arch -arch x86_64 env PATH=${PATH/\/opt\/homebrew\/bin:/} pyenv install ”
  • git diff+ChatGPTでPRの説明文作成しよう! - Qiita

    はじめに 組織で開発を行っている皆さんは普段からPull Request(PR)を作っていますよね?(決めつけ) masterブランチに直接pushしている方も中にはいるかもしれませんが、会社やチームで開発を行っていると、PRを作成する頻度は高いのではないかと思います。 そしてPRを作成する際には、その説明文を書く必要があります。 コードだけを読んで修正意図が伝わればいいですが、そうはいってもすべての背景をコードベースで伝えるのには限度があります。 しかし、だからといって修正の背景や詳細を、開発者自身が客観的な文章で伝えるのは簡単なことではありません。 そこで、この記事ではgit diffとChatGPTを組み合わせて、自動的にPRの説明文を生成する方法をご紹介します。 How to make PR? 繰り返しになりますが使うのはgit diffコマンドとChatGPTだけなんです!(お昼

    git diff+ChatGPTでPRの説明文作成しよう! - Qiita
    deejayroka
    deejayroka 2023/11/27
    “ChatGPTに役割と期待するPRのフォーマット、そしてgit diffコマンドの結果を与えさえすれば、簡単に説明文を作成してくれます”
  • 【速報】次世代の外観検査!?プロンプトを駆使した異常検知 - Qiita

    先日、革新的な画像の異常検知(SAA)が出てきました。 何やら革命的な臭いがする... SAMを使った異常検知手法https://t.co/wmwFcbULdq コードはこちらhttps://t.co/3npK3FhnEz pic.twitter.com/JDs30bEJyQ — shinmura0 (@shinmura0) May 22, 2023 稿では、操作手順 & 触ってみた感想をご報告します。 特長 題に入る前に、どこら辺が革新的なのかざっくり説明します。 ※ SAAの詳細は論文をご参照ください。 学習データは不要 通常、学習(正常)データを数百枚用意しますが、この手法では正常データを必要としません。 ドメイン知識を導入できる 予め、異常の傾向をプロンプトに入れることにより、異常の特徴をモデルに教えることができます。 二点目が特に大きく、今までの異常検知では、積極的に異常の傾

    【速報】次世代の外観検査!?プロンプトを駆使した異常検知 - Qiita
  • まるで詩のような日本語で書いたプログラム - 実際に動きます - Qiita

    はじめに 日語プログラミングの議論が続いていますが気分転換にこんな奇抜なプログラムはどうでしょうか。 経緯 木村 明さん 1 の傑作かつ芸術的な日語プログラムに「ポエム(Poem)」があります。 1986年に作られました。当時はPC-9801やFMRなどMS-DOS環境のPCが全盛で、このプログラムもPC-9801向けに書かれていました。プログラムは大変面白いのですが、そのような事情で現在では実際に動かすことはできず長いこと眠っていました。 一方で、Mindのほうは長らく開発していたGUI版が動き始め、Poemが使うグラフィック描画もできるようになったことから、Poem を実際に動かしてみたくなりました。9801グラフィックの互換処理を差し込むことでなんとか動かすことができました。動いたときは「ああ、こんなプログラムだったな」とちょっと感動しました。 公開について 氏の許可を得てソース

    まるで詩のような日本語で書いたプログラム - 実際に動きます - Qiita
    deejayroka
    deejayroka 2023/10/16
    “木村 明さん 1 の傑作かつ芸術的な日本語プログラムに「ポエム(Poem)」”
  • Azureのサブスクリプションやリソースグループや権限管理の最低限の考慮事項 - Qiita

    Azureを扱う際、FunctionsとかSQLDatabaseのような、いわゆる"リソース"よりも上位の概念が存在します。 リソースグループ(Resource Group)、サブスクリプション(Subscription)、管理グループ(Management Group)がそれに該当します。 また、これらと同時期に検討されるのが権限管理です。 今回は、これらをどう分割したら良い感じの環境になるのかを考えてみたいと思います。 環境の分割方法にビシッとした正解はありません。正直なところ、みなさんが使いやすく適切に管理できれば良いと思います。 ですが、後から変更するのが面倒であることも事実です。考慮事項として頭の片隅に置いていただけますと幸いです。 結論 支払い部門や使用用途別にサブスクリプションは分割する サブシステム単位や環境の利用者を意識してリソースグループは分割する Azureの利用範囲

    Azureのサブスクリプションやリソースグループや権限管理の最低限の考慮事項 - Qiita
  • ChatGPTと協創!arXiv論文要約ツールを作ってみた - Qiita

    はじめに こんにちは。(株) 日立製作所の Lumada Data Science Lab. の諸橋 政幸です。 最近、AI技術の進歩により、様々なタスクが効率化されています。その中でも、「ChatGPT」 は自然言語処理の分野で革新的な成果を上げており、大きな注目を集めています。 今回は、このChatGPTを活用してarXiv論文の要約を生成する簡易ツールを作成してみたので、そのプロセスを共有します。記事の構成は以下のとおり。 ChatGPTにやりたいことを伝えてみる 生成コードを修正して期待通り動くようにする ツール名も考えてもらう とにかく 「ChatGPTに積極的に頼る!」 をコンセプトにして作りました。 土日に趣味でやったのでツールのレベルや実用性については深く考えないでください! その前に自己紹介(+のアピール) 私は日立製作所で顧客課題をデータ分析を使って解決する業務を行

    ChatGPTと協創!arXiv論文要約ツールを作ってみた - Qiita
  • Jupyter AIが出た!試した!!すごい!!! - Qiita

    ターミナルにトークン付きのURLが表示されますので、ブラウザでアクセスします。 起動しました。 チャットインターフェイス 左パネルにチャットのボタンが追加されています。 Welcomeメッセージが表示されます。 language modelとembedding modelを選択します。 これで準備完了です。 チャットができます。 おお! ノートブックについて質問できる ただチャットができるだけではありません。ノートブックのセルに対して範囲選択をすると、チャットエリアの下部にInclude selectionとReplace selectionが表示されます。 Include selectionだと選択したコードを含んだ形で質問ができます。 すっげー! (DefaultActor pid=473) (DefaultActor pid=473) (DefaultActor pid=473) >

    Jupyter AIが出た!試した!!すごい!!! - Qiita
    deejayroka
    deejayroka 2023/06/05
    “ただチャットができるだけではありません。ノートブックのセルに対して範囲選択をすると、チャットエリアの下部にInclude selectionとReplace selectionが表示されます。”
  • Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita

    こんにちは!逆瀬川 (https://twitter.com/gyakuse)です! 今日は議事録の音声からの書き出しとサマリの自動生成を行います。 概要 会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。 会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIAPIキーを貼り付け ランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択します ひたすら待ちます 実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります

    Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita
  • Whisper+LangChain(text-davinci-003)で音声ファイルからAIを使って要約・箇条書きにするまで - Qiita

    Whisper+LangChain(text-davinci-003)で音声ファイルからAIを使って要約・箇条書きにするまでPythonwhisperOpenAIgpt-3langchain 音声を聞かされたくない 皆さん、以下の様なことが思い当たりませんか? 仕事で誰かとの話し合いの結果が録音ファイルで共有される。 会議議事として録音ファイルが提供される。 ドキュメントと称して操作のスクリーンキャプチャー動画を渡される。 内容を再確認するのに文字になってないので時間がかかってしまう。 ないよりはずっといいですが、「文字になってくれ!議事録にまとめてくれ!!」と思うこと、 皆さんとてもよくあるでしょう。私もとてもとてもよくあります。やーね、もう。 そこで、今流行りのAIAIを組み合わせて労せず議事の箇条書きを作ってみよう!というのがこの記事の趣旨です。 使用するのはどちらもOpenAI

    Whisper+LangChain(text-davinci-003)で音声ファイルからAIを使って要約・箇条書きにするまで - Qiita
    deejayroka
    deejayroka 2023/05/11
    “議事録の要約を作成せよ。 決定事項について経緯を書くこと。”
  • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

    こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

    Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
  • 「わかってんじゃん」と思われる議事録を目指して - Qiita

    はじめに エンジニア職は、コンサルや営業などのフロント部門と比較すると、議事録を取る必要のあるミーティングの機会は少ないと思います。 それでも製品企画や設計などの各種レビューや、ユーザーへの業務ヒアリングやユーザビリティテストなど、議事録を取る場面はやってきます。 これまで読みやすいと思う議事録に出会うことがしばしばあり、そういった議事録を取れるように精進せねばな、と感じます。 また私自身、議事録を取るのが割と好きで、私がミーティングの主体でない場合、特に依頼されずとも議事録を取ることが多いです。 ・・・まあ、私が書いた議事録について「わかってんじゃん」と言われたことはありませんが、これまで議事録を読んできて、そして取ってきて、ここポイントだな、と感じている点をまとめてみます。 なお今回書くポイントは、私がよく出席する以下の2種類のミーティングの議事録の取り方に寄っていると思いますので、そ

    「わかってんじゃん」と思われる議事録を目指して - Qiita
  • こうやってNotionで論文管理しています - Qiita

    追記(230611) たくさんの方に記事をご覧いただき、まことにありがたく存じます。 自分でもびっくりするくらい時間がかかりましたが、 PDFの論文情報を自動でNotionに追加するツールについての記事を書きました。 ぜひあわせてご覧ください。 TL; DR ↓こんな感じで、Notion使って論文管理してます。 ↓ページリンク機能で、論文間にリンクを貼れるのが便利です。 ↓ページリンク機能を使えば、自分用先行研究リストも便利にまとめられます。 論文管理ソフト、なに使ってる? 普段から学術論文を読んでいる人の多くが、なんらかのツールを使って論文を管理しているかと思います。 あなたは何を使っていますか? Zotero?Mendeley?EndNote?Paperpile? どれも優秀なソフトウェアだとは知りつつ、私はあえてNotionを使っています。 Notionは様々な機能と拡張性を備えた万

    こうやってNotionで論文管理しています - Qiita