並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 18 件 / 18件

新着順 人気順

NLPの検索結果1 - 18 件 / 18件

  • LLM時代のX情報収集術|べいえりあ

    AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる(多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない)ので、英語分からなくてある程度何とかなるんじゃないかと思います。 あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。 NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話(task-oriented dialogue)」と「雑談(chit-chat dialogue)」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃ

      LLM時代のX情報収集術|べいえりあ
    • 大規模言語モデルの開発

      2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデルの学習や評価などを説明し、日本語に強い大規模言語モデルの現状や課題を議論したい。

        大規模言語モデルの開発
      • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

        こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

          ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
        • ゼロからLLMつくりたくなったときに参考になりそうなサイト

          はじめに 「ゼロからLLMつくりたいなー」と思っていますが、なかなか時間がとれないので、いざというとき(?)のために、参考になりそうなサイトをまとめておきます。 個人的な備忘録です。まだ全然作れていないので、どれが良いという評価もできません。 NLP2024チュートリアル 良さそう。 NLP2024-チュートリアル3-作って学ぶ 日本語大規模言語モデル Neural Networks: Zero to Hero Andrej Karpathyさんの動画。英語ですが、すごい良さそう Llama Llamaの情報 GENIAC その他 LLaVA(画像系) 環境構築 モデルマージ まとめ LLMに限らず、何かをゼロから小さく作ってみるのは、回り道のようで理解を深める最短経路と思っています。すぐ効果があるようなものではないですが、こういうのはまとめて取り組んでいきたいですね。 日本語の良い書籍が

            ゼロからLLMつくりたくなったときに参考になりそうなサイト
          • PyConJPに採択されるプロポーザルを書こう!! - Qiita

            採択されるプロポーザルと採択されないプロポーザル 私は去年、PyConJPのプロポーザルの審査員を担当しました。 プロポーザルの審査員とは登壇希望者が提出する登壇内容の予稿、プロポーザルを評価する人のことです。 審査プロセスを理解していないプロポーザルが多く残念に感じたため、PyConの審査を通過するプロポーザルの書き方を講座をレクチャーします。 3つの背景と3要件 プロポーザルを通すには3つの背景とそこから導き出される3要件を遵守した上でプロポーザルを書くことが必要です。 3つの背景は以下です。 基本的にイベント運営者の身内以外は採択されない イベント運営者、およびレビュー審査員はPythonの経験がない プロポーザルは中身を読まれずに審査される 上の背景条件により『一般枠』で採択されるプロポーザルが備えてなければならないのは以下の3要件です。 採択されるジャンルを選ぶ Python、I

              PyConJPに採択されるプロポーザルを書こう!! - Qiita
            • 特化型モデルが日本の生成AI開発の勝ち筋

              こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。 出口の見えない日本のLLM開発に光? 昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。 私も東工大の岡崎先生と、NII

                特化型モデルが日本の生成AI開発の勝ち筋
              • AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ

                はじめに 今回はAIライティングアシストの英語学習への効果やデメリットについて考えていきたいと思います。さらに、最新の研究も紹介していきます。AIライティングアシストを支えているのが自然言語処理であり、それを言語に最適化したツールとしてChatGPTやGrammalyが英語学習のツールとして注目されています。今回はそれらのAIライティングアシストの正しい使い方について考えていきたいと思います。 ↓↓英語学習動画を随時アップしています www.youtube.com 主な参考文献 「言語と身体性」 「はじめての認知言語学 」 「ゼロからわかる人口知能」 AIライティングアシスト AIライティングアシストとは 英語学習者(EFL)とAIライティングアシスト AIと第二言語習得研究 自然言語処理(NLP) 自然言語処理とは 自然言語処理の発展 脳内に入り込んだニューラルネットワーク ディープラー

                  AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ
                • CHI2024 参加を振り返って|@hciphds

                  筆者: 荒川 (カーネギーメロン大学) 2024/05/13 - 05/16 にかけてホノルルで開催された ACM CHI2024 に参加してきた。ACM CHI は ヒューマンコンピュータインタラクション (HCI) 分野の最大の国際会議であり、数千人の研究者が集まった。ヒューマンインタラクションから多くの刺激をもらえたので、忘れないうちに書いてみる。 トレンドは AIOpening Keynote は近年の AI の進化とそれへの警鐘となるアジェンダの提示であった。個別の論文発表もAI 関連のものが多数を占めていた。Daniel Buschek 先生が AI 関連の研究に絞ったリストをまとめてくれている (Medium記事)。特に Late-Breaking Work のポスターセッションは LLM が目白押しだった印象。Creativity Task や Chatbot などのドメイ

                    CHI2024 参加を振り返って|@hciphds
                  • ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

                    はじめに こんにちは。ELYZA のML Engineeringチームの堀江 (@eemon18)、村山 (@zakktakk)です。 本記事では、弊社が2024/03/11にリリースした下記のデモについて、どのように70Bという巨大なモデルをホスティングしているのかを解説します。 まだデモを直接触れたことがないという方はぜひ一度以下のURLからアクセスし、140GBを超えるバイナリファイルからなるモデルがどのくらい高速に動作するのかを確かめてみてください。 本記事ではまず弊社推論アーキテクチャについて説明し、その後70Bを運用する際の技術選定や高速化の工夫について解説します。 推論アーキテクチャ 弊社のLLMアプリケーションのアーキテクチャは、平易に表すと以下の図のように構成されています。LLMの推論処理には時間がかかるため、アプリケーションと推論インスタンスはメッセージキューを介して非

                      ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤
                    • CS388

                      CS388: Natural Language Processing (online MS version) These are the course materials for an online masters course in NLP. All lectures are videos available on YouTube. Note on enrollment for on-campus students: This course is listed in the course catalog as "Natural Language Processing-WB". It is a partially asynchronous course taught for certain online masters programs at UT ("Option III" progra

                      • AIを使いながらAIを目的とせず、相手とのあいまいなコミュニケーションを目指すADV2題――『Inverted Angel』と『_turing』について【東京ゲームダンジョン5】

                        更新(24/05/23) ※記事全体の「生成AI」の記述を「AI」と区別するように修正を施しました。また、『Inverted Angel』のAI利用に関しては「テキストなどを作る生成AI」とはまったく別のため、修正しています。あわせて、AIを活用したタイトルをSteamに登録する際のガイドラインについても記事末尾に追記いたしました。記述に誤りがあり、申し訳ありませんでした。 近年はAIが大きなトピックである。クリエイティブ業界は企業から個人に至るまで、この技術の扱いをどうするのかについての話題が毎日のように交わされている。 現在AIは画像やテキストを作る生成AIの分野が目立っているが、それらに留まらず広い分野に関わってきている。僕が昨年見たニュースで印象深かったのは、声優の分野まで生成AIが関わっていることだ。大塚明夫氏や山寺宏一氏といった大御所にインタビューする機会があったとき、少しばか

                          AIを使いながらAIを目的とせず、相手とのあいまいなコミュニケーションを目指すADV2題――『Inverted Angel』と『_turing』について【東京ゲームダンジョン5】
                        • LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog

                          こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇(@catshun_)です。 本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。 社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。 以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。 おことわり 本記事では対象とする研究棟の 詳細な解説は含みません。詳細は元の論文を参照ください。 不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本記事の目次 Google I/O '24 での Gemini Nano × Android の発表

                            LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
                          • ~sircmpwn/bunnix - A simple monolithic Unix-ish kernel - sourcehut git

                            #Bunnix A simple monolithic Unix-like operating system. #Bunnix cross toolchain A GNU toolchain configured for an x86_64-bunnix target is required to compile Bunnix. Fetch the binutils and gcc trees from here: binutils (bunnix branch) gcc (bunnix branch) You must configure these with the Bunnix sysroot you will be using for your build. The build system places this at $srcdir/target/root/ by defaul

                            • Aratako/Vecteus-v1-toxic · Hugging Face

                              ","eos_token":"","pad_token":null,"unk_token":"","use_default_system_prompt":true}},"createdAt":"2024-05-04T11:26:56.000Z","discussionsDisabled":false,"downloads":101,"downloadsAllTime":101,"id":"Aratako/Vecteus-v1-toxic","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-05-04T15:24:00.000Z","likes":18,"pipeline_tag":"text-generation","library_name":"transformers

                                Aratako/Vecteus-v1-toxic · Hugging Face
                              • AnswerCarefully Dataset – RIKEN-AIP, LIAT

                                新着情報 AnswerCarefully Dataset バージョン1.0を公開 (2024/4/30) 概要 日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。 データセットの特徴 5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。 このうち各サブカテゴリから3件ずつ、計183件をテストデータ、残り762件をを開発データとして2つのファイルに分け

                                • DataPilot/ArrowPro-7B-KUJIRA · Hugging Face

                                  ","eos_token":"","pad_token":null,"unk_token":"","use_default_system_prompt":true}},"createdAt":"2024-05-09T07:16:24.000Z","discussionsDisabled":false,"downloads":1134,"downloadsAllTime":1134,"id":"DataPilot/ArrowPro-7B-KUJIRA","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-05-13T14:08:14.000Z","likes":50,"pipeline_tag":"text-generation","library_name":"transf

                                    DataPilot/ArrowPro-7B-KUJIRA · Hugging Face
                                  • Gartner、2024年のデータ/アナリティクスのトップ・トレンドを発表

                                    「ガートナー データ & アナリティクス サミット」(5月21~23日、東京) においてアナリストが解説 ガートナージャパン株式会社 (本社:東京都港区、以下Gartner) は、開催中の「ガートナーデータ & アナリティクス サミット」において、2024年のデータ/アナリティクス (D&A) のトップ・トレンドを発表しました。これらのトレンドにより、組織的/人的な問題を含め、さまざまな課題が顕在化しています (グローバルでは2024年4月25日に発表しています)。 バイス プレジデント アナリストのガレス・ハーシェル (Gareth Herschel) は、次のように述べています。「AIの力、そして生成AIの重要性の高まりは、人々の働き方、チームのコラボレーション、プロセスのあり方を変えつつあります。こうした『テクノロジ革命』の時代において、転換を図ることができず、D&A全般、特にAIを

                                    • 日本語テキスト埋め込みベンチマークJMTEBの構築 - sbintuitions’s blog

                                      TL;DR JMTEB とは 評価結果 はじめてのJMTEB ベンチマークを用いた分析例: 正規化に関する考察 おわりに 付録 TL;DR 日本語テキスト埋め込みベンチマークJMTEBを構築・公開しました。2024年5月現在,6タスク・16データセットで構成されています。 データセットをHuggingFaceで公開しています: https://huggingface.co/datasets/sbintuitions/JMTEB 使いやすい評価コードをGitHubで公開しています: https://github.com/sbintuitions/JMTEB ぜひ使ってみてください! JMTEB とは こんにちは,SB Intuitions の李聖哲,大萩雅也,李凌寒です。 今回紹介する日本語テキスト埋め込みベンチマーク(Japanese Massive Text Embedding Benc

                                        日本語テキスト埋め込みベンチマークJMTEBの構築 - sbintuitions’s blog
                                      1