並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 3437件

新着順 人気順

nlpの検索結果281 - 320 件 / 3437件

  • 225行のコードでGPTの仕組みを理解する

    概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下で、225行しかなくとても読みやすいです。 また短いですがtransformerのエッセンスが詰まっていて勉強になりそうです。 このコードを読み解くことでGPTやtransformerがどのように動いているのか、ざっくり理解してみようと思います。 ちなみに完成するとこんな感じの文字列が生成されます。ぱっと見文章っぽいですね。 first Scitizen: He's enough; but he cannot give his friends. MARCIUS: Do yo

      225行のコードでGPTの仕組みを理解する
    • https://twitter.com/hiraoka_dx/status/1638658560170274818

        https://twitter.com/hiraoka_dx/status/1638658560170274818
      • 色の名前、日本語と英語での色の名前、世界各国の伝統色の名前が分かるサイトのまとめ

        いろいろな色の日本語での名前、英語での名前、日本の伝統色の名前をはじめ世界の伝統色の名前などが分かるサイトを紹介します。 トレンドカラー 日本での色の名前、日本の伝統色の名前 世界での色の名前、世界の伝統色の名前 トレンドカラー まずおさえてきたいのは、最新のトレンドカラー。 2023年のトレンドカラーは鮮やかで紫がかったレッドの「ビバ マゼンタ(Viva Magenta)」、世界でもっとも明るい染料の一つコチニールの赤にインスパイアされたカラーです。

          色の名前、日本語と英語での色の名前、世界各国の伝統色の名前が分かるサイトのまとめ
        • いちばんやさしいローカル LLM|ぬこぬこ

          概要ローカル LLM 初めましての方でも動かせるチュートリアル 最近の公開されている大規模言語モデルの性能向上がすごい Ollama を使えば簡単に LLM をローカル環境で動かせる Enchanted や Open WebUI を使えばローカル LLM を ChatGPT を使う感覚で使うことができる quantkit を使えば簡単に LLM を量子化でき、ローカルでも実行可能なサイズに小さくできる 1. はじめに大規模言語モデル(LLM)の数は数年前と比べてたくさん増えました。有名な LLM を使ったチャットサービスとして、OpenAI の ChatGPT や Anthropic の Claude、Google の Gemini などがありますが、これらのサービスの中で利用されている大規模言語モデルは公開されていません。 現状、様々な評価指標により LLM の性能が測定されていますが、

            いちばんやさしいローカル LLM|ぬこぬこ
          • オタクと気持ち悪いという言葉 - データをいろいろ見てみる

            概要 Twitter上で「気持ち悪い」、「キモイ」という言葉が、どのように使われてるかと調査した。 調査対象は、キモイ、気持ち悪いという言葉を含むtweet、約28万件 時系列の変化を見るため、2018年と2019年で調査を行った 気持ち悪いと言う言葉は、オタクへの言及とともに使われている オタクを含んだtweetは、28万件中、14431件あった 調査結果 2018年調査 2018年に投稿されたツイート調査 調査期間 2018/01/09 - 2018/12/31 tweetソース元 Sample realtime Tweets API 2019年調査 2019年に投稿されたツィート調査 調査期間 2019/01/01- 2019/10/20 tweetソース元 Sample realtime Tweets API 気持ち悪いという言葉の特徴 気持ち悪いという単語は、他者を侮蔑する意味と

              オタクと気持ち悪いという言葉 - データをいろいろ見てみる
            • RAGの実装戦略まとめ - Qiita

              それでは以下、簡単なデモを含めながら個別に説明していきます。 1. ハイブリッドサーチ こちらは、性質の異なる複数の検索方式(例えばベクトル検索とキーワード検索)を組み合わせて検索精度を向上させる手法になります。 各検索方式単体の場合に比べ、性質の異なる検索方式を組み合わせ、ある種いいとこ取りをする事で、検索性能の向上が期待できます。 今回はBM25でのキーワードベースの類似度検索と通常のベクトル検索を組み合わせていきます。 BM25について簡単に説明しておくと、文脈や文章構造は完全に無視した上で、文書内の単語を全てバラバラに分割し、文書内の各単語の出現頻度と文書間におけるレア度を加味した特徴量を算出します。 つまり、特定の文書内の各単語の数をカウントしてヒストグラムを作れば、似たような文書には同じような単語がよく出るはずなので(同じようなヒストグラムの形になるので)、類似度が高くなる性質

                RAGの実装戦略まとめ - Qiita
              • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

                カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

                  GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
                • オープンソースでGPTベースの大規模言語モデル「Cerebras-GPT」7種類が一気に誰でもダウンロード可能に

                  AI企業のCerebrasが、オープンソースでパラメータ数1億1100万~130億の大規模言語モデル「Cerebras-GPT」7種類を公開しました。Cerebras-GPTは、OpenAIのGPT-3をベースに、DeepMindが2022年3月にリリースしたChinchilla方式で学習したモデルで、これまでに公開されているどのモデルよりも学習時間が短く、学習コストが低く、消費電力が少ないのが特徴とのことです。 Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/ cerebr

                    オープンソースでGPTベースの大規模言語モデル「Cerebras-GPT」7種類が一気に誰でもダウンロード可能に
                  • ラズパイで動く大規模言語モデルがGitHubで公開 性能は“GPT-3相当”、Metaの「LLaMA」派生

                    LLaMAは米Metaが独自開発した大規模言語モデル。LLM分野の研究推進を支援するため、研究者向けに2月にリリースした。大規模インフラを利用できない研究者のために小規模ながら性能の高いことが特徴で、7B(=70億)、13B、33B、65Bの4種類のパラメーターを用意している。13Bモデルはベンチマークで米OpenAIのLLM「GPT-3」を上回るという。 米スタンフォード大学は、LLaMAの7Bモデルを派生させ独自のLLM「Stanford Alpaca」を開発。このモデルは研究や学術目的でのみ利用でき、娯楽や商用での利用は禁止している。Alpaca LoRAでは、Stanford Alpacaが生成するトークン(単語列)を再現できるという。 関連記事 Meta、独自大規模言語モデル(LLM)の「LLaMA」を限定リリース Metaは独自の大規模言語モデル「LLaMA」(Large La

                      ラズパイで動く大規模言語モデルがGitHubで公開 性能は“GPT-3相当”、Metaの「LLaMA」派生
                    • GPTsでNotion APIを叩くようにしてみたらやばかった

                      OpenAI の DevDay で発表された、GPTs は、特定のタスクに特化したカスタムモデルを作成できる ChatGPT Plus で利用できる新しい機能です。作った GPTs は、自分だけで使うのはもちろん、友達にシェアしたり。ウェブ上で公開することもできます。 この GPTs の機能である Actions を使うと、OpenAPI Schema を元に、外部 API を ChatGPT エージェントが実行するようになります。 この機能を使って Notion などの様々なサービスと GPTs を繋げてみたので、そのデモと GPTs のつくりかたを解説します。 デモ Notion は、API と呼ばれる開発者が Notion のデータを操作し、外部アプリケーションやサービスと連携するための機能が公開されています。そこで、Notion API の OpenAPI スキーマを書いて検索、デ

                        GPTsでNotion APIを叩くようにしてみたらやばかった
                      • プロンプト設計戦略  |  Google AI for Developers

                        フィードバックを送信 プロンプト設計戦略 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 プロンプト設計により、機械学習(ML)制御モデルの出力を初めて利用するユーザーでも、オーバーヘッドを最小限に抑えられます。プロンプトを慎重に作成することで、目的の結果を生成するようにモデルを調整できます。プロンプト設計は、特定のユースケースに合わせて言語モデルを適応させることをテストする効率的な方法です。 言語モデル、特に大規模言語モデル(LLM)は、単語間のパターンと関係を学習するために、膨大なテキストデータでトレーニングされています。テキスト(プロンプト)を受け取った言語モデルは、高度なオートコンプリート ツールのように、次に来ると思われるものを予測できます。したがって、プロンプトを設計する際は、モデルによる次の予測に影響を与える可能性のあるさまざまな要因を考慮し

                          プロンプト設計戦略  |  Google AI for Developers
                        • CTOの視点から見たAzure OpenAI ServiceとOpenAIのChatGPT APIの深堀り比較 - Qiita

                          ※ この記事の内容は先日のQiita Nightでお話ししたことと一部重複します。 Qiita NightではLTの制限時間(10分)に収めるため、結構端折りました。 はじめに ChatGPTが登場してから数ヶ月が経ちました。 ChatGPTをはじめとしたGenerative AIは完全に現在のIT業界のトレンドとなっています。 今や多くの企業でChatGPT APIをサービスに組み込んで顧客提供を開始したり、自社の社内システムに組み込んだりと積極的に利用するようになりました。 私もGenerative AIが無くなると業務に支障が出るレベルで利用しています。 そして、2023年5月時点ではChatGPTのAPIを利用する方法として、本家OpenAI社が提供しているAPIを利用する方法とMicrosoft社が提供しているAzure OpenAI ServiceのAPIを利用する方法の2つが

                            CTOの視点から見たAzure OpenAI ServiceとOpenAIのChatGPT APIの深堀り比較 - Qiita
                          • StableDiffusionでリアルな人物画像を生成するための呪文(プロンプト)ヒント集 - Qiita

                            いい感じの画像を生成するコツ 話題の画像生成AI StableDiffusionですが、よくSNSで見るような高画質高品質リアリスティックな人物画像を生成するにはそれなりのコツがあります。 この記事では、どのような単語を使えば高品質な画像を生成できるか、例を紹介します。 StableDiffusionを使ってみるにはWebUIが便利です。以下のリンクから使い方がわかります。 ただ欲しい画像のテキストを入れるだけではだめ 例えば、女の子の画像が欲しいとします。 ただ"girl"と入力すると以下のような画像が出てきます。 悪くはないですが少しCGっぽいですよね、もう少し写真っぽい画像が欲しいです。 高画質を連想させる単語を入れる さて、ここで以下のように "best quality" や "high resolusion" など高画質を連想させる単語を嫌というほど入れます。 ちょっとびっくりす

                              StableDiffusionでリアルな人物画像を生成するための呪文(プロンプト)ヒント集 - Qiita
                            • ⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について

                              Zero Waste, Radical Magic, and Italian Graft – Quarkus Efficiency Secrets

                                ⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について
                              • 【知財・個人情報】ChatGPTをビジネスに利用する際の注意点 ['23/4/11] - Qiita

                                OpenAI利用規約 まず、OpenAIが提供するサービス(ChatGPTおよびOpenAI API)の利用規約を確認します。 3. Content (a) Your Content. You may provide input to the Services (“Input”), and receive output generated and returned by the Services based on the Input (“Output”). Input and Output are collectively “Content.” As between the parties and to the extent permitted by applicable law, you own all Input. Subject to your compliance with the

                                  【知財・個人情報】ChatGPTをビジネスに利用する際の注意点 ['23/4/11] - Qiita
                                • RAGの性能を改善するための8つの戦略 | Fintan

                                  近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

                                    RAGの性能を改善するための8つの戦略 | Fintan
                                  • 「Dify」の何が熱いの?|分解ちゃんねる

                                    すでにDifyの可能性に気づいていらっしゃる方々には釈迦に説法で恐縮ですが、これから試してみようとされている方も結構いらしたのでDifyを使いこなせるようになるのがワクワクする話をできればと_ _ (この記事はぼくなりにかなり噛み砕いて説明したいと思います) 「Dify」のやばさ結論、Difyには信じられないくらい多くの機能が実装されていることです。笑 機能たちをざっくり紹介しながらこの衝撃をお伝えできたらと思います。 (ちょっと機能に即した形での紹介というよりはこんなことができるんだぁ、というイメージに寄せた形で解説しようと思います。) 好きなLLMでチャットボット好きなLLMを選択してボットを構築できるChatGPTやClaude、Geminiなど各社から優秀なモデルが公開されていますが、サービスとして利用すると各サイトをいったりきたりしなくてはいけません。 しかし、Dify上でAPI

                                      「Dify」の何が熱いの?|分解ちゃんねる
                                    • ChatGPTでの業務効率化を“断念”──正答率94%でも「ごみ出し案内」をAIに託せなかったワケ 三豊市と松尾研の半年間

                                      「ごみ出し案内」業務にはChatGPTを“活用しない”と決断した──生成AIを使った業務効率化を検証してきた、香川県三豊市がそんな発表をした。ChatGPT登場から1年がたち、今や職場に導入する企業・自治体も増え、中にはすでに一定の成果を出した事例もある。三豊市でも、ごみ出し案内業務の効率化を図ろうとしたが、思うようにはいかなかった。 今回の事例では、日本のAI研究の権威である松尾豊教授の「東京大学大学院工学系研究科松尾研究室」(松尾研)も協力。約半年間、実証実験に取り組んできた。なぜ、三豊市ではChatGPTを使って業務効率化できなかったのか。三豊市に話を聞いた。 なぜ、ごみ出し案内をChatGPTに託したのか? 三豊市が実証実験を始めたのは6月1日。サービス内容は「市民からのごみの分別や収集日に関する問い合わせに対して、三豊市のごみに関する学習をしたAIが24時間自動応答する」というも

                                        ChatGPTでの業務効率化を“断念”──正答率94%でも「ごみ出し案内」をAIに託せなかったワケ 三豊市と松尾研の半年間
                                      • 0421DS協会_ChatGPTによって描かれる未来とAI開発の変遷.pdf

                                        発表動画はこちら。 https://youtu.be/l9fpxtz22JU 2023/4/29 一部修正とAPIに関するページ追加 2023/5/11 ChatGPTの言葉の意味を補足する資料を追加。Azure OpenAI Serviceで使えるモデルの記載を一部修正・最新情報追記。 2023/5/15 一部Fine tuningとPromptに関する記載を修正 2023/5/26 Plugin補足資料を追加 2023/6/12 Fine tuningとPromptingの位置づけを一部修正 2023/6/16 非機能要件に対応するスライドを何枚か追加。リージョン情報などを更新 アジェンダ 1 GPTの全体像 GPTとは何なのか ~チャットAIを例にした動作イメージ~ GPTによって実現されたサービス MicrosoftのGPT活用 国内のGPT導入の関連ニュース GPTに期待される用

                                          0421DS協会_ChatGPTによって描かれる未来とAI開発の変遷.pdf
                                        • 「せっかく記号を使った形式手法があるのに自然言語に戻るのか」というツイート - tkgshn

                                          それはそうと、軽量な形式手法たる型システム含む形式手法は記号の世界の中での正気はちゃんと証明してくれるが、人間様が頭を捻って作られた、自然言語で書かれた仕様とやらは一体何の正気を保証してくれるんだろう

                                            「せっかく記号を使った形式手法があるのに自然言語に戻るのか」というツイート - tkgshn
                                          • 「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース

                                            米Microsoftは2月20日(現地時間)、大規模言語モデル「GPT-4」などのAPIを同社のクラウド上で使える「Azure OpenAI Service」の外部データ連携機能「On Your Data」を正式リリースした。これまではパブリックプレビュー版として提供していた。 On Your Dataはいわゆる「RAG」(大規模言語モデルに外部データベースの情報を参照させ、機密情報を基にした回答などを可能にする仕組み)の構築に向けた機能。ローカルやAzure上のストレージに保管するテキストファイルやPDF、PowerPointファイルを、GUIの操作でGPT-4などに参照させられる。 参照できるのはクラウド型検索サービス「Azure Cognitive Search」のインデックス(検索対象)にインポートしたデータや、Azureのストレージ「Blob Storage」に格納したデータなど

                                              「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース
                                            • GPT-4Vができることをまとめてみた - 電通総研 テックブログ

                                              こんにちは。ISID 金融ソリューション事業部の若本です。 先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision(GPT-4V)が発表されました。GPT-4Vは大規模マルチモーダルモデル(LMMs: Large multimodal models)と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。 今日は Microsoft Researchの論文[1]を中心に、Open AIの発表したSystem Card[2]も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画像とテキストを入力にできる GPT-4Vでは、GPT-4のテキスト入力に加えて画像も入力することが可能になりました。 画像は複数枚入力することが可能であり、かつ、画像とテキストを任意に交互に組

                                                GPT-4Vができることをまとめてみた - 電通総研 テックブログ
                                              • https://twitter.com/yoshipon0520/status/1529441377725325313

                                                  https://twitter.com/yoshipon0520/status/1529441377725325313
                                                • DiffusionによるText2Imageの系譜と生成画像が動き出すまで

                                                  2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。 明日にでも世界が一変しうる流動的な分野において、情報のまとめとは必然的に古くなっていくものです。そんな奔流の中にあっても、本資料が、これまでの歴史を俯瞰し、これからの成長を見据えるための礎として、幾許かでも皆様のお役に立てればと心より願い、ここに筆を置きます。

                                                    DiffusionによるText2Imageの系譜と生成画像が動き出すまで
                                                  • 生成AI技術が辿った濃い一ヶ月間

                                                    Stable Diffusionがオープンソースで公開されてちょうど1ヶ月が立ちました。OpenAIがDall-E2をリリースしたのが4月。こういう異次元なリソースを使ってモデルを作れるのはごく限られたプレーヤーだけと思い込んでいたものが、若干十数人のチームがMidjourneyをリリースしたのが7月。一連の騒ぎがここ半年程度の出来事で、1ヶ月前に深津さんも予見していた「世界変革」が目の前で怒涛の勢いで進行しています。 このブログも書いた瞬間に古くなるだと思うけど、この文化的特異点とも言える1ヶ月に起こったことを振り返ってみたいと思います。それにしても手書き文字の生成に感動していた2015年から比べるとずいぶん遠いところまで来ましたね。DataRobotでも「AIの民主化」を掲げて様々な企業のAI活用を推進していたけれど、今起こっている変化を見ているとそのスピード感に愕然とします。 少し宣

                                                      生成AI技術が辿った濃い一ヶ月間
                                                    • ChatGPT APIを使ってAIキャラクターを作ってみる! - Qiita

                                                      こんにちは!逆瀬川( https://twitter.com/gyakuse ) です! 今日は公開されたばかりのChatGPT APIを使ってAIキャラクターを作ってみます。 概要 ChatGPT APIを使ってAIキャラクターを作る 嬉しいところ 以前のOpenAIのGPT-3.5系のAPIは $0.0200 / 1K tokens で、だいたい1000文字で3〜5円くらいでした。 今回のChatGPT APIは $0.002 / 1K tokens であるため、1/10のやすさになっています。 また、規約が更新され、APIを使ったinput/outputは学習対象外(オプトアウトがデフォルト)となりました。 DPAの締結(OpenAIの書式に従う必要があります)も可能になっているためより以前よりは守秘性の高いコミュニケーションに使用できる可能性があります。 Colab 実装 会話を行

                                                        ChatGPT APIを使ってAIキャラクターを作ってみる! - Qiita
                                                      • 世界最高の翻訳サービスを個人で開発した話【meta翻訳】 - Qiita

                                                        はじめに この度は個人でmeta翻訳という翻訳サービスを開発しました。 現在Google翻訳を筆頭に、機械翻訳サービスは乱立していて、業界としてレッドオーシャンだと思いますが、meta翻訳は複数ある翻訳サービスの中でも日本語⇄英語の翻訳では最高精度だと自負しております。 なので、個人でも頑張ればレッドオーシャンに突っ込めるくらいの機械学習サービスを開発できるというお話しをしたいと思います。 ※個人開発とは思えないくらい高精度なので是非一度使ってみてください。 meta翻訳の精度 まず初めにmeta翻訳の精度を簡潔に紹介したいと思います。 専門的な文章を翻訳する場合 「storm surge」など、専門的な単語にきちんと対応できています。 また、「power」が「電力」と訳されているように、専門的な文脈も識別して翻訳します。 口語的な文章を翻訳する場合 実は専門的な文章よりも口語的な文章の方

                                                          世界最高の翻訳サービスを個人で開発した話【meta翻訳】 - Qiita
                                                        • カスタムChatGPT開発例4選、新機能「GPTs」で書籍情報や天気情報を調べるAIチャットを作る【イニシャルB】

                                                            カスタムChatGPT開発例4選、新機能「GPTs」で書籍情報や天気情報を調べるAIチャットを作る【イニシャルB】
                                                          • ChatGPTにお前はどうやって実装されてんの?って聞いてみたら

                                                            マジレスされてチビッた.こりゃGoogleさんもビビるわけだ. ぼく: How were you implemented? Is it deep learning-based? ChatGPT: I am a language model called GPT-3 (Generative Pre-trained Transformer 3) that was developed by OpenAI. It is a deep learning-based model that uses a type of neural network called a transformer, which was trained on a large dataset of text to learn patterns of language. GPT-3 is trained using a techni

                                                              ChatGPTにお前はどうやって実装されてんの?って聞いてみたら
                                                            • 高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉

                                                              こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTとは2018年末にGoogleの人たちが開発した自然言語処理において汎用的に使えて精度の良いAIです。 自然言語処理において精度を測るためにいくつかのタスクがあるのですが、発表された時点ではダントツの成績でした。 仕組みなどの詳細については論文を読むか解説記事をググってください。 2019/09/22時点で既により精度の良い手法がどんどん発表されていますが、BERTの情報量と比べるとまだ少ないため、入門としてはBERTを触ってみるのが

                                                                高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
                                                              • 君がエッチなことを考えるとみんなのブラウザに流れ星が降るChrome拡張 - Qiita

                                                                2022/04/28:追記 公開していたzipファイルのリンクを削除しました。 バックエンドのサーバーを停止しました。 伴ってもう星が流れなくなります。 ※この記事にはちょっとだけエッチな内容が含まれます!苦手な方はご注意ください。 こんにちは。あんど(@ampersand_xyz)と申します。 いきなりすみません、タイトルにエッチとか入ってて驚かれた方もいらっしゃることでしょう。どういうことなのか説明させていただきます。 概要説明 画像出典: 吸血鬼すぐ死ぬ 9巻 P134 盆ノ木至 秋田書店 __要するにこれです。__さすがに宙に星を降らせるわけにはいきませんので今回はブラウザ内に星を降らせていきます。 漫画のコマを見ただけでは何を言ってるのかご理解いただくのが難しいかもしれませんが、これ以上説明のしようがありませんのでついてきてください。 実現方法 いかにしてエッチなことを考えている

                                                                  君がエッチなことを考えるとみんなのブラウザに流れ星が降るChrome拡張 - Qiita
                                                                • シンプルかつ高速な文字列照合アルゴリズムを紹介します - エムスリーテックブログ

                                                                  こんにちは! エンジニアリンググループ マルチデバイスチーム 新卒1年目の小林です。 エムスリーでは、2週間に1度、Tech Talkという社内LT会(現在はリモートで)が開催されています。これは、とある回の発表テーマリストです。 Tech Talkのとある回の発表テーマリスト このように、最近エムスリーでは文字列が流行っている(?)ようなので、その勢いに乗って私も文字列照合アルゴリズムについて書きたいと思います!(業務とは全然関係ない話です) Knuth-Morris-PrattやBoyer-Mooreアルゴリズムは解説記事がたくさん出ていると思うので、この記事ではシンプルかつ高速なQuick-SearchとQuite-Naiveアルゴリズムについて説明し、速度比較を行った結果についてご紹介します。 文字列照合アルゴリズムとは テキストとパターンという文字列が与えられたときに、中に出現す

                                                                    シンプルかつ高速な文字列照合アルゴリズムを紹介します - エムスリーテックブログ
                                                                  • 機械学習で使われる評価関数まとめ - Qiita

                                                                    はじめに 評価関数(評価指標)についてあやふやな理解だったので、代表的な評価関数をまとめてみました。 評価関数とはそもそもどんなものなのか、それぞれの評価関数はどんな意味を持つのか、実際に使う時のサンプルコードを簡単にまとめています。 評価関数の追加や内容の修正は下記でしています。 評価関数とは 評価関数とは学習させたモデルの良さを測る指標を指します。 目的関数との違い 機械学習を勉強していると、目的関数や損失関数、コスト関数などいろいろな名前を目にします。 まずは、目的関数との違いについて確認します。 目的関数 モデルの学習で最適化される関数 微分できる必要がある つまり、学習中に最適化されるのが目的関数、学習後に良さを確認するための指標が評価関数ということになります。 損失関数、コスト関数、誤差関数は目的関数の一部になるそうです。 (いくつか議論がありそうなのですが、ほとんど同じものと

                                                                      機械学習で使われる評価関数まとめ - Qiita
                                                                    • サイバーエージェントのGitHub CopilotのAnalyticsデータを公開!利用開始から約3ヶ月でエンジニアの生産性は向上したのか? | CyberAgent Developers Blog

                                                                      サイバーエージェントのGitHub CopilotのAnalyticsデータを公開!利用開始から約3ヶ月でエンジニアの生産性は向上したのか? CTO統括室の黒崎(@kuro_m88)です。サイバーエージェントでは2023年4月下旬より、GitHub Copilotの導入を開始しました。 「実際のところどうなの?」という情報がまだまだ少ないと思われるので、本記事では導入から約3ヶ月が経過した現在の利用状況を公開します。 GitHub Copilotの利用状況 2023年7月現在、サイバーエージェントでは500名以上のエンジニアがGitHub Copilotを利用しています。 追記 7/20: そしてこの数字はGitHubによると現時点で日本で一番多いそうです🎉 サイバーエージェントではGitHub Enterpriseが導入されており、事業部や事業単位でOrganizationを保持してお

                                                                        サイバーエージェントのGitHub CopilotのAnalyticsデータを公開!利用開始から約3ヶ月でエンジニアの生産性は向上したのか? | CyberAgent Developers Blog
                                                                      • 頻出単語表示、わずか9KBのAI日本語単語分割ライブラリ「TinySegmenter」をESモジュール化

                                                                        自由入力された文章をデータ化する形態素解析ですが、巨大な辞書が必要になったり次々登場する単語に対応することなどなかなか大変そうなイメージでしたが、機械学習を使った、単語分割するコンパクトな実装「TinySegmenter」を発見。ブラウザやDenoでいい感じに使えるESモジュール版にしてみました。 「頻出単語表示 by TinySegmenter」 文章を入れると、頻出単語順に並び替えて表示する、サンプルアプリ。このアプリでは、3文字以上を単語としています。一日一創ブログをコピペしてみるといい感じに! プログラムで組み込む方法は簡単、ブラウザやDenoで下記コードを入れるだけ。 import { TinySegmenter } from "https://code4fukui.github.io/TinySegmenter/TinySegmenter.js"; const segs = T

                                                                          頻出単語表示、わずか9KBのAI日本語単語分割ライブラリ「TinySegmenter」をESモジュール化
                                                                        • Stable Diffusion Public Release — Stability AI

                                                                          It is our pleasure to announce the public release of stable diffusion following our release for researchers [https://stability.ai/stablediffusion] Over the last few weeks, we all have been overwhelmed by the response and have been working hard to ensure a safe and ethical release, incorporating data from our beta model tests and community for the developers to act on. In cooperation with the tirel

                                                                            Stable Diffusion Public Release — Stability AI
                                                                          • マイクロソフト、ソースコードをAIが読み込んで自然言語で説明してくれる「Copilot Explain」を開発中。GitHub Copilotは今夏に正式サービスへ。Microsoft Build 2022

                                                                            マイクロソフト、ソースコードをAIが読み込んで自然言語で説明してくれる「Copilot Explain」を開発中。GitHub Copilotは今夏に正式サービスへ。Microsoft Build 2022 マイクロソフトは現在開催中の開発者向けイベント「Microsoft Build 2022」で、ソースコードの内容をAIが自然言語で説明してくれる「Copilot Explain」の開発を進めていることを明らかにしました。 AIが説明してくれることで、そのソースコードについてまだ詳しい内容を把握していないプログラマによるコードの修正やデバッグ作業などの効率化がはかれるとしています。 AIが自然言語の説明とコードの関係を学習 GitHub Copilotでは、人間のプログラマがペアプログラミングの相手であるAIに対してこれから書こうとしているコードの意図を説明するために、まずコメントを記述

                                                                              マイクロソフト、ソースコードをAIが読み込んで自然言語で説明してくれる「Copilot Explain」を開発中。GitHub Copilotは今夏に正式サービスへ。Microsoft Build 2022
                                                                            • 生成AI開発に革新か “自律進化”で目的のAIを自動生成 超低コスト&短期間で高性能モデルも開発済 トップ研究者集団「Sakana AI」

                                                                              生成AIのトップ研究者らが東京で創業したAIベンチャー「Sakana AI」が、生成AI開発の新たな手法を開発したと3月21日に発表した。従来は人間が手動で設計し、多くの計算資源を使っていたが、同社の手法では設計を機械が自動で行い、“ほぼ無視できるレベル”の計算資源で開発が可能になるという。この手法で開発した日本語基盤モデルをGitHubで公開した。 同社が提案したのは「進化的モデルマージ」という手法。公開されているさまざまな基盤モデル(生成AIを含む、大規模なデータセットによる事前学習で各種タスクに対応できるモデルのこと)を組み合わせて新たなモデルを作る「マージ」に、進化的アルゴリズムを適用したものだ。 マージ自体は現在の基盤モデル開発で使われている手法で、モデルの“神経回路”(アーキテクチャ)の中に別のモデルの神経回路の一部を組み入れたり、入れ替えたり、神経同士のつながりやすさ(重み)

                                                                                生成AI開発に革新か “自律進化”で目的のAIを自動生成 超低コスト&短期間で高性能モデルも開発済 トップ研究者集団「Sakana AI」
                                                                              • 【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク

                                                                                いつもテキスト解析Web APIをご利用いただきありがとうございます。 テキスト解析Web APIにおける一部APIの後継バージョン(V2)リリースと仕様変更についてお知らせいたします。 ■ 対象API 日本語形態素解析 自然言語理解 ■ 変更箇所 リクエストURLが変わります GETリクエストは廃止となり、POSTリクエストのみになります リクエストパラメータが変わります(一部パラメータが廃止されます) レスポンス形式・フィールドが共に変更になります V2の仕様の詳細につきましては以下のページをご覧ください。 日本語形態素解析 自然言語理解 V1終了予定時期につきましては2022年11月末を予定しております。 ご迷惑をおかけしますが、なにとぞご了承ください。 今後ともテキスト解析Web APIをよろしくお願いいたします。

                                                                                  【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク
                                                                                • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

                                                                                  アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

                                                                                    AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai