並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 3680件

新着順 人気順

自然言語処理の検索結果121 - 160 件 / 3680件

  • ユーザー投稿型サイトのSEO対策

    Zennという技術情報共有サービスを運営しています。長期的にZennの流入経路の多くは「検索」になると予想しています。むしろ検索流入が多いサービスであるべきだと考えています。 具体的なソースコードや数式が並ぶ文章は、ソーシャルメディアではあまりシェアされません。ある程度抽象的な内容でないと、読者層が狭く、読み手も労力を必要とするからです。 (具体的な話を盛り込みつつ話題を集める文章を書けるスーパーな方もときどきいますが) しかし、いざ仕事で問題に直面したとき、自分を助けてくれるのは、たいてい具体的なコードを含む記事や実際に問題に直面した人によるニッチな体験談です。すぐに誰かに届くものではないけれど、後から同じ道を通った人は助かる… そんな先人の知恵がたくさん集まる場所になったらいいなと考えています。 SEOに関する情報収集源 本題に入る前に、僕が参考にしているSEO対策の情報源を紹介してお

      ユーザー投稿型サイトのSEO対策
    • 1つの HTML ファイルだけで完結する校正支援ツールの作り方

      こんにちは。LINEヤフー株式会社でテキストマイニングや自然言語処理などをやっている山下( @yto )です。 Yahoo!デベロッパーネットワークのテキスト解析 Web API が CORS(Cross-Origin Resource Sharing)対応したため、サーバがなくてもブラウザから直接 Web API にアクセスできるようになりました(参考)。 そのテキスト解析 Web API の機能の一つである「校正支援」は日本語文章の品質チェック(校正)を支援するもので、文字の入力ミス、言葉の誤用、わかりにくい表記、不適切な表現などが使われていないかをチェックして、指摘します(内部の辞書データをベースとしているため完全なものではないことをご承知おきください)。 この校正支援機能のサンプルプログラムとして「HTML ファイル1つだけで完結する校正支援ツール」を作ったので紹介します。入力され

        1つの HTML ファイルだけで完結する校正支援ツールの作り方
      • サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現―

        株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、独自の日本語LLM(Large Language Model、大規模言語モデル)を開発したことをお知らせいたします。 本モデルはすでに130億パラメータまでの開発が完了しており、当社が提供する「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにおいて活用を始めています。 近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMが世界的に注目を集めており、あらゆる業界において急速に活用が進んでいます。 一方、既存のLLMのほとんどは英語を中心に学習されており、現状では日本語および日本文化に強いLLMは少ない状況です。 このような背景のもと、このたび当社では日本語に特化した独自の大規模モデルを開発いたしました。当

          サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発 ―自然な日本語の文章生成を実現―
        • 数式を使わないTransformerの解説(前編) - conceptualization

          2023/3/23 追記: こちら半年以上前に執筆したもので、その後私の理解も進んで内容的に更新したいところが結構あるため、近日中に非公開とさせていただき,更新後に再公開させていただくつもりです。現時点での本記事の内容は、大きく間違ってはいないけどちらほら微妙なところがあるという感じです。 (ざっくり理解するだけでも良いという人にはそれでも良いかもしれませんが、そういう方向けには 今執筆中のこちらの記事 をおすすめします。) −−−− 最近話題のmidjourneyやDALL-E、凄いですよね。中身はディープラーニング(DNN)のようです。DNNといっても色んな技術がありますが、それらにはTransformerという手法が使われています。本記事は、その手法がどんなものであるかを数式を使わずに説明してみよう、という主旨になります。 ※なお本記事は機械学習のプロの研究者ではない私の独自の解釈が

            数式を使わないTransformerの解説(前編) - conceptualization
          • 機械学習による株価予測 いろはの”ろ” - Qiita

            はじめに 前回記事「機械学習による株価予測 いろはの"い"」の公開後、筆者の機械学習モデルの獲得利益はめでたく1億を突破することができた。運用モデルの概要については筆者のブログにて紹介したが、折角の機会なので技術的な内容についてここに続編を執筆する。今回の記事では、株価を予測するための特徴量についてその考え方をまとめる。 特徴量の種類 個別銘柄を説明するための代表的なデータとは、財務諸表とチャート(価格系列)である。一昔前は個人投資家がこれらのデータを揃えるのにかなりの苦労が必要だった(特に財務諸表が面倒であった)が、最近ではQiitaでXBRL用のライブラリが紹介されていたり、バフェットコードでAPI(有料)が提供されていたりと、随分と手間要らずになってきたように思う。 個別銘柄を説明するための材料についてさらに進んだ話をすると、IRを自然言語処理に掛けてセンチメントを抽出したり、経営陣

              機械学習による株価予測 いろはの”ろ” - Qiita
            • UNIXシェルの並列化により最大34倍高速化する「PaSh」、米MITなどが開発 プログラム結果も正確

              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米ペンシルベニア大学、米MIT、ポーランドのXIV Staszic High School、米国の研究機関Aarno Labs、米Stevens Institute of Technologyによる研究チームが開発した「Practically Correct, Just-in-Time Shell Script Parallelization」は、UNIXシェルで実行されるプログラムの速度を精度を保証しながら劇的に加速させるシステムだ。 このシステムはUNIXシェルにおいて、スクリプトを先読みして並列化を行う。これによりプログラム結果を正確な上で最大34倍高速化し、Webインデックスや自然

                UNIXシェルの並列化により最大34倍高速化する「PaSh」、米MITなどが開発 プログラム結果も正確
              • AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情

                Deepfakes of Chinese influencers are livestreaming 24/7 AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情 中国で真夜中のライブ配信を見ると、熱心に商品を売り込むストリーマーの姿が目立つ。だが実はこのストリーマー、わずか数分の動画からAIが生成したもので、24時間年中無休で働き続けることができる。 by Zeyi Yang2023.09.21 211 19 中国で最も人気のあるEコマース・プラットフォームであるタオバオ(Taobao:淘宝)のライブ配信映像を午前4時にスクロールしてみると、奇妙なほどに活況を呈している。ほとんどの人が熟睡しているこの早朝の時間帯に、多くの熱心なストリーマー(配信者)がカメラに向かって商品を紹介し、割引価格で販売している。 しかし、よく目を凝らすと、これらのライブ配信インフルエンサー

                  AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情
                • iOS向け日本語キーボードアプリ「azooKey」をOSSにした

                  2年半近く趣味として個人開発してきたiOS・iPadOS向けの日本語キーボードアプリ「azooKey」をオープンソース化しました。ライセンスはMIT Licenseです。 azooKeyは2年前からApp Storeで無料で公開し、開発を続けてきました。日本語対応のiOS向けキーボードアプリには、Simeji、Flickなど多くの先輩がいますが、標準キーボード志向で高機能なOSSとしては初めてのものではないかと思います。 技術的な特徴 azooKeyの技術的特徴としては、変換エンジンの独自実装、ライブ変換のサポート、独自に調整した辞書、強力なカスタマイズ機能などがあります。 IME開発の特色は幅広い技術的課題を扱えることにあります。競プロ的なアルゴリズムとデータ構造の問題もあればNLP的な話やGUIのデザインの問題もあり、めっちゃ楽しいです。 なお、azooKeyは全てSwiftで実装され

                    iOS向け日本語キーボードアプリ「azooKey」をOSSにした
                  • Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita

                    0、はじめに マッチングアプリで機械学習エンジニアをやっているはやとと言います。今回は「Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なもの、やって感じたこと」について書いていこうと思います。 「Web系企業で機械学習エンジニアやってみたい!」「組織としてデータ分析や機械学習をやり始めたいけど何からやったらいいかわからない!」という方も多くいるでしょう。 Web系企業での機械学習エンジニア・データサイエンティストの動きはメルカリのブログとか本でよく見ます。しかし、まだ規模があまり大きくない会社における機械学習エンジニア・データサイエンティストの記事や本は一切見当たらず、また、立ち上げ(そんな大げさな言葉を使っていいのか分かりませんがw)の話が書いてあるものは見たことがないです。そのため、もしかしたら日本で初めての記事になるのではないかなと考えてワクワクしながら書い

                      Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita
                    • PythonとType Hintsで書くバックエンド | メルカリエンジニアリング

                      こんにちは、AIチーム所属の@shidoです。CRE (Customer Reliability Engineering) 領域でMLを扱っています。 みなさんはPythonで本番コードを書くことについてどうお考えでしょうか。「研究/分析以外には使いたくない」「遅い」「動的型付け言語を本番用に使いたくない」といった声が聞こえてきそうです。 しかしながら機械学習サービス(または機械学習サービスのためのサービスなど)を作りたい場合、「学習に利用したPython用のライブラリを使用したい」「Pythonでやっていた分析と同じことを本番環境内でもやりたい」など、Pythonでバックエンドを実装したくなることがあると思います。 この記事ではtype hintsを付けながらPythonを書くことで、GoやJavaのようなサーバーサイドでよく使われる言語と可読性や保守性、場合によっては型安全性も同じレベ

                        PythonとType Hintsで書くバックエンド | メルカリエンジニアリング
                      • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                        前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                          WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                        • さようならElasticsearch、よろしくElastic Cloud - Nota TechConf

                          by yuiseki yuiseki.icon 2022/5/19 20:25 - 20:40 (明らかに15分で収まる内容の資料ではないですが、資料はモリモリで発表はスカスカでもScrapboxで盛り上がれるか、という仮説の検証を兼ねています) yuisekiですyuiseki.icon Gyazoのプロジェクトマネージャー兼ソフトウェアエンジニアです 本日お集まりいただいたみなさん、ありがとうございます 本日お集まりいただいたみなさん ノバウサギ…?nyanco.icon ユニコーンガンダム…?issac.icon タイマーちゃん!takker.icon 12年間運用を続けているB2C SaaSの検索インフラの実態(14分まで、1分間) Gyazoは2021年、「画像の瞬間発見」をテーマに、検索に力を入れていた Nota Tech Conf 2021 Springでのyuiseki.i

                            さようならElasticsearch、よろしくElastic Cloud - Nota TechConf
                          • Anond AI開発日記 - Hatena Developer Blog

                            こんにちは。Anond AIを研究している id:cockscomb です。 私たちはこの度、このAI時代を制するプロダクト、Anond AIを開発しました。本エントリではその詳細について説明します。 Anond AIとは Anond AIはいわゆるGenerative AIで、人類が匿名で日記を書くことをアシストしてくれるものです。私たちは日記に芸術性を感じる文化を持っていて、「日記文学」という言葉もあります。Generative AIによって、名前を隠して楽しく日記を書くことをサポートし、匿名日記文化のさらなる発展に寄与できないか、と考えました。 Anond AIは、rinna/japanese-gpt2-mediumをはてな匿名ダイアリーのデータを用いてファインチューニングし、ドメイン適応させたものです。 Anond AIの開発 Anond AIは実験的なプロダクトのため、Hatel

                              Anond AI開発日記 - Hatena Developer Blog
                            • アリババ、新型肺炎の新たなAI診断技術を開発 正確度96% 中国(CNS(China News Service)) - Yahoo!ニュース

                              【CNS】人工知能(AI)が新型コロナウイルスによる肺炎との闘いで「新兵器」になりつつある。阿里巴巴(アリババ、Alibaba)は15日、アリババ系研究機関の「達摩院(DAMO)」が、クラウドサービスを主業務とする阿里雲(Alibaba Cloud)と共同で、新型肺炎に関する新しいAI診断技術を開発したことを明らかにした。 【写真】CT画像を分析する医療関係者 このAIは、新型肺炎の疑いがある患者のCT画像を20秒以内に判読できる。分析結果の正確度は96%に達し、診断効率を大幅に引き上げることが可能だ。16日より運営を開始した河南省(Henan)鄭州市(Zhengzhou)の「小湯山(Xiaotangshan)医院」では、このアルゴリズム補助による臨床診断を導入済みという。 新型肺炎の流行初期では、確定診断のサンプル数が少なく、医療機関では高水準の臨床診断データが不足していたため、核酸検査

                                アリババ、新型肺炎の新たなAI診断技術を開発 正確度96% 中国(CNS(China News Service)) - Yahoo!ニュース
                              • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

                                毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

                                  2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
                                • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

                                  PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

                                    Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
                                  • Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita

                                    Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 作ったもの DLsiteの新作音声作品をクローリング -> 好みかどうか推論 -> 好みならSlack通知をするシステムを完全サーバーレス(AWS SAM)で構築しました。さらなる精度向上のため、Slackメッセージのボタンをもとに教師データを蓄積する処理も作りました。 デモ(ぼかしMAX) とてもわかりにくいですが、好みであろう作品がPOSTされているSlackの画面です。各メッセージについている「興味あり!」「別に…」ボタンを押すとLambdaが起動し、DynamoDBに新たな教師データとして保存されます。 なぜ作ったのか DLsiteが好き、以上。 ・・・ もう少し真面目に書くと、 会社でテキストデータに触れることが多いので、うまく扱えるようになりたい 音声作品はシチ

                                      Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita
                                    • GoogleやBingの検索結果にChatGPTを表示させる拡張機能「ChatGPT for Search Engines」

                                      OpenAIのChatGPTは高度な自然言語処理モデルを利用した対話型AIで、文章を入力するとまるで人間が書いたような自然な文章を返してくれます。これまでの検索エンジンでは検索クエリに複数の単語を入力する必要がありましたが、このChatGPTを応用すれば、調べたいことを直接文章で入力することでより適切な検索結果を示す次世代の検索エンジンが可能になると期待されています。そんなChatGPTの回答を実際にGoogleやBingなどの検索結果に表示させる拡張機能「ChatGPT for Search Engines」が、Chrome・Firefox・Edge向けにリリースされています。 ChatGPT for Search Engines https://chatonai.org/ ChatGPT for Search Enginesを利用するには、あらかじめChatGPTにアカウントを作成して

                                        GoogleやBingの検索結果にChatGPTを表示させる拡張機能「ChatGPT for Search Engines」
                                      • JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。

                                        はじめに 明けましておめでとうございます。 (一週間遅れ) この記事はJavaScriptの組み込みAPI Intl の紹介と解説です。 Intl とは? MDN から引用すると Intl オブジェクトは、 ECMAScript の国際化 API の名前空間で、言語に依存した文字列の比較、数値の書式化と、日付の書式化を提供します。 Intl オブジェクトは、いくつかのコンストラクターに加え、国際化コンストラクターや他の言語に関する関数に共通する機能へのアクセスを提供します 用はi18nの書式版です。 例を出すより見たほうが早いので実際に機能解説します。 (先に言っておきますが、実はこれバックエンド無しで自然言語処理が出来る優れものです。) 用語解説 localesって何?そもそもnewって何?って人がいるかもしれないので locales https://developer.mozilla.

                                          JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。
                                        • 日本語に特化した13億パラメータのGPT言語モデルを公開|rinna株式会社

                                          ~商用利用可能なライセンスで日本語のNLPコミュニティに貢献~ rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna社)は、日本語に特化した13億パラメータのGPT言語モデルを開発し、公開しました。 ■背景 rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (3.3億パラメータ) やBERT (1.1億パラメータ) の事前学習モデルを公開し、多くの研究・開発者にご利用いただいています。最近のNLPに関する研究では、モデルのパラメータ数が多いほど高い性能であることが知られています。 そこでrinna社は、これまでに公開してきたモデルより大規模な13億パラメータを持つ日本語に特化したGPT言語モデルを開発し、日本語のNLPコミュニティに貢献するために、この言語モデルをNLPモデルライブラリ Hugging Face に商用利用可

                                            日本語に特化した13億パラメータのGPT言語モデルを公開|rinna株式会社
                                          • ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森

                                            グラフ理論と隣接行列 グラフ理論は点と線で物事を表す理論です。たとえば駅の路線図では下記のように駅を点、路線を線で表します。 東京メトロホームページより 上記の路線図では「駅と駅が隣接するかどうか」を中心に取り扱う一方で、それぞれの位置や方角などは厳密に再現はされません。このように、「隣接するかどうか」のみに着目して物事を表す際の理論を「グラフ理論」といいます。 グラフ理論では点をノード(node)、線をエッジ(edge)、全体をグラフ(graph)と定義します。数式で表すと$G = (V,E)$のように表しますが、$V$が頂点のVertice、$E$がEdge、$G$がGraphであるとそれぞれ解釈すると良いです。 グラフの表記法に関しては主に$2$通りあり、「①図を用いる」と「②隣接行列を用いる」をそれぞれ抑えておくと良いです。例があるとわかりやすいので下記のWikipediaの例を元

                                              ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森
                                            • rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

                                              rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

                                                rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
                                              • GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例

                                                こんにちは。わいけいです。 今回の記事では、生成AI界隈ではかなり浸透している RAG について改めて解説していきます。 「低予算で言語モデルを使ったアプリを開発したい」というときに真っ先に選択肢に上がるRAGですが、私自身もRAGを使ったアプリケーションの実装を業務の中で何度も行ってきました。 今回はその知見をシェア出来れば幸いです。 RAG(Retrieval-Augmented Generation)とは まず、 そもそもRAGとは何ぞや? というところから見ていきましょう。 RAG(Retrieval-Augmented Generation) は自然言語処理(NLP)と特に言語モデルの開発において使用される技術です。 この技術は、大規模な言語モデルが生成するテキストの品質と関連性を向上させるために、外部の情報源からの情報を取得(retrieval)して利用します。 要は、Chat

                                                  GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例
                                                • 【2024年】ITエンジニア本大賞まとめ

                                                  アジャイルプラクティスガイドブック チームで成果を出すための開発技術の実践知 チーム・組織にプラクティスを導入し、根付かせるために! 116の手法を一冊にまとめた“実践”の手引き チームでのアジャイル開発には、開発技術やツールなどの「技術プラクティス」の活用が重要です。 プラクティスはそれぞれの目的や役割を意識することで効果を発揮します。しかし、目まぐるしく状況が変化する開発では、当初の目的を忘れて、プラクティスに取り組むこと自体が目的化してしまうチームも少なくありません。 本書は、チーム・組織でアジャイル開発に取り組んできた著者が、プラクティスの効果的な選択・活用のしかたについて、自らの実践経験に基づいてまとめたガイドブックです。 架空の開発現場を舞台にしたマンガとともに、チーム開発の様々なシーンで役立てられるプラクティスを、幅広くかつわかりやすく解説しています。開発現場に備えておけば、

                                                    【2024年】ITエンジニア本大賞まとめ
                                                  • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                                    LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                                      歴代チャットボットと最近のLLMのまとめ - Qiita
                                                    • GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z

                                                      Waiting Listにもっと時間がかかるかと思ったのだが、予想外に早く(一日)APIのロックが解除された。ただしまずは8Kトークン版のみ。 GPT-3.5が4Kトークンだったから倍の長さのストーリーが出せるということだ。 ただし値段はChatGPT APIの10倍。元に戻った感じ。 これはどっちを使うべきか結構悩むぞ。 こんな感じで呼ぶ % curl https://api.openai.com/v1/chat/completions \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer APIKEY'\ -d '{ "model": "gpt-4", "messages": [{"role": "user", "content": "宮崎駿について"}], "temperature": 0.7 }'答えはこ

                                                        GPT-4 APIがやってきた!3.5と"性能"を比較する|shi3z
                                                      • 「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開

                                                        株式会社ANOBAKAは、直近の大規模言語モデル(LLM:Large Language Models)の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル(LLM)カオスマップ」2023年度6月版を公開したと発表した。 大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルだ。2022年11月に発表され大きな話題となったChatGPTも、2022年初頭にトレーニングした「GPT-3.5シリーズ」を対話向けにファインチューニングしたものであり、大規模言語モデルの応用例の一つだ。 米国同様、日本でも今後アプリケーションレイヤーのGenerative AIスタートアップが多数勃興することが予測されるという。アプリケーションレイヤーのGenerative

                                                          「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開
                                                        • 推薦システムにおいて線形モデルがまだまだ有用な話 | CyberAgent Developers Blog

                                                          本記事は、CyberAgent Advent Calendar 2022 19日目の記事です。 目次 はじめに 問題設定 協調フィルタリングのための線形モデル iALS EASE 関連する非線形モデル 実務活用 おわりに はじめに メディア DSC所属の機械学習エンジニアで、タップルの推薦システムを担当している橋爪 (@runnlp)です。 最近、推薦システムを触り始めました。推薦手法は、協調フィルタリング、コンテンツベース、ハイブリッドなど様々ですが、今回は昔から今に至るまで長く使われている協調フィルタリングについてです。 協調フィルタリングではDeep系のモデルがたくさん出る中で、RecSys2022で発表された論文では10年以上前から使用されている線形モデル(iALS)がDeep系のモデルに匹敵する結果であると報告されており興味深いです。また、推薦システムを開発するにあたって、問題設

                                                            推薦システムにおいて線形モデルがまだまだ有用な話 | CyberAgent Developers Blog
                                                          • プロンプトインジェクション対策|ChatGPT APIのLINEボットを一ヶ月運用して戦った記録 - Qiita

                                                            ChatGPTのチャットボットを安全に運用する方法 プロンプトインジェクションは、不適切な文字列や悪意のあるコードを含むプロンプトがChatGPTに送信されることで発生するセキュリティ上の懸念です。 2023/04/11現在、LINEボットとして公開されている多くのサービスでプロンプトインジェクション対策がなされていないようです。この記事では、プロンプトインジェクション対策の背景や具体的なプロンプトの例を紹介し、ChatGPT APIを安全に利用する方法を説明します。 背景 ChatGPT APIは、OpenAIが開発した大規模な言語モデルで、自然言語処理のタスクを実行するために利用されます。しかし、APIを利用する際にはセキュリティ上の問題が生じることがあります。プロンプトインジェクションはその一例で、攻撃者が意図的に悪意のあるプロンプトを送信することで、システムやユーザーに悪影響を与え

                                                              プロンプトインジェクション対策|ChatGPT APIのLINEボットを一ヶ月運用して戦った記録 - Qiita
                                                            • 『ポートピア連続殺人事件』にAIを搭載した技術デモが4月24日にPC(Steam)で無料配信決定。現在のNLP(自然言語処理)とはどのようなものかを体験できる内容に

                                                              スクウェア・エニックスは4月24日(月)にNLP(自然言語処理)アドベンチャー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を公開すると発表した。プラットフォームはPC(Steam)となり、価格は無料で配信される。 本作は1983年に当時のエニックスから発売されたアドベンチャーゲーム『ポートピア連続殺人事件』を題材に、AI技術のひとつ「自然言語処理」という技術を構成する「自然言語理解(NLU)」について体験できるソフトウェアと位置付けられている。 原作の『ポートピア連続殺人事件』当時のアドベンチャーゲームはコマンド入力式と呼ばれ、プレイヤーが自由に文字列を入力することでキャラクターの行動を決定し、物語を進めていくというシステムだった。 この方法はプレイヤーに大きな自由度を与えられる一方で、とるべき行動が分かってい

                                                                『ポートピア連続殺人事件』にAIを搭載した技術デモが4月24日にPC(Steam)で無料配信決定。現在のNLP(自然言語処理)とはどのようなものかを体験できる内容に
                                                              • ラピダスから振り返る日本の国家プロジェクト

                                                                日本がラストチャンスとばかりに開始した「日の丸半導体」ラピダスに多大な公費が追加されていることが話題を集めている今日この頃。 心無い専門家たちからは必ず失敗するだの金ドブだの批判殺到中だが、本当に日本(経済産業省)主導の国家プロジェクトは今まで成功しなかったのだろうか? この記事では主に経済産業省、旧・通商産業省が中心となって始めた国家プロジェクトを振り返る。 超LSI国家プロジェクト(1976年)結論:成功簡単に:半導体製造の基礎研究に成功 大規模集積回路(LSI)の研究、特に基礎研究に力を入れた国家プロジェクト。 当時、半導体弱小国であった日本で700億円以上の金を基礎研究に投資するのは挑戦的であったが、電子ビーム露光技術などの研究レベルのアイディアを実用・量産レベルに持ってくることに成功。 よく「日本は半導体生産はダメだが、生産機械はまだシェアがある」というが、この40年前の国家プロ

                                                                  ラピダスから振り返る日本の国家プロジェクト
                                                                • 2020年に作ったソフトウェアや開発技術をふりかえる - laiso

                                                                  概要 よくある年末っぽい日記の記事です。 だいだいこれどうりのバランスでソースコードも書いてる 言語はなんでもいい時はNode.jsで書く。移植性が高いので。複数人でメンテしそうな時はTypeScriptを採用し、プライベートの時は型を完全に無視する PHPはほぼLaravel。ビジネスのみの関係 Swiftはそんなに書いた記憶がないけどアプリのメンテをしてたと思う Vueも仕事で使っていたけど最近はReactに傾いてる Objective-Cは書いてない グラフに含まれてない部分だとAndroidアプリでKotlinを使って、データ分析でPythonを書いた このグラフは GitHub Profile Summary Cards っていう便利ツールを使わせてもらって自動生成している。 記録方法 コードを書く時はおもむろに ~/tmp 以下にディレクトリ掘ってIDEを開きはじめるので実質そ

                                                                    2020年に作ったソフトウェアや開発技術をふりかえる - laiso
                                                                  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

                                                                    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

                                                                      Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
                                                                    • 技術書典13で注目している新刊本

                                                                      2022年9月11日(日)追記 技術書典が始まって2日経ちました。ありがたいことに筆者の本を買ってくださった方もいらっしゃいます。本記事で紹介した本はすべて購入し、ダウンロード可能なものには全部目を通しました。結論からいうと全部買ってよかったです。買って後悔するような本はひとつもないので、安心してお買い上げください。一部の本には購入後のコメントを書き加えました。しかし皆さんクオリティが高いですね。 もうすぐ技術書典13が始まります。筆者は今回初めて出展者として参加することもあり、とても楽しみにしています。オンラインマーケットも技術書典13仕様になり、新刊特集も登場しました。 新刊特集のキャプチャ(筆者の本も入っています。うれしい!) DiscordやTwitterを見ているとギリギリまで執筆している方も多く、新刊特集の対象本は毎日のように増えています。まだまだ増えそうですが、とりあえず現時

                                                                        技術書典13で注目している新刊本
                                                                      • AIプロジェクトにおける説明可能性の方針 - techtekt

                                                                        こんにちは。デジタルテクノロジー統括部でアナリストをしているY・Nです。 パーソルキャリアのデジタルテクノロジー統括部は、一般社団法人データサイエンティスト協会が定める「データサイエンティストに求められるスキルセット」を基に、以下の3つのグループが組織されています。 ビジネスグループ アナリティクスグループ エンジニアグループ 出典:データサイエンティスト協会 これらの3グループが互いに連携しあい、AI(ここでは機械学習による予測モデルを指すことにします)によって様々な業務を自動化させたり、意思決定の補助に利用させるプロジェクトに取り組んでいます。 その際、「AIの判断根拠をどの程度(どの様に)見せれば良いか」ということが常にビジネスグループで議題に上がります。殊にAIの予測結果を人間(特に営業部門の人)が見た上で意思決定の補助として利用する場合に顕著で、判断根拠が表示されないブラックボッ

                                                                          AIプロジェクトにおける説明可能性の方針 - techtekt
                                                                        • 機械学習エンジニアに爆速でなるための教材集 - Qiita

                                                                          0. はじめに 昨今のAI、DXブームの影響で、機械学習、深層学習(ディープラーニング, Deep Learning) への注目は増すばかりですが、初学者の方にとって機械学習を学ぶハードルは依然高い状態かと思います。 機械学習、特にディープラーニングを習得するには学ぶべきことが多く、また分野によっては難易度が高いということもあり、学んでいる途中で挫折してしまうという人も多いという印象があります。 そこで本記事では、これから機械学習を学びたい方が自学自習する際の助けになるようにと、有用な自習コンテンツをまとめました。 本記事では、機械学習エンジニアとして実務に参画できるレベルを目指して、コンテンツを収集しました。よって機械学習の理論やライブラリに加え、社会実装する上で付随して必要となるソフトウェアエンジニアリングのスキルも含めています。 コンテンツについては、適宜追記していく予定です。 対象

                                                                            機械学習エンジニアに爆速でなるための教材集 - Qiita
                                                                          • VSCode + Dockerでよりミニマルでポータブルな研究環境を

                                                                            はじめに もっとミニマルで簡単なポータブルな環境を! 自分自身の研究のための環境構築についてこれまで二本の記事を書いてきました. これらの記事から二年ほどたち, いくつかの点において不満点が出てきました. 特に, GCPや自宅のサーバー上でリモートで作業することが多くなってきたので, よりミニマルでポータブルな環境が必要になりました. 以下では, 現時点で最小限の努力で環境を再現ができることを目標にしたDockerベースのGitHubレポジトリのテンプレートとその使い方を紹介します. このテンプレートを用いて作られた環境は, 新たなコンピュータ上で最短4ステップで環境を再現できるようになります. git clone VSCodeの"Open in Remote Containers" renv::restore() dvc pull この環境とセットアップはこのレポジトリにテンプレートとし

                                                                              VSCode + Dockerでよりミニマルでポータブルな研究環境を
                                                                            • 「Yahoo!ニュース」、1日約2万件の誹謗中傷コメントを削除--検知AIを外部提供へ

                                                                              ヤフーは6月1日、個人への誹謗中傷などに対応するため、現在「Yahoo!ニュース」のコメント欄において導入している、深層学習を用いた自然言語処理モデル(AI)のさらなる活用などの対策強化を進めていくと発表した。 同社では、専門チームによるパトロールやAIによって不適切な投稿対策を実施してきたと説明。「Yahoo!ニュース コメント」においては、深層学習を用いた自然言語処理モデル(AI)による検知を通して、1日平均約2万件の不適切な投稿(記事との関連性の低いコメントや誹謗中傷などの書き込みなど)を削除しているという。 今後は、この自然言語処理モデル(AI)を、他の投稿系サービス事業者に技術提供していくという。さらに、これらの問題への対処にあたっては、法的課題や実務的課題があると認識しており、これらの課題をデジタル時代に即した共通規範に基づき解決すべく、議論する場である検討会を6月中をめどに設

                                                                                「Yahoo!ニュース」、1日約2万件の誹謗中傷コメントを削除--検知AIを外部提供へ
                                                                              • 研究者2人を解雇したGoogle AI倫理対立の深刻度 - 日本経済新聞

                                                                                米グーグルの人工知能(AI)研究部門が、AI倫理研究者の解雇を巡って大きく揺れている。同社が開発した自然言語処理技術「BERT(バート)」のような巨大な言語モデルが内包する問題点を指摘しようとした2人の女性研究者が、2020年12月と21年2月にそれぞれ解雇された問題だ。「論文の社内検閲」に端を発した騒動に見えるが、AI倫理を巡るより根深い社内対立が透けて見える。問題が明らかになったのは20年

                                                                                  研究者2人を解雇したGoogle AI倫理対立の深刻度 - 日本経済新聞
                                                                                • はてなで働き始めてからほぼ5年になるので振り返ってみる - yasuhisa's blog

                                                                                  そろそろ前職を退職してから、はてなで働き始めて5年(!)が経とうとしている。5年も働いていると、昔何をやっていたか、その当時どういう気持ちで働いていたかを忘れてしまう。備忘録っぽく書き残しておこう。ポエムです、長いです、大体自分向けに書いてる。 NTT CS研 => 株式会社はてな チーム開発への適応 インフラ苦手意識の克服 教師なし機械学習の本番環境での運用 データ基盤とCustomer Reliability Engineerへの挑戦 今後はデータエンジニアリング NTT CS研 => 株式会社はてな 基礎研究職からWebアプリケーションエンジニアへの転職だった。ログを残しておくと、こういう時に振り返れて便利。 NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog 割と珍しい(?)転職ではあったかもしれないが、機械学習や自然言語処理はアルゴリズム単

                                                                                    はてなで働き始めてからほぼ5年になるので振り返ってみる - yasuhisa's blog