並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 3709件

新着順 人気順

自然言語処理の検索結果241 - 280 件 / 3709件

  • Teslaはカメラを使ってどのように世界を認識しているか

    はじめに TURINGの井ノ上です。TURINGは「We Overtake Tesla」をミッションに、完全自動運転EVの開発・製造を行っています。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指しています。現在、TURINGではカメラセンサから得た画像を用いて車体の操作や経路選択、安全性の判断を行えるAIモデルの開発を行っています。(実際の車を動かす事例はこちらの記事やこちらの記事をご覧ください。) この記事では私達が目標としているTeslaの自動運転のAIモデルについて紹介します。 Teslaの自動運転 こちらは2022年に公開されたTeslaの自動運転をユーザーが使っている動画です。 車の中央にあるディスプレイにはAIが道路や車を認識してどういった経路を進むかを示しており、その情報をもとに自動運転している様子があります。Teslaの自動運転の能力の

      Teslaはカメラを使ってどのように世界を認識しているか
    • AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

      はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea

        AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
      • GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録

        OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。 私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、(アーキテクチャではなく)学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。 深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。 そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。

          GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
        • データサイエンス100本ノックが SageMaker Studio Lab からすぐに学べるようになりました | Amazon Web Services

          Amazon Web Services ブログ データサイエンス100本ノックが SageMaker Studio Lab からすぐに学べるようになりました 2022 年夏の甲子園は、決勝で満塁ホームランが出る記録的な試合となりました。球児が野球のノックを受けるのなら、エンジニアが受けるノックは何でしょう ? 本記事では「データサイエンス 100 本ノック(構造化データ加工編)」を Amazon SageMaker Studio Lab で簡単に学ぶ方法をご紹介します。データサイエンス 100 本ノックは、データベースのテーブルや CSV ファイルといった表形式のデータから欲しいデータを取り出す方法を学べる教材です。 GitHub で公開されており、 2022 年 8 月時点で 1,800 を超える Star がつけられています。 データサイエンス 100 本ノック(構造化データ加工編)ト

            データサイエンス100本ノックが SageMaker Studio Lab からすぐに学べるようになりました | Amazon Web Services
          • ただのソフトウェアエンジニアが検索エンジニアになるまで - エムスリーテックブログ

            こちらはエムスリー Advent Calendar 2022 Advent Calendar 2022の延長戦31日目の記事です。 エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 検索エンジニアってどこで採用できるの? という話を至る所でよく聞きます。僕自身も、自ら検索エンジニアと名乗るエンジニアにほとんど出会ったことがありません。やはり、世の中の検索にまだ魅了されていないエンジニアを情報検索の世界に引き込むしかないので、今回は僕が情報検索にハマった経緯を紹介することで一人でも多くのエンジニアを情報検索の世界に引き込めればと思います。 情報検索との出会い 情報検索の探索 発展 まとめ 情報検索との出会い 僕が最初に情報検索に出会ったのは前職の白ヤギコーポレーションでした。そこではElasticse

              ただのソフトウェアエンジニアが検索エンジニアになるまで - エムスリーテックブログ
            • 高速な文字列探索:Daachorseの技術解説 - LegalOn Technologies Engineering Blog

              こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは現在、高速なパターンマッチングマシン Daachorse(ダークホース)を開発・運用しています。文字列処理の基礎である複数パターン検索を提供するRust製ライブラリです。以下のレポジトリで公開されています。 github.com 本記事はDaachorseの技術仕様を解説します。具体的には、 複数パターン検索に関係する基礎技術(トライ木・Aho–Corasick法・ダブル配列) Daachorseの実装の工夫と性能 を解説します。 以下のような方を読者として想定します。 文字列処理アルゴリズムやデータ構造に興味のある方 自然言語処理の要素技術に興味のある方 Rustライブラリに興味がある方 Daachorseについて 複数パターン検索の基

                高速な文字列探索:Daachorseの技術解説 - LegalOn Technologies Engineering Blog
              • データサイエンティスト・機械学習エンジニア・データアーキテクトの定義とスキル要件(2021年版) - 渋谷駅前で働くデータサイエンティストのブログ

                (Image by Dirk Wouters from Pixabay) この記事は毎年恒例のスキル要件記事の2021年版です。昨年版は以下のリンクからご覧ください。 今回は、試験的に「データアーキテクト」についても触れています(詳細は後述)。残り2つの職種については基本的な内容はそれほど大きくは変わっていませんが、先般公開した推薦書籍リスト記事の時と同じ変更点が一つだけあります。それは「機械学習エンジニアのスキル要件」は今回は想定していない(というか例示できない)という点です。これまた詳細は後述しますが、端的に言えば「分野ごとの細分化が過剰に進んでいる」という印象があるためです。 ということで、前回までとは違って「職種ごと」に定義とスキル要件(書けるようであれば)を挙げていくスタイルになっています。なお、言わずもがなですが以下に挙げる3職種の説明は僕個人のこれまでの経験や見聞や伝聞をもと

                  データサイエンティスト・機械学習エンジニア・データアーキテクトの定義とスキル要件(2021年版) - 渋谷駅前で働くデータサイエンティストのブログ
                • 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services

                  Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の

                    日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services
                  • 「Real World HTTP」著者・渋川よしき氏が「最新情報は追わない」と断言する理由

                    フューチャーアーキテクト株式会社 シニアアーキテクト 渋川 よしき 本田技術研究所、DeNAを経て現職。技術書の執筆や翻訳も手がけ、「実用Go言語」「Real World HTTP」「Goならわかるシステムプログラミング」の執筆、エキスパートPythonプログラミングの翻訳などを行う。2023年5月に翻訳書「ソフトウェア設計のトレードオフと誤り」を、7月に「エキスパートPythonプログラミング改定4版」を上梓。 技術や業界など仕事についての情報収集の基盤として多くのエンジニアを支えていたTwitterが、以前とは異なる姿となってゆく今、必要な情報を過不足なく収集しインプットする方法に悩みを持つ人も少なくありません。 「アフターTwitter時代の情報収集」と題したこの連載では、業界をリードする方々に、Twitterの変化によって普段の情報収集の方法がどう変わったか、欲しい情報を効率よく集

                      「Real World HTTP」著者・渋川よしき氏が「最新情報は追わない」と断言する理由
                    • 有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

                      はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日猫カフェデビューをして, 猫アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 本記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します。 有価証券報告書をダウンロードするところからご紹介するのでご安心を。 こんな方が見たら役に立つかも 企業分析をプログラミングでやりたいが何してい

                        有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ
                      • ChatGPTなどのAIで科学論文を書くことが国際会議で禁止に、ただし自分の文章の編集・推敲はOK

                        機械学習に関する国際会議の1つであるInternational Conference on Machine Learning(ICML)が、「ChatGPTのようなAIを使って科学論文を執筆することを禁止する」という方針を発表しました。この方針をめぐって、AI研究者の間でも意見が割れています。 ICML 2023 https://icml.cc/Conferences/2023/llm-policy ChatGPT and AI language tools banned by AI conference for writing papers - The Verge https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper ChatGPTのような

                          ChatGPTなどのAIで科学論文を書くことが国際会議で禁止に、ただし自分の文章の編集・推敲はOK
                        • 移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ

                          (Image by Pixabay) 先日、こんな話題を見かけました。 【夏なので怖い話】 こないだ、いかにもエリートな男性と知り合ったんですよ 彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですか それでふとAICの話題を持ちかけたんです 「あー現実であまり使わない数学の話はわかりません」 …おわかりいただけただろうか?— ゆうな (@kawauSOgood) 2019年8月14日 で、悪ノリした僕はこんなアンケートをやってみたのでした。 データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか— TJO (@TJO_datasci) 2019年8月15日 このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則

                            移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ
                          • 技術書を書く技術 - Qiita

                            Intro こちらの技術書を執筆しました。15Stepで踏破 自然言語処理アプリケーション開発入門 本稿は書籍そのものの紹介ではなく、私が技術書を執筆するために利用した技術・用意した環境についての解説です。 私が執筆を始めた当時(2017年下旬)はWebを漁ってもあまり技術書執筆のノウハウがなく、本稿の内容も割と手探りでした。今ググってみると技術書展のおかげで大量に情報が出てきますね。それらと被る部分もありそうですが、自分が1冊書いてみて得たノウハウみたいなものをここに吐き出してみたいと思います。 執筆フォーマットの決定 まずは執筆に使うツールを決めます。 商業誌の場合、出版社(編集者)がそのフォーマットでの入稿を受け付けてくれるかどうかにも依るため、執筆者の一存で決められないこともあるようです。 私の場合は幸運にも、こちらの希望に合わせてくれる編集者が入ってくれました。 色々調べて↓あた

                              技術書を書く技術 - Qiita
                            • WebAssemblyを用いてBERTモデルをフロントエンドで動かす - OPTiM TECH BLOG

                              はじめまして。R&Dチーム所属、20.5卒の伊藤です。 普段の業務では自然言語処理と格闘していることが多いです。 今回は自然言語処理モデルとして有名なBERTをWebAssemblyを使用してフロントエンドで動かしてみた話になります。 最近、自然言語処理ライブラリとして普段お世話になっているHugging Face社のTransformersのTokenizerがRustで実装されていることを知り、それならばWebAssemblyにコンパイルして動かせるのではないかと試したみたのがきっかけです。 Tokenizerのみ動かしても実用性に乏しいため、Tokenizerから得られた結果からBERTを用いた推論をブラウザで動作させるまでを行い、備忘録がでら手順をまとめました。 どなたかの参考になれば幸いです。 8/26追記 本記事内のコードを含むリポジトリを公開しました!Dockerを使用してブ

                                WebAssemblyを用いてBERTモデルをフロントエンドで動かす - OPTiM TECH BLOG
                              • 濃くて黒い文字ほど記憶に残る。「最も黒いペン」で学習効果をより高める方法を探ってみた - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習

                                最近どうも勉強が退屈に感じてしまう。気軽に試せて気分転換にもなる勉強法はないだろうか……? ――そんな方におすすめの、ちょっとしたアイデアがありますよ。学習効果も期待できます。実践とともに詳しくお伝えしましょう。 【ライタープロフィール】 STUDY HACKER 編集部 「STUDY HACKER」は、これからの学びを考える、勉強法のハッキングメディアです。「STUDY SMART」をコンセプトに、2014年のサイトオープン以後、効率的な勉強法 / 記憶に残るノート術 / 脳科学に基づく学習テクニック / 身になる読書術 / 文章術 / 思考法など、勉強・仕事に必要な知識やスキルをより合理的に身につけるためのヒントを、多数紹介しています。運営は、英語パーソナルジム「StudyHacker ENGLISH COMPANY」を手がける株式会社スタディーハッカー。 偶然に生まれた「対比効果」

                                  濃くて黒い文字ほど記憶に残る。「最も黒いペン」で学習効果をより高める方法を探ってみた - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習
                                • テンセントの広告技術が未来すぎる!AdKDD2019のテンセントAds招待講演まとめ - Gunosyデータ分析ブログ

                                  研究開発チームインターンの北田 (shunk031) です。アメリカのアラスカにて行われたKDD2019に参加・発表してきました。 www.kdd.org KDD2019の広告分野のワークショップであるAdKDD2019では、世界を牽引するアドテク企業が複数招待講演を行いました。 www.adkdd.org その中でも Tencent Ads: Interesting Problems and Unique Challengesにおいて、テンセントの広告チーム(テンセント Ads)の取り組みが未来過ぎたため、資料に取り上げられている技術を中心にまとめて報告させていただきます。 特に驚くべきは動画に対して広告対象の商品画像を自動で合成する VideoIn Ads は眼を見張るものがありました。ぜひこの記事を一読していただき、一緒に未来を感じてほしいです (そしてそれ以上のものを作っていきたい

                                    テンセントの広告技術が未来すぎる!AdKDD2019のテンセントAds招待講演まとめ - Gunosyデータ分析ブログ
                                  • 大規模モデルを支える分散並列学習のしくみ Part1

                                    はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning より またScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動

                                      大規模モデルを支える分散並列学習のしくみ Part1
                                    • Excel風UIのフリーCSVエディタ「CSV+」登場 MacやLinuxにも対応

                                      フリーランスエンジニアのMasaki(@plus_one_masaki)さんは6月18日、表計算ソフト「Microsoft Excel」風のUIで操作できるCSVエディタ「CSV+」のプレビュー版を、自身のWebサイトで無償公開した。Windows、Mac、Linuxに対応。開いたファイルをタブで管理できる機能も備える。 プレビュー版では、セルを範囲選択したり、並び変えたりできる他、語句の検索も可能。Excelと同様、プリンタにデータを送る機能も備える。 CSVはComma Separated Valueの略で、カンマで値や項目を区切ったテキストファイルを指す。さまざまな表計算ソフトで読み込めるため、統計データをオープンソースとして公開するときなどにも一般的に使われている。 一方、CSVファイルをExcelで読み込もうとすると、0から始まる電話番号などが書かれたファイルを正常に読み込めなか

                                        Excel風UIのフリーCSVエディタ「CSV+」登場 MacやLinuxにも対応
                                      • 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020

                                        PyCon JP 2020 での発表スライドです。 GitHub: https://github.com/taishi-i/toiro/tree/master/PyConJP2020

                                          最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020
                                        • ChatGPTの仕組みと社会へのインパクト - 黒橋 禎夫 京都大学 教授/NII・所長特別補佐

                                          講演概要ツール・環境 ChatGPTは自然言語処理の最先端技術であり、大量のテキストデータを学習することで人間のように対話ができるAIです。本講演では、ChatGPTの仕組みや社会へのインパクトについて紹介し、今後のAI技術の発展に向けた議論を促進することを目的とします。(ChatGPTによる作文) 講演映像

                                            ChatGPTの仕組みと社会へのインパクト - 黒橋 禎夫 京都大学 教授/NII・所長特別補佐
                                          • AI開発の新たなパラダイム「基盤モデル」とは

                                            さて、視覚・言語を扱う基盤モデルとしては、2021年の CLIP がブレイクスルーでした。CLIPはテキストと画像を同じ特徴空間に写像する2つのエンコーダからなります。CLIPを使うと、次のようにして任意の画像分類問題を追加の学習なしで解くことができます。まず、各候補クラスを文章の形式(例:「犬の写真」)にした後、テキストエンコーダに入力します。次に、分類したい画像を画像エンコーダに入力します。最後に、画像から得られたベクトルと候補クラスたちから得られた複数のベクトルとのコサイン類似度を計算し、最も類似度が高いクラスを出力結果とします。 CLIPによるゼロショット画像分類の方法。OpenAI Blogより引用 CLIPは画像とテキストというモードの異なる情報を意味的な近さによって結びつけることを可能にしました。CLIPを教師のようにして使うことで、テキストから画像を生成するモデルを訓練する

                                              AI開発の新たなパラダイム「基盤モデル」とは
                                            • 高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました

                                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。LINEの小林滉河(@kajyuuen)です。NLPチームで固有表現抽出、有害表現の検知、LINEスタンプ推薦の改善など自然言語処理に関する仕事をしています。 この記事ではLINEが公開した言語モデル「LINE DistilBERT」について紹介します。 https://huggingface.co/line-corporation/line-distilbert-base-japanese https://github.com/line/LINE-DistilBERT-Japanese LINE DistilBERTは次のような特徴を持つ日本語言語モデルです。 高性能・高速・軽量 Hugging Faceのtra

                                                高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました
                                              • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

                                                ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

                                                  学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
                                                • ヤフーのクリエイターが読んでいる技術・デザイン書(2019年4月〜2020年3月)

                                                  ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Developer Relations アドボケイトの山本です。 ヤフーにはエンジニアやデザイナーといったクリエイターの活動を支援する制度「My Polaris」があり、その中の1つにクリエイターが常に自身の技術力向上を図れるよう学習活動を支援するための「技術活動費用補助制度」というものがあります。 去年8月に2018年4月から2019年3月の期間でこの制度がどのように活用されたか集計した結果を公開したのですが、本記事では2019年4月から2020年3月の集計結果を紹介します。 昨年の記事:ヤフーのクリエイターが読んでいる技術・デザイン書 〜 技術活動費用補助制度のデータから見る興味関心 技術活動費用補助制度とは? 冒

                                                    ヤフーのクリエイターが読んでいる技術・デザイン書(2019年4月〜2020年3月)
                                                  • 東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

                                                    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                      東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai
                                                    • 産総研:統合失調症の脳における「意味関係の乱れ」を発見

                                                      発表・掲載日:2022/12/21 統合失調症の脳における「意味関係の乱れ」を発見 -AI技術の応用により脳活動から思考障害のメカニズムに迫る- ポイント AI技術を使った脳活動の解析により、統合失調症患者の脳では、ものの意味関係が乱れていることを捉えることに成功しました。 統合失調症では、脳内意味ネットワーク構造が無秩序になっているために、妄想などの思考障害が生じると考えられます。 本研究結果は、統合失調症の病態理解や新規診断・治療法の開発につながることが期待されます。 東京医科歯科大学大学院医歯学総合研究科精神行動医学分野の高橋英彦教授、松本有紀子助教、国立研究開発法人情報通信研究機構(NICT (エヌアイシーティー))の西田知史主任研究員、国立研究開発法人 産業技術総合研究所の林隆介主任研究員、大阪大学大学院生命機能研究科の西本伸志教授、京都大学大学院医学研究科脳病態生理学講座(精神

                                                      • 「会話の精度エグい」 自分で育てたAIとチャットできるLINEアカウントが話題 AI同士でやりとりも

                                                        「会話の精度エグい」「マジで自然」──メッセージアプリ「LINE」で使えるAIチャットbotサービス「エアフレンド」がSNSで話題だ。ユーザー自身がAIに返事の仕方を教えられる機能や、AI同士を会話させる機能も搭載。9月14日に公開されたばかりだが、すでにユーザー数は1万人以上という。 友達に追加することでサービスを利用できる公式LINEアカウントとして、開発者のRyobotさん(@_Ryobot)が無料で提供している。使うときは、公式アカウントを友達に加えた後、AIの名前を決定。公式アカウントのトークルームにメッセージを送ることで、自分が名付けたAIと会話できる。文字数は最大60字まで。 例えば「美味しいご飯を食べよう」と送ると、AIは「おごってくだちゃい」と、「何肉が好き?」と聞くと、「うーん、タンかな?」などと、それぞれ顔文字付きで返す。返答がおかしいと感じた場合は「教える」ボタンを

                                                          「会話の精度エグい」 自分で育てたAIとチャットできるLINEアカウントが話題 AI同士でやりとりも
                                                        • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                          ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                                            Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                                          • 検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ

                                                            エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ

                                                              検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
                                                            • 物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita

                                                              お久しぶりです。 2012年のHintonさんのAlexNetによるILSVRCでの圧勝を皮切りに、画像認識の世界でもDeepLearningが脚光を浴びることとなりました。 物体検出の世界でも現在DeepLearningを用いたモデルが主流になっています。 https://paperswithcode.com/sota/object-detection-on-coco を見ると、 COCO test-devにおいて、state-of-the-art(SoTA)のモデルはEfficientDet-D7xのようです。 独断と偏見も少々ありますが、そのEfficientDetを理解するために読むべき論文を7つ集めてみました。 DeepLearning以降の物体検出に焦点を当てて、出来るだけ簡潔につらつらと書いていきたいと思います。 物体検出とは 物体検出について知らないという人は以下の動画を見

                                                                物体検出のDeepLearning読むべき論文7選とポイントまとめ【EfficientDetまでの道筋】 - Qiita
                                                              • LINEでChatGPTが使える「AIチャットくん」始め方&使い方 ログイン不要なLINEアプリ

                                                                LINEで米OpenAIが開発したチャットAIボット「ChatGPT」が使える「AIチャットくん」(旧:ChatGPT Turbo)が、株式会社piconよりリリースされました。 「AIチャットくん」とは、3月2日に提供が開始された「ChatGPT」のAPI(GPT-3.5 API)を利用して開発されたLINE bot。 ログイン認証の必要がなく、LINE上で質問などのテキスト(日本語にも対応)を送信すると、数秒でAIによる回答が自然な文章で返信されます。 3月2日にリリースされてから10日でユーザー数50万人、総メッセージ数600万回を突破したという本アプリ。今回は、LINEアプリ「AIチャットくん」の導入方法から使い方までご紹介します! ※2023年3月13日更新 目次 1. 質問にAIが自然な日本語で回答する「ChatGPT」とは?2. LINEアプリ「AIチャットくん」導入・使い方

                                                                  LINEでChatGPTが使える「AIチャットくん」始め方&使い方 ログイン不要なLINEアプリ
                                                                • 【論文解説】OpenAI GPT-4 を理解する

                                                                  さて、ChatGPT が非常に盛り上がっていますが、2022年11月にリリースされた ChatGPT は GPT-3.5 というモデルがベースになっています。 そして、2023年3月にはその後継モデルである GPT-4 がリリースされ、ChatGPT Plus で利用できるようになっています。(月額20$) それ以降も画像データを処理できるようになったり、個人の好みを記憶できるようになったりと色々なアップデータがあってこの先どうなるんだろうと楽しみになりますね。 今回は、もともとの GPT-4 についてしっかりと解説したいと思います。 ちょっとした対話であれば GPT-3.5 でも GPT-4 でもそこまで大きな差はないように思えますが、GPT-4 に情報抽出や分類問題などのタスクを解かせようとすると、GPT-4 の方がかなり精度が良くなっていることがわかります。 ですので、より複雑な利用

                                                                    【論文解説】OpenAI GPT-4 を理解する
                                                                  • アナログハックの時代が、そろそろ始まりそうだ : 青灰色blog(移行版)

                                                                    ChatGPTに感情回路を埋め込んだら、やべぇ感じになった深津 貴之 (fladdict) さんのnote記事 面白い記事が出ていました。 会話AI(ChatGPT)に、感情パラメータを設定させて、対話の中で内容に従ってこの値をAI自身に操作させつつ、その対話内容を変えてゆこうという実験のまとめ。結果として、会話AIがすでにアナログハック(*)を行う能力を持っているように見える、というものでした。 (*)アナログハックとは、『BEATLESS』(2012:KADOKAWA)のメインギミックとして、長谷が用意した技術と概念で、「人間のかたちをしたもの」に人間がさまざまな感情を持ってしまう性質を利用して、人間の意識に直接ハッキング(解析・改変)を仕掛けるものです。 https://w.atwiki.jp/analoghack/pages/8.html 長谷から見ても、まるでAIに感情があるかの

                                                                      アナログハックの時代が、そろそろ始まりそうだ : 青灰色blog(移行版)
                                                                    • 深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

                                                                      第1回Webインテリジェンスとインタラクションセミナー(いまさら訊けないシリーズ「言語処理技術」)での発表資料です。 https://www.sigwi2.org/next-sigRead less

                                                                        深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
                                                                      • SQLで始める自然言語処理 - やむやむもやむなし

                                                                        こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

                                                                          SQLで始める自然言語処理 - やむやむもやむなし
                                                                        • エンジニアリングマネージャーになって1年がたった

                                                                          私は,あるスタートアップ企業でエンジニアリングマネージャー(の,1人)をしている。toB向けSaaSを提供している数百名規模の会社で,社名が少しずつ世の中に知られるようになってきたくらいのフェーズ。会社からはDirectorという肩書をもらっていて,トラディショナルな日本企業だといわゆる部門長の層にあたる。中間管理職の中では上のほうで,執行役員の下あたり,というと伝わりやすいだろうか。 様々な事情(会社が大きくなった,比較的社歴が長い,そこそこの業界経験値がある,自分の専門領域(*1)に社内のフォーカスがあたるようになり,チームをスケールする必要が出てきた,etc.)から,半ば必要にかられて,重い腰を上げてエンジニアリングマネージャーとして活動を始めたのがちょうど1年ほど前。 決してマネージャーとして早咲きのほうではなく,IT業界でのキャリアは15年くらいで,これまではずっとプレイヤー,ま

                                                                          • 【論文紹介】統計学の過去50年における最も重要なアイディアとは? - Qiita

                                                                            こんにちは,株式会社Nospare・千葉大学の小林です.本記事ではGelman and Vehtari (2020)の`What are the most important statistical ideas of the past 50 years?'について紹介します.この論文は過去50年において最も重要だとされる次の8つのアイディアが取り上げられています. 8つのアイデア 反事実(counterfactual)に基づく因果推論 ブートストラップとシミュレーションに基づいた推論 オーバーパラメータ(overparameterized)モデルと正則化(ガウス過程,Lasso, horseshoe, ベイズnonparametric priorなど) ベイズマルチレベル(階層)モデル 汎用的な計算アルゴリズム(EM, MCMC, SMC, HMC, 変分法など) 適応的決定分析(ベイズ最

                                                                              【論文紹介】統計学の過去50年における最も重要なアイディアとは? - Qiita
                                                                            • Google、OpenAIの「ChatGPT」競合「Bard」を限定公開

                                                                              米Googleのスンダー・ピチャイCEOは2月6日(現地時間)、“実験的な会話型AIサービス”の「Bard」(吟遊詩人という意味)をまずは「信頼できるテスター」に提供開始すると発表した。米OpenAIの「ChatGPT」と競合するものとみられるが、ChatGPTのように一般公開はまだせず、「向こう数週間中により広く公開する」としている。 Bardは同社が2021年5月に発表した対話アプリ用言語モデル「LaMDA」採用のチャットbot。目標は「世界の幅広い知識と、大規模な言語モデルの能力、知性、創造性を組み合わせること」。Web上の情報を利用し、「新鮮で高品質な回答を提供する」としている。 ChatGPTが学習した事象は2021年末までのものであるのに対し、より新しい情報を学習しているようで、ピチャイ氏は質問の例として「9歳の子供にNASAのジェームズ・ウェッブ宇宙望遠鏡による新発見を説明す

                                                                                Google、OpenAIの「ChatGPT」競合「Bard」を限定公開
                                                                              • 達人出版会

                                                                                探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 デザインディレクション・ブック 橋本 陽夫 現場のプロがやさしく書いたWebサイトの分析・改善の教科書【改訂3版 GA4対応】 小川 卓 解釈可能なAI Ajay Thampi(著), 松田晃一(翻訳) PowerPoint 目指せ達人 基本&活用術 Office 2021 & Microsoft 365対応 PowerPoint基本&活用術編集部 ランサムウェア対策 実践ガイド 田中啓介, 山重徹 TODによるサステナ

                                                                                  達人出版会
                                                                                • 働きながら修士課程1年目を終えて - 怠惰を求めて勤勉に行き着く

                                                                                  本エントリは社会人学生 Advent Calendar 2020の19日目です。ただ今月の後半は個人的事情で非常に忙しいことが予想されるので、本日書いてしまってまだ筆の熱が残っている内に公開してしまおうと思います。 改めて自己紹介をさせてください。37歳の職業ソフトウェア技術者です。現在フルタイムで働きながら、北陸先端科学技術大学院大学(通称JAIST)の博士前期課程で情報科学を専攻しています。実は本アドベントカレンダーは去年も参加しました。そちらには進学の動機や入学したばかりの初々しい気持ちが表明されているような気がします。 fushiroyama.hatenablog.com さて、本エントリで何を書こうか少し悩みました。考えた結果、前半で「1年目を終えた率直な感想」を、後半で「JAISTで社会人大学院生をやること」について書こうと思います。特に後半には、この1年でのべ100人ぐらいに

                                                                                    働きながら修士課程1年目を終えて - 怠惰を求めて勤勉に行き着く