東京大学深層学習(Deep Learning基礎講座2022)https://deeplearning.jp/lectures/dlb2022/ 「深層学習と自然言語処理」の講義資料です。
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
TOP > Article Theme > AI(人工知能)ニュース > 東大松尾研究室、無料でディープラーニングや自然言語処理を学べる講座開講 松尾豊氏が講師を務める講座も 東京大学 松尾研究室は1月29日から、無料でディープラーニング(深層学習)や自然言語処理について学べる、短期間のオンライン講座の受講者を募集している。対象は学生(大学院、大学、高専、専門学校生、高校、中学など)。募集は2月8日(月)の10時00分まで。選考結果は2月15日(月)までに受講決定者にメールで連絡する。 今回、募集しているオンライン講座は「スプリングセミナー2021:深層強化学習」「プリングセミナー2021:深層生成モデル」「プリングセミナー2021:Deep Learning for NLP講座」の3つ。なお、人工知能(AI)研究の第一人者で、東京大学 松尾研究室を率いる松尾豊氏は企画・監修だけではなく、
PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py
スクウェア・エニックスは4月24日(月)にNLP(自然言語処理)アドベンチャー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を公開すると発表した。プラットフォームはPC(Steam)となり、価格は無料で配信される。 本作は1983年に当時のエニックスから発売されたアドベンチャーゲーム『ポートピア連続殺人事件』を題材に、AI技術のひとつ「自然言語処理」という技術を構成する「自然言語理解(NLU)」について体験できるソフトウェアと位置付けられている。 原作の『ポートピア連続殺人事件』当時のアドベンチャーゲームはコマンド入力式と呼ばれ、プレイヤーが自由に文字列を入力することでキャラクターの行動を決定し、物語を進めていくというシステムだった。 この方法はプレイヤーに大きな自由度を与えられる一方で、とるべき行動が分かってい
はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出した ことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransformer[Vaswani, A.
吉川英治の「三国志」@青空文庫をINPUTとして、 「自然言語処理」と「機械学習」によって上記のように、 武力や知力などのパラメータを推論する。 三国志小説の機械学習結果として、 1つの武将を50次元ベクトルに変換し、そのベクトルを、 全く同じ「式」に入れて出てきた値が、上記の表。 このような方法:「小説(自然言語)」⇒「数値化」⇒「式」 によって、武力/知力を求めることが出来るか? という実験&研究が今回のテーマ。 他の成果としては、 以下のような武将名の「演算」が楽しめる。 (これも実際の出力結果より抜粋) 諸葛亮に近い人は誰? ⇒ 姜維、司馬懿、陸遜、周瑜、魏延、馬謖 劉備にとっての関羽は、曹操にとって誰? ⇒ 袁紹、張遼 ※若いころの馴染み的な意味や対比が多いので袁紹? 孫権にとっての魯粛は、劉備にとって誰? ⇒ 司馬徽(水鏡先生)、徐庶 ※賢者を紹介するポジションなのか? 精度の
最終更新日: 2019年7月31日 「自然言語処理」という言葉を目にしたことがある人も多いでしょう。人間の言葉を機械が扱えるようにする自然言語処理は、チャットボットなどに活用され、研究も盛んに行われています。 今まで人間の言葉を「理解する」ことに主眼が置かれていた自然言語処理の研究ですが、現在の英語圏における自然言語処理の最新記事においては、「予測」や「生成」といった単語がキーワードとなっています。 そこでこの記事では、グローバルな自然言語処理研究のトレンドを紹介し、それを生かしたどんなビジネスが生まれているのか、そして生じてくる課題を詳しく紹介していきます。 世界の自然言語処理研究の最前線 解析から予測、そして生成へ 自然言語処理(英語表記:Natural Language Processingの頭文字をとってNLPと略記されることもある)とは、コンピュータに(英語や日本語のような)ヒト
こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ
2022年末に登場、一躍テクノロジー業界の話題を席巻したAIチャットボット「ChatGPT」 自然な文章で情報を提供するこの「ChatGPT」に対して、ビジネス、ブログ、プログラミング、など、様々な場での活用が期待されています。 OpenAIが開発、サービスを提供してるこの「ChatGPT」のベースとなっている技術が、同じくOpenAIが開発した、自然言語処理AI「GPT-3」です。 膨大なテキストデータを使った機械学習によって、生み出される「GPT-3」の文章は、人間が書いた物と判別できない程 そして、機械学習の訓練によって得た知識を元にして、質問に対し即座に答えを返してくれるので、知りたい事が有る度に、一々”ググる”必要も無い。 そこで一考、「GPT-3」とGoogleスプレッドシートを組み合わせたら、作業効率を向上できるんじゃないか。 本記事では、自然言語処理AI「GPT-3」をGo
はじめに 自然言語処理をはじめたら、一度は作ってみたいのが共起ネットワークではないかと思います。 私自身、共起ネットワークについては、書籍やネット記事を参考にしながら、これまで何度も作ってきました。 しかしながら、文章→共起行列→共起ネットワークとなる一連の過程において、特に共起行列を作成するコードの理解が十分ではないと思い至り、今回、勉強もかねて、共起行列の作成過程を残すことにしました。 共起ネットワークに興味を持たれている方の参考になればと思います。 共起ネットワーク 単語どおしのつながりを可視化してくれる手法で、文章の構造的な特徴を直感的に理解するのによく利用されます。 文書(text)を文章(sentence)に分割したのち、同一文章中に同時に出現する単語(word)の組みを数えあげることで共起行列を作成し、これをネットワークで可視化します。 ネットワークはノード(丸) と、ノード
要点 T5(Text-To-Text Transfer Transformer、論文、日本語解説記事)の日本語モデル(事前学習済みモデル)を作り、公開しました。ご活用ください。 T5とは、様々な自然言語処理タスクの入出力がともにテキストになるよう問題形式を再定義することにより、一つの事前学習済みモデルを多様なタスク用に転移学習させることができる高い柔軟性を持ち、かつ、性能も優れている深層ニューラルネットワークです。 転移学習の例: 文章分類、文章要約、質問応答、対話応答、機械翻訳、含意関係認識、文の類似度計算、文法的妥当性判定、タイトル生成、スタイル変換、誤字修正、検索結果のリランキングなど(固有表現抽出などのシーケンスラベリングの実施例はない?) 日本語T5モデルはHugging Face Model Hubからダウンロードできます。 ベンチマークとして、ある分類問題について、既存のmT
by Nicole Honeywill 自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50%から80%にまで向上するとのことです。 Google AI Blog: Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html Googleは機械翻訳や音声認識で自然言語処理を取り入れていますが、自然言語処理では最先端のアルゴリズムでも「ニューヨークからフロリダへのフライト」
R&D チームの徳田(@dakuton)です。 最近、spaCyの日本語版モデルが正式サポートされたのでいろいろ触ってみたところ、解析結果ビジュアライズを全部まとめるStreamlitアプリも同じ月に提供されていることがわかったので、今回はそちらを紹介します。 なお、ビジュアライズ機能の一部(係り受け解析)は1年前の記事「その他」で紹介しています。 tech-blog.optim.co.jp 実行手順 spaCyのUniverseプロジェクトであるspacy-streamlitをインストールします。 pip install spacy-streamlit 起動用スクリプト(streamlit_app.py) import os import pkg_resources, imp import spacy_streamlit models = ["ja_core_news_lg", "ja_
前置き 最近やっていたことが一段落したので、博論に向けて考えをまとめたいと思います。ここ半年で取り組んでいた論文は投稿中・準備中という感じで今年はまだ結果が出ていないのですが、テーマ的にだんだん思想バトル感が出てきており、あまりすんなり論文が通る・業績が増えるような雰囲気ではなくなっています(言い訳です)。もう少し目線を下げたほうがよいかもしれないです。 あらすじ ここに至るまでの細かい話は前回や前々回の記事をご覧いただければと思うのですが、以下に簡単にまとめます。おそらく本質的には大きな変化があるわけではないので読み飛ばしていただいてもたぶん大丈夫です。 自然言語処理におけるひとつの目標として「言語を理解するシステムを作る」ことが挙げられると自分は考えています。そうしたシステムの振る舞いをテキスト上で評価するタスクのひとつに「機械読解(machine reading comprehens
1.簡単な概要 この記事では都内ラーメン屋の食べログ口コミを自然言語処理して、「可愛い店員さんがいるラーメン店」を探す方法について解説していきます。 先日、食べログの口コミを読んでいる中で、「美人すぎるラーメン店主」という世の男性なら思わず「なぬ!」と立ち止まってしまうワードを見つけたので、ガチで調べてみたら面白そうだなと思いやってみました。 まずは、口コミデータの取得から。 2.口コミデータの取得 詳しくはこちら↓↓で説明しています。 第1弾:【Python】ラーメンガチ勢によるガチ勢のための食べログスクレイピング 口コミを1件ずつ取得した後に、データフレームにまとめました。 ※食べログ規約にもとづき口コミに関する箇所にはモザイクをいれております。ご了承ください。 3.可愛い店員さんがいるお店の定義 可愛い店員さんをどのようにして探すかが一番のポイントですが、 まずは、文章の中で「可愛い
概要 こんにちは@kajyuuenです。 日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。 この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。 ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。 はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。 日本語ではデータ拡張という名前で知られています。 ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。 対応している手法 現在daajaは
概要 自然言語処理における単語や文章のEmbeddingの方法を勉強したので概要を記載しました。 また、学習済みモデルからEmbeddingベクトルを取得するサンプルソースコードも一部記載しました。 概要 Word2vec fastText GloVe Skip-thought SCDV USE ELMo BERT おわり 宣伝 Word2vec 似た意味の単語の周りには同じような単語が出現するとして、ある単語の周辺に出現する単語を予測するNNの隠れ層の重みを、ある単語のベクトルとしたもの。Doc2vecはWord2vecを文章に拡張したもの。 NNには以下のようなSkip-Gramのモデルが使われる。 Word2vecの元論文 : [1310.4546] Distributed Representations of Words and Phrases and their Composit
Microsoftは米国時間2019年5月15日、Web検索などで用いるC++をPythonでラップしたライブラリ「SPTAG(Space Partition Tree and Graph)」をGitHubで公開した。公式ブログによれば、SPTAGを利用することで深層学習モデルを利用して、ベクトルと呼ばれる何十億もの情報をミリ秒単位で検索可能となり、より関連性の高い結果を迅速に利用者へ提供できる。同社は一例として、ユーザーが「パリの塔の高さはどれくらい?」と入力した場合、Bingは『Eiffel』を含まなくとも『Tall』を鍵にして、1,063フィート(324メートル)と回答すると説明した。 Bingによる検索結果 先の一例からも分かるとおりSPTAGは、BingチームやMSRA(Microsoft Researc Asia)の研究者による成果であり、すでにBingに組み込まれている。Bi
LINE Clova、Amazon Echoなどのスマートスピーカーやウェブ上のカスタマーサービスに見られるチャットボットはどれも自然言語処理というAI技術が用いられています。この自然言語処理においては、2018年10月にGoogleがBERTという手法を発表し、「AIが人間を超えた」と言わしめるほどのブレイクスルーをもたらしました。 BERTはすでに様々なサービスに応用され、活躍の幅を広げています。 本稿では、BERTとは何か、特徴、仕組みを詳しく解説します。 BERTとは、Bidirectional Encoder Representations from Transformers の略で、「Transformerによる双方向のエンコード表現」と訳され、2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルです。翻訳、文書分類、質問応答など自然言
自然言語処理(Natural Language Processing:NLP)の本格的な実践書。過去10年間で起きたブレークスルーにより、NLPは小売、医療、金融、法律など、さまざまな分野での利用が増えてきました。急速に利用が拡大する中で、産業界でNLPを使ったシステムを構築するのに必要な知識を学べる講座や書籍は不足していました。本書を読むことで、NLPの要素技術やSNS、Eコマース、医療、金融といった具体的なビジネスへの適用方法に加えて、NLPシステムを開発するためのベストプラクティスを詳しく学べます。 賞賛の声 序文 訳者まえがき まえがき 第I部 基礎 1章 自然言語処理入門 1.1 実世界での自然言語処理 1.1.1 NLPのタスク 1.2 言語とは何か 1.2.1 言語の構成要素 1.2.2 自然言語処理の難しさ 1.3 機械学習、ディープラーニング、そして自然言語処理の概要 1
言語処理学会第29回年次大会(NLP2023) に参加しています。 そこで、予定のプログラムの昼休みをつぶして緊急パネルディスカッションが開催されました。 「緊急パネル:ChatGPTで自然言語処理は終わるのか?」 https://www.anlp.jp/nlp2023/#special_panel 本投稿では、その内容を少しだけ振り返ると共に、私の所感も添えて述べたいと思います。 1.パネルの概要東北大学の乾先生がファシリテーションされながら、以下の方々が5分ずつくらいライトニングトークして、その後残り時間でslackの質問を拾いながらフリー議論という形式でした。 ライトニングトークといってもしっかりプレゼンテーションされていて、それぞれ短時間でご自身のスタンスや考えをまとめられていて、さすがでした。 なお、プレゼンテーションスライドは参加登録者のみの取り扱いで、学会参加者に告知されてあ
はじめに わたくし、Python歴1年の初心者ですが、このたび、苦労に苦労を重ねて、自然言語処理タスクの文章要約を実装できました。 自然言語処理に興味のあるPython初心者のお役に立てればと、記事に残したいと思います。 実装にあたっては、ネットの記事も手あたり次第調べましたが、最終的には、以下の本が大変参考になりました。 ただし、バージョンの変更により、この本の通りに実装しても、2022年8月時点ではエラーになる箇所があります。出版社経由で著者の方にお聞きして一部コードを修正したほか、自分なりに工夫をして実装しました。 モデルについて Huggingface社が提供している深層学習フレームワークのTransformersを使います。 transformersにはBERTをはじめとするさまざまな言語モデルが実装されていますが、今回のタスクでは、T5というモデルをファインチューニングして使い
#AIメーカー でGoogleが誇る自然言語処理モデル「BERT」のAIをweb上で誰でも気軽に作れるようにしました🎉 ①AIに学習させるテキストのラベルを設定 ②学習データはツイッターから自動で収集 ③AIがデータから学習 の3ステップで簡単! みんなもAIを作って遊んでみてね!🙌https://t.co/Vnf0QITH1v pic.twitter.com/mUbImOff6j — 2z / AI MAKER (@2zn01) December 27, 2020 こんにちは。 趣味でWebサービスの個人開発をしている、2z(Twitter: @2zn01 )と申します。 ノーコードで誰でも簡単にAIを作れる「AIメーカー」というサービスを運営しています。 AIメーカー https://aimaker.io/ 今回作ったもの 今回は「AIメーカー」でGoogleが誇る自然言語処理モデ
はじめまして。9月初旬より約半月にわたり、AIエンジニアコースのインターンに参加させていただいた清水と申します。大学院は情報系の専攻で、最近は幾何学的な深層学習に関する研究に取り組んでいます。その過程で言語的なタスクを出口に用いることも多く、副次的に深層学習を利用した自然言語処理にも多少明るかったりします。 題目にあるTransformerとは、そうした分野にてここ数年にわかに注目を集めている仕組みの名です。自然言語処理の最先端研究ではまず流用されないことなどない、いわば伝家の宝刀レベルのモデルといってよいでしょう。 本記事ではこれを『逆転オセロニア』というゲームのデッキ編成に特化させ、現行手法よりも表現力に富んだ編成システムを実現した経緯についてお話しできればと思います。『日進月歩で強力になっていく機械学習手法の恩恵に与りたいけれど、所望の問題設定にドンピシャな手法なんてそうそうなくて思
最先端の自然言語処理モデルとスパコン「kukai」を活用したコメント対策、および並び順名称の変更について (画像:アフロ) Yahoo!ニュースでは、最先端の深層学習ベースの自然言語処理モデルを使用したコメント対策を開始しました。 今回、開始したのは、「記事との関連性の低いコメント」への対策です。 Yahoo!ニュースでは、コメント欄について、これまでも専門チームによるパトロールや機械的な対策を実施してきましたが、「記事との関連性の低いコメント」の機械的な対策については、未だ技術的課題のある状況でした。従来のニューラルネットワークを用いた自然言語処理モデルでは、1コメント単体の判定は可能であるものの、記事とコメントの関連度については判定が困難だったためです。 そこで、最先端で強力な深層学習ベースのアーキテクチャである「Transformer」およびGoogleの研究者が発表した画期的な自然
人間ならではの領域に踏み込むAI AI(人工知能)が言葉の意味を理解する方向へと大きく舵を切った。 先日、シリコンバレーで限定的にリリースされた「GPT-3」という言語モデルを使うと、コンピュータ(AI)がかなり高度な文章を書いたり、私たち人間の言葉による命令に従って簡単なアプリ開発などの仕事ができるようになる。 GPT-3は現時点で米国のプレスや一部関係者らに限ってリリースされたが、実際にそれを使ってみた人たちからは驚くべき結果が報告されている。 たとえば、「この度、一身上の都合により退社することを決めました」あるいは「ベン、ごめんね、あたし貴方と別れなければならない」という冒頭の一文を入力するだけで、GPT-3はそれに続く文章をしたためて、普通なら書くのが気が重い退職願や別れの手紙を手際よく仕上げてくれるという。 これらの機能は、一般にAIの中でも「自然言語処理」と呼ばれる分野に属する
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所で自然言語処理の研究開発をしている柴田です。 私は自然言語処理の研究と、最新の自然言語処理技術を社内のサービスに適用できるようにする開発の両方を行っています。今日は後者の話をします。 この記事ではBERTというモデルに焦点をあて、BERTの概要と、社内でのBERTの利用、最後に具体例として検索クエリのカテゴリ分類について紹介します。 ※この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 1. BERTとは 2018年にGoogleからBERT (Bidirectional Encoder Representations
TISインテックグループのTIS株式会社(本社:東京都新宿区、代表取締役会長兼社長:桑野 徹、以下:TIS)は、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開し、辞書を生成するコードをオープンソースソフトウェア(OSS)として公開することを発表します。 ・「JCLdic」公開ページ:https://github.com/chakki-works/Japanese-Company-Lexicon (利用は上記のページからダウンロード) 「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成しました。同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸
※ChatGPTと言っていますが、正確にはOpenAIの「code-davinci-003」というGPT-3のモデルを使っています。 ChatGPT、すごいですよね! 質問すれば、ある程度のことはいい感じの返答をしてくれますね。 例えば「〜と似た文章を作って。」メッセージをChatGPTに投げることで、似たような文章を生成できます。 入力: import openai openai.api_key = key #keyはopenaiのページから取得してください。 model_engine = "text-davinci-003" prompt = """ 「MatrixFlowは、AIの開発に特化したノーコード開発のプラットフォームです。 画面上でブロックを動かすという視覚的な操作だけでAIを開発できます。 様々な課題や要望に応じたAIモデルのテンプレートが用意されているため、テンプレート
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く