[B! 自然言語処理] minamishinjiのブックマーク

minamishinji id:minamishinji

自然言語処理に関するminamishinjiのブックマーク (21)

ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです
minamishinji 2023/05/09
自然言語処理

ai

人工知能
リンク
最適輸送と自然言語処理
2022-03-14, 言語処理学会第28回年次大会でのチュートリアル「最適輸送と自然言語処理」のスライドです。当日利用版から増補改訂しました。講演動画 (YouTube)
minamishinji 2023/05/09
自然言語処理

機械学習

あとで読む
リンク
The EDICT Dictionary File
The EDICT Dictionary File Welcome to the Home Page of the EDICT file within the JMdict/EDICT Project. This page has been written by Jim Breen (hereafter "I" or "me") and is intended as an overview of the file, with links to more detail elsewhere. Background Way back in 1991 I began to experiment with handling Japanese text in computer files, and decided to try writing a dictionary search program i
minamishinji 2021/09/21
これすごい。

自然言語処理

データ
リンク
Python自然言語処理テクニック集【基礎編】
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。環境はPython3系、Google Colaboratory（Ubuntu）で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。機械学習、ディープラーニングは出てきません！テキストデータの前処理が中心です。前処理系大文字小文字日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角日本語だとこちらのほうが大事。全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
minamishinji 2021/03/29
こういう便利情報は意外にありがたい。

自然言語処理

python
リンク
「DeepL」の驚くほど自然な翻訳に迫る。失敗しない使い方
minamishinji 2020/06/09
あとで読む

自然言語処理
リンク
BERT解説：自然言語処理のための最先端言語モデル | AI専門ニュースメディア AINOW
著者のRani Horev氏はイスラエル出身で、イスラエル国防省のデータサイエンス・チームリーダーを務めたこともあるAI研究者です。同氏が英語長文記事メディアMediumに投稿した記事では、Googleが2018年10月に発表した自然言語処理モデルであるBERTの特徴が解説されています。 Google AI Languageチームが2018年10月に発表されたBERTは、質疑応答や自然言語推論といった様々な自然言語処理のタスクにおいて先行する言語モデルを凌駕する性能を実現しました（BERTのベンチマークテストに関する詳細は本記事末尾の（※註7）を参照）。近年の言語AIモデルのベンチマークになっているタスクは、未知の文字列に対して適切な関係にある単語あるいは文字列を予測するという予測問題を解くことと同義となります。例えば質疑応答タスクにおいては、南カリフォルニアの略称を問う質問を意味する文字
minamishinji 2019/11/09
興味深い。

あとで読む

自然言語処理

BERT
リンク
Google、複雑な会話型クエリでも意図をくんで答えるBERT採用検索を英語で開始
Googleは、注目の自然言語処理技術「BERT」を、まずは米国の英語検索で採用する。「ブラジルから米国への入国にはビザが必要？」のような会話型クエリを入力した場合、従来より欲しい答えが表示されるようになる。米Googleは10月25日（現地時間）、Google検索で自然言語処理「BERT」を採用し、検索結果に「過去5年間で最も大きな躍進」をもたらしたと発表した。まずは米国での英語による検索に適用し、提供地域や言語を拡大していく計画だ。 BERT（Bidirectional Encoder Representations from Transf ormers）は、Googleが昨年11月に発表した自然言語処理（NLP）のための言語処理モデル。おおまかに言うと、いくつかのキーワードを抜いた文を学習データセットにして機械語アルゴリズムを訓練し、アルゴリズムによる文脈の理解力を上げるというもの。
minamishinji 2019/10/27
興味深い。BERT知りたい。

NLP

google

自然言語処理
リンク
AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる - 渋谷駅前で働くデータサイエンティストのブログ
先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-tuningが登場するまでは殆ど自分ではテキスト分析をやったことがなく、出来ればもっとずっと簡単にやれる方法はないのかなと思っていました。そういう意味ではTF-Hubは渡りに船だったんですが、何ならノンプログラミングでサクサク回せた方がずっと良いわけで、AutoML Natural Languageはまさに僕にとっては願ったり叶ったりのプロダクトです。ということで、実際に触ってみたのでそのレポートをつらつら書いてみようと思います。ちなみに、実はこちらの記事が公開されると知らずに今回
minamishinji 2019/09/10
まぁ、なんとなく、という感じ？

あとで読む

自然言語処理
リンク
Comainuをリリースしました - skozawa's blog
中・長単位解析ツールComainuをリリースしました。 Comainu | 中・長単位解析ツールダウンロードはsourceforgeからできます。ソースファイルとモデルファイルをダウンロードしてください。モデルファイルは解凍すると1Gくらいあるので注意してください。中・長単位解析器 Comainu プロジェクト日本語トップページ - SourceForge.JP 長単位というのは、国語研が採用している言語の単位のことです。国語研が構築した現代日本語書き言葉均衡コーパス（BCCWJ）では言語単位として語彙形態論研究に適した短単位と構文・意味研究に適した長単位を利用しています。 Comainuでは、このうち長単位の解析をします（短単位はMeCabとUniDibで解析します）。長単位は短単位（単語）以上、文節以下の長さで大雑把には文節を自立語部分と付属語に分けたものが長単位となります
minamishinji 2018/06/13
言語処理で長単位を使うもの。

自然言語処理
リンク
大自然言語時代のための、文章要約 - Qiita
さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフそこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。本文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま
minamishinji 2018/01/02
自然言語処理

文書要約
リンク
自然言語処理における前処理の種類とその威力 - Qiita
自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ
minamishinji 2018/01/02
よくまとまってる。

自然言語処理
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
minamishinji 2017/11/14
lemmatization って知らなかった。勉強不足だな。

形態素解析

自然言語処理
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
minamishinji 2017/03/22
自然言語処理

python

あとで読む
リンク
言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
minamishinji 2017/03/17
あとで読む

自然言語処理
リンク
Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit
Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P
minamishinji 2016/12/16
自然言語処理

NLTK
リンク
都立大自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍
自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。（概要）自然言語処理（放送大学出版）（理論）言語処理のための機械学習入門＋深層学習による自然言語処理（実装）Python 機械学習プログラミング第3版自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。（数式なし）自然言語処理の基本と技術（数式あり）自然言語処理（放送大学出版）オライリーから出ている「入門自然言語処理」は特殊な本（詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない）で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。（それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応
minamishinji 2016/11/16
自然言語処理

NLP

本
リンク
グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース
Boaty McBoatface、こちらが「Parsey McParseface」だ。 Boaty McBoatfaceは結局、英政府の新しい極地調査船の名称にはならなかったが、それでも技術大手Googleは、それをもじった独自の名称を新たにオープンソース化された同社の英語構文解析器に採用することにした。より正確に言うと、Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。12日にリリースされたのは、新しいSyntaxNetモデルのトレーニングに必要なすべてのコードと、基本的にSyntaxNet用の英語プラグインであるParsey McParsefaceである。 Googleによると、SyntaxNetは、「Google Now」の音声認識機能など、同社の自然言語理解（Natural Lan
minamishinji 2016/05/13
これだけだと全然わからんぞ…あとできちんと読もう。

Google

自然言語処理

あとで読む
リンク
日本語で読める自然言語処理のチュートリアルスライドまとめ
先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。自然言語処理全般系の資料や、少し境界的なテーマは入っていません。また、ぱっと読めるスライドだけにしています。幾つか手前味噌な資料も載せてます・・。頑張って集めてみましたが、思ったほど集まりませんでした。作っていてわかったのですが、意外とスライドを公開している人は少ないようです。埋もれてしまうのはもったいないですね。いずれ、英語で読めるスライドを集めてみようと思います。そっちはそっちで、
minamishinji 2015/04/20
自然言語処理

スライド

あとで読む
リンク
文法圧縮入門：超高速テキスト処理のためのデータ圧縮（NLP2014チュートリアル）
言語処理学会第２０回年次大会（2014/3）のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは，入力テキストをよりコンパクトな文脈自由文法（CFG）に変換する圧縮法の総称である．文法圧縮の強みは圧縮テキストを展開すること無く，検索等のテキスト処理を効率よく行える点にある．驚くべきことにその処理速度は，元テキスト上での同じ処理を理論的に，時には実際にも凌駕する．また近年，ウェブアーカイブやログ，ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている．しかしながら，文法圧縮についての初学者向けの解説資料はまだまだ少ない．そこで本チュートリアルでは，文法圧縮の歴史的背景から最新動向までを幅広く紹介する．具体的には文法変換アルゴリズム，圧縮テキスト上での文字列パターン検索，文法圧縮に基づく省メモリデータ構造等の解説を行う．Read less
minamishinji 2014/03/19
あとで読む

アルゴリズム

自然言語処理
リンク
Topicに基づく統計的言語モデルの最前線 PLSIからHDPまで
, 2006.3.13 Topic URL= http://www.mibel.cs.tsukuba.ac.jp/~myama/pdf/topic2006.pdf • – • ex. • – – – • • UM DM PLSI LDA [ 1999] HDP � �� Eurospeech 㖸㗀ቇળ⎇ⓥ⊒⴫ળ ᤐ ⛔ ⸘ ⊛ ⸒ ⺆ ࡕ ࠺ ࡞ 㑐 ㅪ ⺰ ᢥ ᢙ ࡐࠬ࠲࡯㒰ߊ㧕 1/2 • • n-gram – Noisy Channel Models – – • – – 2/2 • PLSI LDA Probabilisitic LSI Latent Dirichlet Allocation UM DM Unigram Mixtures Diri
minamishinji 2012/11/12
機械学習

自然言語処理
リンク
1 2 次のページ