You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
textlintのルールを色々書いていて自然言語のマッチの問題がいくつかありました。 textlint-ja/textlint-rule-preset-JTF-style: JTF日本語標準スタイルガイド for textlint.は基本的に正規表現をベースに実装していました。 正規表現で自然言語に対してマッチするのは簡単でいいのですが、意図しない範囲にマッチすることもあるためfalse-positiveになりやすい問題がありました。 一方、ですます or である調の混在をチェックするtextlint-rule-no-mix-dearu-desumasuでは、kuromoji.jsなどで形態素解析した結果を使っています。 形態素解析をすることで(正しい日本語なら)より正確にマッチできます。 しかし、形態素解析のトークンに対してマッチする処理やその情報を元に置換するのは結構面倒です。 kur
研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。
少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が
統計的自然言語処理を徹底的に論じた教科書 原著が刊行されたのは18年ほど前になるので、本書の内容の一部は歴史的な記録となっており、現在の状況に照らして異なる含意を読み取るべき言及もある。そのような若干の注意書きを要するとはいえ、本書の重要性、今日性は高い。 学問的基礎の記述の豊かさに加えて、マルコフモデルや確率文脈自由文法など、統計的自然言語処理の基盤となる概念について、丁寧な式の導出を含めたわかりやすい説明がなされている。そのような理論的基盤と合わせて、n-グラムモデルにおけるスムージングや分類学習における過学習など、実際に研究を進める上では重要でありながら、えてして短めの注意書きになりがちな部分についても、十分な量が割かれている。 「今」の自然言語処理研究をその基礎から正しく理解し、その上に新たな積み上げを行うための基盤を提供してくれる良書となっている。 [原著名:Foundation
※ユーザ登録は無料です. 本電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 情報学広場に掲載されているコンテンツには有料のものも含まれています。 有料コンテンツをご購入いただいた場合はクレジットカード決済のみとなります。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、本会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。
さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフ そこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。 本文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま
ASPEC ( Asian Scientific Paper Excerpt Corpus ) Notice: ASPEC data can be used during the fiscal year (April 1 to March 31) by applying on an annual basis. You can also continue to use the data by submitting an application to the contact email address at least one month before the end of the fiscal year. Now, on April 1, 2021, the Terms of Use will be revised to simplify the application process. I
この記事では自然言語処理の入門者の方に向けに、自然言語処理の重要ワードと日本語用の主要な解析器をまとめました。 基本用語 自然言語(しぜんげんご、英: natural language)とは、人間によって日常の意思疎通のために用いられる、文化的背景を持って自然に発展してきた記号体系である。大別すると音声による話し言葉と文字や記号として書かれる書き言葉がある。 自然言語 - Wikipedia 我々が日常生活で使っている言語(話し言葉と書き言葉)のこと。自然言語以外の言語としては、例えばプログラミング言語や数式などが該当する。 自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。 自然言語処理 - Wikipedia 自然
[RubyML | RubyDataScience | RubyInterop] Awesome NLP with Ruby Useful resources for text processing in Ruby This curated list comprises awesome resources, libraries, information sources about computational processing of texts in human languages with the Ruby programming language. That field is often referred to as NLP, Computational Linguistics, HLT (Human Language Technology) and can be brought i
自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く