[B! 自然言語処理] otani0083のブックマーク

自然言語処理における前処理の種類とその威力 - Qiita

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

otani0083 2018/06/13

リンク

Python3×日本語：自然言語処理の前処理まとめ - Qiita

初めに方針・pandasは、CSVや、Mysql、SQLiteなど様々なデータベースから、取り扱いやすい自身のDataFrameに変換することができる。・pandasのDataFrameはscikit-learnとの連携も容易である。・自然言語処理を日本語で行う場合、適切に前処理を行わなければ、良い結果をだすことはできない。今回は自然言語処理における前処理の種類とその威力を参考にさせていただき、具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。 ※引用文は記載が無い場合、上記の記事からのものです。準備と想定 sqlite3からpandasのデータフレームへ変換しています。 import pandas as pd import sqlite3 con = sqlite3.connect("db/development.sqlite

otani0083 2018/06/13

リンク

『自然言語処理の基本と技術』が面白い！ - toricago

スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この

otani0083 2018/03/04

自然言語処理

リンク

なぜ自然言語処理にとって単語の分散表現は重要なのか？ - Qiita

なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか？この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

otani0083 2017/03/08

自然言語処理

リンク

論文コーパスの次元圧縮とLDAによるトピックの関係の可視化 - xiangze's sparse blog

機械学習の方法として教師なし学習で得られた量を特徴量として教師あり学習で使うという方法があります。 OnlineNewsPopularityの列の中にもLDAで推定されたトピックがあるようです。文書データもOnlineNewsPopularityと同じようにLDAで得られた量を使って機械的に分類が可能かと思われます。そこで例としてNIPS論文の全文に対して各論文の語の頻度が作るベクトルをSVDとt-SNEを用いて２次元に圧縮した場合にきれいに分離されるかを見てみたのですが、うまくいきませんでした。mathutils.corpus2cscを用いたgensimでの疎行列の扱い方、scikit.learnとの連携の例として挙げます。更なる解析の試みとしてはword2vecの使用などが挙げられるかも知れません。 gist.github.com トピック数10としてトピック間の関係を多次元尺度法を

otani0083 2016/09/16

リンク

グーグル、自然言語処理APIと音声認識APIをオープンベータに

新たにリリースされた自然言語処理APIである「Google Cloud Natural Language API」を用いることで、ユーザーはテキストの構造や意味を分析できるようになる。Googleはさまざまな言語への対応を約束しており、まず英語とスペイン語、日本語が利用可能となっている。また同社は、Cloud Natural Language APIを用いてThe New York Timesの記事を分析した例を挙げている。その例では、同APIを用いて記事の一部に対するセンチメント分析を実施し、結果を「BigQuery」のテーブル上で処理した後、「Google Data Studio」で視覚化している。別の例では、デジタルマーケターが同APIのセンチメント分析機能を用いて、オンラインの製品レビューや、サービスセンターに寄せられる顧客の声をモニタできることが示されている。また、同APIは

otani0083 2016/07/21

リンク

Google、自然言語理解（NLU）の基礎となる「SyntaxNet」をオープンソース化

Googleが、自然言語理解のためのニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開した。機械学習システム「TensorFlow」の一部としてGitHubで公開された。SyntaxNetの構文解析ツール「Parsey McParseface」は“世界一正確に構文解析するツール”という。米Googleは5月12日（現地時間）、機械学習システム「TensorFlow」に統合されたニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開したと発表した。GitHubで公開されている。自然言語理解（NLU）システムの基礎を提供するものという。SyntaxNetには、新たなモデルに学習させるのに必要なすべてのコードと、英語の文章の構文解析のためにGoogleが開発した英文解析ツールの「Parsey McParseface」が含まれる。 Par

otani0083 2016/05/14

自然言語処理

リンク

[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成

otani0083 2016/04/08

自然言語処理

リンク

自然言語処理('15) | 放送大学オープンコースウェア

ページの先頭ですラジオ授業科目一覧自然言語処理('15) 自然言語処理('15) 回テーマ第1回自然言語処理の概要と歴史第2回文字列・テキスト処理の基礎第3回系列の解析（１）第4回コーパスに基づく自然言語処理第5回系列の解析（２）第6回意味の解析（１）第7回構文の解析（１）第8回構文の解析（２）第9回意味の解析（２）第10回文脈の解析第11回情報抽出と知識獲得第12回情報検索第13回対話システム第14回機械翻訳第15回まとめよくあるご質問お問い合わせ情報公表入札情報学園(法人)情報採用情報このサイトについて © The Open University of Japan, All rights reserved. 〒261-8586 千葉市美浜区若葉2-11 Tel:043-276-5111 Fax:043-

otani0083 2016/03/09

自然言語処理

リンク

技術から基本を学ぶコンセプト - 武蔵野日記

午前中、娘と近くの公園で遊ぶ。先週と同様、3-4歳くらいの女の子を見つけると追いかけて真似っこをして喜んでいる。真似をするのが楽しいらしい。「自然言語処理の基本と技術」が、紆余曲折を経て出版される運びとなった。自然言語処理の基本と技術 (仕組みが見えるゼロからわかる) 作者: 奥野陽,グラム・ニュービッグ,萩原正人,小町守,イノウ出版社/メーカー: 翔泳社発売日: 2016/03/05メディア: 単行本（ソフトカバー）この商品を含むブログ (6件) を見るもともと話は2011年くらいまで遡り、いろいろあったがこうやって日の目を見ることができてよかった。自分自身、最初は執筆者として参加予定だったが、大変申し訳ないことに執筆時間を確保することができず、最終的には監修として関わることになった。今年度、自分が執筆活動に使える時間はこれに最優先で投入したので、なんとかお役目を果たすことはできたか

otani0083 2016/03/04

自然言語処理

リンク

自然言語処理の専門家に入門書を聞いてきた - あれもPython,これもPython

自然言語処理については、前から興味があったのですが、なかなか学ぶのが難しい。。。ということで、自然言語処理に強い某社の専門家にお勧めを聞いてきました！ついでに自分の持っている本も持っていき、その評価も聞いてきました。一冊目入門自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11 メディア: 大型本購入: 20人クリック: 639回この商品を含むブログ (44件) を見る私「自然言語処理といえば、これですよね。最初に買ったのがこれでした」専「え、それ辛くない？」私「大分」専「これNLTKを使う前提だしね。独学には向かないんじゃないかな。監督者がいて、かつPythonやったことない人が期間をかけてやるには良いんじゃないかな」

otani0083 2016/03/03

リンク

友利奈緒らしさとは何か。 - のんびりしているエンジニアの日記

友利奈緒の皆さんこんにちは。お元気ですか？私は元気です。これは、友利奈緒アドベントカレンダー２４日目の記事です。 www.adventar.org 今日は友利奈緒らしさについて追求していきます。世の中友利奈緒を降臨させようとする方々は沢山いらっしゃると思います。しかし、友利奈緒は既に降臨しているかもしれません。そこで、友利奈緒らしさについて調査してみようと思った次第です。（ええ、題材は自然言語処理ですがね。）データセットの集め方インターネットから収集しました。無駄に頑張りました。テキストにぱちぱちと貼ります。まさかの、神が出現して驚いております。伏線でしょうかこれ。 github.com で何をするか？発言傾向まずは、友利奈緒の発言の傾向を見てみます。どんな単語が多いか、純粋に見てみましょう。全てのワードの中から発言傾向を探ります。以下は全ての発言に対して、形

otani0083 2015/12/24

自然言語処理

リンク

RECRUIT TECHNOLOGIES Member's blog 自動要約APIを作ったので公開します

リクルートテクノロジーズの大杉です。広島市立大学修士２回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ（行数など）に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな

otani0083 2015/11/06

リンク

kuromoji.js使って構文解析した - Qiita

こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを

otani0083 2014/12/27

自然言語処理

リンク

NTT研究所の日本語解析技術API公開、「語句類似度算出」「ひらがな化」など4種　

otani0083 2014/12/05

自然言語処理

リンク

自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

otani0083 2014/11/15

自然言語処理

リンク

word2vecによる自然言語処理

Tomas Mikolovらによって提案されたニューラルネットワーク（CBOW, Skip-gram）のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。著者の西尾さんによる本書の解題[リンク] はじめに 1章　word2vecを使ってみる書き換えてみよう 2章　コーパスを変えてみる text8 単語に分割する（MeCab） CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出しまとめ 3章　word2vecの生まれた理由文章の表現 4章　word2vecの仕組

otani0083 2014/08/05

自然言語処理

リンク

日本語形態素解析の初歩 - あらびき日記

この記事は abicky.net の日本語形態素解析の初歩に移行しました

otani0083 2014/03/27

自然言語処理

リンク

自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！

概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ

otani0083 2014/03/10

自然言語処理

リンク

NLTKで日本語コーパスを扱う方法 - nokunoの日記

オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています．Python による日本語自然言語処理というわけで，NLTKで日本語でコーパスを扱う環境を整えました． NLTKのインストール公式サイトを見ながらインストールする．最新版はNLTK2.0で，オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています．Download - Natural Language Toolkit Mac OSXの場合はPortでもインストールできるらしいのですが，うまくいかなかったのでパッケージをダウンロードしました．コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします．$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注

otani0083 2013/11/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

自然言語処理に関するotani0083のブックマーク (49)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス