タグ

自然言語処理に関するotani0083のブックマーク (49)

  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • Python3×日本語:自然言語処理の前処理まとめ - Qiita

    初めに 方針 ・pandasは、CSVや、MysqlSQLiteなど様々なデータベースから、取り扱いやすい自身のDataFrameに変換することができる。 ・pandasのDataFrameはscikit-learnとの連携も容易である。 ・自然言語処理を日語で行う場合、適切に前処理を行わなければ、良い結果をだすことはできない。 今回は自然言語処理における前処理の種類とその威力を参考にさせていただき、 具体的にpandasのDataFrameの形で存在する日語データの前処理について考えていきます。 ※引用文は記載が無い場合、上記の記事からのものです。 準備と想定 sqlite3からpandasのデータフレームへ変換しています。 import pandas as pd import sqlite3 con = sqlite3.connect("db/development.sqlite

    Python3×日本語:自然言語処理の前処理まとめ - Qiita
  • 『自然言語処理の基本と技術』が面白い! - toricago

    スマートスピーカーが日で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。 今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この

    『自然言語処理の基本と技術』が面白い! - toricago
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • 論文コーパスの次元圧縮とLDAによるトピックの関係の可視化 - xiangze's sparse blog

    機械学習の方法として教師なし学習で得られた量を特徴量として教師あり学習で使うという方法があります。 OnlineNewsPopularityの列の中にもLDAで推定されたトピックがあるようです。文書データもOnlineNewsPopularityと同じようにLDAで得られた量を使って機械的に分類が可能かと思われます。 そこで例としてNIPS論文の全文に対して各論文の語の頻度が作るベクトルをSVDとt-SNEを用いて2次元に圧縮した場合にきれいに分離されるかを見てみたのですが、うまくいきませんでした。mathutils.corpus2cscを用いたgensimでの疎行列の扱い方、scikit.learnとの連携の例として挙げます。更なる解析の試みとしてはword2vecの使用などが挙げられるかも知れません。 gist.github.com トピック数10としてトピック間の関係を多次元尺度法を

    論文コーパスの次元圧縮とLDAによるトピックの関係の可視化 - xiangze's sparse blog
  • グーグル、自然言語処理APIと音声認識APIをオープンベータに

    新たにリリースされた自然言語処理APIである「Google Cloud Natural Language API」を用いることで、ユーザーはテキストの構造や意味を分析できるようになる。Googleはさまざまな言語への対応を約束しており、まず英語スペイン語、日語が利用可能となっている。 また同社は、Cloud Natural Language APIを用いてThe New York Timesの記事を分析した例を挙げている。その例では、同APIを用いて記事の一部に対するセンチメント分析を実施し、結果を「BigQuery」のテーブル上で処理した後、「Google Data Studio」で視覚化している。 別の例では、デジタルマーケターが同APIのセンチメント分析機能を用いて、オンラインの製品レビューや、サービスセンターに寄せられる顧客の声をモニタできることが示されている。また、同API

    グーグル、自然言語処理APIと音声認識APIをオープンベータに
  • Google、自然言語理解(NLU)の基礎となる「SyntaxNet」をオープンソース化

    Googleが、自然言語理解のためのニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開した。機械学習システム「TensorFlow」の一部としてGitHubで公開された。SyntaxNetの構文解析ツール「Parsey McParseface」は“世界一正確に構文解析するツール”という。 米Googleは5月12日(現地時間)、機械学習システム「TensorFlow」に統合されたニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開したと発表した。GitHubで公開されている。 自然言語理解(NLU)システムの基礎を提供するものという。SyntaxNetには、新たなモデルに学習させるのに必要なすべてのコードと、英語の文章の構文解析のためにGoogleが開発した英文解析ツールの「Parsey McParseface」が含まれる。 Par

    Google、自然言語理解(NLU)の基礎となる「SyntaxNet」をオープンソース化
  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • 自然言語処理('15) | 放送大学オープンコースウェア

    ページの先頭です ラジオ授業科目一覧 自然言語処理('15) 自然言語処理('15) 回 テーマ 第1回 自然言語処理の概要と歴史 第2回 文字列・テキスト処理の基礎 第3回 系列の解析(1) 第4回 コーパスに基づく自然言語処理 第5回 系列の解析(2) 第6回 意味の解析(1) 第7回 構文の解析(1) 第8回 構文の解析(2) 第9回 意味の解析(2) 第10回 文脈の解析 第11回 情報抽出と知識獲得 第12回 情報検索 第13回 対話システム 第14回 機械翻訳 第15回 まとめ よくあるご質問 お問い合わせ 情報公表 入札情報 学園(法人)情報 採用情報 このサイトについて © The Open University of Japan, All rights reserved. 〒261-8586 千葉市美浜区若葉2-11 Tel:043-276-5111   Fax:043-

  • 技術から基本を学ぶコンセプト - 武蔵野日記

    午前中、娘と近くの公園で遊ぶ。先週と同様、3-4歳くらいの女の子を見つけると追いかけて真似っこをして喜んでいる。真似をするのが楽しいらしい。 「自然言語処理の基技術」が、紆余曲折を経て出版される運びとなった。 自然言語処理の基技術 (仕組みが見えるゼロからわかる) 作者: 奥野陽,グラム・ニュービッグ,萩原正人,小町守,イノウ出版社/メーカー: 翔泳社発売日: 2016/03/05メディア: 単行(ソフトカバー)この商品を含むブログ (6件) を見るもともと話は2011年くらいまで遡り、いろいろあったがこうやって日の目を見ることができてよかった。自分自身、最初は執筆者として参加予定だったが、大変申し訳ないことに執筆時間を確保することができず、最終的には監修として関わることになった。今年度、自分が執筆活動に使える時間はこれに最優先で投入したので、なんとかお役目を果たすことはできたか

    技術から基本を学ぶコンセプト - 武蔵野日記
  • 自然言語処理の専門家に入門書を聞いてきた - あれもPython,これもPython

    自然言語処理については、 前から興味があったのですが、 なかなか学ぶのが難しい。。。 ということで、自然言語処理に強い某社の専門家にお勧めを聞いてきました! ついでに自分の持っているも持っていき、 その評価も聞いてきました。 一冊目 入門 自然言語処理 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明 出版社/メーカー: オライリージャパン 発売日: 2010/11/11 メディア: 大型 購入: 20人 クリック: 639回 この商品を含むブログ (44件) を見る 私「自然言語処理といえば、これですよね。最初に買ったのがこれでした」 専「え、それ辛くない?」 私「大分」 専「これNLTKを使う前提だしね。独学には向かないんじゃないかな。監督者がいて、かつPythonやったことない人が期間をかけてやるには良いんじゃないかな」

    自然言語処理の専門家に入門書を聞いてきた - あれもPython,これもPython
  • 友利奈緒らしさとは何か。 - のんびりしているエンジニアの日記

    友利奈緒の皆さんこんにちは。 お元気ですか?私は元気です。 これは、友利奈緒アドベントカレンダー24日目の記事です。 www.adventar.org 今日は友利奈緒らしさについて追求していきます。 世の中友利奈緒を降臨させようとする方々は沢山いらっしゃると思います。 しかし、友利奈緒は既に降臨しているかもしれません。 そこで、友利奈緒らしさについて調査してみようと思った次第です。 (ええ、題材は自然言語処理ですがね。) データセットの集め方 インターネットから収集しました。無駄に頑張りました。 テキストにぱちぱちと貼ります。 まさかの、神が出現して驚いております。伏線でしょうかこれ。 github.com で何をするか? 発言傾向 まずは、友利奈緒の発言の傾向を見てみます。 どんな単語が多いか、純粋に見てみましょう。 全てのワードの中から発言傾向を探ります。 以下は全ての発言に対して、形

    友利奈緒らしさとは何か。 - のんびりしているエンジニアの日記
  • RECRUIT TECHNOLOGIES Member's blog 自動要約APIを作ったので公開します

    リクルートテクノロジーズの大杉です。 広島市立大学修士2回生の飯沼さんと一緒に、自然言語要約ツールを作りましたので、リクルートテクノロジーズのgithubアカウントにて公開します。このapiでは、入力した文章から、指定したパラメータ(行数など)に応じて、重要だと思われる文の抽出ができます。例えば、当ブログ当記事の直前のこの記事を3行で要約すると、以下のようになります。 1. “リクルートテクノロジーズでは、ここ最近、UXデザインの専門家とビッグデータの専門家が、協力してリクルートグループ内の各事業に入り、プロジェクトを推進していく事例が多くなっています。”, 2. “UXデザインでは、定性的なリサーチと定量的なアクセスログ解析を組み合わせて、ユーザ行動を可視化することは以前からやってきました。”, 3. “「成功体験とは何か」を定義して、きちんとデザインできるかが、UXデザインの大きな

    RECRUIT TECHNOLOGIES Member's blog 自動要約APIを作ったので公開します
  • kuromoji.js使って構文解析した - Qiita

    こんにちは、らこです。先日から話題になってるJavaScript形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事 ではない です) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた 私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。 あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら 確率自由文脈文法とは ちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。 雰囲気つかむにはここらへんを

    kuromoji.js使って構文解析した - Qiita
  • NTT研究所の日本語解析技術API公開、「語句類似度算出」「ひらがな化」など4種 

    NTT研究所の日本語解析技術API公開、「語句類似度算出」「ひらがな化」など4種 
  • 自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

    言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

    自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData
  • word2vecによる自然言語処理

    Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。 著者の西尾さんによる書の解題[リンク] はじめに 1章 word2vecを使ってみる 書き換えてみよう 2章 コーパスを変えてみる text8 単語に分割する(MeCab) CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出し まとめ 3章 word2vecの生まれた理由 文章の表現 4章 word2vecの仕組

    word2vecによる自然言語処理
  • 日本語形態素解析の初歩 - あらびき日記

    この記事は abicky.net の 日形態素解析の初歩 に移行しました

    日本語形態素解析の初歩 - あらびき日記
  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
  • NLTKで日本語コーパスを扱う方法 - nokunoの日記

    オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています.Python による日語自然言語処理というわけで,NLTKで日語でコーパスを扱う環境を整えました. NLTKのインストール公式サイトを見ながらインストールする.最新版はNLTK2.0で,オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています.Download - Natural Language ToolkitMac OSXの場合はPortでもインストールできるらしいのですが,うまくいかなかったのでパッケージをダウンロードしました. コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします.$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日語コーパスで使う場合の注