タグ

テキストマイニングに関するanimistのブックマーク (14)

  • ネガポジ判定を行うGem作ってみた - Qiita

    自分は自然言語処理の人間ではないのですが、文章がネガティブな意味合いを持つのか、ポジティブな意味合いを持つのか判定させる必要(以降、ネガポジ分析と表現します)が出てきたため、いろいろな方の記事を参考に挑戦してみました。 ネガポジ分析 ネット上を探してみると、文章のネガティブさ、ポジティブさを判定しようとしている方がたくさんいらっしゃいます。 1.R言語 - テキストのネガポジ度を分析する http://qiita.com/uchim/items/db20d662d762efbfa9e5 2.ハセテツラボ PythonTwitterでのツイートをネガポジ判定してみた結果。。。 http://tt-house.com/2013/08/twitter-nega-posi.html 3.Atrae Tech Blog 僕が感情豊かであることをネガ・ポジ判定で証明する http://atraete

    ネガポジ判定を行うGem作ってみた - Qiita
  • R言語 - テキストのネガポジ度を分析する - Qiita

    はじめに 任意のテキストファイルにどのような特性があるのか?そのテキストファイルに、ネガティブな発言が多いか、それとも、ポジティブな発言が多いかの傾向をざっくりと把握するには、ネガポジ度を分析するとよいです。このTipsでは、とある組織のウィークリーレポートを使って、その内容にどのような特性があるのかを分析してみます。手順としては、①ウィークリーレポートをRMeCabで形態素解析後、②単語感情極性表(注1)からスコアを算出し、③ネガポジ度を三次元円グラフで描画します。単語感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表したものです。例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 # 三次元円グラフライブラリを読み込みます library(plotrix) #

    R言語 - テキストのネガポジ度を分析する - Qiita
  • テキストマイニングによるレビューの評判分析 ~はじめの一歩~ - ZOZO TECH BLOG

    iQONはAppStoreのレビュー4.5, GooglePlayのレビュー4.3と、嬉しいことにユーザーから高い評価を受けています。しかし、実際にユーザーが日々感じているアプリの良い点だったり不満点などの音の部分は、レビューやTwitterなどのユーザーが投稿する文章の中に含まれています。特にサポートにお問い合わせをしてくださったユーザーからいいただくような改善を訴えるメッセージとは違い、Twitterやレビューに投稿している文章には現状ユーザーが感じている改善してほしい点やバグ等が、より意識せずに書かれている可能性が高いと考えられます。そのテキストの内容を解析できれば、開発者が認知している問題の中でもより多くのユーザーが改善してほしいと感じている点であったり、我々開発者が気づけていなかったバグの発見等が可能になると考えられます。 そこで今回、「評判分析はじめの一歩」と題して、iQON

    テキストマイニングによるレビューの評判分析 ~はじめの一歩~ - ZOZO TECH BLOG
  • 意見(評価表現)抽出ツール

    目次 意見(評価表現)抽出ツールとは 高度言語情報融合フォーラム(ALAGIN)で公開されているモデルデータと辞書データについて 新着事項 ご利用にあたっての注意事項 ダウンロード ツールの実行環境 意見(評価表現)抽出ツールの動作確認方法 モデルデータの生成 このパッケージに含まれているディレクトリ・ファイル 解析精度 参考文献 著作権&ライセンス 付録 意見(評価表現)抽出ツールとは ツールは、国立研究開発法人情報通信研究機構 旧知識処理グループ 情報信頼性プロジェクトによって開発されたもので、1行につき1文が書かれたテキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価(以下、これらをまとめて「評価情報」と呼びます)がテキスト中のそれぞれの文に存在するかどうかの判定を行い、その文に評価情報が存在すると認められた場合、以下の情報を出力するツールです。

  • CRF++: Yet Another CRF toolkit

    Template type Note also that there are two types of templates. The types are specified with the first character of templates. Unigram template: first character, 'U' This is a template to describe unigram features. When you give a template "U01:%x[0,1]", CRF++ automatically generates a set of feature functions (func1 ... funcN) like: func1 = if (output = B-NP and feature="U01:DT") return 1 else ret

  • CRF++ - niitsuma blog

    CRF++の使い方などのまとめ CRFの原理 CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし http://d.hatena.ne.jp/echizen_tm/20111206/1323180144 条件付き確率場(CRF)メモ http://d.hatena.ne.jp/jetbead/20110929/1317253922 条件付き確率場の推論と学習 http://www.slideshare.net/rezoolab/seminar-19715143 Computer Visionの話などもあるスライド How Conditional Random Fields and Logistic Regression could be the same? http://stats.stackexchange.com/questions/63826/how

    CRF++ - niitsuma blog
  • CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

    機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

    CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
  • 間違ってるかもしれないCRFの説明

    ► 2013 (2) ► 7月 (1) ► 4月 (1) ► 2012 (1) ► 10月 (1) ▼ 2011 (4) ► 12月 (1) ▼ 6月 (3) 間違ってるかもしれないCRFの説明 実数素性テンプレートの使える CRF 実数素性テンプレートを作ろう。 ► 2010 (6) ► 8月 (1) ► 7月 (1) ► 6月 (1) ► 3月 (1) ► 2月 (2) ► 2009 (8) ► 12月 (1) ► 11月 (1) ► 10月 (1) ► 9月 (1) ► 8月 (1) ► 7月 (3) ► 2007 (2) ► 10月 (2)

  • JUMAN - LANGUAGE MEDIA PROCESSING LAB

    形態素解析システム JUMAN † システムは,計算機による日語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました.その際, 学校文法が計算機向きではないという問題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変更できるように配慮しました. 新バージョン7.0の拡張点は以下の通りです. 非反復形オノマトペ,長音記号による非標準表記,長音記号・小書き文字を用いた長音化の自動認識 Wikipediaから抽出した辞書の追加 自動辞書(Webテキストから自動獲得した辞書)の改良 UTF-8化 たとえば,次のようなテキストを入力すると, % cat sample.txt カサつく ビミョーだ がんがる アジャイルだ 爽健美茶 ThinkPad 上海ガニ ぺっちゃりしてる ありがとー 行きたぁぁぁい 以下の解析結果が得られます

  • KNP - LANGUAGE MEDIA PROCESSING LAB

    語構文・格・照応解析システム KNP † KNPは日語文の構文・格・照応解析を行うシステムです.形態素解析システムJUMANの解析結果(形態素列)を入力とし, 文節および基句間の係り受け関係,格関係,照応関係を出力します. 係り受け関係,格関係および照応関係は,Webから自動構築した大規模格フレームに基づく確率的モデルにより決定します. KNPを試してみる ↑ バージョン4.1の拡張点 (2013/12/20) [New!] † 照応解析機能の追加 固有表現解析の精度向上 名詞格フレーム辞書の大規模化 (70億文Webテキストから構築) ↑ バージョン4.0の拡張点 (2012/01/12) † 格フレーム辞書の大規模化 (70億文Webテキストから構築) CRFに基づく固有表現解析機能の追加 類似度計算における分布類似度の利用 UTF-8化 たとえば,次のようなテキストを入力する

  • 法政大学機関リポジトリ移行のお知らせ :: 法政大学 図書館

    法政大学では、教育・研究成果の発信システムである「法政大学機関リポジトリ」について、 2018年8月より国立情報学研究所が提供する共用リポジトリサービス「JAIRO Cloud」環境へ 移行いたしました。 ブックマーク等に登録されている方は、お手数ですがURLの変更をお願いいたします。 (新) https://hosei.repo.nii.ac.jp/ 2018年8月20日より公開開始 (旧) http://repo.lib.hosei.ac.jp/ 以上

  • テキストマイニングとは?|日本語に強いAIソリューション TRAINA/トレイナ

    大量の文章データ(テキストデータ)から、有益な情報を取り出すことを総称してテキストマイニングと呼びます。自然言語解析の手法を使って、文章を単語(名詞、動詞、形容詞等)に分割し、それらの出現頻度や相関関係を分析することで有益な情報を抽出します。 ビッグデータの活用においても、テキストマイニングは非常に重要な要素となります。ビッグデータ解析の対象となるデータは数値などの形であらわされる比較的取扱いの簡単な「構造化・定量データ」、数値に表すことのできない感覚的な側面を持つ、「非構造化・定性データ」に大別されます。 テキストデータは、「定性データ」の代表的なもので、この「定性データ」から付加価値の高い情報を収集することがテキストマイニングの目的です。 ビッグデータ時代と言われる昨今では、コールセンターでのお客様とオペレータのやり取りの記録や、WEBページでのお客様からの問い合わせ文、アンケート調査

    テキストマイニングとは?|日本語に強いAIソリューション TRAINA/トレイナ
  • https://www.jstage.jst.go.jp/article/essfr/6/4/6_285/_pdf

  • デリヘル嬢の「お店からの紹介文」を計量分析してガチで読む① - 26歳素人童貞のブログ

    こんばんは。素人童貞です。 お盆が終わり、夏が終わりへと向かっていますね。24歳素人童貞も、お盆は実家に帰って、静岡のM性感に行き、ドライオーガズムを楽しみました。ドライオーガズムはある種の〝死〟だと思うのですが、先祖様を迎えるというよりかは、自分があっちの世界に行ってしまったという感じですね。オーガズムへ向かう最中に、どっかで祖父や祖母にすれ違ってたかもしれません。 24歳素人童貞も若者なので夏はキャンプに海にと楽しみたいという願望がないわけではないのですが、何一つそんなことはなく、実際は家で一人、関東圏のデリヘル嬢のプロフィールの計量分析をしておりました。これが楽しいこと楽しいこと。規制の強化とネット社会の到来によりデリヘル全盛となった性風俗店、よく「店員とお客さんのコミュニケーションがなくなってしまった」なんて言われますが、そんなことは全くありません。店舗で顔を合わせなくなった分、ネ

    デリヘル嬢の「お店からの紹介文」を計量分析してガチで読む① - 26歳素人童貞のブログ
    animist
    animist 2017/08/29
    こういう技術の無駄遣い好き
  • 1