Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...Hiroki Takanashi
トピックモデルは応用範囲が広く、使えるところが多いモデルですが・・ 数式が鬼難しく分かりづらいので、なるべく数式を使わずに分かりやすくしたい。 そして備忘録にしたいってことで記事を書きました。 間違いがあれば指摘して頂けると幸いです。 トピックモデルの使える範囲 端的に言えば、文書からそれが何について記述されているかを推定するモデルです。 実は適用範囲はトピックを抽出をしていくだけではないです。 トピックに分けるだけでなく、文書の補助情報に関連付けをさせたり、ユーザーの情報に依存させたトピックのみに限定したり、トピックに相関関係を持たせたりできます。 また文書だけでなく、画像、ソーシャルネットワーク、論文の引用関係にも応用可能です。 トピックモデルの仕組み 重要な点をいくつか先に述べます。 確率分布、共役事前分布、パラメータ推定の3点がかなり重要になってきます。 1:確率分布 確率の分布な
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41stkhcoder
ゼロから学ぶテキストマイニング。参考書籍・Webサイトまとめ9選。概要、仮説の構築、R言語、RMeCab、twitteRなど 先日、形態素解析に関するまとめ記事(新しいタブで開く)を書きましたが、いまいち煮え切れません。なぜなら、Tiwtterのつぶやきについて、形態素解析だけを行っても、それだけで何か面白い知見を得られるわけではないからです。 そこで、最近個人的に目をつけたのが、テキストマイニングという技術です。そこで、今回はゼロから学ぶテキストマイニングとして、参考になりそうな本やWebサイトの「まとめ」をしてみました。 テキストマイニングの概要 Webサイトよりも、本の方が参考になりました。読んだのは、テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法です。 第1章しか読んでませんが、30分ほどでテキストマイニングを使って、何ができるか分かりました。個人的
テキストマイニングの概要 テキストマイニングとはテキストデータを計算機で定量的に解析、有用な情報を取り出すための技術の総称です。主に、自然言語処理、統計、データマイニングといったものを基礎とします。 かつてはこれらの実証分析や論理的研究には、自然言語を計算機で扱うために高価なソフトウェアが必要であり、高い敷居がありました。今日では無料で本格的なテキストマイニングをするための環境が整ってきており、また計算機も高速で安価になったことから、例えば人文社会科学分野などでの応用においても大きな注目と期待が集まっています。 今回はテキストマイニングで雑多な外部のデータを集積し、データセットを作成して、分析手法の選択と適用、可視化までの大雑把なプロセスを整理します。 ツールの準備 テキストマイニングのためのフリーなソフトウェアとしては主に次のようなものがあります。 名称 説明
テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう
テキストを自動で要約します このサービスはごくシンプルなルールに基づいてテキストの自動要約を行う実験的サービスです。与えられたニュース記事の中から最も重要な3つのポイントを抜き出すことで、限られた時間の中でも効率よく情報を吸収できることを目的にしています。なお、商用利用をご希望の方は、白ヤギコーポレーション(info at shiroyagi.co.jp) までお問い合わせ下さい。なお、現在のところ英語のサイトには対応しておりませんので、ご了承下さい。
Statistics Favorites 4 Downloads 11 Comments 0 Embed Views 1,120 Views on SlideShare 997 Total Views 2,117 KGR_2: Rによるテキストマイニング — Presentation Transcript Rによるテキストマイニング 小林 雄一郎 (日本学術振興会) KG.R #22012年6月16日(土)、関西学院大学 1 自己紹介• 小林 雄一郎 (こばやし ゆういちろう) – 言語学と言語処理と言語教育の挟間をふらふら – 最近の研究テーマは、「パターン認識と自然言語処理の技術を用い た習熟度判定」など 2 パターン認識技術を用いた英作文の自動評価 レベル別英作文の自動分類 レベル判定に寄与する要因の特定* 6月23日(土) 電子情報通信学会 思考と言語研究会@早稲田大学で発表 3
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
(共起ネットワークの図。関連する単語がグラフネットワークで見える化されている。) 久々の更新になってしまった。今回は小生の専門であるテキストマイニングについて少しだけ。 今関わっているプロジェクトの関係でテキストマイニングをちょっとやることになった。テキストマイニングをやるためのツールは結構充実している。しかも、便利なツールがフリーで使えてしまうのである。かつては、SASのような年間数百万円もする高価なソフトを使わなければならなかったので、今はその意味でとても恵まれている。 高価なSASの代わりに爆発的に流行ってきているのがRである。このソフトはオープンソースであり、しかも最新の統計やマイニングに関する関数が素早く提供される。ある意味では既にSASよりも優れているという専門家もいるくらいだ。これを使って遊んでみない手はない。 Rを使って日本語のテキストマイニングもできるようになってきた。阪
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く