[B! 本文抽出] AOI-CATのブックマーク

AOI-CAT id:AOI-CAT

本文抽出に関するAOI-CATのブックマーク (3)

Kansai.pm #11 HTMLからの本文抽出 - taraoの日記
CPANのHTML::ExtractContentについて発表。発表資料： HTMLからの本文抽出 from Lintaro Ina 記事の表示モードを変更したせいで表示されなくなってしまったブクマ:
AOI-CAT 2011/08/10
本文抽出
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
AOI-CAT 2011/08/10
本文抽出
リンク
CRF を使った Web 本文抽出 - 木曜不足
とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。お疲れ様でした＆ありがとうございました＞各位会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web 本文抽出ネタを焼き直し＆プチバージョンアップして発表した。その資料がこちら。 CRF を使った Web 本文抽出 View more presentations from Shuyo Nakatani 最初は、元の資料そのまま持って行こうかな、と思っていたのだけど、結局結構それなりに改訂版に。実装の方も少し更新してあって、最急降下法＋FOBOS L1 に対応していたり、素性も約３倍に増えていたり。データは……相変わらず少ないけど(苦笑)、訓練データとテストデータを分けて、定量的な結果を資料にま
AOI-CAT 2011/08/10
本文抽出
リンク
1