You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
Dance Party 上の画像のように,tagthenet.net でページを解析して重要そうな単語をサジェストとして追加してくれるGreasemonkeyスクリプト。 使えるかどうかは,tagthe.netの精度がどの程度かによるね。 参考 tagthe.netのAPIについて 追記 Operaで動くUserJavascriptを作った。全く同じじゃないけど。OperaのGMなんちゃらっての動かすためのuserjsを入れると元のスクリプトでも動くのかなぁ。 http://www14.plala.or.jp/operairc/customize/userjavascript/deliciousTagtheNet.js
Welcome to tagthe.net! This is a simple webservice that helps you in tagging textual content on and off the web. There are two ways of using it: by simply pasting a URL or a text in the fields below or uploading a file by using the REST API tagthe.net then returns a set of tags based on the textual content you specified. The service is mainly designed for developers, building applications that mak
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く