タグ

blogに関するUDONCHANのブックマーク (7)

  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • はてな記法一覧 - はてなダイアリーのヘルプ

    このページでは、はてなブログで使用することができるはてな記法の一覧を紹介しています。 入力支援記法 自動リンク はてな内自動リンク 入力支援機能 関連 入力支援記法 記法名 書式 機能 大見出し記法 *~~ 日記に大見出し(h3)をつけます 中見出し記法 **~~ 日記に中見出し(h4)をつけます 小見出し記法 ***~~ 日記に小見出し(h5)をつけます リスト記法 -~~ --~~ +~~ ++~~ リスト(li)を簡単に記述します 定義リスト記法 :~~:~~ 定義リスト(dt)を簡単に記述します 表組み記法 | ~~ | ~~ | |*~~ | ~~ | 表組み(table)を簡単に記述します 引用記法 >> ~~ << 引用ブロック(blockquote)を簡単に記述します pre記法 >| ~~ |< 整形したテキストをそのまま表示します(pre) スーパーpre記法 >||

    はてな記法一覧 - はてなダイアリーのヘルプ
  • ブログの文体で書き手の性別を自動判別、リクルート子会社が広告配信に応用

    リクルート子会社のブログウォッチャー(東京・港区)は、2008年2月をメドに、「プロファイルパスポート」システムを稼働させる。ブログやSNS(ソーシャル・ネットワーキング・サービス)といったCGM(消費者発信型メディア)に書き込まれた文章を基に、インターネット利用者の行動を解析し広告配信などに活用するものだ。 独自の日語解析技術で、CGMの文章から書き手の属性や行動パターンを解析。これを、プロファイルパスポートに対応したゲーム占い、アンケートサイトなどから得た情報と組み合わせて、CGMの書き手に合った広告を配信する。 例えば、「自分のブログに『高級レストランAがおいしかった』と書き込んでいて、かつ、相性占いで恋人の誕生日を入力し、かつ、情報配信を許諾している」人に対象を絞って、「競合の高級レストランBの記念日特別メニュー」の案内を配信できる。誕生日などの個別登録された定型情報だけではな

    ブログの文体で書き手の性別を自動判別、リクルート子会社が広告配信に応用
  • 新公式:儲かるWebサービス≒はてブされにくいサービス - VENTURE VIEW

    人気の記事 1「Files by Google」、文書を簡単にスキャンできる新機能を追加 2024年03月08日 2「シャニマス」6thライブツアー大阪公演で見た“音楽を楽しみ笑顔を咲かせるステージ” 2024年03月10日 3AIスマホのデモで実感した「スマホアプリが消える」未来 2024年03月09日 4注目を集めるスマートリング--新たな定番フィットネストラッカーとなるか 2024年03月08日 5「Nothing Phone (2a)」--スタイルよりスペック重視の新型スマホを写真で確認 2024年03月08日 6楽天の株価に連動して「楽天ポイント」が増減する新サービス 2024年03月05日 7三重交通キャラ炎上に学ぶ、「萌え絵」の扱いの難しさ--批判だけでなく擁護の声も 2024年03月09日 8創作活動に使える、架空の人名を作成できるジェネレータサービス5選 2016年02月

    新公式:儲かるWebサービス≒はてブされにくいサービス - VENTURE VIEW
  • ウィキペディアのラルクの項にハイドの身長は156cm、と書くと数時間以内に消される|笑える一言

    Wikipedia という、自由に編集できるネット百科事典での攻防の様子。 ライブ感覚でお楽しみ下さい。 348 名前:番組の途中ですが名無しです[] 投稿日:2006/01/10(火) 19:47:09 ID:+sdhsVLk0 ウィキペディアのラルクの項にハイドの身長は156cm、と書くと数時間以内に消される http://ja.wikipedia.org/wiki/%E3%83%A9%E3%83%AB%E3%82%AF 祭りはこの一言から始まった。 490 名前:番組の途中ですが名無しです[] 投稿日:2006/01/11(水) 10:27:43 ID:S/s9kOx70 >>404 ヤター\(^o^)/ もう消されたよ! 492 名前:番組の途中ですが名無しです[sage] 投稿日:2006/01/11(水) 10:40:46 D:Okqhw+TX0 >>490 書き直してあるー

  • アルファなんて必要ない--無個性なブログサービス「sa.yona.la」

    ハートレイルズは7月18日、徹底的に個性を排したブログサービス「sa.yona.la」を提供開始した。利用するにはOpenIDが必要だ。 sa.yona.la は、さまざまな制約をユーザーに課すことで、自由な発言やコミュニケーションを促そうとしている。制約とは具体的には下記のようなものだ。 ブログのアカウント名を指定できない ブログのタイトルを指定できない ブログのデザインをカスタマイズできない エントリーの内容以外でユーザーを差別化する方法がない。ブログタイトルはユーザーアカウントと同一になるが、そのアカウント名すら自分で指定できない。こうした仕組みによって、ブログに個性を求められることからユーザーを解放するのだという。 今後はモバイル端末向けの機能も拡充していくという。 sa.yona.laトップページにはすべてのユーザーのブログエントリーが更新順に並ぶ。投稿者のアカウント名をクリック

    アルファなんて必要ない--無個性なブログサービス「sa.yona.la」
  • Feature Column from the AMS: Pagerank

    Imagine a library containing 25 billion documents but with no centralized organization and no librarians. In addition, anyone may add a document at any time without telling anyone. You may feel sure that one of the documents contained in the collection has a piece of information that is vitally important to you, and, being impatient like most of us, you'd like to find it in a matter of seconds. Ho

    Feature Column from the AMS: Pagerank
  • 1