新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
さて、前稿でモジュールの準備ができたのでPerlからGmail経由で添付ファイルを送る。 #!/usr/bin/perl use lib '/home/xxxxxxxx/local/lib/perl5'; use Jcode; use Net::SMTP; use Net::SMTP::SSL; use MIME::Entity; my $smtp_server = 'smtp.gmail.com'; my $smtp_port = '465'; my $smtp_acc = 'gmail@example.com'; my $smtp_pwd = 'password'; my $mail_to = 'to@example.com'; my $mail_bcc = 'bcc@example.com'; my $mail_from = 'from@example.com'; my $mail_
クラウドと一緒にやってきたもの 最近、クラウドが流行ってます。 GoogleのMapResuceから始まって、MicrosoftのAzureまで、大手のクラウド製品が出揃った感じ。 で、そこで、こんなクラウド製品が出ましたというときに、必ずといっていいほどそのクラウド用のデータベースの説明があります。そして、それはRDBMSではありません。 GoogleだとBigTable、MicrosoftだとSQL Data Services、あとはAmazonのSimpleDB。どれも、基本的にはひとつのテーブルにハッシュコードでアクセスするようになっています。 ほかのクラウド製品も、Oracle Coherenceだったり、楽天のRomaだったり、非RDBMSのデータストレージを提供します。 クラウドというわけではないけど、mixiのTokyo TyrantやApache CouchDBも、RDB
50行PHPスクリプト1枚 だけ で動かす超シンプルチャット - 肉とビールとパンケーキ by @sotarok ってあったので、半年前作って*1忘れてたのをアップ。 ポイントってほどでもないが携帯対応。ただ、mod_rewriteを使うので.htaccessも必要。なんでこんな仕様にしたかは忘れた。 あと、仕様として TSV形式の設定ファイル重要 TSV設定ファイルのファイル名を知らないとアクセスできない 逆にURLさえ知ってれば管理者権限(だから、仲間内うちでしかできない) あまりに単機能なので脆弱性とか無いはず(仕様を守ってる限り)*2 サンプル http://www.junoe.jp/m/itoh/tasks/sampleevent .htaccessは http://www.junoe.jp/m/itoh/tasks/.htaccess において、 RewriteCond %{R
■2005.07.17(Sun) PHP と Web アプリケーションのセキュリティについてのメモのSession Fixation を起こす方法 に少しだけ追記しました。 wwwcheck.php で PHP 4.4.0 でリファレンス関連のエラーが表示される問題に対応しました。 *セッションハイジャック対策 本当にセッションハイジャック対策になるのかは分かりませんが、興味深いのでメモしておきます。 Chris Shiflett: PHP Security Forum で知ったのですが、Question about session hijacking の議論でWeb アプリケーションへのアクセス中に User Agent や Accept Charset などの HTTP ヘッダ文字列を変更するような人はほとんどいないという事を利用して、以下のような関数が挙げられていました(この関数はセ
数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も
先日の 第3回PHP懇親会に行ってきた で「PHPで書くとシンタックスが長ったらしくて嫌だ」ということを書いたら、いくつかフィードバックがあったので乗ってみる。 Perlの「$hoge =~ s/^Hoge/Fuga/」という書き方に対して、PHPの「$hoge = preg_replace('/^Hoge/', 'Fuga', $hoge)」だと検索できるから初心者が迷わないメリットがあるよ、というお話。 略称ゆえの大きなデメリット - よくきたはてダ まぁ、プログラミングは慣れとか知ってるだけの問題が大きいとは思いますが - それ図解で。・・・tohokuaikiのチラシの裏 あと、id:clonedからも同様のブクマコメをもらってた。 前のエントリでは書いてなかったけど、そういう初心者へのサポートを心掛けるのがPHPの思想という話はその場でid:koyhogeさんともしてました。それ
ThinkITでモバイルサイト制作特集が組まれています Tweet 2008/10/7 火曜日 matsui Posted in ニュース, 記事紹介・リンク | 1 Comment » ThinkITの10月の特集として「モバイル向けサイト制作」特集が組まれています。 → ThinkIT モバイル向けサイト制作 [thinkit.co.jp] 執筆陣もかなり豪華な顔ぶれとなっています。 今から始める携帯サイト制作 著者:柴崎 正也氏 第1回 携帯サイトとPCサイトはここまで違う! 第2回 携帯サイトの制作から公開まで 第3回 3キャリア対応サイトを作るには(仮) 第4回 携帯サイトならではのユーザビリティ向上(仮) 携帯サイトをテストする方法 著者:荒木 稔氏 第1回 携帯テストの基本をおさえる 第2回 PCブラウザで携帯サイトのテストをする(仮) 第3回 携帯シミュレーターを使いこなす
Introduction to Information Retrieval 輪読会 12章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_12.ppt 12章は、は "Language models for information retrieval" ということで、確率的言語モデルを情報検索に適用する話でした。 確率的言語モデル 確率的言語モデルとは、自然言語を数学的に扱うモデルに単語列、文字列が起こる確率を与えたものです。例えば "frog said that toad likes dog" という単語列 s があったとして、それぞれの単語の生起確率が与えられているとします。 frog said that toad likes that dog M1 0.01 0.03 0.04 0.01 0.02 0.04
こんにちは!やまもと@テスト番長です。 今回は自分が普段チェックしている、ソフトウェアテスト系のサイトを色々ご紹介してみようと思います。既にご存知のサイトもあるかと思いますが、宜しくお付き合いください。 swtest.jp/wiki http://www.swtest.jp/wiki/index.php?swtest.jp/wiki 最近wiki化され、情報更新が活発になっています。必見です。 StickyMinds.com http://www.stickyminds.com/ コラムなどの読み物が充実しています。 Google Testing Blog http://googletesting.blogspot.com/ グーグルのテストチームのブログです。面白くないはずがありません。 Open source software testing tools http://www.
森川です。 巷ではエイプリルフールネタがおさかんですが、普通にデータベースのモデリングツールの紹介です(エイプリルフールネタが思いつかない…)。 普段MySQLならDBDesigner4、PostgreSQLならClayを使用しているのですが、他に何かよいツールはないものかと調べてみました。 Clay 言わずと知れた?モデリングツールです。Eclipseのプラグインで、無償でも使用可能です。MySQL、PostgreSQLで使用可能です。 無償版ではER-図や、DB定義書を出力できません。対応するDBが少なかったりもします。 個人的には、PostgreSQLを使用する場合によく使います。外部キー制約などにも対応しているのでそれほど困りません。 リバースエンジニアリングに対応しているのも気に入っている理由の一つです。 ちなみに、リバースエンジニアリングをするにあたってPostgreSQLのJ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く