タグ

ブックマーク / naoya-2.hatenadiary.org (18)

  • Aho Corasick 法 - naoyaのはてなダイアリー

    適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。 この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析Wikipediaはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法 任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

    Aho Corasick 法 - naoyaのはてなダイアリー
  • Apache 2.2.0 + mod_proxy_balancer - naoyaのはてなダイアリー

    Apache 2.2.0 がついにリリースされまして、かねてから期待されていた mod_proxy_balancer が安定版で使えるようになりました。mod_proxy_balancer はその名のとおり Apache でロードバランスするための proxy モジュールです。詳しい解説は yappo さんがしてくれてるのでそちらを。 実は mod_proxy_balancer 使ってみるかーと思って Apache 2.2.0 をインストールしようとしたらいきなり躓きました。APR 1.2.0 が入ってないから駄目だよ! と configure に叱られまして、でも APR 1.2.0 って Apache 2.2.0 インストールしないと入らなくね? みたいな矛盾が発生しました。なので、まず最初に srclib にある APR をコンパイル & インストールして、その後 Apache2 の

    Apache 2.2.0 + mod_proxy_balancer - naoyaのはてなダイアリー
  • 中島さんと古川さんの対談 - naoyaのはてなダイアリー

    中島聡さん の おもてなしの経営学 アップルがソニーを超えた理由 (アスキー新書) を読みました。とにかく古川さん との対談が面白い。「経営学」と題している書籍ではあるのですが、この対談の箇所だけを抜き取ると、一人のソフトウェアエンジニアがどのようにして未来を切り開いたかというエンジニア論の体をなしています。 著者の中島さんの blog ははてなブックマークでも人気エントリーの常連なので、ご存じの方も多いことかと思います。 ところで 1998 年に、マイクロソフトがブラウザ戦争 (wikipedia:ブラウザ戦争)の結果、独占禁止法で提訴されたことがありました。個人的にはネットスケープがマイクロソフトにボコボコにされて「もうやめて、ネットスケープのライフは 0 よ!」と勝敗が完全についた区切り/象徴である事件だと認識していて、当時はまだそれほど IT ビジネスに関心がなかったにも関わらず興

    shidho
    shidho 2008/03/30
    うーん。自分は古川さんの昔話は後期プロジェクトX並みの眉唾で読んでるんだけどなあ。
  • さくらインターネット移行記#2 VPN越しのMySQLレプリケーション

    前回さくらiDCに移転し始めた、ということを書いたのですが、あれから一ヶ月ちょっとが経過しましてその後も順調に iDC への移転が進んでいます。すでにラックもいくつか借りて、サーバーも数十台がさくら iDC で稼動しています。回線がこれまでよりも高速なバックボーンに接続されつつ、帯域幅も大きくなったことから、移転したサービスによってはこれまでよりもパフォーマンスが出ているサービスもあります。うち比較的大きなデータを扱うフォトライフも移転を完了していますが、おかげさまで画像の読み出しがかなり速くなったのが体感できるぐらいスループットが向上しました。 既存サービスを移転するにあたって、どういった構成でそれを行っているかをちょっと紹介してみようと思います。 移転当初は、既存のはてなのサービスとはあまり関係していないサーバー群から手を付けました。例えば広告のシステムといった、はてなのデータベースを

    さくらインターネット移行記#2 VPN越しのMySQLレプリケーション
    shidho
    shidho 2007/03/09
    参考にする(何を?)
  • naoyaのはてなダイアリー - 負荷とは何か

    調べごとをしたので blog に書いて理解を深めようのコーナーです。長文です。 Linux でシステム負荷を見る場合にお世話になるのが top や sar (sysstat パッケージに同梱されてるコマンド) などのツールです。 top ではシステム統計のスナップショットを見ることができます。今システムがどういう状態かなーというときは top が便利。 top - 08:16:54 up 3 days, 14:43, 6 users, load average: 0.18, 0.07, 0.03 Tasks: 43 total, 2 running, 41 sleeping, 0 stopped, 0 zombie Cpu(s): 18.2% us, 0.0% sy, 0.0% ni, 81.8% id, 0.0% wa, 0.0% hi, 0.0% si一方の sar では10分ごとのシ

    naoyaのはてなダイアリー - 負荷とは何か
    shidho
    shidho 2007/02/23
    聞いても理解出来ないのにブクマ。
  • naoyaのはてなダイアリー - 大規模サービスを展開する企業が陥るジレンマ

    このところ大きなサービスを持ってる大きな企業が運用するウェブサイトについて考えることが多かったので、ちょっと書き殴ってみるとします。 一見すると大企業ってのは人もたくさんいるし資金もたくさんあるし、小さな企業と競争になっても、簡単にそれを踏みつぶしてしまえるような印象を受けます。いやいや、そんなに簡単じゃないんだよっていうのがイノベーションのジレンマであり、大企業病のジレンマであり。で、ウェブの企業にもう一つ当てはまるジレンマがあるなあと最近思います。 はてなダイアリーのキーワードページに、Yahoo! ニュースのトピックページからリンクされることがあります。そのニュースが Yahoo! Japan のトップページに載ってたりするものだと、キーワードページへの瞬間最大トラフィックが恐ろしいことになります。最近は対策を練ったので問題ないのですが、一時期は Yahoo! トップに載ってるニュー

    naoyaのはてなダイアリー - 大規模サービスを展開する企業が陥るジレンマ
    shidho
    shidho 2006/10/26
    コメント欄の人ははてなの人と飲んだことがあるそうだ。
  • Flickr の認証API - naoyaのはてなダイアリー

    認証API をどうするか、ということで数名のスタッフであれこれ話ながらやってます。 まず、はてなの認証APIを使って何ができるといいのかというところですが、はてなラボをオープンしたときにいただいた意見などを見ると、「はてなAPIで認証付きのをセキュアに利用するための API」というより「サードパーティのアプリケーションではてなIDでユーザーを識別できるためのAPI」の方が求められているという風に思いました。 具体的には、新規にユーザーを識別する必要のあるアプリケーション、例えば掲示板などを作るとして、その掲示板のユーザーを一意に識別する方法としてはてなIDを使いたい、そのIDが当にその人のものであるかどうかをはてなが保証する、その保証を問い合わせるための API ですね。その掲示板でログインして何かを書き込むと id:naoya、と表示されると。 この手の認証APIを提供しているサービ

    Flickr の認証API - naoyaのはてなダイアリー
    shidho
    shidho 2006/10/19
    結局認証APIを検索するとこのページにたどり着いてしまう。
  • naoyaのはてなダイアリー - Perl で CSS セレクタ

    rubyスクレイピングして web の情報を取得するのには、今まで正規表現か xpath でやってたので、わりと面倒でした。で、ふと scrAPI というスクレイピングツールキットを知ったのですが、これがかなり便利そう。 このツールキットを使うと、CSS3 なセレクタを記述することで、要素を取得することができます。 という Ruby の scrAPI での CSS セレクタがいい感じでございますなあと指をくわえて見てたんだけど、 Per discussions in CSS Selector in Perl, I made a quick perl module HTML::Selector::XPath, which is available at http://svn.bulknews.net/repos/public/HTML-Selector-XPath/trunk/ now.

    naoyaのはてなダイアリー - Perl で CSS セレクタ
    shidho
    shidho 2006/10/05
    ほう。
  • naoyaのはてなダイアリー - テレビを見ない人、見る人 - コメント欄

    大橋 その見方は、すごく皮相的だよ。(米国では)ビル・ゲイツもブッシュ家も、ニュースやスポーツ中継以外、テレビなんか見てませんよ。(日も)勝ち組とか金持ちとかインテリがテレビを見なくなっただけなんですよ。負け組、貧乏人、それから程度の低い人が見ているんです。 大橋巨泉がこんなこと言ってて、はてなのスタッフもテレビを観てる人はすくないし(僕もほとんど観ない)、まあ id:wanpark みたいな例外もいるけど彼もバラエティとかはほとんど見ないらしい。 僕の周りで優秀な人はテレビを持ってないという人がすごく多くて、ああ、もしかしてテレビを観ないっていうのとアウトプットが出せるっていうのは相関があるかもなあという風に思うことは多いんだけど、 「家族もいれば仕事もでかい。どうやって時間管理を?」「テレビは見ない」やっぱりそうかー。でもなー、すげーテレビ見てるけどアウトプットもすげー人もいるしなぁ

    naoyaのはてなダイアリー - テレビを見ない人、見る人 - コメント欄
    shidho
    shidho 2006/02/17
    インプットの許容量だったりしないかな。
  • naoyaのはてなダイアリー - サーバーを増やせばいいんじゃない、サーバーを増やすだけで解決できるように努力するのだ

    ライブドアの技術の話について書いた、その記事のコメント欄。最初は感情的な批判などがあって話題とは別の方向で炎上し気味だったんでうーんと思ってたんですが、後半になってきて少し面白い議論が出てきました。 こんな反応があった。 アクセス数が増加している段階で、ApachやAppServerのスレッド数をいじろうが、ヒープサイズを増やそうが、DBのパラメータをいじろうが、はてまたアプリを書き直そうが、性能要求にミートするには相当のワークが発生しますし、どう最適化、チューニングしても追いつきません。そのようなチューニングにお金をかけるならサーバーを追加したほうが安く上がるのではないかと思うのですが、如何でしょう? それに対する僕の返信は、 確かに何千万もするファイルサーバーとか、ロードバランサーとかで問題が解決できる機会っていうのは存在すると思います。なので ”負荷が高ければ、結局サーバーを単純に増

    naoyaのはてなダイアリー - サーバーを増やせばいいんじゃない、サーバーを増やすだけで解決できるように努力するのだ
    shidho
    shidho 2006/02/10
    スケーラブルにするのは難しい。確かに。考えたこともない。
  • naoyaのはてなダイアリー - ライブドアの技術の話

    今回のライブドアの件で、「ライブドアは虚業」、とか「日のネット企業は心を改めて技術を磨け」みたいな論調を良く見かけるわけですが。 いずれ誰かが書くだろうと思っていて、やっと出てきたライブドアの技術の話。 ライブドアが意外と技術系っぽいことについて - 圏外からのひとこと ライブドアが普通に技術系であることについて - 圏外からのひとこと ライブドアの直近の財務諸表なんかを見ると確かに証券周りなどの売り上げの占める割合が多かったりもしますが、その企業の設立当初から今に至るまでその屋台骨を支えてきたのは間違いなくライブドアが持っている確かな技術で、日のウェブ関連企業の中でもその技術レベルの高さは、その辺でなんとか 2.0 だとか声高に言ってる企業なんかよりも遙かに高いと思ったほうが良いでしょう。 圏外からのひとことの中で示されていたポインタ以外にも、最近の取り組みは以下のリンクが参考になる

    naoyaのはてなダイアリー - ライブドアの技術の話
    shidho
    shidho 2006/01/27
    とすると、ブログの設備移転がうまくいかなかった件はどう考えればいいのかしら。
  • TinyMCE JavaScript Content Editor - naoyaのはてなダイアリー:

    とある友人に教えても経ったTinyMCEという WYSYWIGWYSIWYG な HTML エディタライブラリがやばそう。 JavaScript で記述された LGPL でオープンソースな クロスプラットフォームの 多言語対応もしてて 簡単に使える ライブラリ。似たようなものに htmlArea というのがあって結構昔に話題になってたんですが、導入がめんどくさかったりブラウザによってはまともに動かなかったりとか色々面倒な感がありました。TinyMCE の方はと言いますと、Installation instructions にもあるとおり、 <html> <head> <title>TinyMCE Test</title> <script type="text/javascript" src="/js/tiny_mce/tiny_mce.js"></script> <script type=

    shidho
    shidho 2006/01/23
    ふうむ。
  • 見慣れない場所の物語 - naoyaのはてなダイアリー

    「ここは見慣れない場所だね」 「そうですね」 「どうしようか」 「どうしましょうか」 「ちょっと周りを見てくるね」 「ありがとう。お願いします。」 「見てきたよ」 「どうでした?」 「怖いモンスターもいたけど、面白そうなものがたくさんあったよ。」 「怖いモンスターがいたのですか、それは怖いですね」 「怖いモンスターはいるけど、それより面白いものがいっぱいあったんだ。」 「怖いですねえ」 「もう少し詳しく知りたいね、もう少し見てくるね」 「ありがとう。お願いします。」 「もっと見てきたよ。」 「どうでした?」 「危ない罠もいっぱいあったけど、当のことがいろいろ分かったよ。」 「危ない罠があるんですか、それは危ないですね。」 「でも、当のことがわかるよ。」 「危ない、危ない」 「あちら側には、面白くて、楽しいこともあるし、当のこともわかるんだ。」 「でも、危なくて、怖くて、うそもたくさん

    見慣れない場所の物語 - naoyaのはてなダイアリー
    shidho
    shidho 2005/11/07
    君が向こうに行ってから、僕に嘘や罠ばかり仕掛けるようになった気がするよ。
  • 日経ビジネスの Amazon/Google の記事の感想 - naoyaのはてなダイアリー

    今年9月、戦後日の流通革命を主導したダイエー創業者、中内功氏が世を去った。大量生産、大量販売で大衆を煽るマス経済は終わり、消費者一人ひとりを個人名で呼び、その人のためにカスタマイズした製品、サービス、情報を提供する「ナノ経済」が始まった。 会社でたまたま目についた日経ビジネス、表紙にでかでかと「グーグル」「アマゾン」なんて書いてたものだから、気になって読んでみました。 先日 Amazon のIR発表で、日における Amazon の売上高、つまりは Amazon.co.jp の売上高が Amazon 全体の 10% 以上あると発表されました。それを受けての分析がなされてる記事で、単純計算でも Amazon.co.jp の売上高は 800 億円に達し、結果 450 億円強の楽天にも大差をつけている、との話。それから紀伊国屋の売上高(1,184億円)との比較もあったりして、よくまとまっている

    日経ビジネスの Amazon/Google の記事の感想 - naoyaのはてなダイアリー
    shidho
    shidho 2005/11/05
    あーごめん、俺送料が無料だからAmazon使ってる。他が無料にしたら乗り換えるよたぶん。
  • Amazon.co.jp の発売日前のゲームのレビュー - naoyaのはてなダイアリー

    ワンダと巨像の発売日を楽しみにしている一ゲーマーなわけですが。 http://www.amazon.co.jp/exec/obidos/ASIN/B00064A8G6 ・・・おまえら一回プレイしてからレビューしる!! (ノ`Д´)ノ というか、アマゾンさんにはぜひ発売日前にレビューを投稿できないようにシステムを変更していただきたい! (Amazon.co.jp への要望) もうね、やってもいないゲームに、発売日前にですよ、前作が面白くなかったからとか動画がいまいちだったからとか、キャラデザが変わったからとかそういうのでしょぼい点数つけられてもたまらんわけですよ。開発者のみなさんが泣いているよ!

    Amazon.co.jp の発売日前のゲームのレビュー - naoyaのはてなダイアリー
    shidho
    shidho 2005/10/21
    どうも、ある一定以上の「参考にならない」は無視されているようなきがしたりして。
  • NDOメソッド - naoyaのはてなダイアリー

    プログラムを作ってみて途中でわからないことがあったらソースを公開して質問してみる 調べことをしてみてわからないことがあったので、調べごとした内容をサマリして掲載してわからないところを質問してみる 勉強してからじゃなくて勉強しながら学んだことを書いてみる というのをNDOメソッドと言います。というか言われました。要は give and take というやつです。時間をかけてプログラムを書いたり、調べごとをした、その結果を世の中に還元しているからこそ質問に回答をしてくれる白馬の王子様が現れるかもしれないというわけです。 必要に迫られてそれを解決し得るかもしれないモジュールを思いつきのままに書いてみたけれど、どうもうまくいかんなー、どうしよう……こりゃぁお蔵入りネタになりそうだ……でももったいないなぁ。じゃぁとりあえずわからないままにエントリとして投げたりしたら Perl ハカーな方がいい方法を

    NDOメソッド - naoyaのはてなダイアリー
    shidho
    shidho 2005/09/09
    これはプログラム分野限定にしてほしいメソッド。社会科学でやられると似非論説がはびこる。
  • naoyaのはてなダイアリー - Perlプログラマのレベル10 - Perlプログラミング救命病棟より

    プログラマ、と一言で言っても、if文の意味をようやく理解したばかりの駆け出しのプログラマもいれば、汎用的で優れたライブラリを量産できるような凄腕のハッカーもいる、つまりはピンきりです。 Perlプログラマに関してはどうでしょう。一流のPerlプログラマになるためには、見えない階段があるようです。use strict を使い始めたらその階段を一歩上ったと言えるでしょうし、正規表現を理解したときも一段あがることになると思います。リファレンス、クロージャ、オブジェクト指向、CPANモジュール、mod_perl、MVCフレームワーク。それらも階段を構成する材料の数々と言えるでしょう。 さて、Perlプログラミング救命病棟という書籍から、ちょっと長いですがそんなPerlプログラマのレベル10のリストを引用してみます。 レベル1: Perl 関係の書籍や資料を何も読んでいない。Perl がプログラミン

    shidho
    shidho 2005/08/09
    レベル7までなら誰でもいけるような。問題はその先だ。
  • はてなマップのRSS - naoyaのはてなダイアリー

    Google Maps の日対応が始まったこともあるし、サービス開始から一週間で大きな update もないわけにはいかないだろう、ということで今日はエンジニアチーム一丸となってはてなマップの機能強化を行いました。僕はトラックバックの機能を作っていました。アップデートの主な内容ははてなマップ日記をご覧ください。 このアップデートの中で、マップのRSSフィード配信なんてものもあります。 日、はてなマップにおいて、表示中の地図上に含まれる各種拠点情報を含んだRSSの配信を開始しました。 地図にRSS、と聞いただけだと何だか不思議な感じでイメージし辛いのですが、使ってみるとすぐにお分かりいただけるかと思います。そのときマップを表示している範囲内の新着情報を、RSS で受け取れる、というものです。例えばはてなオフィス周辺の情報はこんな具合で syndicate されてます。 RSS の中には

    はてなマップのRSS - naoyaのはてなダイアリー
    shidho
    shidho 2005/07/15
    実際これを何に活かすかなんだよなあ。
  • 1