はてな日記キーワードの自動リンクって、どういうアルゴリズムでやってるんだろう?と思いググって見たところ、そのものずばりなページを見つけました。 はてなダイアリーキーワード自動リンクAPI http://d.hatena.ne.jp/hatenadiary/20040205/1075960162 なんと正規表現でやってるそうな。これは簡単そう。。。と思ったので、ちょっと手元のcsvを使って実験してみました。 こんな感じの辞書ファイルと、 dict.csv ---------------- 0001,はげ,hage 0002,ほげ,hoge 0003,ほが,huga こんな感じのデータファイルがあるとします。 data.csv ---------------- hage.txt,1,hage,誰がなまはげだ hoge.txt,2,hoga,彼はほがらかだがはげだ hoge.txt,3,hoge