ブックマーク / labs.cybozu.co.jp (8)

  • ネットで発音記号を再生させる方法

    IPAの発音記号が与えられた時に、それがどういう音なのかを個々の発音記号の知識がなくてもオンラインで調べたい、と思い、やり方を調べてみました。(ツールをインストールしても良ければ espeak でできるようです) 結論と […] IPAの発音記号が与えられた時に、それがどういう音なのかを個々の発音記号の知識がなくてもオンラインで調べたい、と思い、やり方を調べてみました。(ツールをインストールしても良ければ espeak でできるようです) 結論としては、過去にいくつかあったサイトは今は無くなっていて、昨年末に公開された Amazon Polly を使うのが良さそうに思いました。AWSのアカウントを作る必要はありますが。 Amazon Polly のコンソール版を開く。 現時点ではPollyがまだ東京リージョンにはまだ来ていないので、北米や欧州でPollyが提供されているリージョンのサービス

    ネットで発音記号を再生させる方法
  • 短すぎるショートパンツをはいてる娘への、父の体を張った教えがネットで話題に

    4人の娘、3人の息子を持つアメリカ・ユタ州の父親スコット・マッキントッシュさんのファッション英語圏のネットで話題になっています。 家族で外出しようとした時に、奥さんに「もっと長いズボンをはいて」と注意された娘が「嫌よ」 […] 4人の娘、3人の息子を持つアメリカ・ユタ州の父親スコット・マッキントッシュさんのファッション英語圏のネットで話題になっています。 家族で外出しようとした時に、奥さんに「もっと長いズボンをはいて」と注意された娘が「嫌よ」と答えたのを見てた彼は、「娘にズボンが短ければキュートというわけではない」と知ってもらいたく思って、着古したジーンズをハサミでカットし、車に乗り込んだそうです。 車に乗るときも運転中も、子供たちはみんな自分のケータイに夢中で父の着替えに気づいてなかったそうですが、日屋につく前に気づき、「なんでそんな変な格好をしてるの」といわれたそうです。日

    短すぎるショートパンツをはいてる娘への、父の体を張った教えがネットで話題に
    kana0355
    kana0355 2013/09/17
    ユタ州は割と保守だからね….
  • コメントスパムの手の内が、スパマーのミスでダダ漏れに

    Githubユーザーshanselmanさんが、「自分のブログにコメントスパムを書き込もうとしたスパマーが、バグか何かでこれを書き込んできたよ」と、スパマーが使っていたテンプレートらしきものを公開して、Hacker Ne […] Githubユーザーshanselmanさんが、「自分のブログにコメントスパムを書き込もうとしたスパマーが、バグか何かでこれを書き込んできたよ」と、スパマーが使っていたテンプレートらしきものを公開して、Hacker Newsでも話題になっています。 以下のような感じで100行以上あるのですが、 { {I have|I've} been {surfing|browsing} online more than {three|3|2|4} hours today, yet I never found any interesting article like yours.

    コメントスパムの手の内が、スパマーのミスでダダ漏れに
  • ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図

    ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図。 作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各 […] ツイッターのつぶやきの言語と座標情報を集めて、言語ごとに異なる色でプロットした世界地図。 作者はEric Fischerさん。この人は、2010年にデジカメ画像の位置情報を集めて「旅行者」と「現地人」をプロットし、世界各都市の観光地を可視化する、というのをやって話題になった人ですね。 ヨーロッパの様子。言語の切れ目でぼんやりと国境が見えてきます。 カタランとかスイスとか旧ユーゴとか、面白いですね。 こちらが日周辺を切り出したもの。 海上の座標でつぶやかれた日語のツイートがけっこうあるような。GPSの精度の問題か、漁船やフェリーとかからつぶやく人がそんなにいるの

    ツイッターのつぶやきの言語と座標から作られた、世界の生きた言語地図
  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)

    Javascript で diff というのはいくつか試された例はあるようですが、まだこれといった決定打は出ていない様子です。 実は diff は見た目ほど軽い処理ではないので、Javascript にやらせるのはこれが結構大変…… diff の計算量は、おおざっぱに言うと比較対象の要素数の二乗に比例し(実際にはそれより小さくすることができるのですが、まあ話のイメージとして)、かつメモリを大量に消費するので、バッチ的な処理に最適化されていない Javascript にはどうしても荷が重いものとなってしまいます。 比較対象の要素数を減らせば当然計算量は減りますが、行単位で比較してもあまり嬉しくない(わざわざ Javascript で処理するということは自然文が対象と思って良いでしょう)。最小の文字単位だとギブアップ。 ということは形態素解析で分かち書きして、単語単位で diff するのが J

  • キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

    いわゆる「Web2.0」っぽい要素である「タグ」。 一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。 ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。 動作要件の敷居が低い 辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる 希望の結果に近づけるためのチューニングが可能 モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます(

    kana0355
    kana0355 2007/03/27
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • 1