Google 日本語入力のソースコードが公開されたらしい。Mozc (もずく)という名前だそうで。オフィシャルブログだけではなく、Twitter でもものすごい勢いで伝播していたようだが、すごい食いつきである。そして、公開されるやいなや読んだ人もたくさんいるようで、そちらもすごいなと思う。日本語入力エンジンのソース読む人なんて、ほとんどいないと思っていたのだが、逆にこんなに日本語入力って注目されるんだ、と嬉しい気持ちである(でも日本語入力エンジン作る人が増えたりはしないのかもしれない)。 そんな感じでいち早くソースコード読まれた @tkngさんがMozc(Google日本語入力)のコードを読んだメモを公開してくださった。ありがたい。変換アルゴリズムは、挙動から考えてそうだろうな、と思っていたのと同じだった。変換履歴を用いたリランキングをするところがなかなか難しいのだが、@tkng さんも手
Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし
Google日本語入力がOSS化されたということで、気になっていたところをいくつか確認してみた。 変換アルゴリズムはどんな感じか? twitterの工藤さんの発言にも「わりと古典的な最小コスト法」とあるけれど、まさにそんな感じ。人名の処理とかでちょっと特別なコードが入ったりもしているが、ほぼ基本的な統計的かな漢字変換のモデル。係り受けの情報とかは使っていない。Viterbiでベストパスを求めて、品詞ベースで文節にまとめあげている。コストモデルは接続コストが品詞対品詞で、単語コストの方は単語毎に設定されているっぽい。 src/converter/immutable_converter.ccのImmutableConverterImpl::ViterbiがViterbiアルゴリズムの部分で、その後にMakeSegmentsで文節にまとめている。読むならImmutableConverterImp
google ime (mozc)のソースコードが公開されました。 http://code.google.com/p/mozc/ http://codezine.jp/article/detail/5174 http://googlejapan.blogspot.com/2010/05/google_10.html なんで、早速ソースコードを探検してみた。 google のスーパーハカーはどういう楽しいコードを書いているのか興味津々です。 #まだすべてのソースコードに目を通していないです。 1.CallOnce という CASで実装された楽しい関数 base/mutex.cc に、 CallOnce という 大変ユニークな関数があります。 void CallOnce(once_t *once, void (*func)()) { if (once == NULL || func == NU
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
Tech Talk in 関西: Google 日本語入力を支える情報処理技術 (学生向け)のお知らせ (1 月 30 日) ちょうど前回のパターン認識の講義で統計的言語モデルを扱っていたので、これは聞きに行くしかない!と何も考えずに行ってきました。 以下、走り書きメモを若干補完したものです。 私が興味をもった質問に対する回答も該当場所に埋め込みました。 誤りがあれば指摘してくださると有り難いです。 概要紹介 内部設計 IMは複雑(Officeソフト並?) たくさんのコンポーネントからなる これまでの一般的な実装 - As DLL 各アプリにロード アプリ毎にOfficeソフトがくっついているようなもの 辞書は共有リソース 排他制御が必要 (弱点1)クラッシュに弱い IMが落ちるとアプリも落ちる。逆も然り 辞書にアクセス中だった場合辞書も破壊 (弱点2)セキュリティ問題 ログオン時etcで
Google日本語入力の、公式技術講演会に行ってきた。その次第を書きたいと思う。 今回の会場は、なんと大阪である。そのため、私のように関西圏に住んでいる人間には、参加しやすい。 まず、京都から大阪へ行く。いつも思うのだが、大阪の都市部は、まるでダンジョンだ。地上と歩道橋と地下道があって、一体どこを進んでいいのやらさっぱりわからない。大阪の立体構造を再現して、ゲームとして売り出せば、案外ヒットするのではなかろうか。 さて、受付の始まる時間になったので、会場に向かう。なんと、すでに長蛇の列であった。早くも失敗したか。もっと早くから来ていれば、前の方に座れたかもしれない。軽く失望しつつ受付を済ませると、なんと、一番前の席が、二席だけ開いているではないか。知っての通り、私はそういう性格なので、迷わず一番前に座った。ちなみに、隣の席は空いていたが、何故か誰も座ろうとしなかった。こういうのは、だいぶ性
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く