タグ

educationと形態素解析に関するtsupoのブックマーク (2)

  • nabokov7; rehash : 第二回SBM研究会 & 研究用データの公開方法

    December 07, 200801:35 カテゴリ公開やら広報やら 第二回SBM研究会 & 研究用データの公開方法 「事業者から見たソーシャルブックマーク」というタイトルで、第二回SBM研究会で発表してきました。 「SBM研究を加速・拡大するために−SBM事業者には何ができるのか 」というパネルディスカッションの前置きとして発表したものですので、研究者の方々にむけて「事業者からはソーシャルブックマークがどう見えているのか」を解説するのが主な趣旨になっています。 1. CGMを構成するサービス/ツールには、情報を創出する、付加価値を与える、消費する、という3つのレイヤがあります。 2. ソーシャルブックマークサービス(以下、SBM) は、このうち主に「情報に付加価値を与える」役目を担います。「付加価値」とは第三者による客観的な評価や情報間の関連づけなどで、この結果「人のつながり」と「情報

    tsupo
    tsupo 2008/12/08
    新聞の文章データを使ってチューニングされた形態素解析エンジンでは、最近のブログで使われるような生々しい、崩れた日本語文 (絵文字が句読点の代わりだったりするし!) がうまく処理できない → この辺、(略)
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    tsupo
    tsupo 2008/02/14
    HMMは形態素解析を間接的に解いていて,CRFは直接的に解いている / 「MeCabはSpotlight用日本語と中国語の解析に使われている / 彼らにとっては何も大変じゃない / 現在Webを簡単にgrepできる人は限られている
  • 1