タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

形態素解析に関するtgkのブックマーク (5)

  • NLTK Bookで教師なし形態素解析 - nokunoの日記

    意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

  • 日本語形態素解析APIとマッシュアップ

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog テキスト解析API企画担当のS・Kです。 当ブログにおいて一般の開発者の皆様にYahoo! JAPANの高度な日語処理技術をマッシュアップにお役立ていただけるよう、なじみの薄い日語処理用語の解説や一般的なご利用方法をお伝えしていきたいと思います。 先日、弊社も協力企業として参加しましたMashup Award4において、Technology賞を受賞され注目を集めました「Newsgraphy」様にも日形態素解析APIをご利用いただいております。 そもそも、形態素解析とは、、 言語として意味を成す最小単位の文字列のことを「形態素」と呼び、ある文章をその形態素に分けていく解析のことを「形態素解析」と呼びます。 うーん、なんだか難

    日本語形態素解析APIとマッシュアップ
  • Yahoo!デベロッパーネットワークにテキスト解析APIが登場!

    Yahoo!デベロッパーネットワークにテキスト解析APIが登場! 2007-06-18-1 [WebTool][NLP][MECAPI][Programming] Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。 第一弾は日形態素解析APIです。 ヤフーのいろんなところに使われている WebMA という 形態素解析エンジンのAPIです。 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html MECAPI の仕様に似ていますが、まあそういうものです。 (MECAPI https://maapi.net/) で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の WebMA 版を作ってみました。「文で検索2」

    Yahoo!デベロッパーネットワークにテキスト解析APIが登場!
  • 中里一日記: コンテンツマッチエンジンを自作した

    コンテンツマッチエンジンを自作した Googleもすなるコンテンツマッチといふものを、Houndもしてみむとて、したなり。 というわけで、いまHoundの広告はコンテンツマッチになっている。マッチングのエンジンは私が作った。 自分で作って初めてわかったことを、いくつか書き留めておく。 ・広告主を働かせろ Googleのコンテンツマッチがよくマッチするのは、アルゴリズムが偉いのではない。広告主を働かせる仕組みが偉い。たくさんの広告主が頭をひねって最大の効果を狙うからこそ、あれほどマッチする。広告主を働かせずにコンテンツマッチするのは、あまりにもつらい。Amazonおまかせリンクがあまりマッチしないと評判だが、よくやっているほうだと思う。 ・作るには時間がかかる 私の後に続く挑戦者諸氏に一言。コンテンツマッチエンジンを作るのは、とにかく時間がかかる。あなたか天才プログラマでないかぎり、夏休みの

  • http://www.ryo.com/ryo/2005/06/01/39/

  • 1