タグ

Internetとテキスト抽出に関するtsupoのブックマーク (2)

  • Webとコーパス 第二回「英語例文検索 EReK」

    Webとコーパス 第二回「英語例文検索 EReK」 2007-09-03-1 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いています。 今回は手前味噌ながら EReK (http://erek.ta2o.net/)を取り上げます。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供しています。そちらでもお楽しみ下さいませ。 - ウェブコーパス徹底活用 第二回「英語例文検索 EReK」」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第二回「英語例文検索 EReK」 ウェブ検索で英単語英語表現を検索し、 実際の使われ方を調べるという行為は、 ウェブ検索が登場した当初から盛ん

    Webとコーパス 第二回「英語例文検索 EReK」
    tsupo
    tsupo 2007/09/04
    EReK する → EReKing エレキングだ!! みたいな // Web上のテキストデータをコーパスとして見る / 入力された英語表現(キーワード)の実際の使われ方を提示するサイト / KWIC とは "KeyWord In Context" の略
  • MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される

    MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
  • 1