タグ

textに関するnilabのブックマーク (12)

  • zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

    エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム 適当な文章を入力してください。 注意点 サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に

    nilab
    nilab 2006/12/15
    zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN
  • http://labs.keywalker.jp/

    nilab
    nilab 2006/12/07
    キーウォーカー・ラボ - KEYWALKER Labs:次世代解析・検索機能の実験室です。 当社では開発を進めてきた日本語自然文意味検索・解析技術
  • NExT - NE Tagger

    概要 Abstract 【主な特徴】 Named Entity Extraction Tool(以下NExT)は、固有表現抽出ツールです。 大量のテキスト文書情報に含まれる人名、組織名、地名、数量表現を自動的に判別し、 様々な形式で抽出・タグ付けします。NExTは、 形態素解析処理済のテキスト情報を入力とすることで、より精度の高い処理が可能です。 現在は、茶筅(ChaSen Ver.2.02[Matsumoto1998], chasen-2.3.0[Matsumoto2003])および Juman version 3.0[Kurohashi1996]の形態素解析システムの処理結果が利用可能です。 NExTは、 Perl で記述しています。NExTは、NExT開発 Project によって開発されています。 NExTは、Perlが動作する環境であれば、UNIX, Win32, OS/2 を

    nilab
    nilab 2006/11/28
    NExT - NE Tagger : Named Entity Extraction Tool(以下NExT)は、固有表現抽出ツールです。大量のテキスト文書情報に含まれる人名、組織名、地名、数量表現を自動的に判別し、様々な形式で抽出・タグ付けします。NExTは、 形態素解析処
  • 新方言時代〜「小さい“お”」って何?

    金川 欣二:マックde記号論(言語学のお散歩) 新方言時代〜「小さい“お”」って何?   ふるさとの訛りなくせし友といてモカ珈琲のかくまで苦し -----寺山修司 いまや、標準語は政治を語ることばに堕してしまい、「人生を語る言葉は方言しかなくなってしまった」のである。 -----寺山修司『両手いっぱいの言葉』から 東京へ行って「氷水」を頼んだら、氷の入った水が出た。「かき氷」といわなければならなかった。 大阪へ行った時のことである。電車に乗るとドアに「指つめ注意」と書かれていて怖くなった。これはきっと、指をつめたヤーさんが多くて注意しろ、という意味だと思った。関西はものの言い方が直接的で、動物園でも関東なら「エサを与えないでください」と書いてあるところが、神戸の動物園などは「噛みます」とだけ書いてある。 それからモータープールというのがたくさんあってモーターで水がぐるぐる動いている回流

    nilab
    nilab 2006/11/21
    新方言時代~「小さい“お”」って何?
  • NTTデータが全文検索エンジン「Ludia」をオープンソースとして無償公開:ITpro

    NTTデータは10月11日,同社が開発した全文検索エンジン「Ludia」をオープンソース・ソフトウエアとして無償公開した。オープンソースのDBMS PostgreSQLに格納されたテキスト・データの全文検索を行う。同社では「商用のデータベース管理ソフトに匹敵する速度と精度を備える」としている。 NTTデータでは「データベース内のデータの全文検索ではこれまで,オープンソース・ソフトウエアでは日語に対応した高速・高精度なものが存在せず,データベースからデータを取り出し別のシステムを構築する必要があった。Ludiaは商用のデータベース管理ソフトに匹敵する速度と精度を備える」としている。 Ludiaは,N-gramと形態素解析の2種類の全文検索インデックス方式をサポートする。ブーリアン検索,近傍位置検索,類似文書検索といった検索が可能で,検索結果の合致度を示す「スコア」も提供する。 Ludiaは

    NTTデータが全文検索エンジン「Ludia」をオープンソースとして無償公開:ITpro
    nilab
    nilab 2006/10/15
    NTTデータが全文検索エンジン「Ludia」をオープンソースとして無償公開:ITpro : senna + PostgreSQL による全文検索システム : どこかにも同じようなのがあったような
  • 小文字:10代女子に流行、難解・新表記 ネット時代の自己表現!?―家庭:MSN毎日インタラクティブ

    「ノウサンゴ」オーストラリア, グレート・バリア・リーフ -- Stuart Westmorland/Corbis

    nilab
    nilab 2006/10/06
    小文字:10代女子に流行、難解・新表記 ネット時代の自己表現!?-家庭:MSN毎日インタラクティブ : 手書き時代は丸文字が流行 ネット時代は既存文字内でできることを : これも正しい日本語のひとつだと思う
  • ギャル文字 - Wikipedia

    ギャル文字(ギャルもじ)とは、携帯電話のメールなどで文字を分解・変形させて文字を表現する遊び・手法。またそれらの文字そのものの呼称。 「へた文字」とも呼ばれる。 概要[編集] ギャル文字は、平仮名・片仮名・漢字をいくつかのパーツに分解し(漢字なら偏(へん)と旁(つくり)に分けるなど)、必要であれば似たような形の別の文字・記号に置き換えることによって作成する[1]。例えば平仮名の「い」を左右に分離してから左側を「し」、右側を「ゝ」にそれぞれ置き換えれば、「しゝ」となる。漢字の場合は、特に置き換えを行わずに分解するだけでいいこともある(「終」を「糸冬」とするなど)。それ以上分離できないような文字の場合は、分解を行わずにその文字自体を似た別の字・記号に置き換えるだけにする(例えば「へ」を「∧」にするなど)。必要であればアルファベットやギリシャ文字などを用いることもある。このような表記をとることに

    nilab
    nilab 2006/09/01
    ギャル文字 - Wikipedia
  • ギャル文字変換

    入力された文章をギャル文字に変換します。少々の文字化けはご愛嬌ということで(^-^;)「この字の方が一般的だよ」という意見がありましたら遠慮なく掲示板かメールで提案していただけると嬉しいです。 [最新に更新]

    nilab
    nilab 2006/09/01
    ギャル文字変換
  • http://home.lib.net/usr1/magi/zoku/

    nilab
    nilab 2006/09/01
    族言葉変換スクリプト
  • Sumibi.org ローマ字を日本語に変換できる無料サイト

    site closed.

    nilab
    nilab 2006/07/06
    Sumibi.org ローマ字を日本語に変換できる無料サイト
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

    nilab
    nilab 2006/06/27
    CaboCha: Yet Another Japanese Dependency StructureAnalyzer : 南瓜:CaboCha は, Support Vector Machines に基づく日本語係り受け解析器
  • NTTデータ公式サイト

    NTTデータ(国内事業会社) 企業情報 プロフィール 社長メッセージ 役員一覧 NTTデータのテクノロジー NTTデータグループ(持株会社) 企業情報 プロフィール 社長メッセージ Our Way 役員一覧 サステナビリティ 沿革 グループ会社 協賛・文化活動 取引先企業の皆様へ NTT DATA, Inc.(海外事業会社) 企業情報

    NTTデータ公式サイト
    nilab
    nilab 2005/10/12
    自然言語処理技術を活用し、複雑な特許文書を読みやすくする技術。特許文構造解析技術
  • 1