[B! 自然言語処理] webmarksjpのブックマーク

webmarksjp id:webmarksjp

自然言語処理に関するwebmarksjpのブックマーク (46)

Google Japan Blog: 大規模日本語 n-gram データの公開
メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
webmarksjp 2008/07/15
n-gram

mecab

google

corpus

data

形態素解析

自然言語処理

japanese

language
リンク
テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
webmarksjp 2008/07/15
形態素解析

webサービス

サービス

自然言語処理

日本語

yahoo!

5

UTILITY

SERVICE
リンク
「圧縮新聞」を作った - phaの日記
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。圧縮新聞このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。生成例しょうゆ・みそ業界大手のＮＯＶＡ（大阪市）が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが２１日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに６者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。しくみこういった人工無脳みたいな文章生成をするには形態素解析と
webmarksjp 2008/07/14
形態素解析

ニュース

*研究

ツール

人工無脳

自然言語処理

マルコフ連鎖

twitter

webサービス
リンク
ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する
こんにちは、山下です。今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。それでは、順を追って説明
webmarksjp 2008/07/14
programming

自然言語処理

*php

mecab

形態素解析

keyword

autolink

php
リンク
livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog（ブログ）
こんにちは。検索グループ解析チームの nabokov7 です。今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。ウィキペディア日本語版の解説
webmarksjp 2008/07/14
- 自然言語処理

- アルゴリズム

*perl

cpan

perl

自然言語処理

nlp

ライブラリ

programming

web
リンク
BLOGRANGER - goo ラボ
gooとNTT研究所のコラボレーションによる次世代の検索システムの実験の場それがgooラボです。NTT研究所で開発された新技術を活用し、先進的なインターネットサービスの可能性を提示します。BLOGRANGER TGとは BLOGRANGER TGは、世の中のブログから作られた仮想大陸の上をマウスを使って移動することにより、仮想大陸上の場所に応じてジャンルが絞られたブログ記事を次々と閲覧することのできる新しいブログ検索サービスです。仮想大陸の画像をマウスでスクロールすれば、もう気分は探検家！ぜひあちこちを探検してあなたの興味に合ったブログ記事を見つけてくださいね。 BLOGRANGERに関する最新情報は、BLOGRANGER TGスタッフブログをご参照ください。使い方初期状態では、以下のような画面が表示されます。画面上部には、キーワードによる検索を行うための入力ボックスと「探検」ボタ
webmarksjp 2008/07/14
検索エンジン

ブログ検索

webサービス

*研究

自然言語処理

ブログ

API

goo

search
リンク
文書比較（diff）アルゴリズム
文書比較（diff）アルゴリズム前のドキュメント次のドキュメントＶｉＶｉの文書比較（diff）機能で使用しているアルゴリズムについて解説する。これらのアルゴリズムは Myers 氏らの論文によるもので、氏は筆者のためにわざわざ論文をＷｅｂサイトで入手可能な形式にしてくださった。この場を借りてお礼申し上げる。オリジナル論文は以下のＷｅｂサイトから入手可能である。 http://www.cs.arizona.edu/people/gene [1] E.W.Myers, "An O(ND) Difference Algorithm and Its Variations", Algorithmica, 1 (1986), pp.251-266 [2] S. Wu, U. Manber, G. Myers and W. Miller, "An O(NP) Sequence Comparis
webmarksjp 2008/07/14
プログラミング

アルゴリズム

algorithm

自然言語処理

あとで

あとから

programming

あとで読む

仕事
リンク
asahi.com：コピペしたリポート、ばれちゃうぞ　検出ソフト開発 - 暮らし
webmarksjp 2008/07/14
asahi.comの見出し

ブログネタ

大学

技術

software

research

自然言語処理

教育
リンク
[を] 転置インデックスによる検索システムを作ってみよう！
転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ
webmarksjp 2008/07/14
検索

algorithm

自然言語処理

perl

a.たつを

searchengine

fulltextsearch

技術情報

形態素解析
リンク
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード
webmarksjp 2008/07/14
search

nlp

api

algorithm

キーワード抽出

形態素解析

自然言語処理

tf-idf
リンク
きまぐれ日記: はてなキーワードを高速に付与
webmarksjp 2008/07/14
algorithm

hatena

keyword

自然言語処理

はてな

プログラム

P言語

programming

アルゴリズム
リンク
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
webmarksjp 2008/07/14
mecab

形態素解析

api

yahoo

japanese

tmp

tips

自然言語処理
リンク
AJAX Reguler EXpression eValuator
EnglishBulgarian
webmarksjp 2008/07/14
正規表現

development

*program

webサービス

自然言語処理
リンク
汎用連想計算エンジン GETA ファミリー
汎用連想計算エンジンGETA ファミリー公開 Siteこのページでは, 汎用連想計算エンジンGETA を紹介しています. GETA の実装はいくつかありますが, そのうち公開されているものは現在 2 つあります. 汎用連想計算エンジンGETA ファミリー公開ＨＰ初代 GETA はこちらから配布されています. 最新版は GETA3.2u です.GETAssocGETAssoc は, もうひとつの GETA の実装です. Last Modified Tue Jul 21 14:12 JST 2009
webmarksjp 2008/07/14
nlp

あとで読む

language

assosiation

clustering

オープンソース

自然言語処理

検索エンジン

テキストマイニング

KM
リンク
シソーラス辞書検索
webmarksjp 2008/07/14
便利

*webサービス

810 jpn 日本語

02 BOOK

*webservice

自然言語処理

検索

dictionary

tool

辞書
リンク
KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア
概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのためのフリーソフトウェア（自由ソフトウェア）です。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。プログラミング不要、マウス操作で本格的な分析安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介（スクリーンショット）スクリーンショット集［旧ページ：言葉・文書・可視化・他］ KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.01) 使い方を知るためのチュートリアルヘルプ質問＆エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要（無料）［旧掲示板］よくある質問（FAQ）開発者が語る公式セミナー & サポー
webmarksjp 2008/07/14
テキストマイニング

データマイニング

フリーソフト

マイニング

自然言語処理

software

document

index
リンク
ヤフー、かな漢字変換Webサービスを公開--MS-DOS時代に全盛の「VJE」をAPI化:ニュース - CNET Japan
ヤフーは5月27日、「Yahoo!デベロッパーネットワーク」で「かな漢字変換Webサービス」を公開した。 Yahoo!デベロッパーネットワークは、インターネット関連の開発者向けにYahoo! JAPANの技術仕様を公開し、一部のサービスやデータベースへ無料（1日当たり5万リクエストまで）でアクセスできるサービスだ。これを使うことによって、外部の開発者はYahoo! JAPANのデータベースを活用したサービスやソフトウェアを開発することができ、ウェブ検索をはじめ、現在10分野のWebサービスを公開している。今回公開されたかな漢字変換Webサービスは、日本語入力プログラム「VJE」（VACS Japanese Entry）をAPI化した。VJEは、もともとバックスが開発したプログラムで、MS-DOS全盛の時代には強い支持を受けたプログラムだ。バックス社は2006年6月に休眠しているが、それ以
webmarksjp 2008/07/14
yahoo

webservice

日本語

自然言語処理

webapi

日本語入力

あとで読む

気になる

yahoo!

web
リンク
TRIPIT Labs » 「TRIPIT」とは画像に付けられた「ことば」(タグやタイトル)に関連のある画像を検索することができる「関連画像検索エンジン」です。
サイトマップガイドラインプライバシーポリシーお問い合わせ FUJIFILMが開発した関連検索システムTRIPIT。この技術を利用して、さまざまなアプリケーションを開発します。
webmarksjp 2008/07/14
検索エンジン

API

*研究

自然言語処理

キーワード抽出

webサービス

け検索

画像
リンク
ブログの意味を解析し、ブロガーの属性をグラフで表示する「BlogSphere」 - CNET Japan
キーウォーカーは10月18日、ブログに書かれた文章の意味を解析し、ブロガーの属性をグラフなどで表示するブログ解析エンジン「BlogSphere」のアルファ版を公開した。キーウォーカーは人工知能の技術を応用して自社で開発した「日本語自然文意味検索エンジン」を採用したブログ検索サイト「KEYWALKERブログ検索」を2006年3月に公開している。今回発表したBlogSphereは、同社のブログ検索の技術開発をさらに進めたものだ。従来のKEYWALKERブログ検索では、キーワードを入力して検索すると、その検索キーワードを含んだブログ記事が一覧表示されるだけだったが、BlogSphereではそれに加えて、検索キーワードを含むブログを書いたブロガーの属性情報を分析し、グラフなどでビジュアル化して表示する。 BlogSphereアルファ版では、約3000万ページのブログ記事から、ブロガーの男女比
webmarksjp 2008/07/14
blog

自然言語処理

Webサービス

グラフ

ブログ

Technology

webservice
リンク
テキスト解析:かな漢字変換API - Yahoo!デベロッパーネットワーク
指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。
webmarksjp 2008/07/14
api

japanese

yahoo

nlp

webサービス

自然言語処理
リンク
1 2 3 次のページ