メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基本はわかったので簡単なスクリプトを書いてみたよ。 圧縮新聞 このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。 生成例 しょうゆ・みそ業界大手のNOVA(大阪市)が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが21日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに6者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。 しくみ こういった人工無脳みたいな文章生成をするには形態素解析と
こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明
こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日本語版の解説
gooとNTT研究所のコラボレーションによる次世代の検索システムの実験の場それがgooラボです。NTT研究所で開発された新技術を活用し、先進的なインターネットサービスの可能性を提示します。BLOGRANGER TGとは BLOGRANGER TGは、世の中のブログから作られた仮想大陸の上をマウスを使って移動することにより、仮想大陸上の場所に応じてジャンルが絞られたブログ記事を次々と閲覧することのできる新しいブログ検索サービスです。仮想大陸の画像をマウスでスクロールすれば、もう気分は探検家!ぜひあちこちを探検してあなたの興味に合ったブログ記事を見つけてくださいね。 BLOGRANGERに関する最新情報は、BLOGRANGER TGスタッフブログをご参照ください。 使い方 初期状態では、以下のような画面が表示されます。 画面上部には、キーワードによる検索を行うための入力ボックスと「探検」ボタ
文書比較(diff)アルゴリズム 前のドキュメント 次のドキュメント ViViの文書比較(diff)機能で使用しているアルゴリズムについて解説する。 これらのアルゴリズムは Myers 氏らの論文によるもので、氏は筆者のためにわざわざ論文をWebサイトで入手可能な形式にしてくださった。この場を借りてお礼申し上げる。 オリジナル論文は以下のWebサイトから入手可能である。 http://www.cs.arizona.edu/people/gene [1] E.W.Myers, "An O(ND) Difference Algorithm and Its Variations", Algorithmica, 1 (1986), pp.251-266 [2] S. Wu, U. Manber, G. Myers and W. Miller, "An O(NP) Sequence Comparis
転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基本中の基本ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま
概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのためのフリーソフトウェア(自由ソフトウェア)です。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で本格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.01) 使い方を知るためのチュートリアル ヘルプ 質問&エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要(無料)[旧掲示板] よくある質問(FAQ) 開発者が語る公式セミナー & サポー
ヤフーは5月27日、「Yahoo!デベロッパーネットワーク」で「かな漢字変換Webサービス」を公開した。 Yahoo!デベロッパーネットワークは、インターネット関連の開発者向けにYahoo! JAPANの技術仕様を公開し、一部のサービスやデータベースへ無料(1日当たり5万リクエストまで)でアクセスできるサービスだ。これを使うことによって、外部の開発者はYahoo! JAPANのデータベースを活用したサービスやソフトウェアを開発することができ、ウェブ検索をはじめ、現在10分野のWebサービスを公開している。 今回公開されたかな漢字変換Webサービスは、日本語入力プログラム「VJE」(VACS Japanese Entry)をAPI化した。VJEは、もともとバックスが開発したプログラムで、MS-DOS全盛の時代には強い支持を受けたプログラムだ。バックス社は2006年6月に休眠しているが、それ以
キーウォーカーは10月18日、ブログに書かれた文章の意味を解析し、ブロガーの属性をグラフなどで表示するブログ解析エンジン「BlogSphere」のアルファ版を公開した。 キーウォーカーは人工知能の技術を応用して自社で開発した「日本語自然文意味検索エンジン」を採用した ブログ検索サイト「KEYWALKERブログ検索」を2006年3月に公開している。 今回発表したBlogSphereは、同社のブログ検索の技術開発をさらに進めたものだ。従来のKEYWALKERブログ検索では、キーワードを入力して検索すると、その検索キーワードを含んだブログ記事が一覧表示されるだけだったが、BlogSphereではそれに加えて、検索キーワードを含むブログを書いたブロガーの属性情報を分析し、グラフなどでビジュアル化して表示する。 BlogSphereアルファ版では、約3000万ページのブログ記事から、ブロガーの男女比
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く