[B! 検索][Java] paulowniaのブックマーク

paulownia id:paulownia

検索とJavaに関するpaulowniaのブックマーク (4)

IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
paulownia 2009/09/19
検索

自然言語処理

Java
リンク
Java製のイントラ向け検索エンジン·regain MOONGIFT
インターネットではあれほど検索エンジンを便利に使いながら、社内向けにはあまり活用されていない。どちらかと言えばファイルサーバをディレクトリで管理する、旧来の検索エンジン型で管理しているのではないだろうか。日本語の検索も可能なイントラ向け検索エンジン要因は幾つかあるだろうが、検索エンジンの構築が面倒という印象があるのも確かだ。であればregainの手軽さは魅力的にうつるはずだ。今回紹介するオープンソース・ソフトウェアはregain、Java製の手軽な検索エンジンだ。 regainはJava製の検索エンジンで、regain.jarを実行すればWebサーバも立ち上がってすぐに利用できる。Windows向けにはインストーラーやZipファイルが提供されている。ブラウザで管理画面に入り、検索対象とするディレクトリを指定すればすぐにインデックス化が実行される。インデックス作成中検索画面はGoo
paulownia 2009/02/12
Java

検索
リンク
Hadoop、hBaseで構築する大規模分散データ処理システム：CodeZine
はじめに　この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。　これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと
paulownia 2008/06/03
Java

検索
リンク
MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介
Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。ユーザ側の検索画面そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。 InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。インデックスするファイルを指定する画面認証が必要なサーバにも対応し、言語によってフィルタリン
paulownia 2008/06/01
java

検索
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx