タグ

検索とJavaに関するpaulowniaのブックマーク (4)

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Java製のイントラ向け検索エンジン·regain MOONGIFT

    インターネットではあれほど検索エンジンを便利に使いながら、社内向けにはあまり活用されていない。どちらかと言えばファイルサーバをディレクトリで管理する、旧来の検索エンジン型で管理しているのではないだろうか。 日語の検索も可能なイントラ向け検索エンジン 要因は幾つかあるだろうが、検索エンジンの構築が面倒という印象があるのも確かだ。であればregainの手軽さは魅力的にうつるはずだ。 今回紹介するオープンソース・ソフトウェアはregain、Java製の手軽な検索エンジンだ。 regainはJava製の検索エンジンで、regain.jarを実行すればWebサーバも立ち上がってすぐに利用できる。Windows向けにはインストーラーやZipファイルが提供されている。ブラウザで管理画面に入り、検索対象とするディレクトリを指定すればすぐにインデックス化が実行される。 インデックス作成中 検索画面はGoo

    Java製のイントラ向け検索エンジン·regain MOONGIFT
  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

  • MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介

    Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。 ユーザ側の検索画面 そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。 今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。 InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。 インデックスするファイルを指定する画面 認証が必要なサーバにも対応し、言語によってフィルタリン

    MOONGIFT: » Java製のクローリングシステム「InfoCrawler」:オープンソースを毎日紹介
  • 1