[B! apache] Sedimentのブックマーク

Sediment id:Sediment

apacheに関するSedimentのブックマーク (6)

Nutch : nutch : 技術情報 : コラム : OpenCms（オープンソースCMS）・クロールなどの企画・開発・運用・サポートならユビキャスト
Sediment 2012/08/23
ubicast Nutch : 技術情報 : コラム

Nutch

apache

検索エンジン
リンク
nutch-default.xmlの設定 - Nutch調査録（mwSoft）
nutch-default.xmlの設定 - Nutch調査録概要 nutchの動きを設定するconf/nutch-default.xmlを読んだ際の個人的まとめ。説明を読んで「こういうことかな？」と思って書いているだけで未検証なので、話半分に「こういうのがあるんだなぁ」という程度に見て頂きたい。ちなみに下記は素敵な日本語訳ページ。 http://www.ubicast.com/tech/nutch/nutc-default-0.9.html @Author mwSoft @Date 2010/12/11 @Env Nutch1.2/Fedora14 ユーザエージェント関連 http.agent.name ユーザエージェントを設定する。デフォルトでは空になっているので、必ず設定しないといけない。身元が分かるユーザエージェントを設定するのがお行儀が良いと言われる。 http.agent.
Sediment 2012/08/22
nutch-default.xmlの設定 - Nutch調査録（mwSoft）

Nutch

apache

検索エンジン
リンク
Solr, Python, MacBook Air in Shinagawa Seaside
$ git-lfs clone https://huggingface.co/bert-base-uncased # 日本語の場合 $ git-lfs clone https://huggingface.co/tohoku-nlp/bert-base-japanese-v3 参考ページ qiita.com qiita.com Python プログラムが Kill されたのでメモリサイズを増やすデフォルトでは物理メモリの半分だった C:\Users\hoge\.wslconfig [wsl2] memory=56GB swap=0$ free -h total used free shared buff/cache available Mem: 54Gi 519Mi 53Gi 3.0Mi 549Mi 53Gi Swap: 0B 0B 0B $ sudo vi /etc/wsl.conf
Sediment 2012/08/22
knaka20blueさんのnutch関連記事

Nutch

apache

検索エンジン
リンク
Apache Nutch freecode日本語情報ページ - OSDN
Nutch は、非常にスケーラブルな Web 構築されて Apache Hadoop と Lucene Java のソフトウェアを検索します。主な特長ほかの Web クローラー、インデクサー、クロール管理ツールは、パーサーは HTML、PDF、ドキュメント、および他のいくつかのドキュメント形式およびドキュメントパーサー、カスタムスコアリングアルゴリズム、コンテンツのカスタムパーサー、プロトコル、および詳細などの追加機能をプラグインすることができます、拡張可能なアーキテクチャ。
Sediment 2012/08/22
SourceForge.jpのNutch日本語プロジェクトページ

Nutch

apache

検索エンジン
リンク
Nutch: Nutchについて
Nutchは、オープンソース・ウェブ検索エンジンを実装する初めての試みです。ウェブ検索はインターネット・ナビゲーションのために必用な基本的機能です。ところが現在では、ウェブ検索エンジンの数は減少しています。今日の寡占状態は、すぐに、ほとんど全てのウェブ検索を提供している一つの会社の商業利用に独占されるかもしれません。一社の独占は、多くのインターネットのユーザーにとって良くないことです。 Nutch は、商用ウェブ検索エンジンには無い透過性（公開性）をもたらすものです。 Nutch による検索結果は、充分に偏見が無いことがわかっており、安心して検索をまかせることができます（少なくとも、Nutsh のバイアスは、公共のためのものです）。全ての既存の主な検索エンジンは、検索エンジン所有者の実装した公式によって順位が決められます。検索結果として与えられたページの順位付けの理由が説明されるわ
Sediment 2012/08/22
SourceForge.netのNutchプロジェクトページ

Nutch

apache

検索エンジン
リンク
Apache Nutch™
Nutch is a highly extensible, highly scala ble, matured, production-ready Web crawler which enables fine grained configuration and accomodates a wide variety of data acquisition tasks. Scala ble Relying on Apache Hadoop™ data structures, Nutch is great for batch processing large data volumes but can also be tailored to smaller jobs. Pluggable Out of the box Nutch offer powerful plugins i.e., parsing
Sediment 2012/08/22
Nutch公式ページ

Nutch

apache

検索エンジン
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx