[B! 検索] endo_5501のブックマーク

はてブが"たぬかな"を検閲してるせいで検索ヒットしない件について

お前ら"真実"を知った俺の垢BANに巻き込まれろ

endo_5501 2023/12/29

検索

リンク

RWKVとsqlite-vssで高速なベクトル検索を作ってみる

はじめに最近 langchain を使うようになってきて、OpenAIのAPIをちょこちょこ叩くのですが、いかんせん遅いいや十分に早いのだけど、ドキュメントの量があると若干気になってくる速度ですそこで、ローカルLLMとしてrinna を使ってみたりしたのですが、まだまだ遅いですすでに先行して実装例を作ってくれていた RWKVでembedding vectorを計算の記事と SQLiteでベクトル検索ができる拡張sqlite-vssを試すの記事を大いに参考にしながら RWKV と sqlite-vss を使って高速なベクトル検索を作ってみます RWKVのモデル今回は学習済みのRavenモデル RWKV-4-Raven-3B-v12-Eng98%-Other2% を使っていきます OpenAI の text-embedding-ada-002 モデルでは 1536次元と扱いや

endo_5501 2023/06/20

検索

リンク

GPT-3を使って根拠付きで正確に質問応答してくれるシステムを作ってみる - Taste of Tech Topics

こんにちは。社内データサイエンスチームYAMALEXの@Ssk1029Takashiです。最近はChatGPTが出て注目を浴びたり、BingにもChatGPTのように質問応答してくれるAIが搭載されるなど、OpenAIのGPTモデルが世の中を騒がせています。私もChatGPT使ってみましたが、受け答え自体は人が書いていた文章と遜色なく、文章の自動生成もここまで来たか。。という感じでした。そんなChatGPTの特徴の一つとして、回答には時々嘘が含まれるというものがあります。 ChatGPT自体は知識を持っているわけではないので、学習データにないことなどはそれっぽいけどでたらめな回答を返してしまいます。ただし、最近追加されたBingのGPTでは、ChatGPTよりもはるかに正確な回答が返ってくるように感じます。画面を見ると回答の根拠となっている詳細情報が出ています。ここから推測する

endo_5501 2023/02/18

検索
ai

リンク

検索するときに『日本人は単語のみ』『英語圏は文章』欲しい結果を出すためのやり方の違い

いもす @imos むしろこれは日本人が今までの検索エンジンに適応しよく訓練された結果。明日の天気を知りたい時に「天気東京明日」とか検索すると思うけど、英語圏では “what’s the weather forecast for tomorrow?” とか文章を入れる人も多い。仕組みを考えるなら文章入れるのは驚愕だし、単語入れる方が自然。 twitter.com/koboku_ikuo/st… 2022-09-10 21:47:37 Ikuo Koboku @Koboku_Ikuo 今朝の日経、1面トップ記事。「他国に比べ、日本人は検索もマトモに出来ないから、検索ワードをGoogleが厚めに補ってあげてるんだ」ってローカル戦略が語られてて衝撃受けたの自分だけ？？😭 ・グーグル、検索で国ごとに最適化　nikkei.com/article/DGKKZO… pic.twitter.com/

endo_5501 2022/09/12

リンク

Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう

検索エンジンを何故作ってみたかったかもともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデックスを検索するシステムは、数学的な理解度が十分でない＋エンジニアリング力が伴わないなどでギブアップした背景があり、今回再チャレンジしたくなったほぼすべての機能をpure python(+いくつかの例外はある)で実装して、世の中のソフトウェアを使うだけの検索エンジンをやってみたなどではなく、実際に理解して組んでみることを目的としたかった依存パッケージと依存ソフトウェア GitHubのコードを参照してください様々なサイトを巡回する必要があり、requestsが文字コードの推論を高確率で失敗するので、nkf をlinux環境で入れて

endo_5501 2019/07/06

“適切なユースケース（図書館とか病院のカルテとか）を設定すればいろいろな応用ができそう”

検索

リンク

脱ファイルサーバ！！個人でも会社でも使えるOSSのドキュメント管理システム！その名も「Alfresco」！

脱ファイルサーバ！！個人でも会社でも使えるOSSのドキュメント管理システム！その名も「Alfresco」！CMSインフラOSSAlfresco文書管理はじめにファイルサーバって重いし、ファイル探すの大変だし、ファイル名だけだとどれが目的のファイルかわからないし。。。と感じた経験はありませんか？私も強く感じていて、いい感じのドキュメント管理システムないのかなと探していました。 DropBoxやOwnCloudも候補としてあったのですが、いまいち響かず。。そんな中出会ったのが、「Alfresco」！この出会いをみなさんに共有すべく、記事を書かせていただきました。インストール作業は以下の記事を参考にしてください。 Alfrescoのインストール作業をコマンド単位で丁寧に記載します Alfrescoとは？参考:Alfresco公式ホームページ AlfrescoはCMS（コンテンツマ

endo_5501 2016/05/03

リンク

ネーミングが他の言語ではまずい意味を持っている言葉・名前かどうかを調査できる「WordSafety」

by woodleywonderworks 単語を入力すると、外国語でマズイ意味を持っているかどうかを無料で検索できるのが「WordSafety」です。19の言語から一度に検索することが可能で、新製品や新サービスのネーミングを決める際に役立ちそうなサービスとなっています。 WordSafety.com http://wordsafety.com/ WordSafetyの使い方は非常にシンプルで、調べたい単語を入力して「Check」をクリックするだけ。試しに「gigazine」と入力して検索してみます。すると検索ボックスの下部に「結果がありません。この単語は使っても大丈夫でしょう」と表示されました。しかし、「世界には6000以上の言語があるので、もしかするとアマゾンのジャングルの奥深くに住む人々にとっては、『gigazine』はまずい意味を持つかもしれません」とも書かれており、WordSa

endo_5501 2015/09/13

リンク

Qiitaの検索結果をストック数順に表示する - Qiita

注意以下の内容はもうすべて実装されています。左上の入力欄[キーワードを入力 ▼]の▼をクリックしてみてください。本題 Qiitaの左上の検索フォームから、例えばqiitaで検索すると次のURLとなります。 http://qiita.com/search?utf8=%E2%9C%93&sort=&q=qiita 値が空のsort=の部分にstockと入れると、 http://qiita.com/search?utf8=%E2%9C%93&sort=stock&q=qiita となり、検索結果がストック数の降順で表示されます。情報求む日付やコメント数でもソートできないかとdateやcommentで試してみましたが、うまく動きませんでした。何か知っている/見つけた人は教えてください。なお、sortパラメータについて、Qiita API documentでは特に記載はありませんでした

endo_5501 2014/08/03

検索

リンク

「人権侵害だから、本のタイトルも教えない」閲覧禁止の児童ポルノ開示請求に対し、国会図書館から返答 - 最新芸能ニュース一覧 - 楽天WOMAN

いよいよ本格的に、規制が強化される形での改定が危惧される児童ポルノ法。この法律が現行でも抱えている最大の問題点が、「そもそも児童ポルノとはなんなのか？」という定義。全裸はまずいのか？　あるいは、水着を着ていてもまずいのか？　基準は明確ではない。そして「これが児童ポルノですよ」という指標になる現物を見ることはできない。販売や提供が禁じられている以上、児童虐待などの調査目的でも、児童ポルノとされるものを、容易に見ることはできないのだ。現在、児童ポルノとされている書籍を最も多く収蔵しているのは、国立国会図書館だと考えられる。ここには、納本制度によって収蔵されたものが多数存在するからだ。しかし、収蔵された児童ポルノと思われる書籍は、閲覧することはおろか、存在すら確認することはできない。その理由は2004年、法務省が国会図書館に対して、児童ポルノとされ得る蔵書を閲覧する行為が、提供の罪に当たる

endo_5501 2013/08/06

検索

リンク

圧倒的レシピ件数を誇る”レシピサーチ”が更に便利に！バーコード検索機能を新搭載されました！ - isuta（イスタ） -私の“好き”にウソをつかない。-

おしゃれに差がつくショルダーバッグ。アクセントになるTOOSのデザインに惚れた【サムシングセンスフル】

endo_5501 2013/05/27

む、これは便利

リンク

なるべく坂道を避けたいときに使える『Flattest Route』 | 100SHIKI

ランニングやツーリングでなるべく坂道は避けたいなぁ、というときに使えそうなツールのご紹介。 Flattest Routeを使えば、ある2点間のルートのうち、もっとも高低差がないものを教えてくれるようだ。丁寧にどのぐらいの高低差があるのかもグラフで見られるのでそちらも参考にしてもいいだろう。サンフランシスコのような坂道だらけの町に住んでいたら日常的に使えそうである。また英語にはなるが、普通に東京のルートも検索できたので坂道が気になる人は覚えておいてもいいですな。

endo_5501 2013/05/21

検索

リンク

database

"); write(" "); write("【西暦年】　　自 650　～　至 1200 "); write("【和暦年　年】　　自 1　～　至 10 "); write("【和暦年　月】　　自 1　～　至 6 "); write("【和暦年　日】　　自 15　～　至 30 "); write("【和暦年　元号】　　明応 "); write("【品目】　　人件費（建築），建設（造営） "); write("【貨幣分類】　　繊維 "); write("【史料】　　教王護国寺文書 "); write("【備考】　　瓦入足事 "); write("【フリーワード】　　[全項目横断検索] "); write("キーワード検索 "); write("【品名・貨幣】　　塩 "); write("【地域・関係者】　　山城国 "); write("【その他】　　[その他キーワード] "); write("

endo_5501 2013/05/14

古代・中世都市生活史（物価）データベース

リンク

SSD向け全文検索エンジン - 純粋関数型雑記帳

ここのところ私がメインでかかわっていた検索エンジンがリリースされました。こちらに紹介があります。 http://d.hatena.ne.jp/kzk/20090310 デモとしてWikipediaの全言語(記事が少ない言語は省かれているかも)の全記事約50GBからの検索を1台のPCで行うものが公開されています。よかったら試してみてください。 http://demo.sedue.org/wikipediasearch/ 下の方でいくつか数字を出していますが、正確に計ったわけではないので参考程度にしてもらえると。ちょこっと宣伝ボックスに単語を入れると検索できます。一応、全言語で検索するデモなので、各言語での検索は全言語の検索結果をフィルタしているだけです。単語の列を入れると、AND検索できます。検索速度のデモなので、結果のキャッシュなどはしていません。すべてのクエリについ

endo_5501 2009/03/12

検索
ssd

リンク

2log.net

This domain may be for sale!

endo_5501 2007/07/31

どうやって監視するのかな

リンク

https://msdewey.com/

endo_5501 2007/01/21

あー，検索している言葉によって色々リアクションが違うなあ

リンク

Googleでウェブカメラを根こそぎ探し出す方法

観光名所や空港などにウェブカメラが設置されている例は少なくありませんが、それらをGoogleでまとめて探し出す方法がありました。近いところでは淡路島のあわじ花さじきや治部坂スキー場、また海外のバーやシュトゥットガルトの空港なども見ることができます。詳細は以下の通り。その方法は簡単、Googleの検索窓に「inurl:ViewerFrame?Mode=」と入れるだけ。これだけでいろんなウェブカメラが見つかります。 inurl:ViewerFrame?Mode= - Google 検索人でにぎわう繁華街や北海道の町の風景、空港の様子などは見ていて面白いです。中にはコインランドリーの監視カメラのようなものもあります。また、検索フレーズは上記のもの以外に inurl:ViewerFrame?Mode=Refresh inurl:axis-cgi/jpg inurl:axis-cgi/mjp

endo_5501 2006/12/07

リンク

辞典・百科事典の検索サービス - Weblio辞書

二十四節気：啓蟄（けいちつ）すごもりの虫も顔を覗かせ始め、野菜についた虫が蝶になり始め、桃の花も蕾を開き始め、野山では鳥の鳴く声があちこちで聞かれ始める気候としています。 »啓蟄とは »二十四節気とは七十二候：「菜虫化蝶」（なむしちょうとけす）啓蟄の末候。3月15日～3月19日ごろ。「青虫が羽化して紋白蝶になる」気候を意味します。 »七十二候とは誕生石アクアマリン、さんご

endo_5501 2006/10/14

む！Wikipedia 本家より軽いじゃん

検索

リンク

304 Not Modified: 「とりあえずググる」を卒業するための２つの方法

Ｔｅｃｈ総研の「とりあえずググる」を卒業！TOP エンジニアの検索術の記事を読んで思ったこと。４人中３人が、検索対象をインターネット上というよりも過去の自分においているのが、実におもしろいですね。おそらく人が情報を探すときの大半は「忘れたこと」なのではないでしょうか。正確には「かつてインプットしたことのある情報」でしょうか。学生時代に詰め込み教育を受けてきた私にとって、国社数理英どれをとっても覚えるものばかり。テストの直前になるとテスト範囲だけ一気に暗記するけれど「あれなんだっけー」と半分くらい出てきているのに思い出せないようなジレンマを何度も味わいました。しかし、社会に出ると頭ですべて覚えきるということは不可能になります。２～３ヶ月に覚えたことのテスト範囲ですらなかなか覚えられないのですから、社会に出て定年までのおよそ40年間で身に付けたことすべてを覚えておくなんてとうてい無理です。

endo_5501 2006/08/13

検索

リンク

Corbis: photography, rights, assignment, motion.

クリエイティブ画像他では見つからない独占ビジュアルを含め、幅広いフォーマットとスタイルで入手可能な何百万点ものロイヤリティフリー画像と写真を閲覧できます。全てのクリエイティブ画像を見る

endo_5501 2006/07/27

「笑った顔」「10代の男の子」などのキーワード（英語で）で画像検索

リンク

日本最大の電子論文アーカイブ、NIIが公開

国立情報学研究所（NII）は6月2日、世界の主要な学術雑誌約1000誌・約280万論文の電子アーカイブを国公私立大学の図書館と共同で導入し、公開を始めた。従来のアーカイブと合わせ、約610万論文をネットワーク上で閲覧できる国内最大のアーカイブだとしている。導入したのは、ドイツの学術出版社Springerと、イギリスのオックスフォード大学出版局が刊行する学術雑誌の電子アーカイブ。Springerは科学・光学・医学を中心に約200万論文、オックスフォード大出版局は人文科学系など約80万論文で、それぞれ19世紀半ばまでさかのぼれる。大学図書館で構成する国立大学図書館協会・公私立大学図書館コンソーシアムと共同で導入した。料金交渉を団体で行い、ライセンス契約は各大学が学生数などに応じて行い、Springerは約100大学、オックスフォード大出版局は約50大学が導入した。団体で交渉した結果、料金

endo_5501 2006/06/03

素晴らしい

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

検索に関するendo_5501のブックマーク (59)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス