お前ら"真実"を知った俺の垢BANに巻き込まれろ
はじめに 最近 langchain を使うようになってきて、OpenAIのAPIをちょこちょこ叩くのですが、いかんせん遅い いや十分に早いのだけど、ドキュメントの量があると若干気になってくる速度です そこで、 ローカルLLMとしてrinna を使ってみたりしたのですが、まだまだ遅いです すでに先行して実装例を作ってくれていた RWKVでembedding vectorを計算 の記事と SQLiteでベクトル検索ができる拡張sqlite-vssを試す の記事を大いに参考にしながら RWKV と sqlite-vss を使って高速なベクトル検索を作ってみます RWKVのモデル 今回は学習済みのRavenモデル RWKV-4-Raven-3B-v12-Eng98%-Other2% を使っていきます OpenAI の text-embedding-ada-002 モデル では 1536次元と扱いや
こんにちは。社内データサイエンスチームYAMALEXの@Ssk1029Takashiです。 最近はChatGPTが出て注目を浴びたり、BingにもChatGPTのように質問応答してくれるAIが搭載されるなど、OpenAIのGPTモデルが世の中を騒がせています。 私もChatGPT使ってみましたが、受け答え自体は人が書いていた文章と遜色なく、文章の自動生成もここまで来たか。。という感じでした。 そんなChatGPTの特徴の一つとして、回答には時々嘘が含まれるというものがあります。 ChatGPT自体は知識を持っているわけではないので、学習データにないことなどはそれっぽいけどでたらめな回答を返してしまいます。 ただし、最近追加されたBingのGPTでは、ChatGPTよりもはるかに正確な回答が返ってくるように感じます。 画面を見ると回答の根拠となっている詳細情報が出ています。 ここから推測する
いもす @imos むしろこれは日本人が今までの検索エンジンに適応しよく訓練された結果。明日の天気を知りたい時に「天気 東京 明日」とか検索すると思うけど、英語圏では “what’s the weather forecast for tomorrow?” とか文章を入れる人も多い。仕組みを考えるなら文章入れるのは驚愕だし、単語入れる方が自然。 twitter.com/koboku_ikuo/st… 2022-09-10 21:47:37 Ikuo Koboku @Koboku_Ikuo 今朝の日経、1面トップ記事。「他国に比べ、日本人は検索もマトモに出来ないから、検索ワードをGoogleが厚めに補ってあげてるんだ」ってローカル戦略が語られてて衝撃受けたの自分だけ??😭 ・グーグル、検索で国ごとに最適化 nikkei.com/article/DGKKZO… pic.twitter.com/
検索エンジンを何故作ってみたかったか もともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデックスを検索するシステムは、数学的な理解度が十分でない+エンジニアリング力が伴わないなどでギブアップした背景があり、今回再チャレンジしたくなった ほぼすべての機能をpure python(+いくつかの例外はある)で実装して、世の中の ソフトウェアを使うだけ の検索エンジンをやってみたなどではなく、実際に理解して組んでみることを目的としたかった 依存パッケージと依存ソフトウェア GitHubのコードを参照してください 様々なサイトを巡回する必要があり、requestsが文字コードの推論を高確率で失敗するので、nkf をlinux環境で入れて
脱ファイルサーバ!!個人でも会社でも使えるOSSのドキュメント管理システム!その名も「Alfresco」!CMSインフラOSSAlfresco文書管理 はじめに ファイルサーバって重いし、ファイル探すの大変だし、ファイル名だけだとどれが目的のファイルかわからないし。。。 と感じた経験はありませんか? 私も強く感じていて、いい感じのドキュメント管理システムないのかなと探していました。 DropBoxやOwnCloudも候補としてあったのですが、いまいち響かず。。 そんな中出会ったのが、「Alfresco」! この出会いをみなさんに共有すべく、記事を書かせていただきました。 インストール作業は以下の記事を参考にしてください。 Alfrescoのインストール作業をコマンド単位で丁寧に記載します Alfrescoとは? 参考:Alfresco公式ホームページ AlfrescoはCMS(コンテンツマ
by woodleywonderworks 単語を入力すると、外国語でマズイ意味を持っているかどうかを無料で検索できるのが「WordSafety」です。19の言語から一度に検索することが可能で、新製品や新サービスのネーミングを決める際に役立ちそうなサービスとなっています。 WordSafety.com http://wordsafety.com/ WordSafetyの使い方は非常にシンプルで、調べたい単語を入力して「Check」をクリックするだけ。試しに「gigazine」と入力して検索してみます。 すると検索ボックスの下部に「結果がありません。この単語は使っても大丈夫でしょう」と表示されました。しかし、「世界には6000以上の言語があるので、もしかするとアマゾンのジャングルの奥深くに住む人々にとっては、『gigazine』はまずい意味を持つかもしれません」とも書かれており、WordSa
注意 以下の内容はもうすべて実装されています。 左上の入力欄[キーワードを入力 ▼]の▼をクリックしてみてください。 本題 Qiitaの左上の検索フォームから、例えばqiitaで検索すると次のURLとなります。 http://qiita.com/search?utf8=%E2%9C%93&sort=&q=qiita 値が空のsort=の部分にstockと入れると、 http://qiita.com/search?utf8=%E2%9C%93&sort=stock&q=qiita となり、検索結果がストック数の降順で表示されます。 情報求む 日付やコメント数でもソートできないかとdateやcommentで試してみましたが、うまく動きませんでした。 何か知っている/見つけた人は教えてください。 なお、sortパラメータについて、Qiita API documentでは特に記載はありませんでした
いよいよ本格的に、規制が強化される形での改定が危惧される児童ポルノ法。この法律が現行でも抱えている最大の問題点が、「そもそも児童ポルノとはなんなのか?」という定義。全裸はまずいのか? あるいは、水着を着ていてもまずいのか? 基準は明確ではない。そして「これが児童ポルノですよ」という指標になる現物を見ることはできない。販売や提供が禁じられている以上、児童虐待などの調査目的でも、児童ポルノとされるものを、容易に見ることはできないのだ。 現在、児童ポルノとされている書籍を最も多く収蔵しているのは、国立国会図書館だと考えられる。ここには、納本制度によって収蔵されたものが多数存在するからだ。 しかし、収蔵された児童ポルノと思われる書籍は、閲覧することはおろか、存在すら確認することはできない。 その理由は2004年、法務省が国会図書館に対して、児童ポルノとされ得る蔵書を閲覧する行為が、提供の罪に当たる
ランニングやツーリングでなるべく坂道は避けたいなぁ、というときに使えそうなツールのご紹介。 Flattest Routeを使えば、ある2点間のルートのうち、もっとも高低差がないものを教えてくれるようだ。 丁寧にどのぐらいの高低差があるのかもグラフで見られるのでそちらも参考にしてもいいだろう。 サンフランシスコのような坂道だらけの町に住んでいたら日常的に使えそうである。 また英語にはなるが、普通に東京のルートも検索できたので坂道が気になる人は覚えておいてもいいですな。
"); write(" "); write("【西暦年】 自 650 ~ 至 1200 "); write("【和暦年 年】 自 1 ~ 至 10 "); write("【和暦年 月】 自 1 ~ 至 6 "); write("【和暦年 日】 自 15 ~ 至 30 "); write("【和暦年 元号】 明応 "); write("【品目】 人件費(建築),建設(造営) "); write("【貨幣分類】 繊維 "); write("【史料】 教王護国寺文書 "); write("【備考】 瓦入足事 "); write("【フリーワード】 [全項目横断検索] "); write("キーワード検索 "); write("【品名・貨幣】 塩 "); write("【地域・関係者】 山城国 "); write("【その他】 [その他キーワード] "); write("
ここのところ私がメインでかかわっていた検索エンジンがリリースされました。 こちらに紹介があります。 http://d.hatena.ne.jp/kzk/20090310 デモとしてWikipediaの全言語(記事が少ない言語は省かれているかも)の全記事 約50GBからの検索を1台のPCで行うものが公開されています。 よかったら試してみてください。 http://demo.sedue.org/wikipediasearch/ 下の方でいくつか数字を出していますが、 正確に計ったわけではないので参考程度にしてもらえると。 ちょこっと宣伝 ボックスに単語を入れると検索できます。 一応、全言語で検索するデモなので、各言語での検索は 全言語の検索結果をフィルタしているだけです。 単語の列を入れると、AND検索できます。 検索速度のデモなので、結果のキャッシュなどはしていません。 すべてのクエリについ
観光名所や空港などにウェブカメラが設置されている例は少なくありませんが、それらをGoogleでまとめて探し出す方法がありました。近いところでは淡路島のあわじ花さじきや治部坂スキー場、また海外のバーやシュトゥットガルトの空港なども見ることができます。 詳細は以下の通り。 その方法は簡単、Googleの検索窓に「inurl:ViewerFrame?Mode=」と入れるだけ。これだけでいろんなウェブカメラが見つかります。 inurl:ViewerFrame?Mode= - Google 検索 人でにぎわう繁華街や北海道の町の風景、空港の様子などは見ていて面白いです。中にはコインランドリーの監視カメラのようなものもあります。 また、検索フレーズは上記のもの以外に inurl:ViewerFrame?Mode=Refresh inurl:axis-cgi/jpg inurl:axis-cgi/mjp
二十四節気:啓蟄(けいちつ) すごもりの虫も顔を覗かせ始め、野菜についた虫が蝶になり始め、桃の花も蕾を開き始め、野山では鳥の鳴く声があちこちで聞かれ始める気候としています。 »啓蟄とは »二十四節気とは 七十二候:「菜虫化蝶」(なむし ちょうと けす) 啓蟄の末候。3月15日~3月19日ごろ。 「青虫が羽化して紋白蝶になる」気候を意味します。 »七十二候とは 誕生石 アクアマリン、さんご
Tech総研の「とりあえずググる」を卒業!TOPエンジニアの検索術の記事を読んで思ったこと。 4人中3人が、検索対象をインターネット上というよりも過去の自分においているのが、実におもしろいですね。おそらく人が情報を探すときの大半は「忘れたこと」なのではないでしょうか。正確には「かつてインプットしたことのある情報」でしょうか。 学生時代に詰め込み教育を受けてきた私にとって、国社数理英どれをとっても覚えるものばかり。テストの直前になるとテスト範囲だけ一気に暗記するけれど「あれなんだっけー」と半分くらい出てきているのに思い出せないようなジレンマを何度も味わいました。 しかし、社会に出ると頭ですべて覚えきるということは不可能になります。2~3ヶ月に覚えたことのテスト範囲ですらなかなか覚えられないのですから、社会に出て定年までのおよそ40年間で身に付けたことすべてを覚えておくなんてとうてい無理です。
クリエイティブ画像他では見つからない独占ビジュアルを含め、幅広いフォーマットとスタイルで入手可能な何百万点ものロイヤリティフリー画像と写真を閲覧できます。 全てのクリエイティブ画像を見る
国立情報学研究所(NII)は6月2日、世界の主要な学術雑誌約1000誌・約280万論文の電子アーカイブを国公私立大学の図書館と共同で導入し、公開を始めた。従来のアーカイブと合わせ、約610万論文をネットワーク上で閲覧できる国内最大のアーカイブだとしている。 導入したのは、ドイツの学術出版社Springerと、イギリスのオックスフォード大学出版局が刊行する学術雑誌の電子アーカイブ。Springerは科学・光学・医学を中心に約200万論文、オックスフォード大出版局は人文科学系など約80万論文で、それぞれ19世紀半ばまでさかのぼれる。 大学図書館で構成する国立大学図書館協会・公私立大学図書館コンソーシアムと共同で導入した。料金交渉を団体で行い、ライセンス契約は各大学が学生数などに応じて行い、Springerは約100大学、オックスフォード大出版局は約50大学が導入した。 団体で交渉した結果、料金
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く