keijakのブックマーク - はてなブックマーク

乱択データ構造の最新事情－MinHash と HyperLogLog の最近の進歩－

MinHash, b-bit MinHash, HyperLogLog, Odd Sketch, HIP Estimator の解説です．

keijak 2024/05/04

リンク

MinHashによる高速な類似検索 - Preferred Networks Research & Development

年が明けてもう一ヶ月経ちましたね．岡野原です．今日はMinHashと呼ばれる手法を紹介します．これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている）．今や世の中のあらゆる種類のデータが，高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました．例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル（Bag of Words）で表し，画像データも，SIFTをはじめとした局所特徴量を並べた特徴ベクトル（とそれをSkecth化したもの）として表せます．行動情報や時系列データも特徴量をうまく抽出する．グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ，グラフの特徴をよく捉えることができるのが最近わかっ

keijak 2024/05/04

リンク

Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

0. はじめにこんにちは、株式会社D2Cデータサイエンティストの董です。 D2Cでは、広告配信を効率よく効果よく行うために様々な機械学習モデルを活用しています。今回の記事では、大規模テキストコーパスを用いた言語モデルの学習にあたり、学習データにある準重複文書の除外テクニックについてご紹介します。 1. 開発環境 AWS EC2 (インスタンスタイプ: r5.8xlarge) Python 3.10系 2. Pythonパッケージ transf ormers scikit-learn 3. 広告文の準重複問題テキスト広告では、キャッチコピーや宣伝文を少しだけ修正して複数回配信し、その効果を測定することがよくあります。また、シリーズ商品の説明文を同じテンプレートに従って大量に作成することも一般的です。それゆえに、広告文を収集してテキストコーパスを作ると、準重複サンプル、つまり完全には重複

keijak 2024/05/04

リンク

Snowflake の Copilot が優秀すぎる件について

マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください！ご要望の内容を記事に起こします！メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C

keijak 2024/05/03

リンク

インプットのすゝめ | 外道父の匠

絶賛成長期にあるだろう若手エンジニアは、どういう流れで自身の成長を促したら良いのだろうか、とふと思いつつ口頭で説明してみたけどよくわからんくなったので整理してみたいお気持ちです。当ブログではアウトプットの効用みたいなものは書いてきましたが、インプットそのものについてはお初なので、自身を振り返る良い機会にもなりそうです。はじめにこれは私が二十数年間、プログラマー・インフラ・SRE といったエンジニアとして通ってきた中で、どのようにインプットをしてきたかを整理してみるチラ裏です。自分は一般(?)と比べれば少々特殊な経歴で、情報学を学んだことも、新卒研修を受けたことも、IT系資格も、転職したこともない…… ほぼ独学による野良エンジニアとして生息してきましたので、あまり参考にはならないかもしれません。それでも一応長く生き抜いてきたエンジニアの経験として、インターネットに数多くある参考例の

keijak 2024/05/03

リンク

サブクエリの書き方を2万文字弱かけてすべて解説する

これはなにども、レバテック開発部のもりたです。今回はSQLのサブクエリについてまとめます。仕事でクエリを書く際、サブクエリは頻出の構文だと思うんですが、同時にサブクエリの書き方を完全に理解しているよという人は案外少ないのではないでしょうか？[1] 実際、MySQLの公式ドキュメントを見ると12ページくらいを割かれており、意外と奥深いのがサブクエリです。使いこなせると便利ですし、何よりちょっとSQLのコツみたいなのがわかって面白いよ、ということで記事にしてみました。前提この記事は以下の前提を含んでいます。環境 MySQL8.0系読者の知識なんとなくサブクエリが書けるけど相関サブクエリとかになると「あーっ」つってGoogle meetを閉じてしまうくらいのレベル感記事のボリューム 18,000文字おれの卒論が20,000文字だったマサカリ間違ってたら投げてくれ〜〜それ

keijak 2024/05/03

リンク

中級Git操作

今回の記事の内容はGitHub共同創業者のScott Chacon氏の「Pro Git」と同氏の今年の「So You Think You Know Git」（Gitがわかっているとでも思っているか？）発表をベースにしている。コンフィグここでコンフィグにてデフォルトとして指定して損がないオプションをいくつか紹介します。 git rerere git rerereは"reuse recorded resolution"（記録ずみ解決方法を再利用）の略語になっている。名の通りマージコンフリクトがどう解消されたかを記録し、次に同じようなコンフリクトが発生した際、同様の解決方法を自動的に適用するためのコマンドです。また、基本的にデフォルトにしてもときに差し支えないため、ぜひgit config --global rerere.enabled trueを実行してみてください。 git main

keijak 2024/05/02

リンク

GitHub - upstash/semantic-cache: A fuzzy key value store based on semantic similarity rather lexical equality.

Semantic Cache is a tool for caching natural text based on semantic similarity. It's ideal for any task that involves querying or retrieving information based on meaning, such as natural language classification or caching AI responses. Two pieces of text can be similar but not identical (e.g., "great places to check out in Spain" vs. "best places to visit in Spain"). Traditional caching doesn't re

keijak 2024/05/02

リンク

LLM 日本語データセット向けに C++ で minhash 重複除去を行うメモ

背景 LLM 向けデータセット(コーパス)では重複のない品質の高いデータセットが重要となります. よくあるのは minhash で fuzzy に行うのと, suffix array で exact に行うもののようです. (RefinedWeb 論文 https://arxiv.org/abs/2306.01116 より) 今回は minhash での fuzzy dedup を取り上げます. 参考となる実装は HojiChar にありますが, いかんせん Python はやはり遅い... C++ でやります! 情報 minhash テキストの N-gram 表現を作る. これに対して hash を計算する. hash を BUCKET_SIZE(b) * N_BUCKET(r) の合計 k 個用意する通常はハッシュ関数(アルゴリズム)は同じで, seed を変えて対応ハッシュ関数は

keijak 2024/05/02

リンク

TOML: 日本語 v1.0.0

1/11/2021 日掲載 – テキスト版 TOML v1.0.0 トムの明瞭で最小の言語。 By Tom Preston-Werner, Pradyun Gedam, et al. 目的 TOML は、明白なセマンティクスによって読みやすい最小限の設定ファイルフォーマットとなることを目的につくられました。TOML は、ハッシュテーブルに一義的に対応するように設計されていて、さまざまな言語のデータ構造に展開できます。仕様 TOML はケース・センシティブです。大文字と小文字は区別されます。 TOML ファイルはユニコード (UTF-8) でエンコードされている必要があります。空白はタブ (0x09) もしくはスペース (0x20) のことです。改行は LF (0x0A) もしくは CRLF (0x0D 0x0A) のことです。コメントハッシュ記号（#）に続けて改行までをコメントと

keijak 2024/05/02

リンク

GWに徹底理解！GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開 | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

keijak 2024/04/30

リンク

MySQLのインデックスの貼っていいとき悪いときを原理から理解したいよ😭

今回答えを出したい問いはこちら！！インデックスはどのような仕組みを以て、何を実現したいものなのかそれを踏まえたとき、インデックスはどういう場合になぜ貼る方が良いのか。また、どういう場合になぜ貼らない方が良いのか大体分かっているよって人はサヨナラって感じのおさらい記事だぜ！！！！それじゃいってみよー🎉 あと、おれは今回MySQLにしぼっていくぜ👶 ってわけでOracleとかに興味があるやつは引き返しな！ indexの概要公式の見解としては「where句を使ったselectクエリの実行速度を向上させるために実装されている、各行へのポインターのような振る舞いをする仕組み」って感じ👶 The best way to improve the performance of SELECT operations is to create indexes on one or more of t

keijak 2024/04/30

リンク

複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。前提どこでも必要とされたスキルデータマネジメントに関する概要レベルの知識と実行力セキュリティや法令に関する知識事業ドメインに関する興味関心他職種とのコミュニケーション能力コスト管理 / コスト削減のスキルソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力分析用のSQLを書く力古いテーブルやデータパイプラインを置き換えていくスキルや胆力あるとやりやすいスキル関連部署の動きを何となく把握しておく力

keijak 2024/04/29

リンク

Google検索を殺した男――Googleはいつ、どこでメタクソ化に舵を切ったのか | p2ptk[.]org

以下の文章は、コリイ・ドクトロウの「The specific process by which Google enshittified its search」という記事を翻訳したものである。 Pluralistic どんなデジタルビジネスでも、技術的には「メタクソ化」できる。つまり、ビジネスの根本的な機能をユーザごとにリアルタイムで変更できるため、ビジネス顧客、エンドユーザ、株主の間で価値を素早く移転できるのだ。 https://pluralistic.net/2023/02/19/twiddler/ このスレッドをエッセイ形式で読んだり共有したい方は、私の監視フリー、広告フリー、トラッキングフリーのブログ、pluralistic.netをチェックしてほしい（訳注：もともとのテキストはTwitter上のスレッドに書かれている）。 https://pluralistic.net/2024/0

keijak 2024/04/28

リンク

競技としてのKaggle、役に立つKaggle

Kaggle Masterが語るMachineLearning - TechLovers #1 https://sony.connpass.com/event/315090/ での登壇資料です。コンペの流れとtips的な情報を主観強めで紹介しています。

keijak 2024/04/26

kaggle

リンク

僅か2.3GBで日本語可能な超高性能ローカルLLMのPhi-3 MINIをllama.cppとCPUで動かしてみた。スマホでも可。従来のコンパクトLLMと比較して超越した性能で未来を感じさせるMicroSoft寄付ありがとう

Kapper@Linuxガジェヲタ＆異世界小説家＆生成AI＆電子工作大好き @kapper1224 昨日MicroSoftからリリースしたローカルLLMモデルのPhi-3 mini 4k Q4をllama.cppのサーバ版を動かしてみた。こいつ2.32GBしかないくせに日本語しゃべれるぞ。今までとは桁違いの性能なんですけど・・・ ./build/bin/server -m ../Phi-3-mini-4k-instruct-q4.gguf -n 128 huggingface.co/microsoft/Phi-… pic.twitter.com/DTmUmeh7JE 2024-04-24 22:46:51

keijak 2024/04/26

llm

リンク

「認証」を整理する | IIJ Engineers Blog

英語の「Authentication」を整理するここからは先ほどの分類で言うところの「ユーザ認証」としての「認証」、つまり英語の「Authentication」に該当する「認証」について、さらに整理を進めていきます。先ほど、「ユーザ認証」を「システムを利用しようとしているユーザを、システムに登録済みのユーザかどうか識別し、ユーザが主張する身元を検証するプロセス」と説明しました。「ユーザの識別」と「身元の検証」はユーザ認証に欠かせませんが、実際は他にも「ユーザの有効／無効状態の確認」や「検証に成功した場合の身元の保証（アクセストークンの発行等）」などの処理も一般的にユーザ認証のプロセスには含まれます。ここで冒頭の「○○認証」を振り返りましょう。パスワード認証、SMS認証、指紋認証、顔認証は実はここで言うユーザ認証には該当せず、ユーザ認証中の一処理である「身元の検証」を担っていることがお

keijak 2024/04/26

リンク

Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita

少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。サブワードニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が

keijak 2024/04/25

llm
nlp

リンク

RAGの課題と精度改善のための発展的なアプローチまとめ | Hakky Handbook

はじめに本記事では、RAG (Retrieval-Augmented Generation) の精度改善に焦点を当てて、一般的に行われている RAG の問題点と、それらを解決するために LangChain が提案した発展的な RAG の概要について紹介します。また、本記事はlanghchain の開発ブログを参考にしています。 RAG とは RAG（Retrieval-Augmented Generation）は、情報の検索（Retrieval）と生成（Generation）を組み合わせることで、よりコンテキストに基づいた回答を可能にするためのアーキテクチャです。 RAG のアーキテクチャは、通常 2 つの主要なコンポーネントで構成されます。 Retriever Retriever は、大規模なテキストデータベースやウェブ上の情報を検索して、入力された質問やクエリに関連するコンテ