keijakkeijak のブックマーク 2024/05/02 15:27

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

LLM 日本語データセット向けに C++ で minhash 重複除去を行うメモ

    背景 LLM 向けデータセット(コーパス)では重複のない品質の高いデータセットが重要となります. よくあるのは minhash で fuzzy に行うのと, suffix array で exact に行うもののようです. (RefinedWeb 論文 https...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう