サクサク読めて、アプリ限定の機能も多数!
keijak のブックマーク 2024/05/02 15:27
LLM 日本語データセット向けに C++ で minhash 重複除去を行うメモ2024/05/02 15:27
このブックマークにはスターがありません。 最初のスターをつけてみよう!
zenn.dev/syoyo2024/05/02
背景 LLM 向けデータセット(コーパス)では重複のない品質の高いデータセットが重要となります. よくあるのは minhash で fuzzy に行うのと, suffix array で exact に行うもののようです. (RefinedWeb 論文 https...
1 人がブックマーク・0 件のコメント
\ コメントが サクサク読める アプリです /
keijak のブックマーク 2024/05/02 15:27
このブックマークにはスターがありません。
最初のスターをつけてみよう!
LLM 日本語データセット向けに C++ で minhash 重複除去を行うメモ
zenn.dev/syoyo2024/05/02
背景 LLM 向けデータセット(コーパス)では重複のない品質の高いデータセットが重要となります. よくあるのは minhash で fuzzy に行うのと, suffix array で exact に行うもののようです. (RefinedWeb 論文 https...
1 人がブックマーク・0 件のコメント
\ コメントが サクサク読める アプリです /