yamitzkyのブックマーク - はてなブックマーク

BigQueryで単語分割がしたい - 唯物是真 @Scaled_Wurm

形態素解析器で分割してからBigQueryに載せればいいでしょって話ではあるのですが、既に載っているデータだったり、ログを載せるプロセスに形態素解析を新たに噛ませるのは大変だったりしますとりあえず試してみたいだけの時に気軽にやりたいので、BigQuery上で単語分割できないか調べてみましたさすがにSQLで単語分割するのは無理ですが、BigQueryではUDF(ユーザー定義関数)が使えるのでJavaScriptのライブラリを使います JavaScriptで単語分割できるライブラリは例えば以下のようなものがありますが、サイズなどの制限の問題でTinySegmenterを使います TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア stop-the-world: ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.

yamitzky 2021/02/05

軽くプロトタイプしたいときに便利だった

リンク

大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm

前に以下のような記事を書きましたが、大量のテキストではうまくいかなかったので新たに書きましたファイルからランダムにN行取り出す(shufコマンド) - 唯物是真 @Scaled_Wurm 上の記事ではテキストをランダムに\(k\)行取り出したい時"shuf -n k"コマンドでランダムにシャッフルした\(k\)行を取り出していましたところが非常に大きなテキストファイルに対して上のコマンドを実行すると、一度にデータを全部メモリに読み込み始めているのか、すごい勢いでメモリを消費していきました(sort -Rでも) そこでメモリをあまり使わずにランダムに\(k\)行取り出す方法について調べましたまず基本的な非復元抽出のアルゴリズムは以下の記事の発展手法とか追記のあたりの話がわかりやすいと思います非復元抽出の高速かつ実装が簡単な方法を考える - 睡眠不足？！この記事の話も一度全部の要素を

yamitzky 2014/01/11

全体数がわからないときのランダム抽出

リンク

SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ - 唯物是真 @Scaled_Wurm

SEXI 2013 | Workshop on Search and Exploration of X-Rated Information at WSDM 2013 WSDM (Web Search and Data Mining) 2013でSEXI(Search and Exploration of X-rated Information)というワークショップが開催されて一部で話題になったこのワークショップではポルノなどの18禁な情報の検索やデータマイニングに関する研究を扱っている。 proceedingsが公開されていたので軽く読みました。読み回↓も行われるらしいですね SEXI2013読み会 : ATND 論文は7本投稿されて5本が通ったらしいです(71%)。 Overviewが1、Keynote papersが2なので合計8個の論文(？)になりますが、以下に一部の論文の感想を

yamitzky 2013/06/17

リンク

はてなブックマーク

タグ

ブックマーク / sucrose.hatenablog.com (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス