ブックマーク / sucrose.hatenablog.com (3)

  • BigQueryで単語分割がしたい - 唯物是真 @Scaled_Wurm

    形態素解析器で分割してからBigQueryに載せればいいでしょって話ではあるのですが、既に載っているデータだったり、ログを載せるプロセスに形態素解析を新たに噛ませるのは大変だったりします とりあえず試してみたいだけの時に気軽にやりたいので、BigQuery上で単語分割できないか調べてみました さすがにSQLで単語分割するのは無理ですが、BigQueryではUDF(ユーザー定義関数)が使えるのでJavaScriptのライブラリを使います JavaScriptで単語分割できるライブラリは例えば以下のようなものがありますが、サイズなどの制限の問題でTinySegmenterを使います TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア stop-the-world: ブラウザで自然言語処理 - JavaScript形態素解析器kuromoji.

    BigQueryで単語分割がしたい - 唯物是真 @Scaled_Wurm
    yamitzky
    yamitzky 2021/02/05
    軽くプロトタイプしたいときに便利だった
  • 大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm

    前に以下のような記事を書きましたが、大量のテキストではうまくいかなかったので新たに書きました ファイルからランダムにN行取り出す(shufコマンド) - 唯物是真 @Scaled_Wurm 上の記事ではテキストをランダムに\(k\)行取り出したい時"shuf -n k"コマンドでランダムにシャッフルした\(k\)行を取り出していました ところが非常に大きなテキストファイルに対して上のコマンドを実行すると、一度にデータを全部メモリに読み込み始めているのか、すごい勢いでメモリを消費していきました(sort -Rでも) そこでメモリをあまり使わずにランダムに\(k\)行取り出す方法について調べました まず基的な非復元抽出のアルゴリズムは以下の記事の発展手法とか追記のあたりの話がわかりやすいと思います 非復元抽出の高速かつ実装が簡単な方法を考える - 睡眠不足?! この記事の話も一度全部の要素を

    大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm
    yamitzky
    yamitzky 2014/01/11
    全体数がわからないときのランダム抽出
  • SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ - 唯物是真 @Scaled_Wurm

    SEXI 2013 | Workshop on Search and Exploration of X-Rated Information at WSDM 2013 WSDM (Web Search and Data Mining) 2013でSEXI(Search and Exploration of X-rated Information)というワークショップが開催されて一部で話題になった このワークショップではポルノなどの18禁な情報の検索やデータマイニングに関する研究を扱っている。 proceedingsが公開されていたので軽く読みました。 読み回↓も行われるらしいですね SEXI2013読み会 : ATND 論文は7投稿されて5が通ったらしいです(71%)。 Overviewが1、Keynote papersが2なので合計8個の論文(?)になりますが、以下に一部の論文の感想を

    SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ - 唯物是真 @Scaled_Wurm
    yamitzky
    yamitzky 2013/06/17
  • 1