タグ

ブックマーク / tech.retrieva.jp (2)

  • 日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG

    こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、国立国語研究所様との共同研究で作成した日語話し言葉BERTとその利用方法について紹介します。 概要 BERTの簡単な説明 話し言葉BERT作成方法 書き言葉BERTの文法を表現する部分のみをCSJで追加学習 書き言葉BERTに対して、話し言葉データを用いた分野適応 実験 文法を表現する部分のみを追加学習することの有効性の確認 話し言葉データを用いた分野適応を行うことの有効性の確認 日語話し言葉BERTの公開 ご利用方法 まとめ 概要 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれるモ

    日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG
    takuya-a
    takuya-a 2021/04/02
  • bit vectorで編集距離の計算を高速化する - Retrieva TECH BLOG

    レトリバ製品開発部の@ysk24okです。 記事ではbit vectorを用いて編集距離の計算を高速化するアルゴリズムを紹介します。論文はこちらです。 dl.acm.org クエリの長さを、検索対象のテキストの長さを$n$としたとき編集距離の計算量は$O(mn)$であることが知られていますが、bit vectorを活用することでword長を$w$とすると計算量を$O\bigl(\frac{m}{w}n\bigr)$($m\leq w$のときは$O(n)$)に低減できる手法になります。 1999年発表の古い論文ですが、この論文で提案されているアルゴリズムが弊社の製品に実装されていて初見では理解できなかったことに加え、日語での論文解説が無いようだったので解説記事を書くことにしました。 編集距離(Levenshtein Distance)とは 近似文字列照合(approximate stri

    bit vectorで編集距離の計算を高速化する - Retrieva TECH BLOG
  • 1