タグ

機械学習とBERTに関するpetite_blueのブックマーク (2)

  • BERTによるニュース記事の構造化:企業名抽出

    はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。 先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。 ストックマークが公開した言語モデルの一覧と振り返り 今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。 ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。 弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

    BERTによるニュース記事の構造化:企業名抽出
  • BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録

    こんにちは、@vimmodeです。自然言語界隈ではBERTを始めとしたTransformerベースの手法の進化が目覚ましいですが、実運用されている話はあまり聞きません。 その理由としてモデルのサイズの大きさと推論速度の遅さに一定起因すると感じており、この記事はその解消になり得る量子化と呼ばれる手法の紹介とPyTorchで実装されたBERTモデルに量子化を適応する方法を紹介します。 量子化とは 量子化という単語は数学や物理など様々な領域で使われています。ここで述べる量子化は情報理論における量子化であり、主に連続値を離散値で表現することを考えます。 機械学習の枠組みで考えるとモデルのパラメータや学習時の勾配(場合によっては入力と出力データも含める)の数値表現を浮動小数点から整数に変更することを目的にします。 ディープラーニングではパラメータ等をfloat32で表現することが多いですが、もしこれ

    BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録
  • 1