並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 5 件 / 5件

新着順 人気順

固有表現認識の検索結果1 - 5 件 / 5件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

固有表現認識に関するエントリは5件あります。 機械学習NLPテキスト などが関連タグです。 人気エントリには 『低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer』などがあります。
  • 低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer

    ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現認識を上手くやるための方法だと考えればいい。手法としては言語モデルを事前学習して、それを使って固有表現認識するというもの。時代の異なる2つのデータセットに対して検証したところ、従来手法より良い結果となった。 昔のドイツ語に対する固有表現認識には3つの課題がある。一つはリソースの量が少ない点。現在よく使われているCoNLL 2003のデータセットと比べると、タグの付いたデータ量が少なく、その分難しくなっている。2つ目はテキ

      低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer
    • 実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~ - Ahogrammer

      自然言語処理の分野で昔から研究され、実際に使われている技術として固有表現認識があります。固有表現認識は、テキスト中で固有表現が出現する位置を特定し、人名や地名などのラベルを付与するタスクです。情報抽出や質問応答、対話システムなどへの幅広い応用が可能なため、今でも盛んに研究され、使われている技術です。本記事では、日本語の固有表現認識をFlairと呼ばれるPythonパッケージを使って実現する方法について紹介します。 準備 本記事では Flair を使って固有表現認識のモデルを学習させます。Flairは最先端の自然言語処理のモデルを簡単に使い始められる形で提供してくれているパッケージです。その中で提供されている機能として、固有表現認識や品詞タグ付け、文書分類のモデルを学習するための機能があります。使い始めるために、以下のようにしてFlairをインストールしておく必要があります。 $ pip i

        実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~ - Ahogrammer
      • 文字ベース固有表現認識の手法たち - Ahogrammer

        固有表現認識(NER: Named Entity Recognition)とは、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を認識する技術です。NERはエンティティリンキングや関係抽出、イベント抽出、共参照解決といった自然言語処理タスクの要素技術として使われるため、常にある程度の研究が行われている分野となっています。 最近よく使われる手法としては、テキストを単語の系列に分解し、それをRNNとCRFを接続したネットワークに入力する手法があります。そういった手法は数多く存在するため個別には紹介しませんが、以前に以下の記事でそのうちの一つの手法について実装しています。 hironsan.hatenablog.com 単語分割を前提とした手法は、単語の切れ目が明示されている言語以外では扱いにくいという問題点があります。たとえば、英語であるなら単語の切れ目は空白で区切られて

          文字ベース固有表現認識の手法たち - Ahogrammer
        • AWS LambdaにGiNZAを載せて、固有表現認識APIを作成する - Ahogrammer

          一週間ほど前、AWS LambdaにElastic File System(EFS)をマウントできる機能が追加されました。この機能を使うことで、マウントしたEFS上への読み書きがLambda関数からできるようになりました。これまではLambdaの制限により、/tmpで使用可能な容量が512MBなので、大きなファイルの読み込みは難しかったのですが、EFSを使うことでそれが可能になります。特に機械学習系のパッケージやモデルの容量は何かと大きいので、新機能の恩恵に与ることになります。 そういうわけで、本記事ではEFSに日本語の自然言語処理ライブラリであるGiNZAを置いて、それをLambdaから呼び出してみようと思います。実のところ、GiNZAのパッケージは400MB程度なので、/tmpに載せることもできるはずです。その場合は、Lambda LayersとLambdaを組み合わせて、S3上に置い

            AWS LambdaにGiNZAを載せて、固有表現認識APIを作成する - Ahogrammer
          • 単語分散表現の信頼性を考慮した固有表現認識 - Ahogrammer

            ACL 2019より以下の論文を紹介。 Reliability-aware Dynamic Feature Composition for Name Tagging この論文では、単語分散表現の信頼性を考慮した固有表現認識を行うモデルを提案している。単語分散表現は広く使われているが、低頻度語や未知語のように文脈が十分に存在しない単語の場合はその信頼性は頻出語と比べて低い。しかし、現在のモデルはすべての分散表現を等しく重み付けしているため、それによって性能を損なっている可能性がある。そこでこの論文では、単語の出現頻度を基に分散表現の信頼性を計算し、モデルに組み込んでいる。実験の結果、従来より良い結果を得られた。 以前から知られているが、現在の固有表現認識のモデルは未知語に弱いという課題がある。たとえば、以下の例を考えてみよう。 例: 先日の雨で鬼難橋が流された。 「鬼難橋」というのは私が作っ

              単語分散表現の信頼性を考慮した固有表現認識 - Ahogrammer
            1

            新着記事