Wikipediaを用いた日本語の固有表現抽出データセットの公開

テクノロジーカテゴリーの変更を依頼記事元:

tech.stockmark.co.jp

85 usersがブックマークコメント

記事へのコメント3件

注目コメント
新着コメント

cj3029412 すきすきー🐈💕

2020/12/15 リンク

jiro68 ストックマークという会社のレベルがこの程度だったとは...。Wikipedia であれば、スクレイプすれば単語のタイプ(品詞-固有名詞)も簡単に分かる訳で、これって大学生位が演習でやるレベルでは？

2020/12/15 リンク

n_231 各データセット数、この10倍ぐらい欲しいイメージがある。

2020/12/15 リンク

cj3029412 すきすきー🐈💕

2020/12/15 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

<iframe marginwidth="0" marginheight="0" src="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Ftech.stockmark.co.jp%2Fblog%2F202012_ner_dataset%2F%3Ftitle%3DWikipedia%25E3%2582%2592%25E7%2594%25A8%25E3%2581%2584%25E3%2581%259F%25E6%2597%25A5%25E6%259C%25AC%25E8%25AA%259E%25E3%2581%25AE%25E5%259B%25BA%25E6%259C%2589%25E8%25A1%25A8%25E7%258F%25BE%25E6%258A%25BD%25E5%2587%25BA%25E3%2583%2587%25E3%2583%25BC%25E3%2582%25BF%25E3%2582%25BB%25E3%2583%2583%25E3%2583%2588%25E3%2581%25AE%25E5%2585%25AC%25E9%2596%258B" scrolling="no" frameborder="0" height="230" width="500"><div class="hatena-bookmark-detail-info"><a href="https://tech.stockmark.co.jp/blog/202012_ner_dataset/?title=Wikipedia%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AE%E5%9B%BA%E6%9C%89%E8%A1%A8%E7%8F%BE%E6%8A%BD%E5%87%BA%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88%E3%81%AE%E5%85%AC%E9%96%8B">Wikipediaを用いた日本語の固有表現抽出データセットの公開</a><a href="https://b.hatena.ne.jp/entry/s/tech.stockmark.co.jp/blog/202012_ner_dataset/?title=Wikipedia%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AE%E5%9B%BA%E6%9C%89%E8%A1%A8%E7%8F%BE%E6%8A%BD%E5%87%BA%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88%E3%81%AE%E5%85%AC%E9%96%8B">はてなブックマーク - Wikipediaを用いた日本語の固有表現抽出データセットの公開</a></div></iframe>

プレビュー

規約違反を報告

Wikipediaを用いた日本語の固有表現抽出データセットの公開

ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、... ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ