[B! NLP] sh19910711のブックマーク

継続して改善する固有表現抽出 / Continuous improvement of named entity extraction

■イベント Sansan Builders Stage 2021 https://jp.corp-sansan.com/engineering/buildersstage2021/ ■登壇概要タイトル： 継続して改善する固有表現抽出登壇者：技術本部 DSOC 研究開発部 Data Analysisグループ　シニアリサーチャー　高橋寛治 ▼Sansan Engineering https://jp.corp-sansan.com/engineering/

sh19910711 2024/05/11

"BERTを用いた固有表現抽出におけるバッチ能動学習 / 前処理や後処理は命名しオブジェクトとして注入することで可読性を高める / 実際に試したり使ったりすることで出力に関する問題点や改善要望が出てくる" 2021

リンク

【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出 - u++の備忘録

ブートストラップ法による科学ニュース記事からの雑誌名抽出菊地真人, 吉田光男, 梅村恭司 (豊橋技科大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P11-6.pdf どんなもの？日本語の科学ニュース記事では，研究成果がわかりやすく述べられるが，出典となる文献情報は明記されない傾向にある．このことは，読者が研究の詳細を知ることへの障壁となっている．一方，研究内容が掲載された雑誌名は記事中に明記されることが多く，雑誌名を自動抽出することで対象の文献情報を探索する手がかりが得られる．日本語の科学ニュース記事からの雑誌名抽出に取り組み，得られた雑誌名をリスト化する雑誌名が特定の文脈に出現しやすいという仮定を立て，雑誌名抽出に対してこの仮説を裏付けた先行研究と比べてどこがす

sh19910711 2024/05/07

"雑誌名が特定の文脈に出現しやすいという仮定 + 雑誌名の両側 / ブートストラップ法: 少数の固有表現を教師データ + 抽出と辞書の拡充を交互に繰り返す + 少数の固有表現をもとに多くの固有表現を抽出" NLP2018:P11-6 2018

リンク

スクレイピング時に本文だけを抽出する最高精度ツールが優秀！【日本語版も公開】 - Qiita

n,pはそれぞれnegative(ノイズ),positive(本文)を基準とした時の評価を表します。例としてノイズ部分をN,本文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に本文を抽出できているかを評価していると考えればよいでしょう。元のデータでの再現学習も問題無く行えました。また日本語対応版もおおよそ元論文と同程度の精度が出ています。要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

sh19910711 2024/05/06

"boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020

リンク

素振りの記：BERT-CRFで固有表現認識したい！『大規模言語モデル入門』6章でクイックツアー - nikkie-ftnextの日記

はじめに無敵級ビリーバー3周年👑👑👑 nikkieです。「お休みの日にしかできないことを」と追求した結果、最近のお休みは開発合宿感があります。今回は気になっていた技術、BERT-CRFを触りました。目次はじめに目次ずっと引っかかっていたBERT-CRF 『大規模言語モデル入門』6章「固有表現認識」 BERT-CRFクイックツアーの感想書籍への感想サンプルコードへの感想終わりにずっと引っかかっていたBERT-CRF BERT-CRFという技術は固有表現認識でなかなかよいと聞いていました1。ただずっと「具体的にどう実装すればいいの？」というところがよく分かりませんでした。 2018年に登場した機械学習モデルBERT2。 Transf ormer3というアーキテクチャを使って組み上げられたこのモデルは、1つのモデルで複数の自然言語処理タスクが解けるということで注目を集

sh19910711 2024/05/04

"『大規模言語モデル入門』6章 / 固有表現のタイプにはどんなものがあるか（MUC、IREX、拡張固有表現階層 / BERTのファインチューニングで固有表現認識タスクを解いた後で（エラー分析をはさんで）BERT-CRFで精度改善まで" 2023

リンク

【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita

【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data論文読み概要本論文では、NL文と（半）構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者：Pengcheng Yin 団体：Carnelgie Mellon University, Facebook AI Research 提案法 Content

sh19910711 2024/05/03

"TABERT: 文と（半）構造化テーブルの表現を合同で学習 / WDC WebTable Corpus: WikipediaとCommonCrawlから収集した大規模テーブルデータ / 評価: Spiderデータセットを用いてテキストからSQL文を予測するタスク" arXiv:2005.08314 2022

リンク

複数の関連度から検索可能な BGE M3-Embedding の紹介 - Algomatic Tech Blog

こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation おことわり本記事では精読レベルの詳細な解説は含みません。詳細については参照元の論文をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事で紹介する論文は Work in progress とコメントされており今後内容が更新される可能

sh19910711 2024/05/02

"ベクトル表現を用いた類似度算出に基づく検索は sparse retrieval, dense retrieval, multi-vector retrieval に大別 / M3-Embedding: これら 3 つの機能を有する高性能な埋め込みモデルとして提案" arXiv:2402.03216

リンク

【書籍メモ】『Pythonによる金融テキストマイニング』（朝倉書店） - u++の備忘録

『Pythonによる金融テキストマイニング』（朝倉書店）を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で全体像を示した後、第 2 、 3 章で開発環境構築と MeCab などのツール・ライブラリを紹介します。第 4 章から第 7 章は、応用事例です。最後に第 8 章で、書籍内で扱えなかった話題や将来展望を解説しています。金融テイストマイニングの概要金融データ解析・機械学習の環境構築テキストマイニングツールの使い方多変量解析を用いた日銀レポート解析と債券市場予測深層学習を用いた価格予想ブートストラップ法を用いた業績要因抽出法決算短信テキストからの因果関係の抽出金融テキストマイニング応用の課題を将来まず、第 4

sh19910711 2024/04/29

"金融テキストマイニングというと金融時系列予測を想像しがち / 第 6 章で業績要因、第 7 章で因果関係の抽出なども応用事例として紹介 / 7章: 決算短信テキストからの因果関係の抽出" 2022

リンク

言語モデルを用いたQuery Categorizationへの取り組み / LM-based query categorization for query understanding

sh19910711 2024/04/28

"Query Categorization: 検索クエリを事前に定義した分類にカテゴライズ + 意図・トピック・パフォーマンス / ルールベース: シンプルながらも確実に効果 + 一部の検索エンジンではデフォルトでサポート（Algolia, Vespa, etc.）" 2023

リンク

意見分析エンジン―計算言語学と社会学の接点 - inak0shiのブログ

意見分析エンジン―計算言語学と社会学の接点 posted with amazlet at 15.04.10 大塚裕子乾孝司奥村学コロナ社売り上げランキング: 533,011 Amazon.co.jpで詳細を見る 1〜3章は、意見分析を社会学の観点で解説しており、この本を読もうと思った目的に合わないのでスルー。4〜7章を読んだ。 4章では、意見分析の中でも、その一部である評価分析について、基本的なアプローチを解説。1)評価表現辞書の構築、2)評価情報を観点とした文書分類、3)評価情報を含む文の分類、4)評価情報の要素組の抽出と分類である。1に関しては、a)語彙ネットワーク(WordNet)、b)コーパス内での共起情報(検索エンジン)、c)周辺の文脈を利用する手法が紹介されている。4に関しては、<対象,属性,評価>の3つ組で表わされる属性辞書を、スロットとコーパスの間をブートスト

sh19910711 2024/04/28

"5章では、構文論(syntax)と語用論(pragmatics)に着眼した、意見分析の実践を紹介 / 文法的表現(真偽判断:「だろう」「らしい」「ようだ」 ... )とアンケート文をパターンマッチし、意味タグを付与" 2015

リンク

自然言語理解とそのモデリング - Reproc.pnz

はじめにさいきん自然言語処理分野では「自然言語理解」なるものをどう考えるかについて議論があったりします。膨大なパラメータを大量のコーパスで訓練したシステム（ GPT-3 とか）を用いると言語理解が関わるようなさまざまなタスクで高い性能が達成できることがわかってきた今日このごろ、そうしたシステムが本当に「言語理解」なるものを実現しているのかということが焦点です。これは言語理解である、言語理解ではない、そもそも言語理解ってなんやねん……などなど、考えさせられる議論が論文やブログ記事などで展開されています。読んでいても何もわからん……状態になったので、ともかく自分の理解を整理してみようというのがこの記事を書き始めた動機です。こうした議論から得られる帰結（あるいは教訓）のひとつは、結局は理想的な言語理解なるものを定義しようと試みても決着しないので、具体的にどういった振る舞いがそれに含まれるのか

sh19910711 2024/04/28

"理想的な言語理解なるものを定義しようと試みても決着しない / どういった振る舞いがそれに含まれるのかを適切に切り出してタスクとして評価 / 現実的な制約から妥協したり部分問題に落としたりして定式化" 2021

リンク

10万のサークル名を収集して傾向を可視化してみました - ミジンコ組さんの努力の結晶が詰まった本 - このすみろぐ

みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。控えめに言ってすごい本です。本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。まさに、努力の結晶な本です。 daphnia.booth.pm 感想を書いていきます。なぜ10万のサークル名なのか？ノイズとの戦い正規表現によるサークル名の収集サークル名の傾向について MeCabによるサークル名の形態素解析自分のサークル名を考え直してみるさいごになぜ10万のサークル名なのか？ 10万という数字は、仮説を元に導き出された数字です。年間の土日祝日の数： 120 土日祝日に開催されるイベントの数： 10〜40 小規模、中規模、大規模、超大規模な

sh19910711 2024/04/27

"Twitterの発言をひたすら収集 / 「サークル名は〇〇です」といった形式のツイート / 単純にサークルで検索をしてしまうと、大学のサークル活動がたくさんヒット / 漢字は一文字に意味を凝縮できる" 2018

リンク

GPTを自作して学習済みパラメータでテキスト生成 - stMind

2024年の最初のエントリーはGPTです。 GPTモデルを自作して、OpenAIが公開している学習済みのパラメータをロード、テキスト生成までの一連の処理を実行します。モデル正確にはGPT2のTransf ormerブロックを自作します。アーキテクチャの大部分はGPTと同じですが、以下の変更（pre-norm）が行われています。 LayerNormはAttentionとMLPの前で適用追加のLayerNormをTransf ormerブロックの後で適用 Transf ormerブロックを除くText & Position埋め込みとNext Token生成は、 picoGPTのコードを利用します（解説ブログは GPT in 60 Lines of NumPy | Jay Mody）。また、以下で紹介するコードはTensorflowを用いて実装しています（picoGPTの諸々のコードがTen

sh19910711 2024/04/27

"埋め込みとNext Token生成は、 picoGPTのコードを利用 + 解説ブログは GPT in 60 Lines of NumPy / モデルを実装して学習するのはHW制約などもあって大変 + 公開されているパラメータを使う / 論文の数式やコードの読解力が上がった"

リンク

RoFormer: Enhanced Transformer with Rotary Position Embedding - iwiwi 備忘録

arxiv.org GPT-NeoX等で使われているposition embedding。そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。

sh19910711 2024/04/27

"RoFormer: GPT-NeoX等で使われている + 足す(additive)んじゃなくて回転させる(multicative) / アグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった" arXiv:2104.09864 2023

リンク

分散表現とWord2vec｜実践的自然言語処理入門 #3 - Liberal Art’s diary

#1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現・背景（自然言語処理における疎行列の取り扱い問題）自然言語処理を行う際にBoW的なアプローチ（生起頻度のカウントとtf-idf値での計算のどちらも含みます）を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars

sh19910711 2024/04/27

"BoW: 行列のサイズ自体はとても大きな一方で、ほとんどが0 + 済系の記事にスポーツ系の単語は出てきにくい / 「深層学習による自然言語処理」の3章の記述が非常にわかりやすかった" 2019

リンク

技術広報から見たNLP2024と技術カンファレンスの違い - Money Forward Developers Blog

TL;DR 2024年3月11日～15日に開催された言語処理学会第30回年次大会(以降、NLP2024)にブース展示や企業スポンサーのスタッフとして参加していました。 www.anlp.jp 弊社リサーチャー山岸さんの参加レポートはこちらになります。研究職の方向けの内容はこちらになっているので、ご興味をお持ちになった方はぜひご一読ください。 moneyforward-dev.jp 本記事の前提本記事内では2つのカンファレンスが登場します。概念として別物として扱いたいため、単にカンファレンスと称する場合はRubyKaigiやGo Conferenceのような技術カンファレンスを指し、学会と称する場合はNLPなどのアカデミックな学会のことを指すこととします。また研究職とリサーチャーという言葉を使い分けています。リサーチャーと書いた場合は弊社の職種を表し、研究職とした場合は世間一般の

sh19910711 2024/04/26

"展示は最小限 + 議論が最も魅力的なコンテンツ / Helpfeelさんがされていたホワイトボードに研究職の方がどこにいるか、何時に戻ってくるかをお知らせする取り組みはとても参考になる"

リンク

【 self attention 】簡単に予測理由を可視化できる文書分類モデルを実装する - Qiita

はじめに Deep Learning モデルの予測理由を可視化する手法がたくさん研究されています。今回はその中でも最もシンプルな（しかし何故かあまり知られていない）self attentionを用いた文書分類モデルを実装したので実験結果を紹介します。この手法では、RNNモデルが文書中のどの単語に注目して分類を行ったか可視化することが可能になります。 2019/04追記本記事で紹介したモデルをAllenNLPを使用して書き直した記事を公開しました。 attentionの復習 attentionとは（正確な定義ではないですが）予測モデルに入力データのどの部分に注目するか知らせる機構のことです。 attention技術は機械翻訳への応用が特に有名です。例えば、日英翻訳モデルを考えます。翻訳モデルは”これはペンです”という文字列を入力として"This is a pen"という英文を出力しま

sh19910711 2024/04/26

"予測を間違えたデータの分析も予測理由の可視化ができるとわかりやすい / self-attentive sentence embedding: bidirectional LSTM + 隠れ層を入力として各単語へのattentionを出力 + 文書分類" arXiv:1703.03130 2018

リンク

BERTによるツイートのいいね数予測とLIMEによる判断根拠の可視化 - クルトンのプログラミング教室

この記事はでぶ Advent Calendar 2022 10日目の記事です。こんにちは、クルトンです！この記事ではデブさんのツイートを用いて、ツイート内容といいね数の相関について調べた結果を書いていこうと思います。この記事を書くに至ったきっかけ Twitter APIでツイートを取得する簡単なEDA BERTによっていいね数を予測し、判断根拠をLIMEによって可視化するおまけコードこの記事を書くに至ったきっかけ殆どの方はご存じかと思いますが、念のために書いておくとデブさんは😡界隈の第一人者として有名なツイッタラーです。そのツイートの多くには大量の😡が含まれています。写真は現時点で最新のツイート。このように文末に😡を多く含む文体が特徴的である。そこで僕は「😡系インフルエンサーのデブさんなら😡を多くすればするほどいいね数が増えるのではないか？」という仮説を立てまし

sh19910711 2024/04/25

"ツイートの多くには大量の😡が含まれ / BERTの判断根拠をLimeTextExplainerによって可視化 / どの部分がツイートが伸びるか伸びないかに影響しているのかを調べてみました" 2022

リンク

LEIA: 言語間転移学習でLLMを賢くする新しい方法

Studio Ousiaと理化学研究所に所属している山田育矢です。この記事では、大規模言語モデル（LLM）の性能を向上させる新しい方法であるLEIA（Lightweight Entity-based Inter-language Adaptation）を紹介します。 LLMは言語によって性能に顕著な差があり、訓練に使われるテキストが最も多い英語において特に性能が高い傾向があることが知られています。LEIAは、LLMが蓄えている英語の知識を他の言語から使えるようにする訓練を施すことで、英語以外の言語でのLLMの性能を向上させる新しい手法です。この度、英語・日本語の2言語LLMであるSwallowの7Bと13Bのモデルに対してLEIAによる訓練を施して性能向上を行ったモデルを公開します。ライセンスは、Swallowと同様のLlama 2 Community Licenseです。これらのモ

sh19910711 2024/04/25

"LLMの性能: 言語ごとに偏りがある + 訓練に使われるテキストが最も多い英語において特に性能が高い傾向 / LEIA: Wikipediaのエンティティを使ってデータ拡張 + リンクの右側にリンク先のエンティティに対応する英語名を挿入"

リンク

Recursive Autoencoder で文の分散表現 - scouty AI LAB

scouty 代表の島田です。トピックモデルで単語の分散表現 - 理論編 - scouty AI LAB では、局所表現・分散表現の違いに関して説明しましたが、「単語の分散表現と同じように、文*1の分散表現を作るにはどうすればよいか？」というのが今回のテーマです。 CNNで文の識別タスクを解く - scouty AI LAB でもCNNによって文の分散表現を作る方法を扱いましたが、本記事では Recursive Autoencoder によって文の分散表現を作る方法をご紹介します。 Autoencoder とは何か Recursive Autoencoder は、 Autoencoder （オートエンコーダー）を組み合わせることによって文の意味表現をひとつのベクトルとして表そうとするモデルです。 Autoencoder というのは、入力ベクトルを受け取ったら、入力ベクトルと全く同一のベク

sh19910711 2024/04/24

"Recursive Autoencoder: 文章内の単語を二分木で表す + 単語を再帰的に圧縮 / 二分木を作る手法は様々ですが、次のような greedy な手法が用いられ / CNNによる文の分散表現のほうが一般的に文識別などでは精度が高い" 2017

リンク

GiNZAのja-ginza-electraモデルでELECTRAベースの単語ベクトルを使用できるようにする - OPTiM TECH BLOG

はじめに R&Dチーム所属の伊藤です。相も変わらず自然言語処理と格闘する毎日を送っています。今回は個人的にとても楽しみにしていたGiNZA v5の新モデルであるja-ginza-electraを使って、前後の文脈を加味した単語ベクトルを求められるようにするまでの手順をまとめました。はじめに GiNZA v5についてセットアップモデルのロード + 文の解析方法行いたいこと Contextualな単語ベクトル ELECTRAモデルの出力と単語ベクトルの計算 spaCyのUser hooksの追加おわりに GiNZA v5について GiNZAはspaCyをベースにしたPythonの日本語向け自然言語処理ライブラリです。形態素解析をはじめとして、固有表現抽出や品詞タグ付け、構文解析などを行うことが可能です。このGiNZAですが、2021年8月26日に最新バージョンであるv5が公開さ

sh19910711 2024/04/24

"GiNZA: v5での最も大きな変更点はspaCy v3以降で導入されたTransformersとの連携機能 + v4までja-ginzaというCNNベースのモデルのみを提供してきましたが、v5よりja-ginza-electraというTransformersを使用した解析モデルもリリース" 2021

リンク

はてなブックマーク

タグ

関連タグで絞り込む (110)

NLPに関するsh19910711のブックマーク (600)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス