yamada_kのブックマーク - はてなブックマーク

Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
TL;DR Transf ormersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。サンプル実装: github.com 背景この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transf ormers *1。 BERT等のTransf ormer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。
yamada_k 2023/03/04
nlp

固有表現抽出

Transformers
リンク
もし「リーダブルコード」を弁護士が読んだら？ - MNTSQ Techブログ
こんにちは。「リーダブルコード」を先月読破して、感銘を受けた弁護士の人です。なにに感銘を受けたかというと、「エンジニアが高級言語を効率的にコーディングするための工夫」は、契約という言語をコーディングするために援用できることがとても多いということです。例えば、リーダブルコードは「関数には空虚な名前（tmpとかretvalとか）でなく、エンティティの実体に即した名前をつけよう！」と提案しています。これめっちゃわかります！！！なぜなら、契約言語では当事者というクラスの表現のために「甲」「乙」という定義を未だに使います。そして、甲と乙を逆に書いてしまったままReviewを通過することが実際によくあります。オライリーさんには激怒されるでしょう。しかし、よく考えると高級言語と契約言語が似ているのは当然だと思うようになりました。それは、どちらも「一定のインプットを入れると、必ず一定のアウトプット
yamada_k 2022/12/28
リンク
1

はてなブックマーク

タグ

ブックマーク / tech.mntsq.co.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tech.mntsq.co.jp (2)

Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ

もし「リーダブルコード」を弁護士が読んだら？ - MNTSQ Techブログ

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス