[B! NLP] poginのブックマーク

GitHub - megagonlabs/jrte-corpus: Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

pogin 2021/04/03

リンク

ブートストラッピング法による情報抽出の論文まとめ - ヤドカリラボ

はじめに自然言語処理におけるタスクの一つとして、構造化されていないテキストから情報や知識を自動または半自動で取り出すことを情報抽出といいます。最近では深層学習系の論文が国際学会ではメジャーですが、訓練・ベンチマークに用いているデータセットのレコード数が膨大であり、また高価なGPU環境が言語モデルの訓練のために必要など、必ずしも現実の要件で扱われる問題と合致していない部分があります。また、抽出の際に起こる問題や、抽出の際に用いる指標を古典的な手法を通じて押さえておくことで、実際のデータに既存手法や経験的な手法をいろいろ適用してみるときの手がかりになります。そこで本記事では情報抽出の領域で深層学習が流行る前に比較的メジャーであったブートストラッピング法にフォーカスし、抽出の概念、手法の解説、論文のタスクや手法の詳細などを追っていきます。論文の流れを追うことで情報抽出の応用をしようとし

pogin 2020/05/25

リンク

サブカルのためのword2vec | BLOG - DeNA Engineering

はじめに AIシステム部AI研究開発グループアルバイトの五十嵐です。（ @bonprosoft, ポートフォリオ：http://vbcpp.net/about/ ）現在、東北大学大学院の修士1年で、大学院では（自然言語ではなく）高速な文字列処理アルゴリズムに関する研究を行っています。私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。取り組んだタスク突然ですが、みなさま、ハッカドールはインストールされていますか？ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み

pogin 2018/01/13

リンク

word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう

word2vec, fasttextの差と実践的な使い方目次 Fasttextとword2vecの差を調査する実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したものただし、fasttextにはsubwordという仕組みが入っている図2. softmaxで共起確率を計算するあそんでみよう 2017年2～3月のTwitterのデータ

pogin 2017/04/02

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

pogin 2016/10/18

リンク

CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい｡ uchiumi log: 間違ってるかもしれないCRFの説明また、実装方法については高村本(言語処理のための機械学習入門)がとても詳しい。さて、具体的な解説をしないなら何をするの？ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

pogin 2011/12/07

リンク

テキストマイニングのための機械学習超入門　二夜目　パーセプトロン - あんちべ！

一夜目はパターン認識と機械学習の概要を学びました。今夜は、識別部で用いられる機械学習の基本的な線形識別器である「パーセプトロン」を具体的に学びたいと思います。「線形識別器？パーセプトロン？何それ？」字面は厳しいですが、手を動かしてみると意外と簡単に理解できます。今夜からは数式をバリバリ使っていきますし、手を動かしていただきます。「必ず」手元にペンと紙を用意してください。そうは言ってもパーセプトロンが一体何なのか、機械学習の中でどのような位置づけなのかがわからないと混乱するかもしれません。パーセプトロンの説明へ入る前に、機械学習の3つのアプローチをご紹介します。 ●機械学習の３つのアプローチ - 識別関数、識別モデル、生成モデル機械学習は大きく分けて識別関数、識別モデル、生成モデルという３つのアプローチがあります。識別関数 := 入力データを見て、特定のクラスに属するよう識別（代表的な手

pogin 2011/11/26

リンク

Windows Phoneは自然言語理解を武器に戦う - 蝉々亭

今日2011年5月29日日曜日の日本経済新聞7面に米マイクロソフトCEOスティーブ・バルマー氏へのインタビューが掲載されています。主な論点はマイクロソフトのスマートフォン市場への取り組みに関するもので、ノキアとの提携、スカイプの買収についてや、競合するグーグルやアップルとの差別化についても言及されています。特に興味深いのは以下の部分で、引用します。 ——グーグルのアンドロイドやiPhoneに対しウィンドウズフォンは何を武器に戦うのか。「類似性の高い両陣営とは全く別の利便性を提供する。人々の仕事や生活を直接助ける道具にする。たとえば端末に『どこどこの日本食レストランを予約できないかな』と言えば、電話をかけはじめる。『ANA26便の搭乗券を印刷』と言えば、部屋のプリンターに印刷させるという具合だ」「カギはグーグル的な検索とはまったく違う角度から言葉の意味をとらえ、反応する新種の検索エンジン

pogin 2011/05/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

NLPに関するpoginのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス