[B! 自然言語処理] haganeのブックマーク

hagane id:hagane

自然言語処理に関するhaganeのブックマーク (14)

固有表現抽出のアノテーションデータについて - NLP太郎のブログ
自然言語処理技術のなかでも固有表現抽出（Named Entity Recognition; NER）は情報抽出の処理をやろうとするときにとても役立つ。応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析（照応解析・共参照解析）のような文脈解析処理などに用いられる。最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった
hagane 2020/10/06
自然言語処理

はてなブログ
リンク
AIが三国志を読んだら、孔明が知力100、関羽が武力99、を求められるのか？をガチで考える物語（自然言語処理編） - Qiita
吉川英治の「三国志」＠青空文庫をINPUTとして、「自然言語処理」と「機械学習」によって上記のように、武力や知力などのパラメータを推論する。三国志小説の機械学習結果として、１つの武将を５０次元ベクトルに変換し、そのベクトルを、全く同じ「式」に入れて出てきた値が、上記の表。このような方法：「小説(自然言語)」⇒「数値化」⇒「式」によって、武力/知力を求めることが出来るか？という実験＆研究が今回のテーマ。他の成果としては、以下のような武将名の「演算」が楽しめる。（これも実際の出力結果より抜粋）諸葛亮に近い人は誰？ ⇒ 姜維、司馬懿、陸遜、周瑜、魏延、馬謖劉備にとっての関羽は、曹操にとって誰？ ⇒ 袁紹、張遼 ※若いころの馴染み的な意味や対比が多いので袁紹？孫権にとっての魯粛は、劉備にとって誰？ ⇒ 司馬徽（水鏡先生）、徐庶 ※賢者を紹介するポジションなのか？精度の
hagane 2019/08/07
華雄とか、顔良・文醜の値が気になる。/ 吉川三国志だと許攸じゃなくて許収なのか。

Qiita

三国志

自然言語処理

機械学習
リンク
オレプログラムウゴカスオマエゲンシジンナル - Qiita
ガイヨウオレオマエゲンシジンスルプログラムカイタゲンシジンジョシツカワナイゲンゴショリスルジョシケスゲンシジンカンジヒラガナシラナイゼンブカタカナスルサンプル import requests import json import sys BASE_URL = "https://api.ce-cotoha.com/api/dev/" CLIENT_ID = "オマエアイディイレル" CLIENT_SECRET = "オマエシークレットイレル" def auth(client_id, client_secret): token_url = "https://api.ce-cotoha.com/v1/oauth/accesstokens" headers = { "Content-Type": "application/json", "charse
hagane 2019/02/12
魏延吹いたwww

Qiita

Python

自然言語処理
リンク
青空文庫のデータを使って、遅ればせながらword2vecと戯れてみた - 渋谷駅前で働くデータサイエンティストのブログ
もう既に山ほど解説記事が出回っていて、あまつさえそれを利用したwebサービスまで出てきてしまっているword2vecですが、うちの現場でも流行っているのでせっかくなので僕もやってみようと思い立ったのでした。 word2vecそのものについては昨年来大量にブログやら何やらの記事が出回っているので、詳細な説明は割愛します。例えばPFIの海野さんのslideshare(Statistical Semantic入門 ~分布仮説からword2vecまで~)なんかは非常に分かりやすいかと思います。要するにword2vecって何よ Recurrent Neural Network（再帰型ニューラルネットワーク）で、単語同士のつながり（というか共起関係）に基づいて単語同士の関係性をベクトル化（定量化）し、これを100次元とか200次元に圧縮して表現するもの。。。みたいです（汗）*1。 ※以下のようにご指
hagane 2014/06/25
自然言語処理

word2vec
リンク
帯2：日本語テキストの難易度推定
難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス（教科書コーパス）を用いています。プログラムは、まず、それぞれの難易度に対する尤度を、連続する２文字の生起確率（文字bigram）に基づいて計算します。得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。実際の難易度の計算は、もう少し複雑です。あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。そこで、これら13個の値に対して、スムージングを適用します。スムージングによって得られた結果を、青線（４次多項式）および赤線（２次多項式）で示しています。スムージングを適用した結果に対しても、最大の尤度をとる難易度を求めます。こうして、難易
hagane 2014/05/16
日本語

自然言語処理
リンク
形態素解析の過去・現在・未来
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transf ormers for Language Und...Deep Learning JP
hagane 2011/10/22
slideshare

自然言語処理

研究
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
hagane 2011/06/22
@IT

Hadoop

自然言語処理
リンク
知識情報処理研究室
<BODY> <P>このページを表示するには、フレームをサポートしているブラウザが必要です。</P> </BODY>
hagane 2011/06/17
自然言語処理

研究
リンク
上位下位関係抽出ツール Version1.0: Hyponymy extraction tool
上位下位関係抽出ツール Version1.0 : Hyponymy extraction tool 目次上位下位関係抽出ツールとは新着情報注意事項ダウンロード動作環境実行機械学習用モデルファイル実行結果オプション引数ディレクトリ構成実行コマンド入力例抽出上位下位関係数参考文献 Copyright 上位下位関係抽出ツールとは上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールです．上位下位関係とは，"XはYの一種(一つ)である"と言えるXとYの関係を言います． Xのことを下位語，Yのことを上位語と呼びます．別の言い方をしますと，上位下位関係は「上位概念ー下位概念」または「概念ーインスタンス(具体例）」の関係を持つ語の対となります．抽出できる上位下位関係の
hagane 2010/12/09
上から課された課題でござる

研究

自然言語処理
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
hagane 2010/11/17
Python

自然言語処理

研究
リンク
入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD
みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と
hagane 2010/11/17
書評

自然言語処理
リンク
https://docs.google.com/viewer?url=http://yans.anlp.jp/symposium/2008/paper/yans2008-teraoka.pdf
hagane 2010/07/22
研究

自然言語処理

PDF
リンク
潜在意味解析 - Wikipedia
潜在意味解析（せんざいいみかいせき、英: Latent Semantic Analysis、略称: LSA）は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている[1]。情報検索の分野では、潜在的意味索引または潜在意味インデックス（英: Latent Semantic Indexing, LSI）とも呼ばれている。出現行列[編集] LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequen
hagane 2010/07/22
Wikipedia

研究

自然言語処理
リンク
自然言語処理関連の学会・研究会 (国内編) - まきもと＠ねっとわーく
ものすごくご無沙汰のエントリになります*1。春ということで、これから自然言語処理を始めようという方もたくさんいると思います。そういった方々がどのような学会や研究会を調べれば良いのか紹介したいと思います。自然言語処理は機械学習、人工知能、データベース、言語学、認知心理学、音声言語処理などの境界分野としての側面もあるので、一概にどこからどこまでが自然言語処理の範疇であると明言はできませんが、取り敢えず、メイントピックとして自然言語処理を掲げていて、NLPの研究者が関わるであろう団体を並べています。言語処理学会 (NLP)その名の通り、自然言語処理をメイントピックとして扱う学会です。ジャーナル『自然言語処理』の刊行と年に一度の言語処理学会年次大会の開催を行なっています。年次大会には国内 (と一部国外) の自然言語処理研究者が集まる国内最大規模の自然言語処理を中心とした会議です。発表は査読なし
hagane 2009/03/15
研究

まとめ

自然言語処理
リンク
1