[B! NLP] roirrawedocのブックマーク

word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室

久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

roirrawedoc 2018/01/17

word2vec
nlp

リンク

サブカルのためのword2vec | BLOG - DeNA Engineering

はじめに AIシステム部AI研究開発グループアルバイトの五十嵐です。（ @bonprosoft, ポートフォリオ：http://vbcpp.net/about/ ）現在、東北大学大学院の修士1年で、大学院では（自然言語ではなく）高速な文字列処理アルゴリズムに関する研究を行っています。私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。取り組んだタスク突然ですが、みなさま、ハッカドールはインストールされていますか？ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み

roirrawedoc 2018/01/13

word2vec
NLP

リンク

「コーパスと自然言語処理」を読んだ - EchizenBlog-Drei

コーパスと自然言語処理を読みました。これは記憶の失われを防ぐためのメモです。概要どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそうといいつつこの本には深の話題はほとんど出てこないけど・・・メモ第1章コーパスと自然言語処理前置き的なやつ第2章コーパスアノテーション基準アノテーション間の互換性は大切人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式（本文の外に本文の位置とアノテーションを書く）短単位・長単位主なコーパス：BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス第3章形態素解析・品詞タグ付与・固有表現解析コーパスっていうより一般的

roirrawedoc 2018/01/03

nlp

リンク

word2vec を超えた異空間 - 武蔵野日記

今日は第9回最先端 NLP 勉強会参加のためにリクルート MTL カフェへ。この勉強会は毎年この時期に開催され、最前線で活躍する人たちがみんなが読みたいと思っている論文を紹介する、という趣旨で開催されている勉強会で、読む前に論文の投票があったりなんだりと、独特のプロセスがある。自分はというと今年は以下の論文を紹介。 Ding et al. Visualizing and Understanding Neural Machine Translation. ACL 2017. 詳しくは紹介スライドを見てもらえるといいのだが、ニューラル機械翻訳を可視化したいというモチベーションで、ニューラル機械翻訳ではデコード時のアテンションを見ることで少しは見当が付くのだが、それでは全然十分ではないのでもっと細かく見たい、という話（アテンションはアライメントとも違うので、解釈しにくい）。あとで [twi

roirrawedoc 2017/10/03

NLP

リンク

TechCrunch JP のタイトルから hiwa 氏の翻訳か否かを深層学習で推定する

追記 (9月30日 22:00) Q : 本文も用いると更に良いのではないか A : 可能な限り氏が翻訳した記事を開きたくないため、タイトルだけを用いた Q : 深層学習ではない手法との比較がない A : 追加実験を行った。登場する語彙の上位 12,000 個の bag-of-words を用いたところ RandomForest (class_weight = 'balanced', n_estimators = 500) では精度 0.93 , 再現率 0.66, f値 0.78 LinearSVC (sklearn のデフォルトパラメタ) では精度 0.88, 再現率 0.81, f値 0.84 となり、深層学習とあまり差がないことがわかった。 Q : 理由は何か単語の頻度足切りを変化させても精度が変わらないことから、特定の語に強く反応している可能性がある。または特定ジャンルの記事が

roirrawedoc 2017/09/30

NLP

リンク

AIで2chに悪口書いてる人を特定してみた。 - ちょいちょいブログ

個人アプリ開発者という職業柄？ 2chに悪口を書かれることがたまにあるので書き込みをした人をAIで特定してみようと思います。まず、ツイッターの内容がリアルタイムに書き込まれているので犯人はフォロワーであることは間違いないと思います。夢を奪ってごめんよ… pic.twitter.com/vhbAHhPobE — ちょいちょい🎢 (@ChoiChoiAdv) 2017年8月18日フォロワーを全員判断させるのはめんどそうなのでまずは下記を参考に容疑者を洗い出します。 detail.chiebukuro.yahoo.co.jp そういえば、ツイートにこんなリプがこれで容疑者は２人に絞られました。以降、犯人のプライバシーに配慮してS氏、P氏と呼ばせて頂きます。やりたいことはこんな感じです。↓ 1. お二人のツイート内容をChainerに食わせて、いい感じに文章の癖とかをAIが学習

roirrawedoc 2017/08/28

AIで2chに悪口書く奴がいるのかすごいな。しかしどうやって特定したんだろ。読んでみよ。

NLP

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

NLPに関するroirrawedocのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス