[B! 自然言語処理] salon_hiyakeのブックマーク

salon_hiyake id:salon_hiyake

自然言語処理に関するsalon_hiyakeのブックマーク (20)

Sign in - Google Accounts
salon_hiyake 2019/10/29
自然言語処理

あとで読む
リンク
日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布｜ホットピ｜ホットリンク
最終更新日：2023年6月12日 R&D部の榊です。当社のR&D部では，研究開発上で利用する様々なリソースを部内で共有しています。今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。なので、それについてご説明したいと思います。なお、最近の日本の自然言語処理界隈では、文分散表現モデルであるBERTの日本語を含む多言語モデルが公開になったばかりなので、日本語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。ですが、日本語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。本言語資源に関しては、2019年6
salon_hiyake 2019/03/04
コーパス

形態素解析

自然言語処理
リンク
『自然言語処理の基本と技術』が面白い！ - toricago
スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この
salon_hiyake 2018/03/04
自然言語処理

あとで読む
リンク
word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室
久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる
salon_hiyake 2018/01/17
word2vec

機械学習

自然言語処理
リンク
形態素解析をして単語を取り出せているつもり・・・か？ - Qiita
「MeCabで形態素解析をして単語を抽出しましょう」とはよく見る文言ですが、いつから形態素と単語が同じものと錯覚していた？というお話です。例として、「参考人を呼んだ」という文を形態素解析してみます。普通の感覚では「参考人/を/呼んだ」になりますが、実際に形態素解析すると以下のようになります。参考名詞,サ変接続,*,*,*,*,参考,サンコウ,サンコー人名詞,接尾,一般,*,*,*,人,ジン,ジンを助詞,格助詞,一般,*,*,*,を,ヲ,ヲ呼ん動詞,自立,*,*,五段・バ行,連用タ接続,呼ぶ,ヨン,ヨンだ助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ「参考/人」と「呼ん/だ」で切れています。つまり、私たちが認識する「単語」と実際の形態素は、一致する場合もあれば形態素がより細かくなる場合もあるということです。「単語」としてのまとまり: 語の統語性何を「単語」とす
salon_hiyake 2017/12/05
形態素解析

自然言語処理
リンク
【ソースコード付き】日本語テキストマイニングを行うために必要な前処理 | ITに頼って生きていく
はじめに日本語のテキストマイニングを粉うには、いろいろと前処理が必要となります。日本語じゃなくても必要なのですが、特に日本語の場合、文章内で単語が分かれていないために、単語ごとに分解する「分かち書き」が必要となります。これは、全世界リアルタイム麺活監視システムで表示される、監視上法の1つです。世界の麺活erたちがtwitterでつぶやいた単語を分かち書きして、単語に分解したあと、よく使われる単語をより大きく表示させる、タグクラウドと呼ばれる可視化手法の一つです。こうすることで、よく使用される単語や、関連する単語を浮かび上がらせることができます。しかし、そもそも分かち書きするためには、辞書をもとに品詞分解しないといけないため、それをそれなりの精度と速度で実行するためには、ライブラリに頼らざるを得ません。そこで今回、ライブラリの一つであるMecabを使って、うまいこと前処理
salon_hiyake 2017/08/17
形態素解析

自然言語処理
リンク
自然言語処理における前処理の種類とその威力 - Qiita
自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ
salon_hiyake 2017/04/17
自然言語処理

正規表現
リンク
ディープラーニングの仕組みと応用
脳の神経回路の構造を模倣ディープラーニングは、大量のデータを学習するために、人間の脳の神経回路の構造を模倣（モデル化）した情報処理の仕組みであるニューラルネットワークを用いる。図3のニューラルネットワークは、「入力層」「隠れ層」「出力層」という3層で構成している。また、学習データは入力データとなる手書き文字の画素データと、正解データがセットになっている。このニューラルネットワークのモデルを学習させるには、まず手書き文字画素データをピクセル単位に分割した上で、各ピクセル値を入力層に入力する。図3のモデルでは縦横28ドットで分割していることから、784個が入力層に並ぶ。入力データを受け取った入力層は、受け取った値に「重み付け」をした上で、後段にある隠れ層のニューロン（神経細胞。CPUのような役割を担う）に伝達する。同様に隠れ層の各ニューロンは、入力層から受け取った値をすべて加算し、その
salon_hiyake 2017/01/24
自然言語処理

機械学習
リンク
自然言語処理がやりたくて大学院を休学した話 - あおのたすのブログ
はじめまして。@aonotas（あおのたす）です。現在NAIST（奈良先端科学技術大学院大学）の松本研究室の修士１年の学生です。自分がなぜNAISTに入学したのか、をブログに残しておこうと思う。（４月に入学して２ヶ月が経とうとしていて生活にも慣れてきたので）学部→大学院→大学院休学→NAIST受験→入学の流れを書こうと思う。自分は学部は名古屋工業大学という大学に通っていた。情報系の学部で学部時代は授業とかは普通に出ながら、ウェブ系のプログラムを書くのが好きでiOSアプリやウェブサービスを１人で作って学部を過ごしていた。決してプログラミングが好きという訳ではなく、何か作ることが好きな性格なので、情弱PHPerみたいな学生である。さて、学部の研究室配属の時に「どうせやるなら自然言語処理っぽいことやりたいな〜」と思ったが、残念ながら自然言語処理だけを専門にしている研究室は自分の大
salon_hiyake 2016/05/28
自然言語処理
リンク
自然言語処理をなにも知らない私がword2vecを走らせるまで - 最尤日記
googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。（中略） A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグルヤフートヨタ → 日産渋谷新宿札幌 → 旭川警察泥棒正義 → くそ平和戦争左 → 右社員会社生徒 → 小学校空海天井 → 床板生きる死ぬ動く → 止まる・・・ Deep-le
salon_hiyake 2015/06/15
wp2txt

自然言語処理

word2vec
リンク
kuromoji.js使って構文解析した - Qiita
こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを
salon_hiyake 2014/12/27
自然言語処理

あとで読む
リンク
谷本玲大のページ
The domain name tanimoto.to is being parked on Park.io. Contact the domain owner to make an offer right now...
salon_hiyake 2013/03/20
自然言語処理

形態素解析
リンク
公開リソース - NAIST Computational Linguistics
その他 NLP citation network data - A network of 3000 citations extracted from papers on Natural Language Processing.
salon_hiyake 2013/02/10
自然言語処理

辞書

NAIST
リンク
http://tatsuma2010.web.fc2.com/
salon_hiyake 2012/06/30
コーパス

ダウンロード

用語集

自然言語処理
リンク
機械学習超入門〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei
最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。機械学習を「作りたい」のか「使いたいのか」まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。「最も簡単な機械学習はナイーブベイズ」という幻想機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか
salon_hiyake 2011/06/28
機械学習

自然言語処理

*あとで読む
リンク
トータルデータ解析サービス「なずき」
国内唯一のTwitter公式パートナーシップにより Twitter全量データをご提供株式会社NTTデータは、2012年9月27日に米Twitter社とTweetデータ提供に関するFirehose契約を締結致しました。これにより、米Twitter社から全量・全言語のTweetデータをリアルタイムに受領し、Twitter社の公開APIよりも大量・高度・高付加価値なTweetデータをご提供可能なサービスプラットフォームを構築しております。最上位のTwitter Official Data Partnerとして、このプラットフォームを基軸に、ユーザー企業様のソーシャルメディア情報活用を支援していきます。
salon_hiyake 2011/03/24
自然言語処理

テキスト・マイニング
リンク
日本語ウェブコーパス 2010
概要本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です．謝辞本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．コーパスの作成・保存・配布には Amazon Web Serv
salon_hiyake 2011/03/03
自然言語処理

コーパス

形態素解析
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
salon_hiyake 2011/03/03
自然言語処理

形態素解析
リンク
GSK | 特定非営利活動法人言語資源協会
What's GSK 特定非営利活動法人言語資源協会(GSK)は、平成15年6月に設立されました。言語資源協会は、音声データ、レキシコン、テキストコーパス、ターミノロジー、各種言語処理ツール等の言語資源の流通を促進することにより、言語資源を必要とする音声・自然言語処理分野の学術・研究・産業の発展、さらには、言語学分野の研究の推進に貢献することを目的としています。このため、言語資源保有者と言語資源利用者の双方にとって意義・メリットのある言語資源の流通の仕組み・サービスの提供を推進します。また、対象を日本国内の言語資源に限定せず、将来的にはアジア地域に拡張することにより、音声・自然言語処理技術、言語研究への国際貢献を目指します。 ●「未公開言語資源に関するアンケート」を実施しています。ぜひご協力ください。
salon_hiyake 2011/02/28
自然言語処理

コーパス

言語資源協会
リンク
日本語 WordNet (wn-ja)
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、
salon_hiyake 2009/10/20
自然言語処理

WordNet

形態素解析
リンク
1