[B! 自然言語処理] Drunkarのブックマーク

Drunkar id:Drunkar

自然言語処理に関するDrunkarのブックマーク (102)

Code for aligning two gensim word2vec models using Procrustes matrix alignment. Code ported from HistWords <https://github.com/williamleif/histwords> by William Hamilton <wleif@stanford.edu>. [NOTE: This code is DEPRECATED for latest versions of gensim. P
Drunkar 2019/03/30
自然言語処理

python
リンク
HistWords: Word Embeddings for Historical Text
HistWords: Word Embeddings for Historical Text William L. Hamilton, Jure Leskovec, Dan Jurafsky HistWords is a collection of tools and datasets for analyzing language change using word vector embeddings. The goal of this project is to facilitate quantitative research in diachronic linguistics, history, and the digital humanities. We used the historical word vectors in HistWords to study the se
Drunkar 2019/03/29
自然言語処理
リンク
GitHub - Kyubyong/wordvectors: Pre-trained word vectors of 30+ languages
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Drunkar 2019/03/29
自然言語処理

data
リンク
日本語文字列操作　ひらがな判定など - Remrinのpython攻略日記
日本語の文字列の操作について。英字に比べて非常に扱いにくい印象です。文字列をソートしたり、ひらがな・カタカナ判定、ひらがな・カタカナ変換などを作ってみました。 # coding: utf-8 hiragana = "ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐゑをん" katakana = "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴ" hankana = "" suuji = "0123456789０１２３４５６７８９" # 日本語文字列のソート def sort_str(string, reverse=False): return "".joi
Drunkar 2019/03/26
python

tips

自然言語処理
リンク
対話破綻検出チャレンジ - 雑談対話コーパス
1. 公開の目的本コーパスはProject Next NLP 対話タスクで収集したものです．対話タスクは，対話の破綻（文脈上不適当なシステムの応答）を検出する技術（対話破綻検出）に焦点を絞り，対話システムのエラーを共同で分析することを目的としたタスクです．本タスクではNTTドコモの雑談対話APIを用いて，1,146対話の人・システムの雑談対話を収集し，システム発話に対して対話破綻のアノテーションとコメント付けを行いました．人間同士の雑談対話コーパスはいくつかありますが，本コーパスは日本初の人・システムの雑談対話コーパスです．対話破綻検出技術だけでなく，様々な対話技術の発展に寄与することを目的として，本コーパスを公開します．本コーパスは，様々な雑談対話の分析に有用だと考えています．人間同士の雑談ではなかなか起こりえない破綻を含みますので，破綻発生時のユーザの反応の分析，破綻からの復帰の分
Drunkar 2019/03/22
MITライセンスだと…!

自然言語処理

data
リンク
DeepLearning における会話モデル： Seq2Seq から VHRED まで - Qiita
こんにちは。 DeepLearning で対話ロボットを作ろうとしているインコです。この記事は mixi Advent Calendar 2017 の 12/03 の記事です。概要近年対話モデルとして DeepLearning を用いた End to End のアプローチが盛んに行われています。この記事ではこれらに用いられるモデルとして一問一答に使われる Seq2Seq から出発して、複数発話コンテキストを扱いベイズ的なアプローチを組み込んだ VHRED を理解することをゴールとします。会話モデルのもろもろ https://arxiv.org/pdf/1506.05869.pdf DeepLearning で対話！と言ったときにまず出てくる基本的なモデルが Sequence to Sequence こと Seq2Seq です。これは発話・応答のシーケンスのペアを学習させることで
Drunkar 2019/03/13
機械学習

Deep Learning

NLP

自然言語処理

chabot
リンク
wikipedia全文データからWord2Vecで類義語を抽出してみる
自然言語処理の入門、wikipedia全文データを使ってみるこんにちは。 AI coordinatorの清水秀樹です。自然言語処理について何から勉強を始めようかと色々模索していたところ、wikipediaの日本語全文データをダウンロードできることを知り、早速それが使えそうなところから初めてみることにしました。なんでもWord2Vecとかいうライブラリーを使用すると、単語の意味をベクトルで表現できるらしく、関連する単語や類似度を調べることができるようになるとのこと。ちょうどデータ量として申し分ないwikipedia日本語全文データも使えることも分かったので、早速それらを組み合わせて勉強してみることにしました。当記事はその内容の紹介になります。純粋 – 正義 + 悪 = 邪悪みたいなことができるようになります。興味がある方は参考にしてみてください。開発環境 macOS Sie
Drunkar 2019/03/12
自然言語処理

Python
リンク
学習済みword2vecモデルを調べてみた | hassaku's blog
日本語の自然言語処理で分散表現を使おうと思った場合、まず頭に浮かぶのはword2vecだと思います。特に分散表現自体の精度とかには興味がなく、それを使った対話システムを作りたいだけだったりするのであれば、データクレンジングや学習には結構時間もかかるので、学習済みの公開モデルを使わせていただくのが手っ取り早そうです。 (単語ベクトルの準備に手間取り、モチベーション低下に繋がる悪い例：対話システムを作りたい！【準備編１】) 調べてみると、よく出来ていそうな公開モデルを２つ見つけたので、その利用方法と気になるベクトル次元数と単語数を調べてみました。なお、どちらもWikipedia日本語版を学習元にしているようです。 word2vecを使うには、以下のバージョンのgensimを利用します。 $ pip freeze | grep gensim gensim==1.0.0 白ヤギコーポレーショ
Drunkar 2019/03/12
自然言語処理

Python
リンク
自然言語処理（NLP） - 星の本棚
自然言語処理 [NLP : natural language processing] 自然言語処理（NLP）に関してのマイノートです。特に、ニューラルネットワーク、ディープラーニングによる自然言語処理（NLP）を重点的に取り扱っています。今後も随時追加予定です。尚、ニューラルネットワークに関しては、以下の記事に記載しています。 yagami12.hatena blog.com 又、より一般的な機械学習に関しては、以下の記事に記載しています。 yagami12.hatena blog.com 目次 [Contents] 自然言語処理（NLP） one-hot encode と one-hot ベクトル埋め込みベクトル [embedding vector] と埋め込み行列 [embedding matrix] 言語モデル [LM : Language model] N グラム言語モデルニ
Drunkar 2019/03/10
機械学習

NLP

自然言語処理
リンク
SentencePieceを使用してRNN言語モデルを学習させてみる - 今日も窓辺でプログラム
はじめに前回の記事ではpytorchのサンプルコードを参考にし、Wikipediaの記事の一部に対してRNN言語モデルを学習させてみました。 RNN言語モデルのpytorch実装をWikipediaの記事で学習させてみる - 今日も窓辺でプログラムその際にWikipediaの記事を単語に分割するための技術として、MeCab + neologd辞書を使用していました。 Wikipediaの日本語記事を全行を、分かち書きしてforループで回す - 今日も窓辺でプログラム最近出てきた文章を単語分割する手法に、wordpiecesと呼ばれている技術があります。その実装であるSentencePieceがGoogleから公開されています。技術的な解説などは、SentencePieceの開発者の方（MeCabの開発者でもあります）が公開しているQiitaの記事で詳しく説明されているので、ぜひ読ん
Drunkar 2019/03/10
自然言語処理

deep learning
リンク
Deep Learning for NLP Best Practices
Deep Learning for NLP Best Practices Neural networks are widely used in NLP, but many details such as task or domain-specific considerations are left to the practitioner. This post collects best practices that are relevant for most tasks in NLP. This post gives an overview of best practices relevant for most tasks in natural language processing. Update July 26, 2017: For additional context, the Ha
Drunkar 2018/06/11
NLP

deep learning

自然言語処理

tips
リンク
WaveNetまとめ - Qiita
明治大学総合数理学部 Advent Calendar 2017 19日目の記事です. はじめまして. 現象数理学科３年の江口です. Qiita初投稿です. この記事では, WaveNetについてまとめました. 時間があれば, 最近発表されたParalell WaveNet についてまとめたいと思います. 前提知識 Neural Network Convolutional Neural Network Recurrent Neural Network ResNet 背景唐突ですが, データサイエンティストたるものデータサイエンティストを目指すなら, deep learningの最新動向は随時追っていなければ, と思いDeep Learning Weeklyを読み始めました. ここには最近話題のCapsule Networkについても紹介されています. deep learningに関する最近
Drunkar 2018/06/09
deep learning

自然言語処理
リンク
自然言語処理の前処理・素性いろいろ - Debug me
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize
Drunkar 2018/06/03
自然言語処理

Python

tips
リンク
メル周波数ケプストラム係数（MFCC） - 人工知能に関する断創録
Pythonで音声信号処理（2011/05/14）の第19回目。今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients）を求めてみました。いわゆるMFCCです。 MFCCはケプストラム（2012/2/11）と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめるとプリエンファシスフィルタで波形の高域成分を強調する窓関数をかけた後にFFTして振幅スペクトルを求める振幅スペクトルにメルフィルタバンクをかけて圧縮する上記の圧縮した数値列を信号とみなして離散コサイン変換する得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど
Drunkar 2018/05/30
自然言語処理

deep learning

text to speech
リンク
Tacotron2の詳細と解説 : 研究開発
総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。 Tacotron 2のクオリティすごい。もはや人間との違いがほとんど分からないレベル。Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" https://t.co/NO5anqUSv1 — Shinya Yuki (@tuntuku_sy) 2017年12月20日 Natural TTS Synthesis by Conditioning WaveNet on Mel Spe
Drunkar 2018/05/30
自然言語処理

deep learning

text to speech
リンク
ChainerとRNNと機械翻訳 - Qiita
自然言語処理とニューラルネットここ数年で、自然言語処理の分野でもニューラルネットが非常に頻繁に使われるようになってきました。自然言語処理で主に解析対象となるのは単語の配列や構文木などで、これらの内包する情報を表現するためにrecurrent neural network1やrecursive neural network1などに基づくモデルが頻繁に使われます。これらの最大の特徴はニューラルネットがある種のデータ構造を持っているという点で、1レイヤあたりのノードはそれほど多くない代わりにネットワークの接続が複雑で、しかも入力されるデータごとにネットワークそのものの形状が変化するという特徴があります。このため、伝統的なfeedforward neural networkを前提としたツールキットでは構築が難しいという問題がありました。 Chainerは、そのような問題を概ね解決してしまう強力
Drunkar 2016/11/01
自然言語処理

RNN

Python

deep learning
リンク
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成
Drunkar 2016/03/17
mecab

自然言語処理
リンク
最近のDeep Learning (NLP) 界隈におけるAttention事情
Neural Network with Attention Mechanism for Natural Language Processing: survey
Drunkar 2016/02/29
deep learning

自然言語処理
リンク
Character-Based Deep Convolutional Models | DeepDetect
Below are a range of character-based deep convolutional neural networks that are free, even for commercial use in your applications. These models have been trained over various corpuses, from sentiment analysis in many languages to advertizing link classification from just reading a URL. They should accomodate a range of applications. Training your own models is made easy too and can lead to even
Drunkar 2016/02/01
CNN

deep learning

自然言語処理

感情分析
リンク
summarai.com
Drunkar 2016/02/01
要約algorithm

algorithm

自然言語処理
リンク
1 2 3 4 5 6 次のページ