HistWords: Word Embeddings for Historical Text William L. Hamilton, Jure Leskovec, Dan Jurafsky HistWords is a collection of tools and datasets for analyzing language change using word vector embeddings. The goal of this project is to facilitate quantitative research in diachronic linguistics, history, and the digital humanities. We used the historical word vectors in HistWords to study the se
日本語の文字列の操作について。 英字に比べて非常に扱いにくい印象です。 文字列をソートしたり、ひらがな・カタカナ判定、ひらがな・カタカナ変換などを作ってみました。 # coding: utf-8 hiragana = "ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐゑをん" katakana = "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴ" hankana = "" suuji = "01234567890123456789" # 日本語文字列のソート def sort_str(string, reverse=False): return "".joi
1. 公開の目的 本コーパスはProject Next NLP 対話タスクで収集したものです.対話タスクは,対話の破綻(文脈上不適当なシステムの応答)を検出する技術(対話破綻検出)に焦点を絞り,対話システムのエラーを共同で分析することを目的としたタスクです.本タスクではNTTドコモの雑談対話APIを用いて,1,146対話の人・システムの雑談対話を収集し,システム発話に対して対話破綻のアノテーションとコメント付けを行いました. 人間同士の雑談対話コーパスはいくつかありますが,本コーパスは日本初の人・システムの雑談対話コーパスです.対話破綻検出技術だけでなく,様々な対話技術の発展に寄与することを目的として,本コーパスを公開します.本コーパスは,様々な雑談対話の分析に有用だと考えています.人間同士の雑談ではなかなか起こりえない破綻を含みますので,破綻発生時のユーザの反応の分析,破綻からの復帰の分
こんにちは。 DeepLearning で対話ロボットを作ろうとしているインコです。 この記事は mixi Advent Calendar 2017 の 12/03 の記事です。 概要 近年対話モデルとして DeepLearning を用いた End to End のアプローチが盛んに行われています。 この記事ではこれらに用いられるモデルとして一問一答に使われる Seq2Seq から出発して、複数発話コンテキストを扱いベイズ的なアプローチを組み込んだ VHRED を理解することをゴールとします。 会話モデルのもろもろ https://arxiv.org/pdf/1506.05869.pdf DeepLearning で対話!と言ったときにまず出てくる基本的なモデルが Sequence to Sequence こと Seq2Seq です。 これは発話・応答のシーケンスのペアを学習させることで
自然言語処理の入門、wikipedia全文データを使ってみる こんにちは。 AI coordinatorの清水秀樹です。 自然言語処理について何から勉強を始めようかと色々模索していたところ、wikipediaの日本語全文データをダウンロードできることを知り、早速それが使えそうなところから初めてみることにしました。 なんでもWord2Vecとかいうライブラリーを使用すると、単語の意味をベクトルで表現できるらしく、関連する単語や類似度を調べることができるようになるとのこと。 ちょうどデータ量として申し分ないwikipedia日本語全文データも使えることも分かったので、早速それらを組み合わせて勉強してみることにしました。 当記事はその内容の紹介になります。 純粋 – 正義 + 悪 = 邪悪 みたいなことができるようになります。 興味がある方は参考にしてみてください。 開発環境 macOS Sie
日本語の自然言語処理で分散表現を使おうと思った場合、まず頭に浮かぶのはword2vecだと思います。 特に分散表現自体の精度とかには興味がなく、それを使った対話システムを作りたいだけだったりするのであれば、 データクレンジングや学習には結構時間もかかるので、学習済みの公開モデルを使わせていただくのが手っ取り早そうです。 (単語ベクトルの準備に手間取り、モチベーション低下に繋がる悪い例:対話システムを作りたい!【準備編1】) 調べてみると、よく出来ていそうな公開モデルを2つ見つけたので、その利用方法と気になるベクトル次元数と単語数を調べてみました。 なお、どちらもWikipedia日本語版を学習元にしているようです。 word2vecを使うには、以下のバージョンのgensimを利用します。 $ pip freeze | grep gensim gensim==1.0.0 白ヤギコーポレーショ
自然言語処理 [NLP : natural language processing] 自然言語処理(NLP)に関してのマイノートです。 特に、ニューラルネットワーク、ディープラーニングによる自然言語処理(NLP)を重点的に取り扱っています。 今後も随時追加予定です。 尚、ニューラルネットワークに関しては、以下の記事に記載しています。 yagami12.hatenablog.com 又、より一般的な機械学習に関しては、以下の記事に記載しています。 yagami12.hatenablog.com 目次 [Contents] 自然言語処理(NLP) one-hot encode と one-hot ベクトル 埋め込みベクトル [embedding vector] と埋め込み行列 [embedding matrix] 言語モデル [LM : Language model] N グラム言語モデル ニ
はじめに 前回の記事ではpytorchのサンプルコードを参考にし、Wikipediaの記事の一部に対してRNN言語モデルを学習させてみました。 RNN言語モデルのpytorch実装をWikipediaの記事で学習させてみる - 今日も窓辺でプログラム その際にWikipediaの記事を単語に分割するための技術として、MeCab + neologd辞書を使用していました。 Wikipediaの日本語記事を全行を、分かち書きしてforループで回す - 今日も窓辺でプログラム 最近出てきた文章を単語分割する手法に、wordpiecesと呼ばれている技術があります。その実装であるSentencePieceがGoogleから公開されています。 技術的な解説などは、SentencePieceの開発者の方(MeCabの開発者でもあります)が公開しているQiitaの記事で詳しく説明されているので、ぜひ読ん
Deep Learning for NLP Best Practices Neural networks are widely used in NLP, but many details such as task or domain-specific considerations are left to the practitioner. This post collects best practices that are relevant for most tasks in NLP. This post gives an overview of best practices relevant for most tasks in natural language processing. Update July 26, 2017: For additional context, the Ha
明治大学総合数理学部 Advent Calendar 2017 19日目の記事です. はじめまして. 現象数理学科3年の江口です. Qiita初投稿です. この記事では, WaveNetについてまとめました. 時間があれば, 最近発表されたParalell WaveNet についてまとめたいと思います. 前提知識 Neural Network Convolutional Neural Network Recurrent Neural Network ResNet 背景 唐突ですが, データサイエンティストたるものデータサイエンティストを目指すなら, deep learningの最新動向は随時追っていなければ, と思いDeep Learning Weeklyを読み始めました. ここには最近話題のCapsule Networkについても紹介されています. deep learningに関する最近
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize
Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど
総合研究大学院大学 複合科学研究科 情報学専攻 卒 博士(情報学) 自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 Tacotron 2のクオリティすごい。もはや人間との違いがほとんど分からないレベル。Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" https://t.co/NO5anqUSv1 — Shinya Yuki (@tuntuku_sy) 2017年12月20日 Natural TTS Synthesis by Conditioning WaveNet on Mel Spe
自然言語処理とニューラルネット ここ数年で、自然言語処理の分野でもニューラルネットが非常に頻繁に使われるようになってきました。 自然言語処理で主に解析対象となるのは単語の配列や構文木などで、これらの内包する情報を表現するためにrecurrent neural network1やrecursive neural network1などに基づくモデルが頻繁に使われます。これらの最大の特徴はニューラルネットがある種のデータ構造を持っているという点で、1レイヤあたりのノードはそれほど多くない代わりにネットワークの接続が複雑で、しかも入力されるデータごとにネットワークそのものの形状が変化するという特徴があります。このため、伝統的なfeedforward neural networkを前提としたツールキットでは構築が難しいという問題がありました。 Chainerは、そのような問題を概ね解決してしまう強力
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
Below are a range of character-based deep convolutional neural networks that are free, even for commercial use in your applications. These models have been trained over various corpuses, from sentiment analysis in many languages to advertizing link classification from just reading a URL. They should accomodate a range of applications. Training your own models is made easy too and can lead to even
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く