タグ

自然言語とKerasに関するmasayoshinymのブックマーク (4)

  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

    Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
  • Reuters newswire:ロイターのニュース記事のトピック分類データセット

    連載目次 データセット解説 Reuters newswire classification dataset(ロイターのニュースワイヤー分類データセット。以下、Reuters newswire)は、ニュース配信テキストが「46分野のどのトピックに該当するか」を判定するために使える、テキスト分類/文書分類用データセットである(図1、詳細は後述するがReuters-21578のサブセットとなっている)。 図1 Reuters newswireデータセットの内容例 ※元々のデータセットの配布元: David D. Lewis氏のサイト「Reuters-21578 Text Categorization Test Collection」。また、UCI Machine Learning Repository「Reuters-21578 Text Categorization Collection Da

    Reuters newswire:ロイターのニュース記事のトピック分類データセット
  • ディープラーニングで自動筆記 - Kerasを用いた文書生成(前編)

    ご注意:記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 ディープラーニングによる文書生成 AIによって仕事が奪われるとか、いわゆるシンギュラリティであるとか、AIの能力が人類を凌駕(りょうが)するなどと巷間(こうかん)に喧伝(けんでん)される今日このごろである。そんな中で、「ものを書くAI」というのも話題に上ることが多く、企業業績サマリー記事の自動生成や、あるいはAIが「執筆」した文書の著作権はどこに帰属するか、という話も聞こえてくるようになってきている。 では、AI当に文章を書けるようになるのだろうか。これについては、筆者は懐疑的である。文章というのは

    ディープラーニングで自動筆記 - Kerasを用いた文書生成(前編)
  • 文字ベース言語モデルの作り方 - Ahogrammer

    最近の言語処理では言語モデルを使って転移学習をしたり、性能向上に役立てたりするようになってきました。言語モデルの1つであるELMoでは、言語モデルから得られる分散表現を他のタスクの入力に使うことで、質問応答や固有表現認識、評価分析といった様々なタスクの性能向上に役立つことを示しました。ELMoについては以下の記事で詳しく紹介されています。 kamujun.hatenablog.com よくある言語モデルでは単語単位で学習を行うのですが、文字単位で学習することもできます。そのメリットとしては、文字単位の言語モデルは単語と比べてボキャブラリ数が少ないため学習が高速に進むことや未知語が少ない事が挙げられます。 記事では文字ベースの言語モデルの作り方について紹介しようと思います。言語モデルを作成し学習したあとは学習したモデルを使ってテキストを生成して見るところまでやってみます。この記事を読むと以

    文字ベース言語モデルの作り方 - Ahogrammer
  • 1