タグ

NLPとRに関するsh19910711のブックマーク (9)

  • RMeCabみたいなRパッケージをCRANに投稿した話

    gibasaパッケージについて RMeCabみたいなことができる、gibasaというRパッケージを個人で開発しています。先日CRANに投稿できたので、2023年4月20日現在では、install.packages("gibasa")とするだけでもインストールできるようになっています。 モチベーションとしては、tidytext::unnest_tokensと同じような処理をMeCabを利用しつつできるようにしたいということで開発しています。また、とくに最近は、より簡単に利用をはじめられるようにしようと、すこしずつ改善を続けています。 開発の背景 RからMeCabを利用できるRパッケージとしては、すでにRMeCabがあります。徳島大学の石田基広先生が開発されているもので、わりと昔からあるパッケージです。 RMeCabは便利なパッケージですが、残念ながら、CRANには登録されていません。 技術

    RMeCabみたいなRパッケージをCRANに投稿した話
    sh19910711
    sh19910711 2024/06/06
    "RMeCab: ビルドするにはlibmecab.dllなどのバイナリファイルが必要 + 一方で、CRANポリシーは基本的にそうしたバイナリファイルをソースパッケージに含めることを禁止"
  • [R] Jaggerとキーワード付きトピックモデル(keyATM)を用いたテキストマイニング

    高速な形態素解析器であるJaggerのRラッパーであるRcppJaggerと、キーワードとして事前知識を利用できるトピックモデルであるkeyATMを用いて、Rでテキストマイニングを行います。 トピックモデルとして最も標準的なLatent Dirichlet Allocation (LDA)と違い、keyATMパッケージで実装されているKeyword-Assisted Topic Modelsは、分析者の事前知識を活用できるだけでなく(半教師ありトピックモデル)、共変量や時系列情報を利用することができます。 インストール 以下は、macOS Monterey上のR 4.3.0で実行しています。 RcppJagger RcppJaggerはJaggerのラッパーのため、まずJaggerをインストールします。公式サイトに従ってインストールしていきます。RcppJaggerのヘルプページでもインス

    [R] Jaggerとキーワード付きトピックモデル(keyATM)を用いたテキストマイニング
    sh19910711
    sh19910711 2024/04/23
    "RcppJagger: 高速な形態素解析器であるJaggerのRラッパー / Keyword-Assisted Topic Models: keyATMパッケージで実装 + キーワードとして事前知識を利用できるトピックモデル + 分析者の事前知識を活用" 2023
  • [R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita

    はじめに テキストマイニングの手法、トピックモデルを用いて文書の自動分類に挑戦します。 理論的な部分はこちらの。 先人の拵えた偉大なパッケージ群を活用させてもらい、Rでの実装部分を中心に書いてみたいと思います。 自分の振り返りためにも、困ったポイント、未解決ポイント含めて書いてるので、かなり回りくどいかもしれませんがご了承ください。 トピックモデルとは テキストマイニングではネット上のブログやニュースなど、多量の文書を取り扱うことが多いですが、トピックモデルを用いることによって、そういった文書を教師なし学習で分類することができます。 ざっくりとしたイメージですが、「文書中に出現する単語の出現確率を推定するモデル」ということ。スポーツなら「サッカー」「野球」「バレーボール」のような単語が出現しやすく、料理なら「レシピ」「献立」「まな板」みたいな単語がきっと多く出てくるのはイメージがわきやす

    [R] トピックモデル(LDA)を用いた大量文書の教師なし分類 - Qiita
    sh19910711
    sh19910711 2024/04/12
    "tmパッケージ: VCorpus(DirSource(dir="xxx")))で読み込むことで、全txtデータをコーパスとして取り込むことができます / DTM: tidytext::cast_dtm()関数で、頻度表から文書単語行列(Document Term Matrix)に変換" 2019
  • RでKerasを使う(短歌手習い編) - Qiita

    概要 『新しき 年の始めの うれしきは 古き人どち あへるなりけり』 以前に{tensorflow}のPythonライブラリをimportする関数を用いることで、gensimを活用できるという記事を書きました。 これにより、R/RStudio上ですべてを管理したい/されたいRおじさん(重度なRユーザーを指す。女性でも「おじさん」と呼称するので、淑女の方々はご配慮いただきたい)のできる幅が広がったと言えます。 今回はさらにTensorflowとTheanoのラッパーであるKerasというライブラリを用いてモデルを構築し、新年の挨拶によさそうな短歌の生成を試みました。具体的には「上の句を入力することで下の句を生成する」というタスクを設定しています。 なお、{tensorflow}自体の設定や使い方などは{tensorflow}でデータ分析のHello Worldであるirisデータの分類を行っ

    RでKerasを使う(短歌手習い編) - Qiita
    sh19910711
    sh19910711 2024/03/04
    "R上からKerasを用いたモデルを構築し、短歌のデータを適用して下の句を生成することに挑戦 / 上の句と下の句で対応づけるようにしているので、画像でよく採用されているCNNによるアプローチも使えるかも" 2017
  • {quanteda}の紹介 - Qiita

    始めに この記事はR AdventCalendar 20日目の記事です。 言語処理以外の記事を書こうと思ったのですが、諸々の進捗が許してくれませんでした。ということで、今回も言語処理系のお話です。 日は{quanteda}というテキスト処理・解析のためのRパッケージについてご紹介します。 {quanteda}とは A fast, flexible toolset for for the management, processing, and quantitative analysis of textual data in R. テキストファイルからのコーパス作成からトークン化・ステミング、N-gramや類似度に可読性指標の計算など、言語処理タスクを手早く手軽にしやすくするためのRパッケージです(ただし、英語文書の解析がメインです)。 下記がパッケージのリンクです。上がCRANで下がGit

    {quanteda}の紹介 - Qiita
    sh19910711
    sh19910711 2023/03/06
    2015 / "{quanteda}: コーパス作成からトークン化・ステミング、N-gramや類似度に可読性指標の計算など、言語処理タスクを手早く手軽にしやすくするためのRパッケージです(ただし、英語文書の解析がメイン"
  • 【R】数字の集合をトピックモデルで分析したらなかなか良くてびっくりした話。 - データ分析系男子。

    前回、疎行列をクラスタリングする話を書きました。 wanko-sato.hatenablog.com そこでふと思いついたのが、「数字の羅列を単語の集合とみなして自然言語処理のスキームに当てはめられるんじゃね?」ということです。どういうことかというと、 [[1]] [1] 246 308 149 170 161 233 291 218 260 171 155 151 [[2]] [1] 383 331 353 [[3]] [1] 310 333 [[4]] [1] 255 247 223 284こんな感じのデータがあるとします。個々の数字はなんでも良いのですが、例えばこれがある消費者の買った商品IDの集合だとします。通常は、前回書いたとおり、これを主成分分析にかけたり、クラスタリングしたり、あるいはあらかじめ属性がわかっていれば教師あり学習させてみたり、といろいろ思いつくわけなんです。が、

    【R】数字の集合をトピックモデルで分析したらなかなか良くてびっくりした話。 - データ分析系男子。
  • KGR_2: Rによるテキストマイニング

    Statistics Favorites 4 Downloads 11 Comments 0 Embed Views 1,120 Views on SlideShare 997 Total Views 2,117 KGR_2: Rによるテキストマイニング — Presentation Transcript Rによるテキストマイニング 小林 雄一郎 (日学術振興会) KG.R #22012年6月16日(土)、関西学院大学 1 自己紹介• 小林 雄一郎 (こばやし ゆういちろう) – 言語学と言語処理と言語教育の挟間をふらふら – 最近の研究テーマは、「パターン認識と自然言語処理の技術を用い た習熟度判定」など 2 パターン認識技術を用いた英作文の自動評価 レベル別英作文の自動分類 レベル判定に寄与する要因の特定* 6月23日(土) 電子情報通信学会 思考と言語研究会@早稲田大学で発表 3

  • NagoyaR #10 形態素習得研究とリサンプリング

    NagoyaR #10 形態素習得研究とリサンプリング 1. 形態素習得研究形態素習得研究形態素習得研究形態素習得研究とととと リサンプリングリサンプリングリサンプリングリサンプリング 2. 草薙邦広草薙邦広 名古屋大学大学院 kusanagi@nagoya-u.jp NagoyaR. #10NagoyaR. #10 2013/7/27 3. 形態素習得研究 • 自然順序仮説 – 外国語学習者が習得す る形態素には固定的な (普遍的)順序がある • 母語によらない • 学習の順序によらない –S. Krashen http://unt.unice.fr/uoh/learn_teach_FL/aff iche_theorie.php?id_theoricien=42 4. 形態素習得研究 http://www.danielcraig.co m/category/linguistics-2/

    NagoyaR #10 形態素習得研究とリサンプリング
    sh19910711
    sh19910711 2013/11/16
    “自然順序仮説 – 外国語学習者が習得す る形態素には固定的な (普遍的)順序がある • 母語によらない • 学習の順序によらない –S. Krashen”
  • R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記

    この記事は abicky.net の R による文書分類入門 & KNB コーパスの文書分類 に移行しました

    R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記
  • 1