タグ

*textminingに関するSuiJackDoのブックマーク (9)

  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

    SuiJackDo
    SuiJackDo 2013/10/27
    「日本テレビ東京」という言葉をMeCab+NAIST辞書はどう切り分けるのか。辞書のコスト値に基づいて形態素解析。よくわからないが面白い。
  • 米Twitter社とツイートデータ提供に関するFirehose契約を締結

    ホームニュース 米Twitter社とツイートデータ提供に関するFirehose契約を締結 ~企業の高度なソーシャルメディア活用、ビッグデータ活用を推進するプラットフォームを提供~ 株式会社NTTデータは、精度の高いソーシャルメディア活用サービスの提供に向け、米Twitter社とツイートデータ提供に関するFirehose契約を締結することで合意しました。これにより、NTTデータは米Twitter社が提供するAPI「Firehose」を通じて、日語のツイートデータおよび日国内で書き込まれたすべてのツイートデータを取得し、提供することが可能となります。 今後、NTTデータでは、公開APIよりも大量・高精度・高付加価値なツイートデータを提供可能なサービスプラットフォームを開発します。さらに、ソーシャルメディア関連のツールやサービスを提供している企業へプラットフォームからツイートデータを提供す

    SuiJackDo
    SuiJackDo 2012/09/27
    NTTデータ、米Twitter社が提供するAPI「Firehose」を通じて取得・蓄積した、日本語のツイートデータおよび日本国内で書き込まれたすべてのツイートデータを提供できる権利を取得。
  • Wikipediaデータ利用参考サイトリンク集 | mwSoft

    データインポート関連 Wikipedia文やページタイトルを含んだ情報をダウンロードできます。形式はSQLのダンプファイルやXMLです。 ダウンロードした情報を格納するテーブルの構成を説明してます。 Wikipediaに書かれているダウンロードデータの取り扱いにに関する説明ページ。 importDump.phpを使用したデータのインポート手順を解説しています。 jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。 jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。 データ利用関連 Hadoop使ってMapReduceでWikipediaのデータを取り扱っている人のページ。 tf-idfでpages-

    SuiJackDo
    SuiJackDo 2011/07/28
    Wikipediaのデータのダウンロード、データベースへのインポートと活用に関する参考サイト集。
  • 2/27 TokyoWebMining 3分間で出来るテキストマイニング 発表内容 - あんちべ!

    「3分間で出来るテキストマイニング」はテキストをJavaScriptで読み込んで拡大表示するというプレゼンスタイルで挑んだため、発表スライドは御座いません。 発表時に用いたテキストを当ブログに貼り付けておきますので、宜しければ御覧下さい。 一画面で表示する文は----で区切っております。 - 3分間で出来るテキストマイニング - 皆様! - 帰る支度を しながら 聞くか - 帰りましょう - 自己紹介! - twitterID:AntiBayesianです - AntiBayesianです - Anti Bayesian - Anti:反対の、異議がある - Bayesian:ベイズ統計学する人 - お客様の中で ベイジアンな方は いらっしゃいますでしょうか? - カモン 便所裏 - ご安心下さい - 7割くらいは 冗談です - 今回の目的 - テキストマイニング 利用者を増やす - その

    2/27 TokyoWebMining 3分間で出来るテキストマイニング 発表内容 - あんちべ!
    SuiJackDo
    SuiJackDo 2011/03/02
    わかりやすくて小ネタにキレがある。
  • http://japan.internet.com/wmnews/20110207/4.html

    SuiJackDo
    SuiJackDo 2011/02/21
    「感性辞書」は業種や商品のカテゴリごとに顧客が評価を行う際の基準となる評価軸とその評価に基づく実際の表現をリストアップしたNRI 独自の辞書。
  • SourceForge.JP: Project Info - NAIST Japanese Dictionary

    最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース

    SourceForge.JP: Project Info - NAIST Japanese Dictionary
    SuiJackDo
    SuiJackDo 2010/04/22
    MeCab/ChaSenに対応する形態素解析用辞書。前身のIPADICのICOT条項をクリアするとともに表記ゆれ情報、複合語情報を付与し修正BSDライセンスで公開。
  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

    SuiJackDo
    SuiJackDo 2010/04/22
    MeCab/ChaSenで利用できる電子化辞書。顔文字に対応。
  • TTM: TinyTextMiner β version

    はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。 また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。 インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。

    SuiJackDo
    SuiJackDo 2010/04/17
    テキストマイニングの前処理のためのフリーソフトウェア。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成。
  • RMeCab - アールメカブ

    _ 基 2022 年 05 月 02 日 RMeCab_1.10 for R-4.2.0 (64bitUTF-8のみ対応) 公開 2022 年 04 月 29 日 RMeCab_1.08 for R-4.2.0 (64bitUTF-8のみ対応) 公開 2021 年 11 月 27 日 M1 MacOSX 用の注意を追記 2021 年 05 月 27 日 RMeCab_1.07 for R-4.1.0 (M1 Mac 用バイナリを追加で作成) 公開 2021 年 01 月 11 日 RMeCab_1.06 for R-4.0.3 (MacおよびLinuxでは辞書としてneologdを指定できるようになりました) 公開 R と MeCab? (ただしWindowsでは64bit UTF-8辞書版)の両方が既にインストールされているのならば R を起動し、コンソールで以下を実行すればRMe

    SuiJackDo
    SuiJackDo 2010/04/03
    Rから日本語形態素解析ソフトMeCabを呼び出して使うインターフェース。
  • 1