タグ

ブックマーク / y-uti.hatenablog.jp (2)

  • 『言語処理 100 本ノック』に PHP で挑む (問題 70 ~ 72) - y_uti のブログ

    『言語処理 100 ノック』に PHP で挑戦しています。昨年の 9 月に第 5 章を終えたところで間隔が空いてしまいました。第 6 章と第 7 章は飛ばして、今回から第 8 章に取り組みます。今回の記事では、機械学習の前処理に相当する問題 72 まで進めます。 www.cl.ecei.tohoku.ac.jp 70. データの入手・整形 文に関する極性分析の正解データを用い,以下の要領で正解データ(sentiment.txt)を作成せよ. rt-polarity.posの各行の先頭に"+1 "という文字列を追加する(極性ラベル"+1"とスペースに続けて肯定的な文の内容が続く) rt-polarity.negの各行の先頭に"-1 "という文字列を追加する(極性ラベル"-1"とスペースに続けて否定的な文の内容が続く) 上述1と2の内容を結合(concatenate)し,行をランダムに並び替

    『言語処理 100 本ノック』に PHP で挑む (問題 70 ~ 72) - y_uti のブログ
    gayou
    gayou 2017/04/22
    [自然言語処理
  • 統計的機械翻訳システム Moses で遊ぶ - y_uti のブログ

    統計的機械翻訳システム Moses を使って、英語から日語への自動翻訳を試してみます。Moses は、機械翻訳の分野で広く利用されているシステムです。対訳コーパス*1からモデルを学習し、そのモデルを用いて入力文の翻訳結果を出力します。Moses のウェブサイトは以下にあります。 Moses - Main/HomePage Moses のインストール Moses のインストール手順は公式サイトの説明どおりです。Git リポジトリからソースコードを取得してビルドします。公式サイトでは bjam にオプション -j8 を指定していますが、これはビルドの並列度を指定するものなので、環境に合わせて変更します。私は並列度 1 でビルドしました。ビルド時間を計測したわけではありませんが、出力されたファイルのタイムスタンプから判断すると、30 分程度かかったようです。なお、最初に作成している smt デ

    統計的機械翻訳システム Moses で遊ぶ - y_uti のブログ
  • 1