タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

NLPとねたに関するrokujyouhitomaのブックマーク (2)

  • 形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記

    こんばんは。夜の@oscillographです。 最近DMMアダルトがAPIを公開しました。 つまり、プログラムで直接データを取得できるようになったわけです。 ということで、今回はDMMアダルト(動画)の全タイトルを取得して 形態素解析を行うことによって日のAVタイトルの特徴を分析しよう ということになりました。 手順としては、 DMM(ビデオ)のメーカーページを「あ」~「ん」までHTMLで取得 メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存 テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得 タイトルについて形態素解析を行うことによって単語を集計 正規化(全体の数で割ることによって割合で表す) という感じでやりました。 とりあえず、集計結果です。 上位30位を抜き出し

    形態素解析に基づくAVタイトルの特徴分析 - oscillographの日記
  • プログラミング言語「日本語」

    ■ はじめに 日語は約1万年前、古代縄文人によって考案された世界的にも最も古い部類のプログラミング言語の一つである。(※) 日語の起源は、古代の北方系言語と南方系言語であり、それぞれの特徴、即ち、強力なマクロ機能と柔軟な音節構造を共に持ち合わせているかなり珍しい言 語である。 更に、日語はその後、約1万年の間にわたって仕様の変更や拡張が幾度も行われ現在の形に至っている。その過程で日独特の固有な機能を有するように なった。 これらの特徴は日語の利点であると同時に、習得する上での障害ともなっている。 書はプログラミング言語としての日語を習得する上で、比較的良く使われる構文を主に取り上げ解説したものであり、これから日語プログラミングを始 める人を対象として書かれている。 ※念のために書いておくと、書は日語をプログラミング言語のように解説することによって、普段意識 しないで使っ

    rokujyouhitoma
    rokujyouhitoma 2013/02/27
    こういう発想嫌いじゃないんだから!
  • 1