ブックマーク / catindog.hatenablog.com (4)

  • 5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう

    5ch(旧2ch)ではここ数年はTwitterを使用するようになってしまいましたが、ネットのミームの発信地点であって、様々なスラングを生み、様々な文化を作ってきたと思います。 学生時代、2chまとめとか見ていたので、影響を受けてきたネット文化で、感覚値からすると、どうにも流行り廃りがあるようです。 5chの過去ログを過去18年ほどさかのぼって取得する方法と、懐かしいネットスラングのドキュメントに占める出現具合を時系列でカウントすることで、時代の変遷でどのように使用の方法が変化したのか観測することができます。 文末に「orz」って付けたら若い人から「orzってなんですか?」と聞かれて心身共にorzみたいになってる— ばんくし (@vaaaaanquish) October 19, 2018 図1. 今回集計したorzの結果 例えば、今回集計した5chの書き込み500GByte程度のログからで

    5ch(旧2ch)をスクレイピングして、過去流行ったネットスラングの今を知る - にほんごのれんしゅう
  • ドメインにより意味が変化する単語の抽出 - にほんごのれんしゅう

    ドメインにより意味が変化する単語の抽出 立命館の学生さんが発表して、炎上した論文を、わたしもJSAI2017に参加していた関係で、公開が停止する前に入手することができました 論文中では、幾つかのPixivに公開されているBL小説に対して定性的な分類をして、終わりという、機械学習が入っていないような論文でしたので、わたしなりに機械学習を使ってできることを示したいという思いがあります。(そんなに大変な問題でないように見えて、かつ、問題設定も優れていたのに、なぜ…) 炎上に対して思うところ(主観です) PixivBLのコンテンツを参照し、論文にハンドル名を含めて記述してしまっており、作家の方に精神的な不可をかけてしまうという事件がありました。 非常にRTされている代表的なツイートは、以下のようになっています。 (該当ツイートは盗用との指摘を受けたので消しました、検索すれば出るものなで、大乗だと

    ドメインにより意味が変化する単語の抽出 - にほんごのれんしゅう
  • 教師なしRNNによる連続した不完全情報(主にテキスト)の補完 - にほんごのれんしゅう

    教師なしRNNによる連続した不完全情報(主にテキスト)の補完 背景 Google(や、過去の私のブログの投稿)などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。 テキストにも同じような問題が適応できるのかって思うことがあります。RNNはすでに記述されている文字をヒントとして次の文字を予想することができます。 その特性を利用して、情報が失われたテキストから復元を試みる例を示します。 (また、戦時中の戦艦に乗っていた搭乗員の劣化した手記から情報を復元したいという思いがあります。手記の海水に沈み腐敗が進んでいたり、筆記が乱れていて解析が困難であったりという点を補完できれば良いと思います。彼らの思い、可能な限り現代に蘇らせたいと思います。) 先行研究 今回は見当たらない(ほんとに存在しないんだったら、論文出したい) 手法 RNNで欠落した連続する情報を周辺の単語

    教師なしRNNによる連続した不完全情報(主にテキスト)の補完 - にほんごのれんしゅう
    kana0355
    kana0355 2017/03/06
  • Doc2vecを利用したレコメンデーションシステム - にほんごのれんしゅう

    Doc2vecを利用したレコメンデーションシステム(は、諦めて盗用チェックツールとかのほうがいいかも) Embeddingという文字、文字列をベクトル化する技術機械学習、Deep Learning界隈で用いられているように見えます CNNよるセンチメント分析や、Word2Vec、Doc(Paragraph)2Vecなどで用いられています Doc2Vecとはドキュメントをベクトル化することで、足し算・引き算・コサイン類似度などを計算できるようにしたものです。ベクトル空間で表現されるので、何かと計算しやすく様々なアイディアが試されています。 Doc2VecはBag of wordsなどと異なり、一部のdmpvなどの実装においては単語の語順などの文法情報を保存することができます。この特性を利用して、センチメント分析を行うこともあるようです[1]。 モチベーション Kindleなどで読んだに近

    Doc2vecを利用したレコメンデーションシステム - にほんごのれんしゅう
  • 1