タグ

スクレイピングに関するs025236のブックマーク (2)

  • まきもと@ねっとわーく

    「あたし彼女」という携帯小説をプレーンテキストで取得できる atashi-kanojo.py *1 なるコードを書いたのだが、ついでに何か遊べるものを作ろうということで、@atashitter なるものを作った。これは「あたし彼女」のテキストを形態素解析器で分かち書きした後、形態素 n-grams で頻度を取得し、それに基づいて文書を生成している。基的なアーキテクチャは @showyou さんの @ha_ma や @dogramagra、 id:pha さんの圧縮新聞などと同じである。当初は行 n-grams で n=1 のモデルと n=2 のモデルから生成を行なっていたが、どうしてもデータスパースネスの問題にぶち当たり、綺麗に生成できなかったので、形態素 n-grams (n = 1..5) に切り替えたという経緯がある。要するに出てくるバリエーションが限られてしまうという問題で色々悩

  • ScraperWiki

    ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.

  • 1