並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 3057件

新着順 人気順

scrapingの検索結果41 - 80 件 / 3057件

  • 「私はロボットではありません」はワンクリックでなぜ人間を判別できる? 仕組みとその限界を聞いてきた

    2021.02.16 「私はロボットではありません」はワンクリックでなぜ人間を判別できる? 仕組みとその限界を聞いてきた WebサイトにIDとパスワードを入力するとき、ときどき「私はロボットではありません」にチェックを求められることがあります。 僕はロボットではないので、当然チェックを入れて認証を進めるわけですが……。でもちょっと待ってください。なぜクリックひとつで、人間かロボットかを判断できるんでしょう。 これはきっと、人間ではないなんらかの不正アクセスを防ぐ仕組みのはず。でもチェックを入れるくらい、プログラムを作ってなんやかんやすれば、シュッとできるのでは? 「私はロボットではありません」は、どんな仕組みで人間とロボットを判別しているのか。もっといい方法はないのか。これまでの歴史的経緯も含め、情報セキュリティ大学院大学の大久保隆夫教授に聞きました。 気づかないうちに「人間かロボットか」

      「私はロボットではありません」はワンクリックでなぜ人間を判別できる? 仕組みとその限界を聞いてきた
    • 日付、住所、文字列、辞書、翻訳……なんでもござれの「ExcelAPI」がスゴい/「Excel 2013」以降で利用できる「WEBSERVICE」関数と組み合わせて使う無料のWeb API【やじうまの杜】

        日付、住所、文字列、辞書、翻訳……なんでもござれの「ExcelAPI」がスゴい/「Excel 2013」以降で利用できる「WEBSERVICE」関数と組み合わせて使う無料のWeb API【やじうまの杜】
      • アルゴリズム取引のシステムを開発・運用してみて分かったこと

        趣味でアルゴリズム取引のシステムを開発・運用してみたことで得られた知見について、社内のテーマ自由な勉強会で発表しました。

          アルゴリズム取引のシステムを開発・運用してみて分かったこと
        • イープラス「チケット購入アクセスの9割がbotだった」――アカマイの検知システムで判明

          アカマイ・テクノロジーズは8月23日、同社のbot検知システムをチケット販売サイト運営会社のイープラスに導入した結果、悪質なbotによるアクセスのブロックに成功し、チケット買い占め問題を改善できたと発表した。チケット購入のアクセスのうち9割超がbotだったという。 チケット販売サイト「e+」(イープラス)を運営するイープラスは、以前からチケットの転売目的と疑われるWebサイトへのアクセスに悩まされていた。これまで、難読文字や図形問題をユーザーに解かせる方法などを検討してきたが、難読文字は自動解析で突破されるためほぼ効果がなく、図形問題を提供する外部サービスも止まることがあったりと、期待する効果は得られなかった。 そこで、同社はキー入力やマウスの動きなどの振る舞いを機械学習してbotを検知・制御できるアカマイの「Bot Manager Premier」(BMP)を導入。BMPで、ある先行販売

            イープラス「チケット購入アクセスの9割がbotだった」――アカマイの検知システムで判明
          • GitBook – Knowledge management for technical teams

            GitBook brings all your technical knowledge together in a single, centralized knowledge base. So you can access and add to it in the tools you use every day — using code, text or even your voice.

              GitBook – Knowledge management for technical teams
            • Pythonでできることを、現役エンジニアが解説してみた - DAINOTE

              プログラミングを知らない人でも、Pythonという言葉を聞いたことがある人は多いのではないでしょうか。 書店などに行くと、Pythonに関する書籍があふれていますが、プログラミングを知らない人からするとPythonを学ぶと何がうれしいのか、 さっぱりわかりませんよね。 そこで今回は、Pythonを学ぶとどんなことができるようになるのかを、普段プログラミングに触れていない人にもわかりやすくまとめてみたいと思います。一緒にどうやればできるようになるのかについても解説します。 ちなみに!先に言っておきますが、Pythonができると めちゃくちゃ 便利です!また、初学者でも学びやすい言語なので、エンジニアではない人でも非常に重宝します。 このツイートに書いたとおり、Python使えると本当に便利なんですよね~ では、Pythonではどういうことができるのでしょうか。結論からいうと、 Webスクレイ

                Pythonでできることを、現役エンジニアが解説してみた - DAINOTE
              • tyoe2.com

                tyoe2.com 2021 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

                • 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita

                  【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~Pythonスクレイピングpandasデータ分析 やりたいこと はてなブックマークで、Python記事を検索しトレンドを分析 はてなブックマークにSeleniumでログイン ブックマーク数をスクレイピング 時系列比較を行う バズるタイトルを分析 実装方法 詳しくは下記記事を参考にしてください。Pandasを利用したデータ分析まで載せています。 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ 実装 from selenium import webdri

                    【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita
                  • Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ

                    今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、本文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと

                      Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ
                    • チケット購入アクセス「9割がbot」→“殲滅”へ イープラスの激闘を振り返る (1/3) - ITmedia NEWS

                      今年8月、「e+」への一般先着チケット購入アクセスの9割がbotによるものだった、というニュースが報じられた。あれから4カ月、bot対策はさらに進み、目に見える効果をあげている。 連載:迷惑bot事件簿 さまざまなタスクを自動化でき、しかも人間より早く処理できるbot。企業にとって良性のbotが活躍する一方、チケットを買い占めるbot、アカウントを不正に乗っ取るbot、アンケートフォームを“荒らす”botなど悪性のbotの被害も相次いでいる。社会や企業、利用者にさまざまな影響を及ぼすbotによる、決して笑い事では済まない迷惑行為の実態を、業界別の事例と対策で解説する。著者は、セキュリティベンダーの“中の人”として、日々、国内外のbotの動向を追っているアカマイ・テクノロジーズの中西一博氏。 今年8月、大手プレイガイド、イープラスのチケット購入サイト「e+」への一般先着チケット購入アクセスの

                        チケット購入アクセス「9割がbot」→“殲滅”へ イープラスの激闘を振り返る (1/3) - ITmedia NEWS
                      • ベテランエンジニアがクラウドワークスで5,000円の案件を受けてみた|ebiebi_pg

                        最近は営業力なくてもクラウドワークスのような便利なサイトで案件が受けれるようだ。 いざチャレンジ! 1.まずは実績作りクラウドワークスデビューを果たしたいのだが、自分は実績が1件もないので料金は度外視して「何でもいいから1件実績を作る」という作戦に出てみた。 申し込みが少ない案件を探していると下記のような案件が見つかった 「自社のオリジナル販売サイトの商品ページを解析し、某大手ショッピングモールサイト3社に自動でアップロードするロボットプログラムの作成依頼」 (10,000円) ほう… 相場を分かっていないのか けっこうな難易度のシステムを1万円ぽっきりで依頼するとはなかなかの猛者だ。 だれも申し込みしていない案件かと思いきや、他にも数名の申し込みがあった。 大丈夫か??こいつら? 2.案件獲得交渉さっそく申し込んでみるのだが、1件実績を作るという目的を達成するためになるべく案件の獲得率を

                          ベテランエンジニアがクラウドワークスで5,000円の案件を受けてみた|ebiebi_pg
                        • 見てるページを全部保存するという行ない - Diary

                          見てるページを全部保存するという行ない をもうずっとしていて、以下のような user.js でページを全部保存してます。 // ==UserScript== // @name 見たサイト全部保存 // @namespace http://tampermonkey.net/ // @version 0.1 // @author You // @match http://*/* // @match https://*/* // @grant GM_xmlhttpRequest // @noframes // ==/UserScript== if(!!document.querySelector('title')){ const title = document.querySelector("title").textContent; const url = location.href; GM_x

                          • 今日のCPANモジュール(跡地) 目次

                            Redirecting… Click here if you are not redirected.

                            • ソニック速報

                              マッチングアプリ女「お仕事何してるんですかー?」僕「ドーナツ屋さんで販売してますよ」女「…そうなんですね…」

                                ソニック速報
                              • Elementary, ... Googleで「はらへった」と検索するとピザが届くようにするまで

                                日曜は、Plagger を初めてちゃんとさわってみました。 Plagger の概略は、miyagawaさん自身による このYAPC::NAのPDF がわかりやすいです。要するに、 『ネットからフィードを集める → (ごにょごにょする) → 出力する』をするものです。 この「集める」や「ごにょごにょ」や「出力」の部分に、ブロックを重ねるようにしてモジュールを重ね、自分の好きな起承転結にできるという点が実に Perl ぽい着想です。風がふけば桶屋がもうかるフレームワークと呼んでいます。 Subscription::Bloglines / Publish::Gmail まあ、まずは普通に使ってみようということで、「Bloglines から集める」→ (エントリごとに分割、RSS 広告除去、本文の内容をできるだけ収集→ Bloglines、Delicious へのリンク付与、はてブ登録数付与) →

                                  Elementary, ... Googleで「はらへった」と検索するとピザが届くようにするまで
                                • 文章の「自動要約ツール」、ユーザーローカルが無償提供

                                  ユーザーローカルは7月24日、入力した文章から重要部分を取り出して要約する「ユーザーローカル自動要約ツール」を公開した。Webサイト上で無償利用できる。 入力フォームにテキストを貼り付けるか、テキストファイルをアップロードすると、文章構造を分析して特徴語(特徴的な言葉を機械的に抽出した単語)や重要文を自動抽出するツール。重要な文章をマーキングやヒートマップ、モノクロ強調で視覚的に捉えられる強調表示にも対応する。 要約文は「3行ダイジェスト」「5行ダイジェスト」「10行ダイジェスト」といった分量調整もできる。 重要文の抽出には、重要単語を多く含み、他の文に類似度が高い文を抽出するアルゴリズム「LexRank」を活用した。 ツールが公開されているWebページには、ニュース配信各社から引用したニュース本文の要約をダイジェストとしてランキング表示している。 同社は「インターネット上には、日々ニュー

                                    文章の「自動要約ツール」、ユーザーローカルが無償提供
                                  • node.jsとjQueryでスクレイピングするウェブアプリの作り方

                                    やっぱ jQuery 便利ですよ(*´・ω・)(・ω・`*)ネー セレクタ使って jQuery でダカダカやってると、DOM とか正規表現でネチネチやるのがバカらしくなっちゃいます。 と日頃から思ってたりしてまして、サーバサイド JavaScript がメインストリームになって、jQuery でウェブアプリをコーディングできれば超ラクできるかもと期待しています。 で、先日サーバサイドJavaScriptとjQueryでスクレイピングという記事をうpったところ、やっぱ Rhino じゃなくて node.js がえーんよ(´・ω・`)というコメントを頂きましたので、node.js と jQuery でサーバサイド JavaScript スクレイピングしてみることにしました。 今回は node.js ですので、単にスクレイピングする(コマンドラインから実行する)スクリプトだけじゃなくて、スクレイ

                                      node.jsとjQueryでスクレイピングするウェブアプリの作り方
                                    • SCOUTER開発者ブログ

                                      2024-04-29 CSSってどんな勉強をしたらいいの?おすすめの勉強法3選! 文字やタブなどWebサイトのデザインを作成するマークアップ言語がCSSです。 CSSを勉強すると、おしゃれなWebサイトやかっこいいWebサイトが作れるようになります。 また、Webサイトを作るときに必要なHTMLを理解するのにも役立ちます。 CSSを勉強するならできるだけ効率よく勉強できるようになりたいですよね。 ではCSSの勉強法はどのようなものがあるのでしょうか。 CSSの勉強法は、スクール […] 2024-04-29 WEBエンジニアから見たXserverの使い勝手と評判 レンタルサーバーのおすすめサイトを見ると、大体どこでも上がってくる有料のレンタルサーバーの一つに「Xserver」があります。 このXserverとは、どのようなサーバーで、サービスにはどのようなものがあるのか。 ホームページ関連

                                        SCOUTER開発者ブログ
                                      • Pipes: Rewire the web

                                        This pipe is designed to use eBay's RSS API to find items within a certain price range. Created by Ed Ho (show me) This pipe is designed to use eBay's RSS API to find items within a certain price range. Created by Ed Ho (show me) About Pipes Pipes is a powerful composition tool to aggregate, manipulate, and mashup content from around the web. Like Unix pipes, simple commands can be combined togeth

                                        • 「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開

                                          「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開 新型コロナウイルス感染症の患者数や、感染者用の病床数などを都道府県ごとに表示した「新型コロナウイルス対策ダッシュボード」が、ネットで話題を呼んでいる。Twitterでは「病床の使用率が一目瞭然」「都市部の病床数がギリギリなのが分かる」と好評だ。Facebook上のシェア数は4000近くあり、開発者の福野泰介さんは「バグを疑ったくらいです」と驚く。 福野さんは、福井県鯖江市のソフトウェアメーカー「jig.jp」の会長を務める傍ら、東京都が開設した「東京都新型コロナウイルス感染症対策サイト」や、無償で提供されているオンライン教材やテレワーク用のサービスをまとめた「VS COVID-19 #民間支援情報ナビ」の作成にも携わっている。病床数に特化したサイトを作成した経

                                            「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開
                                          • 法と技術とクローラと私 - 最速転職研究会

                                            こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。 さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。 関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識

                                              法と技術とクローラと私 - 最速転職研究会
                                            • 知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!/“データを丸ごとほしい!”という場合に便利【やじうまの杜】

                                                知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!/“データを丸ごとほしい!”という場合に便利【やじうまの杜】
                                              • so-network.biz

                                                • 【初心者向け】Mac OSX10.8(Mountain Lion)で Ruby on Railsを動かすための5ステップ « pplog.org

                                                  We are constantly updating our collection of different sources. All content absolutely free!

                                                  • 【YQL 速攻レビュー】米 Yahoo! が SQL っぽく色んなデータを取ってこれるAPIを出した - てっく煮ブログ

                                                    米 Yahoo! が Yahoo! Pipes みたいに自由度が高くて、またちょっと毛色が違うサービスが出てきた。題して、Yahoo! Query Language。YQL と呼ぶようだ。SQL 風の言語を REST で投げて、結果を XML や JSON で受け取ることができる。具体的にやってみないと分かりにくいので、とりあえず試してみた。RSS からデータ取得YQL を使って RSS から最新のタイトル10個を取ってきてみる。こんな YQL になるらしい。 select title from rss where url='http://d.hatena.ne.jp/nitoyon/rss' rss テーブルに対して select を発行している。実際にこの YQL を試すには YQL 用の console を利用するとよい。(※要ログイン)console の左上に YQL を入力して

                                                    • 簡単!たった13行のコードでHTML取得&解析をするPerlスクリプト - DQNEO起業日記

                                                      13行のコードで、Yahoo!Japanのトピックス一覧を取得する! PerlでHTML取得・解析したいときはLWP::UserAgentとHTML::TreeBuilderというのを使うと簡単にできます。 LWP::UserAgentを使うと、Webページの取得ができます。 HTML::TreeBuilderを使うと、HTMLのDOM解析ができます。 この2つのモジュールを使って、Yahoo!Japanのトピックス一覧を取得してみましょう。 コメント行と空行を除くとたったの13行です。 use strict; use warnings; use LWP::UserAgent; use HTML::TreeBuilder; # urlを指定する my $url = 'http://www.yahoo.co.jp'; # IE8のフリをする my $user_agent = "Mozilla

                                                        簡単!たった13行のコードでHTML取得&解析をするPerlスクリプト - DQNEO起業日記
                                                      • Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' )

                                                        この記事を読み始める前に Rubyでやるんだったら、ちょうどそういう本が出ているから、その本買えばいいのではないでしょうか。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型本この商品を含むブログ (1件) を見る はじめに プログラミングを勉強し始めて、だいたい基礎的な文法を覚えたあとに、次に何をしようかな、と悩む人も結構多いみたいで、明確に「これを作りたい」という場合は、それを作ればいいとは思うんですけど、場合によっては、別段作りたいものが無く、漠然としたプログラミングをしたい、という熱意によって勉強しているという人もいるのではないかと思います。 で、もちろん「作りたいものがないのに、プログラミング勉強してどうするの」という意見もあるかとは思いますが、往

                                                          Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' )
                                                        • 山手線リアルタイム混雑情報で遊んでみよう

                                                          去年から公開されてる「JR東日本アプリ」ですが、機能の一つに「山手線トレインネット」というものがあります。 これは山手線の各車両の現在位置、混雑状況、室内温が見えるというもので、 座りやすい車両を探すのに便利だったりします。 山手線トレインネットから取得した車両位置と混雑率 電車の運行情報がここまで時間粒度細かく公開されているのは世界的にも珍しいので、特に目的も無しにデータをクローリングして遊んでみました。 データをクローリングする まずは山手線トレインネットの車両位置・混雑情報をクローリングします。 JR東日本アプリの山手線トレインネット。 今の車両内の混雑や室内温が見える。すごい! 「山手線トレインネット」はブラウザから見えるページが存在しない、iPhone/Androidアプリ専用の画面です。 なので普段の「FirebugでAJAXの通信を見てAPIをリバースエンジニアリング」ほど簡

                                                            山手線リアルタイム混雑情報で遊んでみよう
                                                          • 高木浩光@自宅の日記 - Macっ娘ならオートメータ君つかいたおすわよね

                                                            ■ Macっ娘ならオートメータ君つかいたおすわよね iPhoneといっしょにMacに乗り換える子が多いみたい。Mac買ったらまず開くのは「アプリケーション」フォルダなんだけど、左隅にいるちょっと気になるロボット君、「Automator」君っていうんだけど、知ってた?

                                                            • A Node in Nodes

                                                              • りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め

                                                                りょうくんグルメをご存知だろうか。知らなくても、本人のツイートの雰囲気は料理のレシピなんかで一度は見た文脈のはずだ。 こんなやつ。 まじでこの世の全てのタピオカ好きに教えてあげたいんだが新宿三丁目のceleb縁味には全ての人間を虜にする禁断のオレオミルクフォームがある。 これが濃厚黒糖で超絶美味いからぜひ全国のタピオカ好き、タピオカを愛する者たち、タピオカを憎む者たち、全てのタピオカ関係者に伝われ pic.twitter.com/wnnPvkJ2pr— りょうくんグルメ (@uryo1112) 2019年6月15日 「りょうくんグルメ」は文章が情報量に対してやたら長いので、pythonの練習も兼ねてアイデンティティである上から目線の構文を取り去ることにした。逆りょうくんグルメである。 手順は大雑把に分けて以下の3ステップ。 1. Twitterからりょうくんグルメのツイートをスクレイピング

                                                                  りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め
                                                                • キトー君の悪い口コミ・失敗談と効果・販売店舗情報・安全と危険性・代用自作方法

                                                                  キトー君で真性包茎対策ができてしまいます。 包皮を引っ張ることで矯正できてしまうんですよ。 包皮輪狭窄の方も皮を伸ばすことでだんだんと広がっていきます。 テレビや雑誌でも紹介され多くの方が悩みを解決していますのでおすすめです。 そんなキトー君なのですが本当に真性包茎・カントン包茎に効果があるのでしょうか?矯正できるのでしょうか、使い心地や評判が気になりませんか?そこで口コミを調べたら失敗談などの口コミが見つかりました。

                                                                    キトー君の悪い口コミ・失敗談と効果・販売店舗情報・安全と危険性・代用自作方法
                                                                  • ツイッター上でウクライナ政府をネオナチ政権だと拡散しているのは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース

                                                                    2022年2月24日にロシア軍がウクライナに侵攻しました. 3月7日現在いまだ侵攻は続いており,一般市民にも多くの死傷者が出ているということで早期の収束を願うばかりです. ロシア側はウクライナへの侵攻の正当性として,ウクライナ政権はネオナチ政権であるという主張をしているようです. プーチン氏は安全保障会議で「我々はまさにネオナチと戦っている」と述べ、ウクライナ政府側をネオナチ扱いした。 https://mainichi.jp/articles/20220304/k00/00m/030/061000c 日本のマスメディアでこの主張を入れているところはあまりないようですが,ソーシャルメディア上ではこの主張に沿ってロシアの侵攻を正当化しているグループもあるようです. ロシアによるウクライナ侵攻について、日本では「単なる思い込みによる誤解」から「めちゃめちゃな陰謀論」まで、ツイッターのみならず、ウ

                                                                      ツイッター上でウクライナ政府をネオナチ政権だと拡散しているのは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース
                                                                    • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

                                                                      はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPython用スクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

                                                                        Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
                                                                      • yak shaving で人生の問題の80%が説明できる問題 - bkブログ

                                                                        yak shaving で人生の問題の80%が説明できる問題 つい最近、 yak shaving (ヤクの毛を刈る)、という言葉を知りました (原典)。これは「一見無関係に見えるけど、真の問題を解くのに必要な問題を解くのに必要な(これが何段階も続く)問題を解くのに必要な活動」という意味の言葉です。 yak shaving は、ようするに「ある問題を解こうと思ったら別の問題が出てきて、それを解こうと思ったらさらに別の問題が出てきて…」ということが延々と続く状況を表しています。ちなみに、ヤクとは毛が長い、牛の一種です。 yak shaving は、以前に覚えた bikeshed と同じくらい便利そうな表現です。というもの、プログラムを書いていると yak shaving 的な状況がすぐに発生するためです。 たとえば、「Amazon のほしい物リストを CSV 形式に変換して Excel で読み

                                                                        • 進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!

                                                                          はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、

                                                                            進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
                                                                          • 【個人開発】爆速な賃貸物件の検索サービスを作った - Qiita

                                                                            個人開発で 賃貸物件の検索サービス Comfy を作りました1。グラフや地図でサクサク絞り込める UI が特徴のサービスです。とにかく気持ち良い使い勝手を実現するために色々工夫しています。 既にリリースからは 4 ヶ月以上経っているのですが、改めてサービスの概要や、システム構成及び使用した技術・サービスをご紹介しようと思います。2。 サービスの概要 Comfy は日本全国の賃貸物件を検索できる Web サービス です。画面 UI は上の GIF 画像のような感じです。 こだわったポイントを色々書くよりも実際にさわって頂いた方が新感覚の UI や気持ちよさを体感頂けるかと思いますので、 実際のサービス をぜひお試し頂ければ幸いです! システム構成 図の通り、システムは大きく 3 つに分けられます。 フロントエンド バックエンド データ基盤 使用技術は図の通りではあるのですが、フロントエンドと

                                                                              【個人開発】爆速な賃貸物件の検索サービスを作った - Qiita
                                                                            • スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった

                                                                              Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。 そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります: Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える(HTML パーサなどのモジュ

                                                                                スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
                                                                              • PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor

                                                                                2016-12-09追記 「Pythonクローリング&スクレイピング」という本を書きました! Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日 追記: この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新: デメリットを修正しました。 以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな

                                                                                  PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
                                                                                • 自作した時間割アプリが大学の公式アプリに採用された話 - Qiita

                                                                                  記事の概要 私(芝浦工業大学学部4年生)が大学2年時に1人で制作した、大学のポータルアプリ(ポータルサイトからスクレイピングして時間割などを表示する)が、大学に正式採用され、公式アプリ"ScombApp"としてリリースされるに至った経緯を時系列順に説明します。 ホーム画面 時間割画面 制作の動機 大学のポータルサイト使いにくいがち。 ポータルサイトのスマホアプリ版があれば便利そう。 他にやってる人いなさそうだし、最初に作ったらみんな使ってくれそう。 ポータルサイトの問題点 大学ポータルサイトで使いにくかった点を挙げていく。 とりあえずこれを克服することを目標にした。 ログインの時に自動補完が使えない 制作当時はBASIC認証で、スマホからだとログインの自動補完ができなかった。 毎回手打ちでパスワードを入力している人がほとんど ←!? 次の授業や教室を確認するだけでも、毎回手打ちログインが必

                                                                                    自作した時間割アプリが大学の公式アプリに採用された話 - Qiita