並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 2776件

新着順 人気順

スクレイピングの検索結果241 - 280 件 / 2776件

  • Page2FeedっていうAPIを作った件 - 金利0無利息キャッシング – キャッシングできます - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

      Page2FeedっていうAPIを作った件 - 金利0無利息キャッシング – キャッシングできます - subtech
    • AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog

      2022年5月24日(米国時間)、SANS ISCのフォーラムでPython向けライブラリの1つ(その後PHP向けライブラリでも判明)が第三者により不正なコードを含むアップデートが行われていたとして注意を呼び掛ける投稿が行われました。その後この行為に関わっていたとして実行者とみられる人物が顛末を公開しました。ここでは関連する情報をまとめます。 改ざんされた2つのライブラリ 今回影響が確認されたのPython Package Index(Pypi.org)で公開されている「ctx」、Packagist(Packagist.org)で公開されている「PHPass」の2つ。 影響を受けたライブラリ インストール実績 改ざんされたとみられる期間 概要 ctx 約75万回 2022年5月14日~5月24日頃 辞書(dict型オブジェクト)を操作するユーティリティを提供するPython向けのパッケージ

        AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog
      • 【Linux】スクレイピングにはNordVPNが便利・設定方法を解説

        Webスクレイピングをしたいのだけど、VPNやプロキシーで一番良いサービスはないだろうか!? Linuxで使えるベストなVPNサービスを教えてほしい! …という形に、最適なプラクティスをご紹介します。 ということで、こんにちは! Webサイトを自動で取得する「Webスクレイピング」をする上で、必ずネックとなるのがアクセスするIPアドレスの問題です。 スクレイピングする対象のサービスの営業妨害にならない範囲でスクレイピングするのは言うまでもない当然の話ですが、Webサイトによっては、少しのアクセスでも不正なアクセスと認識してIPアドレスごとブロックしてしまうことがあります。 これを回避するためには、定期的なIPアドレス変更などの対応が必要です。 一般的にはこうした問題はプロキシーやVPNサービスを使って回避することになりますが、具体的にはどうしたら良いのでしょう? 結論を言いますと、「Nor

          【Linux】スクレイピングにはNordVPNが便利・設定方法を解説
        • ターミナル使うMacユーザーはTotalTerminal使ってるよね? - PILOG

          2014-03-24 ターミナル使うMacユーザーはTotalTerminal使ってるよね? Mac Terminal App MacのいいところはUnixベースでターミナルが使いやすいところにつきると個人的には思っています。 ターミナルでやることはいっぱいあります。 ファイル操作 ソース管理 ちょっとした設定ファイルいじり ファイル検索 文字列検索 ↑このあたりはもちろん、 Railsアプリケーション開発 画像変換 データベースの操作 などなど、コマンドでできることはできるだけコマンドでやりたいのでターミナルを使う機会は必然的に増えるわけです。もちろんIDEやFinderなどGUIを使うことも多いのでターミナルとGUIを切り替えて使うというのが普通の流れなわけですが、そうなるとコマンドキー+Tabでのアプリケーション切替では追いつかなくなります。 そこで登場するのがTotalTermin

          • 岡崎図書館HP大量アクセス事件について - さかなの目

            図書館HP閲覧不能、サイバー攻撃の容疑者逮捕、だが… http://www.asahi.com/national/update/0820/NGY201008200021.html なぜ逮捕?ネット・専門家が疑問も 図書館アクセス問題 http://www.asahi.com/digital/internet/NGY201008210001.html Twitter#librahack、Togetter、librahack、高木浩光氏のブログなどをつまんで見れば把握できるんですが、時系列で並んでいなかったり、専門知識が必要だったりで朝日新聞の記事だけではちょっとつらい。まとめてみた。 登場人物 中川氏 ソフトウェア開発者。 本事件の犠牲者。図書館から新着図書データを自動で取得するプログラムを開発、実行した結果、図書館のシステムが脆弱だったためサービスが停止。図書館に被害届を出され、警察に20

              岡崎図書館HP大量アクセス事件について - さかなの目
            • シンプルかつ高速な文字列照合アルゴリズムを紹介します - エムスリーテックブログ

              こんにちは! エンジニアリンググループ マルチデバイスチーム 新卒1年目の小林です。 エムスリーでは、2週間に1度、Tech Talkという社内LT会(現在はリモートで)が開催されています。これは、とある回の発表テーマリストです。 Tech Talkのとある回の発表テーマリスト このように、最近エムスリーでは文字列が流行っている(?)ようなので、その勢いに乗って私も文字列照合アルゴリズムについて書きたいと思います!(業務とは全然関係ない話です) Knuth-Morris-PrattやBoyer-Mooreアルゴリズムは解説記事がたくさん出ていると思うので、この記事ではシンプルかつ高速なQuick-SearchとQuite-Naiveアルゴリズムについて説明し、速度比較を行った結果についてご紹介します。 文字列照合アルゴリズムとは テキストとパターンという文字列が与えられたときに、中に出現す

                シンプルかつ高速な文字列照合アルゴリズムを紹介します - エムスリーテックブログ
              • Reader API

                Our world-class embeddings for search, RAG, agent systems.

                  Reader API
                • Latest topics > CSS3セレクタとXPathでの表現の対応表 - outsider reflex

                  Latest topics > CSS3セレクタとXPathでの表現の対応表 宣伝。日経LinuxにてLinuxの基礎?を紹介する漫画「シス管系女子」を連載させていただいています。 以下の特設サイトにて、単行本まんがでわかるLinux シス管系女子の試し読みが可能! « getElementsByなんちゃら の代わりにXPathを使う Main Mozilla 24 » CSS3セレクタとXPathでの表現の対応表 - Sep 13, 2007 拡張機能勉強会の時に焚き付けられた、Text Shadowのコード(textshadow.js)を教材にして拡張機能開発のノウハウを解説していくシリーズ。 XPathをノードの検索に活用する方法を紹介したけど、肝心のXPathが書けなきゃ意味がないわけで。でもXPathって、ノードセットがどうとかノードテストがどうとか軸がどうとか修飾がどうとか、い

                  • 画像ファイルやデータベースの文字列を「grep」のように検索できる「ripgrep-all」

                    Linuxのコマンドラインで文字列を検索する際に必要不可欠なコマンドといえば「grep」です。しかし、grepは動画ファイルやPDFファイルの文字列を検索できないのが弱点。そんなgrepの弱点を克服し、動画ファイルのメタデータやデータベースのレコード、画像ファイル内の文字列まで検索可能なコマンドが「ripgrep-all(rga)」です。 GitHub - phiresky/ripgrep-all: rga: ripgrep, but also search in PDFs, E-Books, Office documents, zip, tar.gz, etc. https://github.com/phiresky/ripgrep-all rgaはLinuxに限らずWindowsやmacOSでも利用することが可能。今回はUbuntu 20.04でrgaを利用してみます。以下のコマンドを

                      画像ファイルやデータベースの文字列を「grep」のように検索できる「ripgrep-all」
                    • Import.io

                      Custom Web Data ExtractionMake market intelligence your unfair advantage, better understand your customers, and go a level deeper to make the right data driven decisions. Get a demo

                        Import.io
                      • phpによるスクレイピング処理入門

                        1. はじめに このサイトは php を利用したスクレイピング処理の具体的手法について記載されたサイトにしようと思っています。なので、あまり面白いサイトではありません。内容も偏重していることと思いますが、ご質問などがございましたら、りょーちまでご連絡ください。 1.1. スクレイピングとは スクレイピングの話しを始める前に、現在のWebサービスについて幾つか言及しておきます。 現在様々な会社が様々なWebサービスを展開しています。かなり昔、今よりWebサイトそのものが少ない頃の時代は、HTMLファイルを手動で作成することが殆どでした。しかし、現在はバックグラウンドにデータベースが存在し、データベースの内容を動的に表示し、ページを作成するようなサイトがかなり多くなっています。 さて、データベースを利用するメリットは何でしょうか? 幾つかの視点が挙げられると思います。 最も重要な点は、ひとつひ

                        • Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ

                          はじめに Webスクレイピングの基本事項 Webスクレイピング(Scraping)とは Webスクレイピングの活用シーン Webスクレイピングの基本的な仕組み Webスクレイピングの注意事項 取得先への攻撃とみなされたり、規約違反や、著作権法違反に問われることもある 取得先の変更に影響を受ける 取得先がAPIを公開しているならそちらを活用する方が良い Webスクレイピングの実践方法 Webスクレイピングを実践するには 1. ベンダーのサービスやツールを利用する 2. 自分でプログラムを作成する なぜPythonなのか? Pythonでのスクレイピング実践方法 事前準備 BeautifulSoup4のインストール 模擬Webサイトの構築 Webサーバーを立ち上げる 初級編:特定の要素から単一の要素を抜き出す 中級編:あるページから繰り返しを伴う複数の要素を抜き出す 上級編:複数のページから複

                            Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ
                          • AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor

                            これはWebスクレイピング Advent Calendar 2017の7日目の記事です。こんな感じでAWS FargateとAWS Lambdaを使ってサーバーレス(EC2レス)なクローラーを作ります。 この記事はFargateでのクローリング処理にフォーカスしており、クロールしたHTMLをS3に保存するところまでを主に解説します。Lambdaの方はおまけ程度の扱いで、スクレイピングしたデータの扱い(データベースへの格納など)はスコープ外です。 長くなったので目次です。 背景 AWS Fargateの登場 クローラーの構成 やってみる 1. ScrapyのプロジェクトでSpiderを作る 2. Scrapy S3 Pipelineをインストールする 3. Scrapy S3 Pipelineをプロジェクトに追加する 4. ScrapyのプロジェクトをDockerizeする 5. Amazo

                              AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor
                            • AWS Lambdaを使ってサーバレスにWebサイトを監視してSlackに通知する - drilldripper’s blog

                              Webサイトの状況を監視するためのスクリプトを動かしたいというシチュエーションが発生することがあります。典型的な例としてECサイトの在庫監視などがあると思います。この文章を読んでいる人の中には、Nintendo Switchの在庫状況を監視して通知するスクリプトを動かしている人もいるもいるのではないでしょうか。*1 在庫確認のようなシチュエーションでは常時起動しているPC、すなわちサーバに相当するものを用意しなければなりません。VPSを借りる人も多いと思いますが、スクリプトを動かすだけに使用するには少々オーバースペックです。 そこで今回はAWS Lamdaを使って安価にサーバレスでサイトの在庫状況を監視するシステムを構築します。例としてNintendo Switchの在庫状況を通知するシステムを作ります。 おそらく無料枠内で収まると思いますが、無料枠を超えたとしてもAWS Lambda自体

                                AWS Lambdaを使ってサーバレスにWebサイトを監視してSlackに通知する - drilldripper’s blog
                              • Webスクレイピングライブラリ "Yasuri" をリリースしました - Qiita

                                はじめに こんにちは.私はWebスクレイピングが大好きなのですが、Rubyでもっと簡単にスクレイピングができればと思い、ライブラリを書いてみました. ようやくREADMEとUSAGEが書けたので公開しようと思います. ソースはGithubで公開しています. 特にドキュメントの英語が大変怪しいので、つっこみいただけると喜びます. tac0x2a/yasuri gemでも公開しているので、以下のコマンドで簡単にお試しできます. 簡単なサンプルと解説を書いてみました. Yasuriでお手軽スクレイピング よろしければ使ってみてください>< Yasuri とは Yasuri (鑢) は簡単にWebスクレイピングを行うための、"Mechanize" をサポートするライブラリです. Yasuriは、スクレイピングにおける、よくある処理を簡単に記述することができます. 例えば、 ページ内の複数のリンクを

                                  Webスクレイピングライブラリ "Yasuri" をリリースしました - Qiita
                                • PhantomJS でログインが必要なページでも自由自在にスクレイピング - 凹みTips

                                  はじめに PhantomJS - Scriptable Headless Browser PhantomJS はヘッドレスな(ブラウザ画面のない)QtWebKit ベースのブラウザで、JavaScript の API を通じて、そのブラウザを自由自在にあやつることが出来ます。使用シーンとしては、Jenkins などの CI ツールとの組み合わせによる Web ページの GUI の自動テストや、Web ページのスクリーンキャプチャ、スクレイピングなどが挙げられます。 今回は、ログインが必要なページの情報をパースして自分専用に RSS 化したいなと思い、3つ目のスクレイピング用途をベースに調べてみました。その内容を備忘録として残しておきます。 出来るようになること ログインが必要なページの HTML を取ってくる ログインが必要なページのスクリーンキャプチャを撮る PhantomJS の導入

                                  • Seleniumでスクリプトを書くのに使える記録ツールあれこれ | MagicPod Tech Blog | MagicPod: AIテスト自動化プラットフォーム

                                    Seleniumの記録・再生ツールといえばSelenium IDEやSelenium Builderが有名ですが、これらのツールはFirefox55以降動作しなくなっていました※1。そこでSeleniumプロジェクトチームによって新バージョンの開発が進められ、先日ついに、Chromeで動作する新しいSelenium IDEのバージョン1.0がリリースされました。 今日は、この新しいSelenium IDEをはじめとする、無料で使える様々なSeleniumスクリプトの記録ツールについてご紹介します。 なおこの記事では、プログラマー向けに、「プログラミング言語によるスクリプト作成の補助ツール」という観点から各種ツールを比較します。プログラミング言語でスクリプトを書く場合も、スクリプト記録ツールは下記のような用途に活用でき、非常に便利です。 ブラウザ上の要素のロケータ※2 を簡単に取得する テス

                                      Seleniumでスクリプトを書くのに使える記録ツールあれこれ | MagicPod Tech Blog | MagicPod: AIテスト自動化プラットフォーム
                                    • モノレート | ランキング・価格推移・価格比較を、お買い物の前にチェック!

                                      モノレートは2020年6月30日をもって、サービスを終了いたしました。 長年のご利用、ありがとうございました。 >>楽天版モノレートはこちら[無料]<<< >>新サービス「WatchBell(ウォッチベル)はこちら<< ※WatchBell(ウォッチベル)はより高い収益を得るための出品者用アマゾンデータ可視化ツールです。 ※モノレートの代替えやリニューアルではございません。 【2020/8/20掲載】----- ・watchbell(ウォッチベル) / 価格改定&利益シュミレーターの使い方を実践解説!!(つっちー社長様)【動画】 ・WatchBell(ウォッチベル)はモノレートの代わりになるのかレビューします(ふうげつ様)【サイト記事】 ・【感想】WatchBell(ウォッチベル)を実際に使ってみた(ベンティ樋口)様【サイト記事】 【2020/7/1掲載】------ ・【緊急配信】モノレ

                                      • http://chikura.fprog.com/index.php?UID=1208233725

                                        • kimono

                                          kimono Turn websites into structured APIs from your browser in seconds No more scraping Build an API in seconds with kimono to power your apps, models and visualizations with live data without writing any code Intelligent extraction The kimono smart extractor recognizes patterns in web content allowing you get the data you want quickly and visually

                                          • Yusukebe::Tech: Perlでニコニコ動画のflvとコメントxmlをダウンロードする

                                            サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

                                              Yusukebe::Tech: Perlでニコニコ動画のflvとコメントxmlをダウンロードする
                                            • Registered & Protected by MarkMonitor

                                              This domain is registered and protected by Markmonitor More than half the Fortune 100 trust Markmonitor to protect their brands online.

                                              • プログラムいらず!vimで手動スクレイピング - Qiita

                                                Webページからちょっとデータ抜き出したいときありますよね。 1回だけしか行わず、わざわざプログラム組むほどでもないならVimでやるのがおすすめです。 例:はてぶのページからリンクを取得する vimを開いて4コマンドでリンクを抜き出します。 しかもエディタ上なのでその後の加工や連続スクレイピングなどもスムーズに行えます。 # 最初の行以外はどのサイトでも共通的に使えるはず :e http://b.hatena.ne.jp/ctop/it :%s/></>\r</g | filetype indent on | setf xml | normal gg=G :%v/<a/d :%s/^.*href="\([^"]*\)"[^>]*.*$/\1/ # 完全URLにしたいなら :%s/^\//http:\/\/b.hatena.ne.jp\//

                                                  プログラムいらず!vimで手動スクレイピング - Qiita
                                                • 岡崎市立中央図書館事件 #librahack について愛知県警に電話して聞いてみた | [ bROOM.LOG ! ]

                                                  ニコニコPodder iPhone/iPod/iPad対応ニコニコ動画簡単インポートツール aggregateGithubCommits GitHubレポジトリでのコミット数をAuthor/期間別に集計します probeCOCOATek 新型コロナ接触確認アプリCOCOAが配布するTEKを表示・集計 連日Twitterでは #librahack ハッシュが大盛況だが、個人的には事実関係でよく分からないことも多く明白にしたいことではあったので、直接愛知県警に電話して事情を聞いてみました。岡崎署ではなく愛知県警なのは、そちらが事件捜査の主体的な役割を担っただろうと判断したからです。 対応して頂いたのは生活経済課の方。お名前は出しません。愛知県警ではこの課がサイバー犯罪を担当しているそうです。 担当して頂いた方は割と若めで理路整然と話したいクールなタイプ。多少警戒されて話されていたのが印象によく

                                                  • 最速インターフェース研究会 :: 「ニコニコ動画はYouTubeにとって脅威になったのでアクセス拒否された」みたいな論調に話を持って行きたがる人たちについて

                                                    割とどうでもいいとは思ってるんだけど書いておくことにする。ここら辺読んで思ったこと。 http://shi3z.cocolog-nifty.com/blog/2007/02/youtubeweb20_0171.html http://blog.livedoor.jp/lalha/archives/50154713.html http://mindclip.blog55.fc2.com/blog-entry-121.html 通常の利用頻度でAPI使ってて他は大丈夫なのに自分だけアクセス拒否された!ってことなら、敵視されてるんじゃないか とかそういう陰謀論が起こるのも理解できるんだけど。 「アクセス拒否=敵視されている」みたいな発想が短絡的だと思う。利用方法に問題があって異常なアクセスがあれば、普通にアクセス拒否すると思うんだけど。敵視してるとかそういうのとは全く関係なしに。 YouTube

                                                    • 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい

                                                      最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。 「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic

                                                        複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
                                                      • jQueryを使ってiframe要素の中身にアクセスする | バシャログ。

                                                        残暑の蒸し暑さから、涼しさを通り越して、寒いと感じる今日この頃、tanakaです。 今日はjQueryでiframe要素の中にアクセスして、情報を取得したり、改変したりする方法を紹介します。 jQueryは、Webページに対するアクセスを簡潔に表現できるライブラリですが、iframe内の文書にまで、 $('div iframe p') といった感じでアクセスすることはできません。ドキュメントが違うからでしょうか?正しい理由はわかりませんが、同時に2つのページをまたいで処理するのは混乱しそうなのでこれはこれでいいと思います。で、そういったときにアクセスする方法があるのでご紹介します。 [追記 2010/09/27]注意点として、親フレームとiframe内ドキュメントのドメインが異なる場合はアクセスできません。 iframe内のドキュメントにアクセスするにはcontents() $(...).

                                                          jQueryを使ってiframe要素の中身にアクセスする | バシャログ。
                                                        • pylori*style wiki - HTMLパーサ Hpricot

                                                          Hpricotは Ruby用の HTML パーサです。スキャン部分は C 言語で書かれていて高速に動作します。 HTMLの解析や書き換えに威力を発揮する便利なライブラリです。 rubygemsを使うのが簡単です。 # gem install hpricot すると以下のようにプラットフォームを聞いてきます。Unix系OSであれば 1 を、mswin32 であれば 2 を選びます。 Select which gem to install for your platform (i386-freebsd6) 1. hpricot 0.4 (ruby) 2. hpricot 0.4 (mswin32) 3. Cancel installation コンパイルが始まり、インストールが行われます。 Building native extensions. This could take a while.

                                                          • てきとうにクリックしたらてきとうにWeb::Scraperのコードを作ってくれるWebScraper IDE - bits and bytes

                                                            まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取り出したい部分をクリックしたらてきとうにXPathを生成してWeb::Scraperのコードにして出してくれるFirefoxのextensionを作りました。Firefox3専用です。ごめんなさい。 ダウンロード WebScraper IDE (for Firefox3) 使い方 今回もいつもお世話になっているスターバックスさんの店舗検索結果(住所・店名・条件から探す)を例に使い方をご紹介します。 WebScraper IDEをインストールするとツールメニュ

                                                            • 7 Command-Line Tools for Data Science | Jeroen Janssens

                                                              Data science is OSEMN (pronounced as awesome). That is, it involves Obtaining, Scrubbing, Exploring, Modelling, and iNterpreting data. As a data scientist, I spend quite a bit of time on the command-line, especially when there’s data to be obtained, scrubbed, or explored. And I’m not alone in this. Recently, Greg Reda discussed how the classics (e.g., head, cut, grep, sed, and awk) can be used for

                                                                7 Command-Line Tools for Data Science | Jeroen Janssens
                                                              • PR TIMES、自社の杜撰な仕様ミス(公開前でもURLを推測して直打ちすれば公開状態)を不正アクセスと言い張る : 市況かぶ全力2階建

                                                                国策企業扱いのさくらインターネット、501億円の補助金で国を財布にした後は200億円の株券印刷で株主を財布に

                                                                  PR TIMES、自社の杜撰な仕様ミス(公開前でもURLを推測して直打ちすれば公開状態)を不正アクセスと言い張る : 市況かぶ全力2階建
                                                                • Pythonでゼロから機械学習/データ分析を学ぶためのサイトマップ - プロクラシスト

                                                                  データ分析ガチ勉強アドベントカレンダー 24日目。 当サイトでも、Pythonを使ったデータ分析や機械学習について、勉強しながらそれをアウトプットとして出すと言うかたちで、何個も記事を書いてきました。 記事数で言えば50とかそのくらいあるような気がします。 カレンダーも完成しつつあるので、個々では当サイトの総まとめとして、機械学習やデータ分析に触れたいという人がゼロから始めて触れられるように、記事をまとめていきたいと思います。 何か面白いことを勉強したい学生、就職までの勉強に、急に機械学習を使わなければならない社会人方々は、読んで見てください。 0. 環境構築 0.1. Pythonの導入 (Anaconda) 0.2. エディタ (Pycharm/VSCode) 0.3. バージョン管理 (Git) 1. Pythonの使い方(基本ライブラリ) 1.1. 数値計算 : numpy 1.2

                                                                    Pythonでゼロから機械学習/データ分析を学ぶためのサイトマップ - プロクラシスト
                                                                  • crawler.jp - Plaggerをインストール@さくらインターネット

                                                                    「まるごとPerl!」を買ってきたので、これを機に念願のPlaggerを使ってみることにしました。ぜんぜん詳しくないんですが、Plaggerを使うと、これまで自前のスクリプトでスクレイピングしていたネタが簡単に収集できそうです。これはすごい! で、早速さくらインターネットのレンタルサーバ環境にインストールしようとしたんですけど、ものすごくはまってしまって、もう調べまくり。なんとかインストールはできたものの、朝になってしまいました。。。せっかくなので記念にメモを残しておきます。やたら無駄に長いです。 まずは、CPANシェルがちゃんと使えないとダメです。 CPANシェルの設定方法はこちらのエントリーをご覧ください。 http://www.crawler.jp/archives/000278.html あと、これを忘れずに。 setenv PERL5LIB $HOME/perl/lib:$H

                                                                    • 記事生成自動化のススメ - プロクラシスト

                                                                      こんにちは!ほけきよです。 自分できちんとした(?)文章を書くのは久しぶりです。 それまで何をしていたかというと自動記事生成のためのプログラム書いたり、泥臭いHTMLの調整したりしていました。 ある程度まとめて仕上げたくてね。それもだいぶ落ち着いてミニサイト風にすることができたと思います。 今回は、自動生成記事を作ってみての気づきをまとめておこうと思います。 サイトマップもよければみてね:amazonセール情報、おすすめ商品まとめ ウェブ上の自動販売機にしたかった テンプレート+自動情報収集のススメ 時間を割く箇所が変わる 見せられる情報にするまでの泥臭さ 自動情報収集により、UIに全振りできる Googleのスパム判定... 検索順位監視中 使った技術 まとめ ウェブ上の自動販売機にしたかった もともとのモチベーションは、新鮮で有益な情報を自動で集め、更新する記事をいくつか作ることでした

                                                                        記事生成自動化のススメ - プロクラシスト
                                                                      • pythonモジュールmechanizeでWeb上の作業を自動化する | TRIVIAL TECHNOLOGIES 4 @ats のイクメン日記

                                                                        みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー mechanizeはWeb上の操作を自動化してくれる便利なPythonのライブラリ。Pure Pythonなのでいろんなところで動くよ。PerlのWWW::Mechanizeにinspireされて作られた。RubyにもMechanizeという同種のライブラリがある。Perl偉い! 「Web上の操作を自動化する」っていうのは,例えばどこかのサービスにログインしてあれこれするとか,そういったことをプログラマブルに行える,ということ。フォームの操作などもオブジェクトを使って実行できるのでとても手軽。Webアプリの開発などではテストに使われたりするんだけど,結局僕がなにをしたかったかというと,

                                                                        • 【2Captcha】Python+Seleniumで『reCAPTCHA』を突破する方法

                                                                          2Captchaとは 2Captcha公式ページ ロシアの会社が開発したreCAPTCHAを突破するためのプラットフォームです。 通常であれば、プログラムからreCAPTCHAにチェックをいれることは、ほぼ不可能レベルだと言われています。 では、なぜ2Captchaを使うだけで、可能なのでしょうか。 2Captchaの仕組み 2Captchaの仕組みを簡単に説明すると、reCAPTCHAのチェックボタンをネット上の『Worker』と呼ばれている人達に代わりに押してもらっているイメージです。 PythonのSeleniumで説明すると、プログラムの実行中にWorkerの誰かがリアルタイムで解錠した結果を2Captcha経由で受け取ると言ったところでしょう。 なので、2Captchaはプログラムで解錠しているように見えるけど、実際は人力…みたいなオチです。 使用方法 2Captchaを使うため

                                                                            【2Captcha】Python+Seleniumで『reCAPTCHA』を突破する方法
                                                                          • 普及して欲しくないアンチスクレイピングサービス - happyou.infoのブログ

                                                                            スクレイピングとは、ウェブページから情報を取り出す処理を指します。そのためのプログラムやツールが存在します。 さて、ここで立場を変えて、情報を取り出されてしまうウェブサイト側の立場になって考えてみますと、スクレイピングはあまりうれしくない存在であることがわかります。 ニュースサイトは、コストと時間をかけて書いた記事をコピーされ転載されてしまう。 オンラインショップは、ライバルの他社に商品リスト、価格、在庫の変化、顧客の評価等を把握されてしまう。 インターネット広告は、自社が出している/仲介している広告の種類と量をライバルに把握されてしまう。 他社の情報は把握したいが、自社の情報は把握されたくないと考えるのは自然なことのようです。その証拠として、スクレイピングの普及に合わせて、自分のサイトがスクレイピングされることを防ぐための「アンチスクレイピングサービス」なるものが世に広まりつつある点を挙

                                                                              普及して欲しくないアンチスクレイピングサービス - happyou.infoのブログ
                                                                            • PHPで予め許可したタグと属性以外を除去できるライブラリ「kses」:phpspot開発日誌

                                                                              CSS3のでのボックス要素デザインを圧倒的に簡単化できる「CSS3 Click Chart... 次の記事 ≫:アプリやWEBサイトに使えそうなフリーな244個のアイコンセット kses - PHP HTML/XHTML filter | Download kses - PHP HTML/XHTML filter software for free at SourceForge.net PHPで予め許可したタグと属性以外を除去できるライブラリ「kses」。 外部からの入力値は基本的にhtmlspecialcharsでタグを無効化するのが通常の考え方ですが、掲示板なんかで特定のタグを許可したいという場合があります。 PHPにはstrip_tagsというようなタグを除去しつつ、特定のタグのみを残すという関数が標準であったりしますが、これだと属性までは制御しきれません。 更には、<a href=

                                                                              • ゆーすけべー日記

                                                                                サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

                                                                                  ゆーすけべー日記
                                                                                • PythonでJavaScriptを使ったWebサイトをスクレイピングする - Qiita

                                                                                  概要 JavaScriptでDOMを作ってるサイトをPythonを使ってスクレイピングしたので、手順をメモ。 大雑把には、ScrapyとSeleniumを組み合わせてやった。 Scrapy Scrapyは、クローラーを実装するためのフレームワーク。 クローラーをSpiderのサブクラス、スクレイピングした情報をItemのサブクラス、スクレイピングした情報に対する処理をPipelineのサブクラス、という風にフレームワークが決めたインターフェースを満たすクラスとしてクローラーを実装する。 scrapyというコマンドが提供されてて、このコマンドを使って、作ったクローラーの一覧を見たり、クローラーを起動したりできる。 Selenium Seleniumは、ブラウザをプログラムから制御するためのツール(でいいのかな?)。Pythonも含めたいろんな言語で使える。 よくWebサイト/アプリの自動テス

                                                                                    PythonでJavaScriptを使ったWebサイトをスクレイピングする - Qiita