並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 20 件 / 20件

新着順 人気順

scrapingの検索結果1 - 20 件 / 20件

  • ちいさな Web ブラウザを作ってみよう

      ちいさな Web ブラウザを作ってみよう
    • 【スクレイピングツール】面倒な情報収集はGoogle Spreadsheetにやらせよう! - DAINOTE

      毎日同じような作業でこのように思っている人はいないでしょうか。 あ~毎日ネットにアクセスして、同じデータ収集するの面倒くさいなぁ こういう退屈な作業、自動でやってくれないかな でもプログラミングできないしなぁ。勉強すんのも面倒くさいなぁ。 そんな人に朗報です。今回は、プログラムをかけない人でも、ネットから情報を自動収集する方法をまとめます。 今回使うのは、Google Spreadsheetという、エクセルに似たWeb上のアプリケーションです。実はネット上の情報を自由に取得(スクレイピング)できるツールだとは知られていません。そんな裏の使い方を今回は説明したいと思います。

        【スクレイピングツール】面倒な情報収集はGoogle Spreadsheetにやらせよう! - DAINOTE
      • 食べログ3.8問題に終止符を打つ

        import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

        • 個人開発で「Excel専用のWebAPI」を作りました

          どういうもの? このように関数を使ってデータを取り込めます。 背景 元々は「インターネット上のWebAPIのデータをExcelに取り込みたい」と思ったのがきっかけです。 VBAマクロを使えば簡単ではありますが、マクロは使いたくないという方も多いのではないでしょうか。かくいう私も勤務先が属人化を防ぐためにマクロの使用を推奨していません。 そこで、関数を使用する方法を選択しました。 ExcelにはWEBSERVICE 関数という指定したURLの応答データを取り込む関数があります。 しかし、この関数は大変便利な関数ですが、ExcelはHTMLやJSONのパーサーを用意していません。結局取り込んだHTMLやJSONの処理にはVBAマクロが必要になります。 また、欲しいWebAPIが存在しない問題もありました。 そこで、Excelでデータを編集するのではなく、元々のWebAPIをExcel用に作れば

            個人開発で「Excel専用のWebAPI」を作りました
          • 「私はロボットではありません」はワンクリックでなぜ人間を判別できる? 仕組みとその限界を聞いてきた

            2021.02.16 「私はロボットではありません」はワンクリックでなぜ人間を判別できる? 仕組みとその限界を聞いてきた WebサイトにIDとパスワードを入力するとき、ときどき「私はロボットではありません」にチェックを求められることがあります。 僕はロボットではないので、当然チェックを入れて認証を進めるわけですが……。でもちょっと待ってください。なぜクリックひとつで、人間かロボットかを判断できるんでしょう。 これはきっと、人間ではないなんらかの不正アクセスを防ぐ仕組みのはず。でもチェックを入れるくらい、プログラムを作ってなんやかんやすれば、シュッとできるのでは? 「私はロボットではありません」は、どんな仕組みで人間とロボットを判別しているのか。もっといい方法はないのか。これまでの歴史的経緯も含め、情報セキュリティ大学院大学の大久保隆夫教授に聞きました。 気づかないうちに「人間かロボットか」

              「私はロボットではありません」はワンクリックでなぜ人間を判別できる? 仕組みとその限界を聞いてきた
            • 日付、住所、文字列、辞書、翻訳……なんでもござれの「ExcelAPI」がスゴい/「Excel 2013」以降で利用できる「WEBSERVICE」関数と組み合わせて使う無料のWeb API【やじうまの杜】

                日付、住所、文字列、辞書、翻訳……なんでもござれの「ExcelAPI」がスゴい/「Excel 2013」以降で利用できる「WEBSERVICE」関数と組み合わせて使う無料のWeb API【やじうまの杜】
              • ベテランエンジニアがクラウドワークスで5,000円の案件を受けてみた|ebiebi_pg

                最近は営業力なくてもクラウドワークスのような便利なサイトで案件が受けれるようだ。 いざチャレンジ! 1.まずは実績作りクラウドワークスデビューを果たしたいのだが、自分は実績が1件もないので料金は度外視して「何でもいいから1件実績を作る」という作戦に出てみた。 申し込みが少ない案件を探していると下記のような案件が見つかった 「自社のオリジナル販売サイトの商品ページを解析し、某大手ショッピングモールサイト3社に自動でアップロードするロボットプログラムの作成依頼」 (10,000円) ほう… 相場を分かっていないのか けっこうな難易度のシステムを1万円ぽっきりで依頼するとはなかなかの猛者だ。 だれも申し込みしていない案件かと思いきや、他にも数名の申し込みがあった。 大丈夫か??こいつら? 2.案件獲得交渉さっそく申し込んでみるのだが、1件実績を作るという目的を達成するためになるべく案件の獲得率を

                  ベテランエンジニアがクラウドワークスで5,000円の案件を受けてみた|ebiebi_pg
                • 「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開

                  「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開 新型コロナウイルス感染症の患者数や、感染者用の病床数などを都道府県ごとに表示した「新型コロナウイルス対策ダッシュボード」がネットで話題に。開発者の福野泰介さんに経緯を聞いた。 新型コロナウイルス感染症の患者数や、感染者用の病床数などを都道府県ごとに表示した「新型コロナウイルス対策ダッシュボード」が、ネットで話題を呼んでいる。Twitterでは「病床の使用率が一目瞭然」「都市部の病床数がギリギリなのが分かる」と好評だ。Facebook上のシェア数は4000近くあり、開発者の福野泰介さんは「バグを疑ったくらいです」と驚く。 福野さんは、福井県鯖江市のソフトウェアメーカー「jig.jp」の会長を務める傍ら、東京都が開設した「東京都新型コロナウイルス感染症対策サイト」

                    「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開
                  • ツイッター上でウクライナ政府をネオナチ政権だと拡散しているのは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース

                    2022年2月24日にロシア軍がウクライナに侵攻しました. 3月7日現在いまだ侵攻は続いており,一般市民にも多くの死傷者が出ているということで早期の収束を願うばかりです. ロシア側はウクライナへの侵攻の正当性として,ウクライナ政権はネオナチ政権であるという主張をしているようです. プーチン氏は安全保障会議で「我々はまさにネオナチと戦っている」と述べ、ウクライナ政府側をネオナチ扱いした。 https://mainichi.jp/articles/20220304/k00/00m/030/061000c 日本のマスメディアでこの主張を入れているところはあまりないようですが,ソーシャルメディア上ではこの主張に沿ってロシアの侵攻を正当化しているグループもあるようです. ロシアによるウクライナ侵攻について、日本では「単なる思い込みによる誤解」から「めちゃめちゃな陰謀論」まで、ツイッターのみならず、ウ

                      ツイッター上でウクライナ政府をネオナチ政権だと拡散しているのは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース
                    • りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め

                      りょうくんグルメをご存知だろうか。知らなくても、本人のツイートの雰囲気は料理のレシピなんかで一度は見た文脈のはずだ。 こんなやつ。 まじでこの世の全てのタピオカ好きに教えてあげたいんだが新宿三丁目のceleb縁味には全ての人間を虜にする禁断のオレオミルクフォームがある。 これが濃厚黒糖で超絶美味いからぜひ全国のタピオカ好き、タピオカを愛する者たち、タピオカを憎む者たち、全てのタピオカ関係者に伝われ pic.twitter.com/wnnPvkJ2pr— りょうくんグルメ (@uryo1112) 2019年6月15日 「りょうくんグルメ」は文章が情報量に対してやたら長いので、pythonの練習も兼ねてアイデンティティである上から目線の構文を取り去ることにした。逆りょうくんグルメである。 手順は大雑把に分けて以下の3ステップ。 1. Twitterからりょうくんグルメのツイートをスクレイピング

                        りょうくんグルメの文体を自動でもとに戻すやつを作りました - 開け閉め
                      • 【個人開発】爆速な賃貸物件の検索サービスを作った - Qiita

                        個人開発で 賃貸物件の検索サービス Comfy を作りました1。グラフや地図でサクサク絞り込める UI が特徴のサービスです。とにかく気持ち良い使い勝手を実現するために色々工夫しています。 既にリリースからは 4 ヶ月以上経っているのですが、改めてサービスの概要や、システム構成及び使用した技術・サービスをご紹介しようと思います。2。 サービスの概要 Comfy は日本全国の賃貸物件を検索できる Web サービス です。画面 UI は上の GIF 画像のような感じです。 こだわったポイントを色々書くよりも実際にさわって頂いた方が新感覚の UI や気持ちよさを体感頂けるかと思いますので、 実際のサービス をぜひお試し頂ければ幸いです! システム構成 図の通り、システムは大きく 3 つに分けられます。 フロントエンド バックエンド データ基盤 使用技術は図の通りではあるのですが、フロントエンドと

                          【個人開発】爆速な賃貸物件の検索サービスを作った - Qiita
                        • 自作した時間割アプリが大学の公式アプリに採用された話 - Qiita

                          記事の概要 私(芝浦工業大学学部4年生)が大学2年時に1人で制作した、大学のポータルアプリ(ポータルサイトからスクレイピングして時間割などを表示する)が、大学に正式採用され、公式アプリ"ScombApp"としてリリースされるに至った経緯を時系列順に説明します。 ホーム画面 時間割画面 制作の動機 大学のポータルサイト使いにくいがち。 ポータルサイトのスマホアプリ版があれば便利そう。 他にやってる人いなさそうだし、最初に作ったらみんな使ってくれそう。 ポータルサイトの問題点 大学ポータルサイトで使いにくかった点を挙げていく。 とりあえずこれを克服することを目標にした。 ログインの時に自動補完が使えない 制作当時はBASIC認証で、スマホからだとログインの自動補完ができなかった。 毎回手打ちでパスワードを入力している人がほとんど ←!? 次の授業や教室を確認するだけでも、毎回手打ちログインが必

                            自作した時間割アプリが大学の公式アプリに採用された話 - Qiita
                          • 40代プログラミング初心者がpython始めて半年!独学で勉強が続いている理由と読んだ本 - Qiita

                            下で最新版に記事を編集しましたブログを作ったよ ツイッターアカウントフォローお願いします https://twitter.com/usagipycom こんな記事も書いてます 友達がpythonでPCゲームのレベル上げツールを作っていた それを聞いて、pythonって便利なのね。と思いその後色々あってプログラミングを勉強することにした プログラマー35歳までみたいな世の中で40代おそすぎ!ってあるかもしれない PCがあって、無料の教材はネットに転がってるし、本もたくさんあるし、挑戦するのは無料だし2022年の1月ぐらいから勉強を始めた 入門書って成果物がないからつまらないなと思ってそれ以外になんかないかなって本屋さんをふらふらしてたら python自動化 みたいな書籍がいっぱいあることに気がついた なるほど、もしかしたら仕事楽になるんじゃないかそんな思いから次の本を買った シゴトがはかどる

                              40代プログラミング初心者がpython始めて半年!独学で勉強が続いている理由と読んだ本 - Qiita
                            • 思わずWeb開発で使いたくなる便利機能をAPIで提供するサービスを厳選してみた! - paiza開発日誌

                              どうも、まさとらん(@0310lan)です! 今回は、Webサービスやアプリ開発などで便利に使える機能をAPIで提供しているサービスを厳選してみたのでご紹介いたします。 画像系、ストレージ、CMS、認証系、APIモック…など、さまざまな用途に使えるサービスの特徴や基本的な使い方も合わせて解説しています。いずれも無料で使えるものばかりなので、ご興味ある方はぜひ参考にしてみてください! ■イラスト風のアバター画像を取得できるAPI 【 Joe Schmoe 】 Webサイト、ブログ、SNSなどに利用可能なアバター画像を取得できるAPIです。 イラスト風の人物画像を取得できるのが特徴で、Webサイトのチームページにアバターとして利用できるほか、自分のプロフィール画像やブログに挿入する画像など無料で利用できます。 使い方は簡単で、以下のような構成のエンドポイントを実行するだけです。 https:/

                                思わずWeb開発で使いたくなる便利機能をAPIで提供するサービスを厳選してみた! - paiza開発日誌
                              • Node.js でお手軽スクレイピング 2020 年夏 - Qiita

                                皆さんは Web ページのスクレイピングって書いた事ありますか?私はあります。だってどんなに平和で平穏な生活を送っていても数年に一度はスクレイピングってしたくなりますよね。「うわーまじか!API ないのかよ…。」的な。 そうしたら HTTP クライアントと HTML パーサのライブラリを探してきてインストールした上でごりごり書くことになると思います。でも実際に書いてみると、そうやってライブラリのインストールをしたりサンプルコードで動作確認している時間よりも、HTML を解析して実際にパースしたところから対象の要素を取得して欲しい値を取り出す試行錯誤の時間の方が長かったっていう事はないですか? 今日ご紹介する Node.js でお手軽スクレイピングは、その辺の試行錯誤の手間を極力減らすことが出来る方法です。2020 年夏の最新版です。 まずは環境から。特に古いものを使う理由もないので 202

                                  Node.js でお手軽スクレイピング 2020 年夏 - Qiita
                                • 【自動化】PDF内の表をPythonで抜き出す - Qiita

                                  PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData

                                    【自動化】PDF内の表をPythonで抜き出す - Qiita
                                  • Twitter障害はスクレイピングではなく“自己DDoS”が原因?

                                    Twitterのオーナー、イーロン・マスク氏は7月1日、Twitterでの“サービスの低下”の原因を「数百の組織がTwitterのデータを極度なレベルでスクレイピングしている」ことだとツイートしたが、原因は別のところにあるようだと、フリーランスのWeb開発者、シェルドン・チャン氏がMastodonの投稿で指摘した。 この“サービスの低下”で、多数のユーザーが投稿を読めなくなっている。マスク氏は2日、「極端なレベルのデータスクレイピングとシステム操作に対処するため」にユーザーが読める投稿数に制限を加えたとツイートした。 だがチャン氏は、異常なトラフィックの原因として、TwitterのWebアプリのバグにより、無限ループ状態でTwitterにリクエストが送信されていることを発見したと動画を添えて説明した。この動画では毎分数百件のリクエストが送信されていることが確認できる。 左の動画は、レートが

                                      Twitter障害はスクレイピングではなく“自己DDoS”が原因?
                                    • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

                                      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

                                        無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
                                      • 機械学習で競馬の回収率100%超えを達成した話 - Qiita

                                        はじめに みなさん競馬はお好きでしょうか? 私は今年から始めた初心者なのですが、様々な情報をかき集めて予想して当てるのは本当に楽しいですね! 最初は予想するだけで楽しかったのですが、『負けたくない』という欲が溢れ出てきてしましました。 そこで、なんか勝てる美味しい方法はないかな〜とネットサーフィンしていたところ、機械学習を用いた競馬予想というのが面白そうだったので、勉強がてら挑戦してみることにしました。 目標 競馬の還元率は70~80%程度らしいので、適当に買っていれば回収率もこのへんに収束しそうです。 なのでとりあえず、出走前に得られるデータを使って、回収率100パーセント以上を目指したいと思います! 設定を決める 一概に競馬予測するといっても、単純に順位を予測するのか、はたまたオッズを考えて賭け方を最適化するのかなど色々とあると思います。また、買う馬券もいろいろな種類があります。 今回

                                          機械学習で競馬の回収率100%超えを達成した話 - Qiita
                                        • pythonを使った株価の自動収集 - Qiita

                                          Help us understand the problem. What are the problem?

                                            pythonを使った株価の自動収集 - Qiita
                                          1