並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1485件

新着順 人気順

スクレイピングの検索結果201 - 240 件 / 1485件

  • 2020/07/20/技術書を出版するとき注意すること - クジラ机ブログ

    筆者は30冊以上技術書を書いています。さっき履歴を見たら2003年から17年以上、2008年以降は年に2-3冊ペースで書いています。それで、これから技術書を書いてみたい人にポイントをおさえたアドバイスを紹介します。 とても、このブログ記事が好評だったので、有料noteにして公開します。ご興味があれば、noteで見てください。 技術書を出版するときの注意(note) 筆者の近著 *ちなみに、今年に入って筆者が出版した本は以下の三冊です。いずれも、面白い力作揃いなので見てみてください! マンガでざっくり学ぶPython(2020年7月/マイナビ) Pythonではじめる Webサービス&スマホアプリの書きかた・作りかた(2020年6月/ソシム) プログラミング言語大全(2020年4月/技術評論社) くじらはんど * くじらはんど 記事一覧 最新の記事一覧 主力アプリ * Web便利ツール なで

      2020/07/20/技術書を出版するとき注意すること - クジラ机ブログ
    • neue cc - .NET 6とAngleSharpによるC#でのスクレイピング技法

      C# Advent Calendar 2021の参加記事となっています。去年は2個エントリーしたあげく、1個すっぽかした(!)という有様だったので、今年は反省してちゃんと書きます。 スクレイピングに関しては10年前にC#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法という記事でSGMLReaderを使ったやり方を紹介していたのですが、10年前ですよ、10年前!さすがにもう古臭くて、現在ではもっとずっと効率的に簡単にできるようになってます。 今回メインで使うのはAngleSharpというライブラリです。AngleSharp自体は2015年ぐらいからもう既に定番ライブラリとして、日本でも紹介記事が幾つかあります。が、いまいち踏み込んで書かれているものがない気がするので、今回はもう少しがっつりと紹介していきたいと思っています。それと直近Visual

      • python初心者、競馬歴1年未満でも3連単を当てることができました。 - Qiita

        はじめに 申し訳ありませんが競馬用語の解説は省きます。競馬に興味がある人が読んでいると思うので。 netkeiba.comで公開されている情報(スクレイピングでとってくる情報) には血統、走破タイム、走行距離等色々あります。前提として、スクレイピングしたデータをそのままモデルに fitさせたところで何も予想してくれません。情報を選別、整理、分析していく必要があります。 データの分析の方針を決める前に、まずは仮説として、 レースが始まってから最後の直線まで色々あったが、上り3ハロンで馬は残る力全てをもって走り切り ゴールを通過した順に着順が決まる とします。当たり前だと思われるかもしれませんがこれにより考慮すべき情報が絞れます。 私が分析を進める上で使用しているデータは以下 ・ラップタイム →レース全体のペース、レースのグレードを評価 ・レースの種類芝orダート/距離 →数あるレースの種類を

          python初心者、競馬歴1年未満でも3連単を当てることができました。 - Qiita
        • 【Power Automateの新しいRPA機能】Power Automate Desktopで出来ること(全33機能の紹介) - Qiita

          【Power Automateの新しいRPA機能】Power Automate Desktopで出来ること(全33機能の紹介)RPAPowerAutomateDesktop はじめに Microsoft Igniteの発表でPower Automateの「per user with attended RPA plan」で「Power Automate Desktop」が使用できるようになりました。2020年9月26日時点でPreview機能です。 この記事ではPower Automate Desktopの自動化機能(アクションと言います)を紹介します。 この紹介を通じPower Automate Desktopがどのような自動化を行えるかの参考になれば幸いです。 2020年9月26日時点のアクションとなります。 トライアル開始手順もまとめてみましたので併せてご覧ください。 【Power A

            【Power Automateの新しいRPA機能】Power Automate Desktopで出来ること(全33機能の紹介) - Qiita
          • LlamaIndexを使ってAWS CDKの記事200本以上でインデックスを作りOpenAIに質問してみた | DevelopersIO

            OpenAIのAPIに対してLlamaIndexを使い特定の分野の記事を取り込むと正しい答えが返ってくるのか確認してみました。本記事ではAWS CDKを対象に調査しています。 はじめに CX事業本部アーキテクトチームの佐藤智樹です。 今回はタイトルの通り、LlamaIndexを使いOpenAIにAWS CDKに関する記事(DevelopersIOのもの)を200本以上でインデックスを作り、どのような返答が返ってくるのか試してみました。LlamaIndexとは、簡単な実装で個別のインデックスを作成しOpenAIのモデルに対して問い合わせできるインターフェースです。詳細は以下をご確認ください。 インデックスの対象となる記事 AWS CDKのタグが付いている記事で、2021年12月21日から2023年3月8日までの合計240本の記事を対象にします。こちらで1つのAWS CDKというジャンルに対し

              LlamaIndexを使ってAWS CDKの記事200本以上でインデックスを作りOpenAIに質問してみた | DevelopersIO
            • [サーバレス] Googleスプレッドシートでスクレイピング - Qiita

              スクレイピングがやりたかったんだけど、サーバの管理がめんどくさくなったので、Googleスプレッドシートの上でスクレイピングを出来るようにした。 やりたいこと 献血で、400mlAB型の血液が不足してます、A型は今大丈夫です、みたいな情報が、献血センターのwebサイトに掲載されるようになった。 たとえば 宮城県赤十字血液センターの今週の献血状況。AB型の人は成分献血にするか、次の機会にしたほうが良いらしい。 これ以外の県も、各県の献血センターに掲載されている こういう情報をオープンにしてくれたのはとてもうれしいことなんだけど、webページに掲載されたって、ぼくらがわざわざ見に行かない限り気が付かない。できればこう、SNSで「今週の献血状況」みたいなことを発表してくれるといいよね。そしたら、「あ、AB型足りない?今週は余裕があるからじゃあぼく行くね」みたいなことが出来ていいと思うのよ。 ない

                [サーバレス] Googleスプレッドシートでスクレイピング - Qiita
              • 競馬必勝本は本当に当たるのかを検証!〜Pythonで実装する馬券自動選択ツール〜 - エニグモ開発者ブログ

                こんにちは、サーバーサイドエンジニアの竹本です。 この記事は Enigmo Advent Calendar 2020 の3日目の記事です。 みなさまは2020年に買った中でよかったものはなんでしょう? 私はiPadです。 最新 Apple iPad Pro (12.9インチ, Wi-Fi, 128GB) - シルバー (第4世代) 発売日: 2020/03/25メディア: Personal Computers 主にkindleを見開きで読むことに活用しています。 エニグモの福利厚生の一つ「エンジニアサポート」で5万円の補助を受けました。わーい。 https://enigmo.co.jp/recruit/culture/ そしてみなさまは馬券、買っていますか? 馬券は競馬に賭ける際に購入する投票券です。 1口100円から、ネットでも気軽に購入することができます。(競馬は20歳から) 弊社にも

                  競馬必勝本は本当に当たるのかを検証!〜Pythonで実装する馬券自動選択ツール〜 - エニグモ開発者ブログ
                • 新しいスキルを1200円〜で学べるコスパ良すぎな動画学習サイトUdemy。活用方法とオススメのコース - 仮想サーファーの日常

                  2020年、プログラミングやWebデザイン、動画編集など、新しいスキルをつけたいと考えている方も多いのでは。 今回は、そんな方にオススメしたい動画学習サイト Udemy について紹介します。 (画像:Udemy ) 上の画像のように、プログラミング、ビジネススキル、デザインスキル、写真などなど、様々なスキルのカテゴリが用意されていて、そのそれぞれのカテゴリで様々なテーマの動画コースが提供されています。 たとえばプログラミングに関しては、初心者向けのWebアプリケーションの開発方法のコースや、機械学習を学びたい方向けの機械学習実践コースなど、プログラミングをこれから始める初心者の方向けにも、新しいスキルを増やしたい中級者向けのコースもあります。 動画で解説されているので、ながら作業で耳で聞くだけでも概要を学べますし、コースで説明されている内容を真似しながら手を動かすことで、実際に動くサービス

                    新しいスキルを1200円〜で学べるコスパ良すぎな動画学習サイトUdemy。活用方法とオススメのコース - 仮想サーファーの日常
                  • Rustで将棋の局面画像生成、そしてCDN Edgeで動的生成 - すぎゃーんメモ

                    背景 先行・類似事例 自作のメリット Rustで局面画像生成 盤・駒画像の素材 画像処理 入出力 Generatorと下準備 Publish Web Appで使う CDN Edgeで動かす wasm-packでWebAssembly作成 Deno Deploy Vercel Edge Functions Cloudflare Workers Fastly Compute@Edge その他 まとめ Repository 背景 ATrium という AT Protocol のためのライブラリを自作している が、まったくドッグフーディングしていなかった ので、Blueskyに詰将棋の問題を放流するBotを作ってみることにした gfx氏が作ったBot を参考に というわけで、詰将棋の問題の局面を画像で投稿したい が、あまり自分好みの画像を生成できるライブラリやWebサービス等がない ので、結局それ

                      Rustで将棋の局面画像生成、そしてCDN Edgeで動的生成 - すぎゃーんメモ
                    • 個人開発を始めてみよう──「失敗」を避ける大事な考え方とは?

                      はじめに BASE株式会社でシニアエンジニアを務めているプログラミングをするパンダ(@Panda_Program)と申します。本連載は「フロントエンドカンファレンス沖縄2022」で私が発表した内容[1]を記事として再構成したものです。 対象読者 本連載の対象読者は、個人開発に興味があるソフトウェアエンジニアの方です。 個人開発に「失敗」しないための考え方 ソフトウェアの個人開発とは、ソフトウェアエンジニアが自分のプライベートな時間を使ってWebサイトやスマートフォン向けのアプリを作成、公開、運用する趣味活動です。では、本記事のタイトルに含まれている「失敗」という語の指す内容とは何でしょうか。本連載で私はそれを「学習またはリリースを目的としたときに、その目的が達成できていないこと」と定義したいと思います。 個人開発における最大の意思決定はリリースの有無です。自分が開発したソフトウェアをリリー

                        個人開発を始めてみよう──「失敗」を避ける大事な考え方とは?
                      • 競馬予想 機械学習(LightGBM)で回収率100%超えたと思ったら、やらかしてた話 - Qiita

                        謝意 注意!!! この記事は完全にやらかしています ストックしてくれた人、申し訳ないです。 @hal27 様の指摘で気づくことができました、ありがとうございます。 ・やらかしたこと スクレイピング段階から致命的なミスを犯しました。 レース時点から前走3レース分のデータを取得していたつもりですが、実はスクレイピング実行時刻から最新の3レース分の情報を取得していました。 ただ、前走の情報を全く使わずに予測したところ、平均して90%ほどの回収率だったので、 正しいデータを使っても、100%は超えれるんじゃないかと思っています。 やり直します! この記事はやらかしちゃっててるんだなと思いながら見て下さい。(特に前走情報のスクレイピング部分に気を付けてください) はじめに 最近データ分析にはまっています。 データ分析コンペのKaggleをやっていて、私がよく思うのは「売上予測?もっと面白いテーマはな

                          競馬予想 機械学習(LightGBM)で回収率100%超えたと思ったら、やらかしてた話 - Qiita
                        • Python

                          Python(パイソン)はプログラミング言語の一種です。最近は機械学習でよく用いられます。ここではPython 3.xを使って統計・機械学習の計算・グラフ描画をします。Rを使った統計・データ解析の姉妹編を目指しています。 [2024-04-07] コード部分をクリックするとクリップボードにコピーされるようにしました。 お品書き はじめの前に / PEP 8 インストール 実行 / Google Colaboratory / EIN(アイン) / Docker / ipynbを公開する方法 Pythonの初歩 / Collatzの問題 / 配列 / 基数変換 / ゼロ除算 プロット / 図のラスタライズ / seabornによるプロット / Plotly / プロットをデータに 曲線を描く / 正規分布の密度関数を描く ヒストグラム / 都道府県人口のヒストグラム / ドットプロット / ヒ

                          • ぼくのかんがえたさいきょうのスプレッドシート関数 - ブログ - 株式会社JADE

                            はじめまして、こんにちは、こんばんは。JADEでSEOコンサルタントをやっております、小坂と申します。 JADEのブログを読んでくださっている皆様の多くは日々データ分析や調査をされているのではないかと思います。Looker Studioのような便利なBIツールを利用したり、BigQueryを駆使することが増えている昨今。それでもなんだかんだExcelやGoogle スプレッドシートを使うことも多いのではないでしょうか。 SQLなんて書けないよ!とかBigQueryはなんか怖い……という理由からスプレッドシートとズッ友だょ!という方もいるのではないでしょうか。 早速ですがそんなみなさんにご質問です。 Google スプレッドシートの独自関数使ってますか? Google スプレッドシート独自関数、結構多いのをご存知でしょうか? Google スプレッドシートの関数リスト - Google ドキ

                              ぼくのかんがえたさいきょうのスプレッドシート関数 - ブログ - 株式会社JADE
                            • プログラミング初心者向け・Python学習サイト6つを比較してみた - paiza times

                              StartupStockPhotosによるPixabayからの画像 こんにちは。倉内です。 プログラミングの学び方はさまざまですが、最近は学習サイトを利用する方も増えています。 PC(もしくはスマホやタブレット)とインターネット環境があれば始められることから、書籍を購入したりスクールに通ったりするより手軽に学習をスタートできます。 特に機械学習やデータ分析の分野で人気の高いPythonは、学べるサイトもたくさんあり「どれを利用しようか迷う……」「違いはなんなんだろう……」と思う方もいるかもしれません。 そこで今回はPythonの基本を学びたい方向けに、おすすめの6つのサイトを学習内容、学習形式、料金などの項目で比較してみたいと思います。 なお、各学習サイトの情報は2020年7月31日時点のものです。 学習サイト6つの基本情報 学習形式・料金比較 サービス名 形式 料金 Progate スラ

                                プログラミング初心者向け・Python学習サイト6つを比較してみた - paiza times
                              • にじさんじの配信者の類似性をチャットデータからネットワークグラフにして分析する - Qiita

                                にじさんじの配信者間で"似ている"配信者はどういう人たちか 唐突ですが、一週間前は文化の日でしたね。せっかくだったので、文化らしいことをしたいなと思い、youtube data apiを使って遊んでみることにしました。 youtube のデータを使ってなにかしよう、となったとき、他の人はどういう分析をするんでしょうか。最近よくみるデータとしてはスパチャランキング・登録者数推移の予測などが思い当たります。 そしてまた唐突に語り始めるのですが、僕はvtuberの配信をラジオ代わりに流していることが多く、いわゆるvtuberのオタクです。オタクのあり方には諸説ありますが、僕はラジオ代わりということもあり雑談配信やマイクラ配信を流していることが多いです。「にじさんじ」の配信を見ることが多い気がします。 さて、「にじさんじ」は言わずとしれた大所帯グループです。約100人の配信者が一つの箱に所属してい

                                  にじさんじの配信者の類似性をチャットデータからネットワークグラフにして分析する - Qiita
                                • OpenAIはChatGPTを消去して作り直さなければならないかも知れない | TEXAL

                                  The New York Times紙(NYT)がサービス利用規約(TOS)を更新し、AI企業がAIモデルを訓練するために記事や画像をスクレイピングすることを禁止していることが明らかになったが、どうやら事態はそれだけでは収まらないようだ。 NPRの報道によると、NYTとOpenAIはライセンス契約をめぐって数週間にわたり難航しているが、合意に達することはできていない。交渉は行き詰まっており、NYTは現在訴訟を検討しているようだ。 NPRは、この件に関して“直接知っている”2人の匿名の情報筋の話を引用しており、訴訟の結果次第ではChatGPTのデータセットは再構築を余儀なくされ、侵害コンテンツ1つにつき最高15万ドルの罰金が科されるなど、OpenAIに壊滅的な打撃を与える可能性があると専門家は推測している。NYTの弁護士は、同紙の報道の “知的財産権を守るために”訴訟が必要かどうか熟考してい

                                    OpenAIはChatGPTを消去して作り直さなければならないかも知れない | TEXAL
                                  • Rustによる機械学習概覧を技術書典11に寄稿するまでの軌跡 - Stimulator

                                    - はじめに - 今回、技術書典11に「Rustによる機械学習概覧」というタイトルで、所属企業であるエムスリー株式会社の執筆チームより出る「エムスリーテックブック3」に文章を寄稿した。 執筆チームからの熱いコメントは以下。 販売ページは以下。 techbookfest.org 本ブログは、エムスリーテックブック3を企画して立ち上げてから、自分で同人誌を書くまでのお気持ちを綴った、所謂ポエムである。 - はじめに - - Rustによる機械学習への想い - - エムスリーテックブック3の立ち上げ - - おわりに - - Rustによる機械学習への想い - ポエムといえば自分語り、自分語りといえばポエム。まず思い出に浸ろう。 私が機械学習を初めて実装したのは高専の頃。あの時はC/C++とJava、C#なんかを使って、何とかアルゴリズムを理解して実験していた。VisualStudioの起動に悠

                                      Rustによる機械学習概覧を技術書典11に寄稿するまでの軌跡 - Stimulator
                                    • PHPerのための「PHPと型定義」を語り合う【PHP TechCafe イベントレポート】 - RAKUS Developers Blog | ラクス エンジニアブログ

                                      弊社で毎月開催し、PHPエンジニアの間で好評いただいているPHP TechCafe。 2023年5月のイベントでは「型定義」について語り合いました。 弊社のメンバーが事前にまとめてきた情報にしたがって、他の参加者に意見を頂いて語り合いながら学びました。 今回はその内容についてレポートします。 rakus.connpass.com PHPと型 静的型付け言語 動的型付け言語 一般的な誤解 PHPの型 単一の式が持つ型 型システムで扱える型 never型について void型について self,parent,static型について resource型について evalでresource型を宣言すると リテラル型について ユーザー定義型について 複合型について 型のエイリアス mixed iterable PHPで取り入れられた型表現 型宣言のメリット PHPの歴史を振り返る PHPのドキュメント

                                        PHPerのための「PHPと型定義」を語り合う【PHP TechCafe イベントレポート】 - RAKUS Developers Blog | ラクス エンジニアブログ
                                      • 機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ

                                        こんにちは。データサイエンティストの堀部です。 この記事は Enigmo Advent Calendar 2020 の9日目の記事です。 何か社外のデータを使っていい感じのことができないかなと思っていたところ、3日目の竹本さんの記事がおもしろく、パクリ二次創作しました。 短期間で実装したので汚いコードで見苦しいかもしれないですがご了承ください。ちなみに、私は競馬は簡単なルールを知っているくらいでズブの素人です。 目次 使用したライブラリ データ取得 前処理 学習 予測・評価 VSオッズ低い順 VS競馬必勝本 感想 参考資料 使用したライブラリ import urllib.parse import urllib.request as req from time import sleep import category_encoders as ce import lightgbm as lgb

                                          機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ
                                        • 25名の個人開発者による個人開発のリアルをまとめた本 - mojiru【もじをもじる】

                                          個人開発をはじめよう - クリエイター25人の実践エピソード 「個人開発をはじめよう - クリエイター25人の実践エピソード」発行主旨・内容紹介 「個人開発をはじめよう - クリエイター25人の実践エピソード」目次 「個人開発をはじめよう - クリエイター25人の実践エピソード」Amazonでの購入はこちら 「個人開発をはじめよう - クリエイター25人の実践エピソード」楽天市場での購入はこちら 個人開発をはじめよう - クリエイター25人の実践エピソード インプレスグループで電子出版事業を手がけるインプレスR&Dは、技術書典や技術書同人誌博覧会をはじめとした各種即売会や、勉強会・LT会などで頒布された技術同人誌を底本とした商業書籍を刊行し、技術同人誌の普及と発展に貢献することを目指す技術の泉シリーズ、2020年4月の新刊として、編者・ゆずたそ氏による、プログラミング初心者や学生、運営10

                                            25名の個人開発者による個人開発のリアルをまとめた本 - mojiru【もじをもじる】
                                          • [Python入門]Beautiful Soup 4によるスクレイピングの基礎

                                            連載目次 前回は、urllib.requestモジュールを利用して、Webからファイルを取得する方法の基本を見た。今回は、このモジュールを使って得たHTMLファイルからBeautiful Soup 4というライブラリを使って必要なデータを抜き出す方法を見てみよう。 スクレイピングとは スクレイピング(scraping)とは、Webサイトに表示されたHTMLページ(あるいはXMLなど、その他のリソース)から自分が必要とする情報を抽出する(抜き出す)ことだ。特に近年では、機械学習などで大量のデータを取得する必要が出てきていて、それを手作業で行うことは現実的ではないことから、プログラムを使ってそれを自動化(半自動化)することが多くなっている。 Pythonにもスクレイピングを行うためのフレームワークやライブラリといったものが幾つもある。今回はそれらの中でBeautiful Soup 4というライ

                                              [Python入門]Beautiful Soup 4によるスクレイピングの基礎
                                            • 2023年度 早稲田大学「計量分析(政治)」補助教材

                                              最終更新日 RStudio と R Markdown R Markdown の使い方と文法 Sep. 21, 2022 R の「あるある」エラー Sep. 13, 2022 Rを使ったデータ操作 1.   データ・ハンドリング(基礎) Sep. 13, 2022 2.   データ・ハンドリング(応用) Nov. 17, 2023 3.   データ・クリーニング Sep. 13, 2022 データの可視化 4.   ggplot2(基礎) Sep. 26, 2022 5.   ggplot2(棒グラフ) Oct. 20, 2022 ggplot2(ヒストグラム) Sep. 10, 2022 ggplot2(箱ひげ図) Oct. 20, 2022 ggplot2(散布図) Sep. 20, 2022 ggplot2(折れ線グラフ) Sep. 20, 2022 ggplot2(ロリポップ・チャー

                                              • AIは双子の顔をどれだけ正確に判別できるのか?(規約違反してしまったので修正の上 再公開いたしました) - Qiita

                                                100% の圧倒的正解率!!!!(顔検出されない場合を除く) たった5枚の画像による学習でここまでの精度を出せるなんて、 Face API すごいですね。 Face APIにとっては、一卵性の双子ですら見分けることは朝飯前のようです。 顔検出されない場合について 「顔検出されず」の数が少々多いのが気になります。 個別に見ると、はっきり顔が映っているのに顔検出されない場合がありました。Face APIは、顔が斜めに写っている写真は苦手のようです。 顔検出されない画像例 作り方 かかる時間について この製作に費やした時間は約2日です。 平日フルタイムで働き、帰宅後に作業を開始してこの日数です。 このエントリーを書くほうが時間がかかっています。 そのくらい手軽&簡単に、AI を使ってモノづくりができるよということをお伝えできればと思います。 使ったもの サービス インターフェイス LINE BO

                                                  AIは双子の顔をどれだけ正確に判別できるのか?(規約違反してしまったので修正の上 再公開いたしました) - Qiita
                                                • ISUCON13のベンチマーカーのDNS水責め攻撃について - Hateburo: kazeburo hatenablog

                                                  この記事はさくらインターネット Advent Calendar 2023の12月3日の記事になります。 先日行われました ISUCON13 の作問を担当しました。参加者の皆様、スタッフの皆様ありがとうございました。 このエントリではISUCON13のDNSに関わる要素とベンチマーカーから行われたDNS水責めについて紹介します。 ISUCON13の問題の講評と解説は以下のエントリーでも行っていますので読んでいただけると嬉しいです isucon.net こんいす〜 ISUCON13における名前解決 上記のエントリーにもある通り、今回のISUCONではDNSが問題の一部として出てきます。 これまでポータルから参加者は割り振られたサーバの中から負荷をかけるサーバ1台選択し、ポータルはそのサーバに対して負荷走行を行うことが多くありましたが、今回はサーバ1台を選択したら、ベンチマーカーはそのサーバの

                                                    ISUCON13のベンチマーカーのDNS水責め攻撃について - Hateburo: kazeburo hatenablog
                                                  • Pythonで画像データをスクレイピング 手軽に画像収集したい方必読! - AI Academy Media

                                                    icrawlerとは icrawlerとはウェブクローラのミニフレームワークです。 It supports media data like images and videos very well, and can also be applied to texts and other type of files. と公式に記載があるように、画像や動画などのメディアデータをサポートしており、 テキストやその他の種類のファイルにも適用可能です。 公式マニュアル インストール Macならターミナル、Windowsならコマンドプロンプトを開き、次のコマンドを実行してください。 pip install icrawler Jpyter Notebookのセルや、Colabのセルの中では次のように実行します。 !pip install icrawler 犬と猫の画像をダウンロードする 今回はGoogle検

                                                      Pythonで画像データをスクレイピング 手軽に画像収集したい方必読! - AI Academy Media
                                                    • クローズしたサービスの管理画面を静的サイトにする - クックパッド開発者ブログ

                                                      こんにちは、技術部の石川です。 ある日、社内の各種アプリケーションを眺めている中で、とあるクローズしたサービスの管理画面を担っていたウェブアプリが今も動いていると気付きました。簡単にヒアリングしたところ、サービス自体はクローズしたものの、保有していたデータが次のチャレンジに生かせるため管理画面だけ残しているとのことでした。 一方で、その管理画面へのアクセスはそう多くありませんでした。毎日ちょっとだけのリクエストを処理するためだけにデータベースとサーバーが動いており、少し無駄がある状態になっていました。 やや気になったので検討した結果、最終的にこの管理画面アプリを Next.js 製の静的なデータビューワーサイトとしてリニューアルし、社内向けの GitHub Pages として提供されている状態にできました。この記事ではその顛末をご紹介します。 技術選定 いくつか事前調査をした結果、今回の管

                                                        クローズしたサービスの管理画面を静的サイトにする - クックパッド開発者ブログ
                                                      • SEOに取り組むなら最低限知っておきたい101のシンプルなアドバイス - SEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ

                                                        無料で資料をダウンロード SEOサービスのご案内 専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。 無料ダウンロードする >> SEO施策の新しい気づきを得たい場合、自身のSEO施策に抜け漏れがないかを確認したい場合などに、施策リストを紹介している記事は参考になります。 SEO Japanでもこのような記事はたびたび紹介していますが、今回の記事もそれに該当します。 しかし、いわゆる「施策」というよりは、アドバイスやティップスがまとめられているため、今まで紹介してきた記事とは少し毛色が異なります。記事中にもありましたが、初心者の方や自身の考えをブラッシュアップしたい方などへは参考になるはずです。 実績のある、実行可能なSEOの戦術をお探しだろうか?しかも、すぐにあなたの助けとなる戦術だ。この記事では、すぐに実行できる101

                                                          SEOに取り組むなら最低限知っておきたい101のシンプルなアドバイス - SEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ
                                                        • LLMエージェントのデザインパターン、Agentic Design Patternsを理解する

                                                          「Agentic Design Patterns」と呼ばれるLLMベースのAIエージェント(以下、LLMエージェント)の4つのデザインパターンについて紹介します。 まず、「Agenticワークフロー」について説明し、続いて4つのデザインパターンを説明します (Part5の前に公開してしまったので、後追いで更新予定です) Agentic Design Patterns Part 1 Agentic Design Patterns Part 2, Reflection Agentic Design Patterns Part 3, Tool Use Agentic Design Patterns Part 4, Planning Agentic Design Patterns Part 5, Multi-Agent Collaboration 動画もあります。 LLMエージェントについての説明

                                                            LLMエージェントのデザインパターン、Agentic Design Patternsを理解する
                                                          • GitHubのソースコードで学習したプログラミングAI「Copilot」は著作権侵害なのか?

                                                            ソフトウェア開発プラットフォームのGitHubが2021年6月に、ソースコードを書くとその続きを補完する機能である「GitHub Copilot」をリリースしました。Microsoft傘下のGitHubが、ライセンスを問わずGitHub上のあらゆるソースコードを学習して作られたCopilotを商業利用することについて、「著作権的に問題があるのではないか?」との議論が巻き起こっています。 Julia Reda – GitHub Copilot is not infringing your copyright https://juliareda.eu/2021/07/github-copilot-is-not-infringing-your-copyright/ GitHubが、人工知能研究組織のOpenAIと協力してリリースしたCopilotは、途中まで記述したソースコードの「続き」を自動で

                                                              GitHubのソースコードで学習したプログラミングAI「Copilot」は著作権侵害なのか?
                                                            • 月間13億PVのエラートラッキングにSentryで挑む|食べログ フロントエンドエンジニアブログ

                                                              はじめまして。食べログFE(フロントエンド)チームの佐伯と申します。 このタイトルを書いてみて、数字の大きさに驚きを隠せません。 通常形態のフリーザ様(53万)何人分でしょうか。 2019年9月より食べログではフロントエンドのエラートラッキングにSentryを使用しており、今回は実際に運用して見えてきた課題などをご紹介させていただきたと思います。 ※PV数は2020年6月時点のものを参考にしております https://corporate.kakaku.com/press/mission 概要 ・トラッキングツールの選定理由 ・Sentry導入だけでは全て解決されません ・費用に対しての成果はものすごくあります 『Sentry、 キミに決めた!』 わけ。具体的な話に入って行く前にSentryの紹介をいたします。 https://sentry.io/welcome/ Sentryとは複数の言語

                                                                月間13億PVのエラートラッキングにSentryで挑む|食べログ フロントエンドエンジニアブログ
                                                              • 2021年データサイエンスにオススメの本80冊!|Octoparse Japan

                                                                ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! Part I: データサイエンス概論1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』Foster Provost、Tom Fawcett著 本書は、データをビジネスに活か

                                                                  2021年データサイエンスにオススメの本80冊!|Octoparse Japan
                                                                • 100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明

                                                                  OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。 How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html Google reporte

                                                                    100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
                                                                  • 【Python】 GET・POSTリクエストによるWebデータの取得(Requestsモジュール)

                                                                    確認した環境 OS: Ubuntu16.04LTSPython3.7.0 @Anadonda Requestsモジュールのインストール このモジュールはPythonの標準ライブラリでないので、環境によっては新規にインストールが必要かもしれません。その場合は公式サイトを参照してインストールを行います。 筆者はAnacondaを使っていますので、下記コマンドでインストールしました。 ~$ conda install requests HTTP通信の概要 まず、HTTP通信の概要とリクエストメソッドについて、概要を簡単に記載します。 WebブラウザでWebページを開いたりすると、WebブラウザとWebサーバの間でデータのやり取りが行われます。このやり取りはHTTPというプロトコルに基づいて行われます。 Webブラウザは、開きたいWebページのアドレスをWebサーバに要求(リクエスト)します。We

                                                                      【Python】 GET・POSTリクエストによるWebデータの取得(Requestsモジュール)
                                                                    • 「エンジニアに向いている人」はGitHub user内にどれぐらいいるのか - Qiita

                                                                      注意 この記事はとあるツイートを話題にしていますが、筆者にツイート内容、およびツイートされた方を蔑む意図は一切ありません。 筆者は統計、およびプログラミングに関してはまだまだひよっこです。したがって誤った見解や拙いコードを書いている可能性がありますが、お気づきの際は是非コメントにてご指摘ください。 背景 あけましておめでとうございます! 正月休みもあけ仕事も始まりましたが、みなさまいかがお過ごしでしょうか。 さて、正月早々、とあるツイートが反響を呼びました。 プログラミングスクール通ってるかどうかとかどうでもよくて、この年末年始にコード全く書いていない人はエンジニア向いてないんじゃないですかね、それぐらい好奇心が必要な職業だと思うけど 賛否両論あったこのツイートですが、内容はさておき、私はあることが気にかかりました。 「果たしてこの年末年始、コードを書いた人はどのぐらいいるのだろうか」 本

                                                                        「エンジニアに向いている人」はGitHub user内にどれぐらいいるのか - Qiita
                                                                      • 「生成AIによる著作権侵害の責任はユーザーが負うべき」グーグル、マイクロソフト、OpenAIら主張

                                                                        どの企業も、AIツールのトレーニングにインターネットからスクレイピングした大量の著作物を利用しており、それらの著作物に対して対価を支払っていないことや、AIツールが著作物を表示する可能性があることについては否定していない。この場合はすべてユーザーに責任がある、というのがグーグル、オープンAI、マイクロソフト(マイクロソフトはオープンAIに巨額の投資をしている)らの意見だ。 グーグルは、AIツールが「学習データからコンテンツを複製させられた」場合、そのようなデータが表示されるのを防ぐための努力をした開発者に責任はないと主張している。 「AIシステムがユーザーから権利を侵害するアウトプットの生成を促される場合、その結果として生じるすべての責任は、侵害の直接的な原因行為を自発的に行った当事者であるユーザーに帰属してしかるべき」(グーグルが著作権局に寄せたコメントより) さらにグーグルは、自社のよ

                                                                          「生成AIによる著作権侵害の責任はユーザーが負うべき」グーグル、マイクロソフト、OpenAIら主張
                                                                        • 技術書典応援祭+技術書典8(+α)で買ったおすすめの技術系同人誌 - Qiita

                                                                          自分が技術書典応援祭+技術書典8(+α)で買った技術系同人誌のなかでおすすめのものを書いていきたいと思います。データサイエンス、機械学習系が多めです。 買ったもの全部は書けなかったので、ここに書いていないのがおすすめではないというわけではないです。(最後以外は)全て自分で購入したものです。 A Primer on Adversarial Examples タイトル:A Primer on Adversarial Examples サークル:原理的には可能 著者:菊田遥平 ページ数:99ページ 電子版 https://techbookfest.org/product/5483924549533696 個人的にはめちゃめちゃおすすめの本です。「技術書典 応援祭」に出ている本では一番これがおすすめです。 いきなり「Adversarial Examples」と言っても何のことだかわからないですよね

                                                                            技術書典応援祭+技術書典8(+α)で買ったおすすめの技術系同人誌 - Qiita
                                                                          • プログラミングする時に知っておきたいPythonライブラリ13選

                                                                            Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。 つまり、 のような関係性があります。 ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。 対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。 ではここからは、各ライブラリの紹介しましょう。 まずはこれから!標準ライブラリ3選 標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi

                                                                              プログラミングする時に知っておきたいPythonライブラリ13選
                                                                            • 冷蔵庫の監視とサーバー監視はどう違う? 無人コンビニ「600」を支えるアーキテクチャ

                                                                              2019年9月11日、クックパッド株式会社にて「Cookpad Product Kitchen #3」が開催されました。今回のテーマは「IoT技術を利用したサービス開発の裏側」。私達の生活に徐々に浸透してきたIoT製品。ハードウェアとソフトウェアを連携させ、新たな価値を提供されている裏側には、どんな工夫や知見が存在しているのか? 自社でIoTサービスを開発しているIT企業4社のエンジニアが集い、サービス開発にまつわる裏話を語っていただきます。プレゼンテーション「IoTと監視」に登壇したのは、600株式会社 ProductQuality Managerの岡前直由氏。講演資料はこちら 無人コンビニ600を支える技術 岡前直由 氏(以下、岡前):それでは「IoTと監視」と題しまして600株式会社の岡前が発表させていただきます。よろしくお願いいたします。 最初に、弊社のサービスについて簡単にご紹介

                                                                                冷蔵庫の監視とサーバー監視はどう違う? 無人コンビニ「600」を支えるアーキテクチャ
                                                                              • 画像をブックマークできるSNS「Pinterest」がGoogle画像検索の表示ランキングを故意に上げていると判明

                                                                                by Gustavo da Cunha Pimenta ウェブサイトのアクセス数を増やすためには、検索エンジン最適化(SEO)が必須です。インターネット上の画像をブックマークするソーシャルメディア・Pinterestが高度なSEO技術を駆使し、検索データを取得する「スクレイピング」によってGoogle検索の表示ランキングを上げていると、SEOの自動化などを扱うRankScienceのCEOであるライアン・ベッドナー氏が語っています。 Deconstructing Pinterest's reverse-image-search SEO growth hack | RankScience https://www.rankscience.com/blog/pinterest-image-seo-growth-hack ベッドナー氏はPinterestを「何年もの間、SEOの成長によって驚異的な

                                                                                  画像をブックマークできるSNS「Pinterest」がGoogle画像検索の表示ランキングを故意に上げていると判明
                                                                                • 【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】

                                                                                  方法①はシンプルでは手軽に利用できますが、データ読み込み後のデータ整形作業が必要になります。 また、複数の銘柄の株価データを集める際には手間がかかります。 1つの銘柄で、なおかつ1度限りの分析であれば有効と思いますが、繰り返し分析したり、複数銘柄を扱いたい場合には不便です。 データ取得の手順を解説ここからは、Investing.comから株価データをCSV形式でダウンロードして、Pythonで読み込み、データ整形するまでの手順を解説します。 *無料登録が必要です。株価データを取得するには無料の会員登録が必要になります。 必要なのはこれだけです。 お金もかからないので余裕ですね。 銘柄を検索してCSVファイルをダウンロード会員登録を済ませてログインすると株価データをCSV形式でダウンロードできるようになります。 データは日足、週足、月足から選択することができます。 Investing.com

                                                                                    【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】