タグ

ブックマーク / qiita.com (71)

  • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

    はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

    機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita
  • 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita

    物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 案件はいわゆる更新案件で、今回の納品時に言われていたのは、「文字コードがUTF-8ではないものは変換して納品してくれ」ということ。 そして、ご指摘いただいたのは、今回の更新案件で中身はいじらなかったJavaScriptファイル。 来ならば納品するファイルではないのですが、文字コード変換という要件があったため、納品ファイルとして加えられたものでした。 一括で文字コードを変えたので作業漏れかなぁと思っていました。 ファイルの中身は記事用にかなり適当につくったものですが、まあだいたいこんな感じです。

    「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
    timetrain
    timetrain 2021/04/03
    (ブコメみて)あったなあ、文字コード認識させるための文字。
  • 日本語で学べるベイズ統計学の教科書10冊 - Qiita

    東京大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強する上で個人的にオススメな日語の教科書10冊を簡単に紹介したいと思います. 一般的な方法論・基礎理論 中照雄『入門ベイズ統計学』 簡単な例と実践的な例を使ってベイズ推論の考え方が導入された後,マルコフ連鎖モンテカルロ法(MCMC)の基礎的な事項がまとめられています.基的な数理統計学が理解できていれば十分読める内容になっている印象です.このの続編である中照雄『実践ベイズ統計学』では,ファクターモデルやそのポートフォリオ選択への応用,ベイズ的線形回帰モデル,モデル平均化法などのより発展した内容について丁寧に解説されています. 伊庭幸人・種村正美・大森裕浩・和合肇・佐藤整尚・高橋明彦『計算統計II』 かなりボリュームのある内容のです.基的な話題として,MCMCの基礎や標準的な統計モデルにおけるベイズ推論に関して数

    日本語で学べるベイズ統計学の教科書10冊 - Qiita
  • Kindle蔵書一覧を取得する方法 - Qiita

    Kindleの蔵書が1万冊を超えてきて、そろそろ蔵書管理したくなり、 蔵書一覧を取得する方法を調べたので、まとめておく。 概要 蔵書一覧の取得方法としては大きく2つあり、 コンテンツと端末の管理ページからスクレイピングする方法と、 Kindle Cloud Readerが使っているWeb SQL Databaseのクライアント側のDBからそのまま取得する方法がある。 後者のほうが簡単なため、ここでは後者の方法について記載する。 (前者の方法が知りたい方は、https://qiita.com/yshr1982/items/072e8b44d456f6d9358bなどを参考にしてください。) // 追記 上記の2つの方法以外のやり方を情報共有してもらったので追記。 @error_401さんから頂いた情報によると Kindle for PCを利用している場合、の情報が入ったXMLが生成されるた

    Kindle蔵書一覧を取得する方法 - Qiita
    timetrain
    timetrain 2020/07/08
    背表紙管理モードが実装されないとこれ以上増やすのほんとやってられんぞと思う
  • 日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

    先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

    日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
    timetrain
    timetrain 2020/06/04
    今まで多くの人がなんとかしようと思って破れてきた絶望の山だ・・京都住所の変更なんか絶対に聞く耳持ちそうにないしな。
  • タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita

    この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ」です。 日では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

    タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita
    timetrain
    timetrain 2020/05/08
    日本語でもきついのに英語で理解できるかというと・・・うん
  • 高校生がアルゴリズムとスパコンの力で、京都の碁盤目状道路を13.9%効率化した話 - Qiita

    2. 研究で解く問題 「いざ研究しよう!」と思っても、条件や設定を決めないと何も始まりません。 まずは研究を分かりやすくするために、「一つの問題」に落とし込むことにしました。 問題設定 縦 $N$ 行・横 $N$ 列の大きさの碁盤の目があります。隣り合う交差点間の距離は 1 です。つまり、交差点が合計で $N^2$ 個あり、それぞれ座標 $(1, 1), (1, 2), ..., (1, N),$ $(2, 1), (2, 2), ..., (N, N-1), (N, N)$ に位置すると考えることもできます。 下の図は、$N = 4$ の場合の交差点の位置です。 あなたは、碁盤の目の交差点の位置は変えずに、道路の並びのみを変えることができます。上手く道路の並びを変えることで、できるだけ「便利」な道路網を建設してください。 「便利な道路網」って何? 私は、以下の 2 つの条件を満たす道路

    高校生がアルゴリズムとスパコンの力で、京都の碁盤目状道路を13.9%効率化した話 - Qiita
    timetrain
    timetrain 2020/02/17
    中盤のすさまじい道路を見せた後で終盤のスッキリ感がすごい。見せ方もうまいわ。
  • もしものために,香川県からのアクセスを避ける - Qiita

    茶番 「どうも〜、セミコロンつけない派です。お願いします」 「お願いします」 「あ〜、ありがとうございます。今、LGTMを頂きました。こんなんなんぼあってもいいですからね」 「あのな、おかんがな、思い出せない都道府県があるらしいねん」 「ほな、その特徴教えてくれる?」 「おかんが言うにはな、最近ゲームが 「香川やないか!」 (ミルクボーイやりたかっただけ。) ちまたで噂のネット・ゲーム依存症対策条例 ネットやゲーム依存症を防ぐため、18歳未満の使用時間を制限するというやつです。 今はちょっと変わってコンピュータゲームだけになったみたいです。 これに関する議論は尽きないですが、ここでは置いておきます。 仮にサービス側が何とかしろと言われたら... ネット界隈では、「香川県民ですか? はい/いいえ」のような香川認証がネタになってます。 香川県の条例案、よく読んだら我々サービス提供者側(特定電気

    もしものために,香川県からのアクセスを避ける - Qiita
    timetrain
    timetrain 2020/01/24
    香川県民にはユポ紙でも食らわせておけ!(選挙であいつら落として下さい、の意)
  • 【全部無料】ハマると時間が秒で過ぎる英語圏のプログラミング系サイトまとめ【英語学習】 - Qiita

    はじめに 近頃の翻訳技術の発達は目覚ましいですが、いまだに、「英語ができなくても何も問題はない」というところまでは程遠いのではないでしょうか。特にエンジニアであれば、なおさらだと思います。 英語で情報収集ができれば、英語力の向上と情報収集が同時にできて、一石二鳥ですよね。英語圏の情報は一次情報であったり、情報の速度が早かったりもするので、「情報の価値」、という点においてもかなり優秀です。 というわけで今回は、英語学習はもちろん、情報収集にも死ぬほど役立つ英語圏のサイトを紹介します。すべてのサイトがプログラミング関連で、しかも面白いサイトばかりなので、ハマるとヤバいです。 【10選】ハマると時間が一瞬で過ぎるプログラミング系の英語圏のサイトまとめ ネタ系 Redditで言うところの、2チャンネルとツイッターの中間のようなサイトです。プログラミング関連だけじゃなくて、各種テーマの話題のス

    【全部無料】ハマると時間が秒で過ぎる英語圏のプログラミング系サイトまとめ【英語学習】 - Qiita
    timetrain
    timetrain 2020/01/06
    タイトルからして日本語が不自由に見える
  • ほんとうに怖い。さくらのレンタルサーバー - Qiita

    Help us understand the problem. What is going on with this article? さくらで専用サーバーを10年ほど利用しています。 単体のハードを利用するもので、外部からの操作はsshでログインすることしかできないものです。 作業時間を必死に捻出して、こつこつと長期間システムを開発して何とか動作するものを作り上げていました。 さくらのレンタルサーバーを利用することは、ほんとうに危険で怖いことだとおもいます。 自分が体験したトラブルをレンタルサーバーの利用を検討している方々に共有させていただきたく初めて記事を書いてみました。 二年ほど前、さくらさんが専有サーバーの場所を移動したいという申し出があり快く許可しました。その時のご説明では、場所を移動するだけでハードの変更は一切行いませんというもので、今まで通りの動作が保証される作業内容というこ

    ほんとうに怖い。さくらのレンタルサーバー - Qiita
    timetrain
    timetrain 2019/12/25
    長年使っているけど、いつの間にか設定が変わっていてCGIの管理機能が使えなくなり放置してるサービスがある。技術力ある人でこんなことになるなら、自分みたいなへっぽこでは無理ぽ
  • N予備校プログラミング入門コースで学べること - Qiita

    私 is 誰 今年の7月にドワンゴの教育事業部に異動し、N予備校でプログラミング講師をやることになりました。 現在は週2回ニコ生やN予備校上にてプログラミング入門コースの授業放送をしています。 ドワンゴ自体は7年目となり、ニコニコ動画の開発を4年、エンジニア教育エンジニア採用を2年ほどやってきました。 この記事で書きたいこと 現部署に異動後、教材のインプットを兼ねて『N予備校プログラミング入門コース』を履修したのですが、明らかに難易度が僕の想像した "入門コース" から外れたガチ編成になっていて衝撃を受けたことが記事を書こうと思ったきっかけです。 中身としてはとても良い教材になっているので、僕のような勿体無い誤解が少しでも減れば幸いです。 入門コースはいわゆる入門コースではない 『プログラミング入門コース』のゴールは ドワンゴがエンジニアとして採用したいレベル や IT企業のエンジニア

    N予備校プログラミング入門コースで学べること - Qiita
    timetrain
    timetrain 2019/12/24
    そこまでいけないと働けるところまでいかんということなのね・・
  • スーパーマリオのジャンプのアルゴリズム - Qiita

    先日、気持ちのいいジャンプを目指してというQiitaの記事を見かけました。記事中では、マリオのジャンプについても触れられています。マリオというと、マリオブラザースやスーパーマリオブラザース等々、色々あるのですが、これはおそらくスーパーマリオブラザースの事だと思われます。ジャンプアクションゲームといったらスーマリですね。 そのマリオのジャンプの仕組みは「マリオの速度ベクトルを保存しておいて座標を計算するんじゃなくて~」と書かれていて、別サイトのブログへのリンクが張られています。 マリオのジャンプ実装法とVerlet積分 ただ、この記述については不正確であるという別のブログもあったりします。 マリオの完コピvol.28 ジャンプの解析と修正 ホントのところはどうなんでしょうか?世界で最も有名なゲームジャンプがどのように処理されているのか気になったので調べてみることにしました。 原典にあたる

    スーパーマリオのジャンプのアルゴリズム - Qiita
    timetrain
    timetrain 2019/11/07
    確かに物理法則じゃないのにすごくジャンプ前後がプレイしやすかった。マリオより後発で単なる放物線ジャンプのクソゲーがいくつあったことか・・
  • 自宅サーバーでTwitter連携サービスを運営してたら家宅捜索された件 - Qiita

    概要 ある朝自宅に神奈川県警が乗り込んできた。 (なお自宅は神奈川県ではない) どうやら俺はTwitterにモロ画像を投稿していたらしい。 「間違いなくこの家から投稿されていた。プロバイダにも確認済みだ。」 「(ハンドルネーム)というアカウント使ってるでしょ」 「心当たりあるでしょ?」 「(ブランド名)のTシャツ持ってるでしょ?」 おやっ、何かがおかしいです。 想定される経緯 自宅サーバーではTwiGaTen( https://twigaten.204504byse.info/ )というWebサイトが稼動している。 そしてこいつはTwitterアカウントでログインしたアカウントのタイムラインを24時間365日収集し続けている。Twitterの仕様上、これは時々ログイン履歴として記録される。 そして警察はモロ画像をうpしたアカウントのログイン履歴を見て… 「固定回線からうpか。バカめ。」 「

    自宅サーバーでTwitter連携サービスを運営してたら家宅捜索された件 - Qiita
    timetrain
    timetrain 2019/06/11
    こんなバカが国家権力を行使してのうのうとしてるけど、過去のやらかしから考えて自浄作用がまったく無い組織だからどうすりゃいいのさ。県警って監督できるの警察庁だけ??選挙でも何でも変わらんよねこれ
  • 文科省のPythonはPythonじゃねぇ - Qiita

    TL;DR 文科省によるプログラミングの教材はダメダメ。PEP8読め。 追記 もちろん、この指摘が普通のコードに対するものだとすれば 「重箱の隅をつつきすぎ」 だというのは全くその通りだと思います。こんな指摘をするつもりはさらさらありません。 しかし、これが文科省という権威ある機関が発表するものならば話は全く違います。 全ての日教育を一身に背負うくらいの気持ちと成果を伴わなければならないとも思います。 そういう理由での、厳しい(というか細かい)指摘です。 追記2 自分の説明が足りませんでした(すみません)。ちなみにこの教材は「教員研修用」です。 この教材で研修を受けた教師にプログラミングを教えられると思って考えてみてほしいと思います。 追記3 (2019/9/25 文科省の改訂を受けて) この度文科省がPythonに関する資料の改訂版を発表しました。 文科省に対して改善を求める当初を行

    文科省のPythonはPythonじゃねぇ - Qiita
    timetrain
    timetrain 2019/05/21
    単純に入口だけだから、固有の手法は使わない方がいいと思った。sumについての指摘だけはそんな謎仕様なのかと驚いたけど
  • まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita

    ちょっとしたデータの加工や集計に、ExcelGoogle Spreadsheetは便利ですが、それが日常的な作業になってしまったら自動化したいですよね? そこでお勧めなのがpandasです。 Pandasは Python 用のデータ処理パッケージであり、ExcelファイルやCSVなどの表形式データを読みこみ、加工や集計した上で、出力するといったことがプログラムで記述できます。また開発環境を用意しなくとも、Googleが提供する無料の開発環境であるColaboratory上で、すぐに試すことができます。 そしてPythonは、Office 98以降20年以降更新されていないVBAに代わる新たなスクリプト言語として、Microsoftが採用を検討しているという話もあります。 ExcelPython搭載、マイクロソフトが検討。アンケートを実施中 まずPandasの全体像を掴んでみる Pand

    まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita
  • Googleが大量の機械学習用データベースを無料公開してた - Qiita

    個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

    Googleが大量の機械学習用データベースを無料公開してた - Qiita
  • 📃 Webページをそのままの状態でローカルに保存するツールを作った話 - Qiita

    はじめまして。yamaimo (@yarnaimodev) です。Qiita 初投稿...というかネット上にちゃんとした記事を上げるの自体初めてな気がします。 1998 年生まれで、プログラミングとか Web デザインは独学で 3 年ぐらいやってます。TypeScript / Firebase / Node.js / React あたりが特に好きです。 この前 coliss で紹介された Can't Unsee を試してみたら 1 回目が 7,630 点、2 回目が 7,930 点でした。1 小規模ですが Mastodon インスタンスを管理してます。あと Helix キーボード をこの前組み立てた2んですがキー配列を変えたのがなかなか覚えられなくて死んでます。 開発環境は基的に WSL + Hyper + fish shell と VSCode です。 今回 Puppeteer を使っ

    📃 Webページをそのままの状態でローカルに保存するツールを作った話 - Qiita
    timetrain
    timetrain 2019/02/17
    また20年前のニュースかと・・
  • 今後必要になるプログラム言語

    今後必要になるマスター言語 JAVA RUBY C++ PL/SQL JAVA JAVAアプレット JAVAサーブレット JAVAscript この3つのうちJAVAServletおよびJavaScriptは必須。 条件としてJavaBeansについて的確な知識があり、自分で設計取り回しができるレベル。 JavaBeansの設計とは、JAVA言語特有の空間的なソースやデータの配置を把握してることが条件なので、システムエンジニアへの質問もしくは仕様理解に努めること。 国内外問わずシステムのシェアはWINDOWS主体でありほぼJAVAで統一されている。 さらに動的HTMLなどについてもJAVAサーブレットの知識が流用される。 JavaScriptの知識については特に必要ないがBeansその他に直結するケースが多いので仕様確認。 RUBY この言語についてはJAVAのサブルーチンとしての位置づけ

    今後必要になるプログラム言語
    timetrain
    timetrain 2018/11/07
    専門外の自分が読んでも薄ら寒いものを感じる……なにこれ別の世界線から紛れ込んだ文書?
  • Chrome拡張の高速な英語辞書ツールをつくりました(Mouse Dictionary) - Qiita

    経緯 もともとMouseoverDictionaryという素晴らしいFirefox用辞書があったのですが、Quantumの登場とXULの廃止とともに使えなくなってしまったため、自分用にChrome拡張をつくった次第です。 ソースコード 実装に関わる技術寄りの用語: React, esbuild, chrome.storage.local, chrome.storage.sync, Cross-extension messaging, Hogan, debounce, resizable/draggable, intl.v8BreakIterator, deinja, クロスブラウザ, など。 ※詳細は「Mouse Dictionaryの技術的な話」をご参照ください https://qiita.com/wtetsu/items/2a5568cb0b5a38c003fb 使い方 インストール

    Chrome拡張の高速な英語辞書ツールをつくりました(Mouse Dictionary) - Qiita
    timetrain
    timetrain 2018/09/05
    英文読むのに英辞郎でどうにかならんかとずっと思ってた。500円なら導入にためらわない。
  • すばらしきポケモンエコシステム⚡️ - Qiita

    タイトルだけだと何を言っているのか意味が分からないと思うのですが、最近ポケモン図鑑を作っていて、その過程で思いの外ポケモン関連のエコシステムが充実していたので、発見したものを紹介いたします。 ちなみに私はXYまでは全作プレイしてました。スプラトゥーン沼のせいで時間がなくなり卒業しました。(自慢ですがウデマエXです) データ系 まずは要となるポケモンデータを管理してくれているパッケージたちを紹介します。この分野は競合がたくさんいるのですが、私が見つけた中で一番筋が良さそうだったのはこちらです。 GitHub - fanzeyi/Pokemon-DB: A Pokemon database in JSON format. 次のそれぞれの要素に対してのJSONがあります。 ポケモン アイテム ワザ タイプ 例えば私はクチートが好きなのですが、クチートのデータはこんな感じ。 { "base": {

    すばらしきポケモンエコシステム⚡️ - Qiita
    timetrain
    timetrain 2018/08/22
    同人の領域踏み越えたらアウトだろうなこれ・・