Kaggle Advent Calendar 2019 の9日目の記事です。 一応自己紹介を書いておくと、 Kaggle は mhiro2 という名前でここ1年くらい趣味としてやっています。 本業では、 MLOps の一環として、 GKE や BigQuery, Cloud Composer, MLflow などを活用した自社向けの機械学習基盤開発をやっています。 ML やデータ分析の理論や技術そのものよりは、 ML のサイクルを円滑に回すためのシステムデザインやアーキテクチャなどの仕組み化に関心があります。 はじめにKaggle をはじめとした分析コンペに取り組んでいる方の中には、自前のパイプラインを構築されている方も多くいらっしゃるかと思います。そもそもパイプラインとは何ぞや、という話ですが、EDA や特徴量のエンコードなどの前処理はもちろん、複数のモデルやパラメータでの学習やアンサン
応答パラメータの例は下記とします。 { "python": "3.6.2" } AWS SAMプロジェクトの準備 下記コマンドでプロジェクト一式を作成します。 sam init --runtime python3.6 --name SwaggerSample Swagger Editor 導入 こちらを参考に導入します。Dockerは便利ですね。 API定義 Swagger Editorで下記を作成しました。この内容をswagger.yamlとして、AWS SAMプロジェクトフォルダに保存します。 swagger.yaml swagger: "2.0" info: description: "SwaggerとAPI Gatewayのサンプルです。" version: "1.0.0" title: "Swagger Sample" basePath: "/Prod" tags: - name
AWS Lambda allows us to execute code in the cloud without needing to provision anything. In the past few years, it has become increasignly well-known thanks to the rise of serverless applications. As an addition to all the available runtimes in AWS Lambda, AWS announced Custom Runtimes at Re:Invent 2018. They released open-source custom runtimes for C++ and Rust, while some some AWS partners also
色は人の心理に働きかけることが知られており、デザインに何色を使うかは重要な問題です。特に、異なる色を使いつつ統一感を持たせるのは至難の業で、一歩間違うとまとまりやメッセージ性のない配色になってしまうことも。そこで、プロのデザイナーがウェブデザインのさまざまな配色実例をそのままコピーできる「Happy Hues」を作成し、無料で公開しています。 Happy Hues - Curated colors in context. https://www.happyhues.co/ トップページには画面左側にパレットが表示されています。パレットをクリックすることで、画面右側の配色を変更可能。深緑を中心とした落ち着いた配色から…… ピンクを中心としたファンシーな配色。 グレーベースのシンプルなデザイン。 温かみがある焦げ茶色ベースの配色など、背景だけでなく文字色やボタン、イラストの色まで変わるので画面
aptpod Advent Calendar 2019 11日目 先日お菓子のデモの記事を投稿したキシダがまたお送りします。みなさま、ここ最近『機械学習』とか『AI』とか耳にすることが多くなってきていると思いますが、現実はどれくらいの導入率かご存知ですか? なんと、14〜15% (※1)らしいです。 意外に導入まで成功しているプロジェクトはまだ増えてきていません。 そこで、『機械学習プロジェクトって具体的にどういうふうにすすめるの?』とか『普通のシステム開発と違って何が難しいの?』という疑問の声に勝手にお答えして、完全な独断と偏見ですが、一般的な機械学習案件に対してよくある困った事例のご紹介とそれに対して私個人が意識していることをこちらにまとめてみようかと思います。 技術的なところではなく、案件における考え方や進め方的なところを中心に掘り下げてます。 ※この記事で出てくる事例は架空のもので
Netflixは2019年12月3日(現地時間)、データサイエンスプロジェクトを迅速かつ容易に構築、管理するためのフレームワーク「Metaflow」をオープンソースソフトウェアとして公開した。 MetaflowはNetflixが開発したPythonライブラリ。コンテンツ配信やビデオエンコーディングの最適化など、社内の何百ものユースケースに2年間、Metaflowを用いてデータサイエンスを適用してきたという。 なぜMetaflowを開発したのか Metaflowの開発が始まる前、Netflixの機械学習インフラチームはデータサイエンティストに対して社内では何が困難なのかをインタビューした。大規模なデータの扱いやモデル作り、最新GPUに関した回答が集まると当初は考えていたものの、予想は外れた。 最も困難だったのは、「バージョン1」のローンチに到達するまであまりにも時間がかかることだったという。
(日本時間 2017年8月23日 8:55修正)2点追記しました。 1) 消費税の納税義務と日本に恒久的施設を有するかどうかが関係ない点。詳細。 2) Amazon本社があるワシントン州内では消費税が無料ではない点。 ご迷惑おかけいたしました。今日は、Amazonのあまり知られていない側面を、一つ読み解いてみたいと思います。それは、Amazonは、営業利益を出して税金を支払うよりも、大規模な投資を継続して、し続けてきたという点に関してです。 最初に申し上げておくと、私個人としてはAmazonがこれまでやってきたことは決して悪いことだとは思いませんし、決められたルールの中で最適な行動をとっていると思います。 従ってこのnoteの内容は、Amazonの税金逃れを批判するという趣旨ではありません。どちらかと言うと、日本の自社開発ソフトウェアに対する税制のあり方が、今日の国際競争において、非常に不
機械学習はインフラやフレームワークの技術革新によって、開発者にとって身近なものとなりました。一方で、インフラやフレームワークに対して適切な整備・運用を行う必要があります。数週間・数ヶ月かけて整備した機械学習の環境も、進歩の速い機械学習技術に合わせて、絶えず更新を続けなくてはなりません。 今回ご紹介します 3 つのパートを一通り実施していただくことで、AWS の機械学習サービスである Amazon SageMaker を利用した機械学習の開発・学習・運用に関する知識を、実装レベルで身につけることが可能です。ハンズオンの内容を、現在の機械学習の業務に適用いただくことで、業務の効率化だけでなく、困難な機械学習タスクへの挑戦も可能にします。 Amazon SageMaker は、機械学習のワークフロー全体をカバーするフルマネージド型のサービスです。機械学習の開発者は、機械学習のためのインフラ管理か
The characters are virtual YouTubers affiliated with Nijisanji and are © Ichikara, Inc. (see footnote) They have a very lenient guideline for derivative works which I have interpreted that official artworks can be used in the pursuit of hobbies as long as they are not sold or used for commercial purposes. In fact, there are fan-made games created using official materials. I think that what I'm doi
Cloud RunはHTTPでアクセス可能なステートレスなサービスを提供するコンテナを、サーバレス環境で実行可能なサービスです。 すなわち、負荷がない場合にはサービスはまったく起動されず、負荷に応じて自動的にスケール。Dockerコンテナであれば、どんな言語で作られたサービスであっても関係なく利用できます。 課金もおよそ100ミリ秒ごとに、起動しているサービス数などによって計算されます。 また、Cloud RunはKubernetes上でサーバレスコンピューティング環境を実現するフレームワークとしてGoogleがオープンソースとして開発しているKnativeをベースにしています。 Anthos Cloud Runによりマルチプラットフォーム上でサーバレス Googleは、Kubernetesをクラウド基盤の抽象化レイヤとして用いることで、コンテナ化したアプリケーションをオンプレミスとクラウ
Amazon Cognito now supports Sign in with Apple, making it easier for customers who use Cognito for identity and authentication to reach a broad base of Apple users. This feature is available now in Amazon Cognito User Pools at the same cost as other social identity providers. Amazon Cognito User Pools provide a secure user directory that scales to millions of users. As a fully managed service, Use
$ echo $PAT | docker login ghcr.io --username phanatic --password-stdin Logged in successfully $ docker tag app ghcr.io/phanatic/app:1.0.0 $ docker push ghcr.io/phanatic/app:1.0.0 1.0.0: digest: sha256:631cb8...fc822c size: 1373 $ npm login --registry=https://npm.pkg.github.com --scope=@phanatic Successfully logged in. $ npm publish Package published $ mvn deploy -Dregistry=https://maven.pkg.githu
とある会社のカフェフロアで販売されているお弁当の販売数を予測するSIGNATEのコンペ「お弁当の需要予測」で作成したモデルを解説したいと思います。 こちら練習問題になっていますが、元ネタは2015年に実際に行われていたこちらのコンペのようです。 このモデルのRMSEは6.69380で、本投稿時6位相当でした。 データ分析の基本的な流れは網羅できていると思いますので、参考になれば幸いです。 目次 以下の順に沿って解説していきます。 データの可視化 トレンド抽出 特徴量エンジニアリング 特徴選択 モデル作成 テストデータの前処理と予測 1. データの可視化 まず目的変数である販売数の変動を可視化します。 train = pd.read_csv('../train.csv') test = pd.read_csv('../test.csv') train['y'].plot 販売数をみて気になっ
報道発表資料 2019年9月2日 日本電信電話株式会社 暗号化したままディープラーニングの標準的な学習処理ができる秘密計算技術を世界で初めて実現 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:澤田純、以下NTT)は、データを暗号化したまま一度も元データに戻さずに、ソフトマックス関数*1やAdam(adaptive moment estimation)*2と呼ばれる最適化処理を含む標準的なディープラーニングの学習処理を行う技術を、世界で初めて実現しました。 通常、データを利活用するためには、通信時や保管時に暗号化していたとしても、処理を行う際には元データに戻して処理する必要があります。このことは、データ所有者からすると情報漏洩のリスクを感じることから、企業秘密や個人のプライバシーに関わるデータの利活用に抵抗感を持つユーザや組織が少なくありません。特に所有者から他者、または同一組
eksctl の v0.1.34 から EKS の worker ノード (nodegroup) にスポットインスタンスを指定できるようになりました。 こんな感じの eksctl manifest を書くと、worker node で手軽にスポットインスタンスが使えます。去年発表された Auto Scaling Group の機能を使っているみたいです。 https://t.co/UveeldhLEj pic.twitter.com/worQJv8PKU — Manabu Sakai (@manabusakai) 2019年6月13日 eksctl の nodegroup は Auto Scaling Group で管理されており、スポットインスタンスの指定にも Auto Scaling Group に統合された EC2 Fleet の機能が使われています。 New - EC2 Auto
2018年9月17日から18日にかけて、日本最大のPythonの祭典、PyCon JP 2018が開催されました。「ひろがるPython」をキャッチコピーに、日本だけでなく世界各地からPythonエンジニアたちが一堂に会し、様々な知見を共有します。プレゼンテーション「実践・競馬データサイエンス」に登壇したのは、貫井駿氏。人工知能(AI)による競馬の予測モデル構築において発見した、実践的なノウハウを紹介します。講演資料はこちら 競馬×データサイエンス 貫井駿氏(以下、貫井):「実践・競馬データサイエンス」と題しまして、AlphaImpactの貫井が発表します。今回の資料は後日公開する予定なので、写真は撮らなくても大丈夫です。 まず自己紹介ですが、貫井駿と申します。 専門は機械学習をやっていまして、仕事は、まず本業でFringe81という会社でアドテックとHRテック領域のデータサイエンティスト
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く