ksmznのブックマーク - はてなブックマーク

http://www.dbl.k.hosei.ac.jp/~miurat/readings/May2013a.pdf

ksmzn 2016/06/03

リンク

Collaborative Topic Modeling for Recommending Scientific Articles

論文"Collaborative Topic Modeling for Recommending Scientific Articles"を読んだ際に使用したスライド

ksmzn 2016/06/02

リンク

第4回　Amazon Redshiftにデータをロードしてみよう | gihyo.jp

前回は、Amazon Redshiftの起動から、ローカルマシンでAmazon Redshiftクラスタへ接続するまでの説明を行いました。今回は、Amazon Redshiftを実際に運用する上で重要となるデータのロードを中心に、例を交えて説明していきます。なお、チュートリアルの中で利用するデータはAmazon Redshift Getting Started Guideで紹介されているデータを利用しています。本連載のチュートリアルは、AWSアカウント、起動中のAmazon Redshiftクラスタ、また接続するクライアントツールがすでに準備されていることを前提としています（※⁠）⁠。実際に試される方は、前回の記事を参考に環境準備をしておいてください。 ※） Hapyrusでは、RedshiftとFlyDataをお試しいただけるSandbox環境を無料で提供しています。また、ブラウザ上か

ksmzn 2016/05/31

“distkeyを指定したカラムは同じ値の場合に同じノードに保存されるようになり，そのカラムを含むテーブルをJOINで結合するSQLの高速化が期待できます。sortkeyは，指定したカラムの値がソートされてノードに保存される”

リンク

Visualizing Data Using t-SNE

Tomoki HayashiCOO / Postdoctoral Researcher at Human Dataware Lab. Co., Ltd. / Nagoya University

ksmzn 2016/04/26

リンク

コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?

岩波データサイエンス vol.2 の発刊を記念して、刊行トークイベント「統計的自然言語処理 - ことばを扱う機械」が 3月3日に開催されました。岩波データサイエンス Vol.2 : 岩波データサイエンス刊行委員会 : 本 : Amazon.co.jp トークイベント「統計的自然言語処理ーことばを扱う機械」（岩波データサイエンス Vol.2 刊行記念） - connpass イベントの様子はニコニコ動画さんで生中継されましたが、その録画は YouTube で公開させてもらっています。【トークイベント「統計的自然言語処理ーことばを扱う機械」（岩波データサイエンス Vol.2 刊行記念） - YouTube】 1. 挨拶と著者団トーク 2. 招待講演「本当は怖い統計的自然言語処理」(賀沢秀人; グーグル株式会社) 3. 自然言語処理についてのパネルセッション＋クロージング自然言語処理に詳

ksmzn 2016/04/25

リンク

ランダムフォレストを使った初期分析例 | カメリオ開発者ブログ

白ヤギコーポレーションのデータ分析担当　堅田です。今回は、時間がない中でデータをさくっと分析したいという人向けに、RのrandomForestパッケージを使った分析方法を紹介したいと思います。データの前処理まずデータの前処理では、難なくRのrandomForestに突っ込むための加工を施します。主なステップは以下の4つです。 1. データのサンプリング初期分析の段階で全データを使う必要はないと考えます。変数のサイズにもよりますが、私は10%くらいのデータでまずやるようにしています。 2. 数値型の変数の欠損値は中央値で補完。さらに、欠損の有無そのものを新たな変数とする RのrandomForestのデフォルト設定では、欠損値があると実行できません。そのため、欠損値を補完する必要があります。数値データの欠損は、本来は理由に応じて処理すべきですが、理由がわからなければ中央値で補完して

ksmzn 2016/04/15

リンク

個人開発アプリのサーバーサイド環境を金と時間をかけずに用意する方法 - Qiita

この記事はSansanアドベントカレンダー3日目です。前提個人でアプリを開発していても、やっぱりなんだかんだサーバーサイドが必要になる機会ってあると思います。ただ、注力したいのはやっぱりアプリ側の開発なのでできるだけサーバーサイドにはコストをかけたくない、そんなときどうすれば、、、みたいな話です。基本的には、金をかけたくない時間をかけたくないでもサーバーサイド用意したいという前提で雑にサーバーサイド環境を用意する場合の話です。作ったアプリなど最近は放置気味になっていますが、下記のようなアプリをこれまでにリリースしました。いずれも2人で開発した個人アプリで、アプリに注力しながらもそれなりに頑張ってサーバーサイド側も用意しました。瞬間最大風速では、1000リクエスト/秒くらいのアクセスがあっても特に負荷などの問題も起きず、一応正常に動作してました。ヒミツのアルバム(写真管理

ksmzn 2016/03/09

“MBaaS”

リンク

データ可視化チートシート - Qiita

はじめにデータ可視化では、データの性質によって概ねどのような可視化ができるのか決まる場合があります。データ可視化は探索的なデータ分析をする場合や、データ分析した結果を誰かに伝えるために重要であり、その時々の目的に合わせた可視化を選択するべきですが、そもそも可視化手法の特性とデータの性質があっていないとあまり効果がない場合があります。筆者が業務においてデータ可視化する際にデータの性質から可視化手法を導く場合の道のりを整理し、チートシートとしてまとめてみました。もちろん、調べたい・表現したい内容によって自分で自由に選んでもまったく問題無いですが、データを前にして「どうやって可視化しよう？」と悩んでいる方の一助になれば幸いです。また、この記事では主に一般的な可視化（グラフ）手法にフォーカスしており、イラスト的な要素を含むインフォグラフィックなどについては触れていません。（が、だいたいのデー

ksmzn 2016/03/07

リンク

⭐️PDFの情報・文章をRでごっそり取得する - cucumber flesh

便利なRパッケージを見つけたのでメモがてら紹介しておきます。以前、Rを使ってPDF上のテキストを取得するパッケージとして{tm}パッケージを紹介しましたが、同様の機能をもった{pdftools}は以下の特徴があります。 PDFがもつ各種の情報やテキストを取得できる日本語も問題なし PDFがロックされている場合、パスワードで開ける PDFを画像として出力できる開発者はrOpenSciの一員でもあるJeroen Oomsです。 github.com uribo.hatena blog.com {tm}パッケージでは日本語が含まれるPDFを扱う際にはちょっとした工夫が必要でしたが、{pdftools}では日本語の出力も問題なく行うことができてちょっと感動しました。機能としてPDFの情報を得る、ということとPDFを画像として出力する、というものがあります。 🔰 使用例 CRANに登録されている

ksmzn 2016/02/29

R
pdf

リンク

機械学習によるデータ分析まわりのお話

某所で機械学習の講習会（？）のようなものをしたときの資料です．機械学習によるデータ分析について，アルゴリズムやツールの使い方＊以外＊の部分で重要だと思うことを重点的にまとめたつもりです．Read less

ksmzn 2016/02/26

リンク

Resources for ggmcmc | Xavier Fernández i Marín

ggmcmc is an R package aimed at providing tools for assessing and diagnosing convergence of Markov Chain Monte Carlo simulations, as well as for graphically display results from full MCMC analysis. The package also facilitates the graphical interpretation of models by providing flexible functions to plot the results against observed variables. Development ggmcmc is developed in github and has attr

ksmzn 2016/02/19

リンク

Stan(MCMC サンプリング)を使ったクラウドサービスセットアップ時間の推定 - Cybozu Inside Out | サイボウズエンジニアのブログ

サイボウズ・ラボの中谷です。先日、このブログでインフラチームの湯谷さんが R と統計の社内勉強会での資料を公開する記事を書いていましたが、同じくその社内勉強会で行ったクラウドサービスのデプロイ時間を分析したお話をします。 blog.cybozu.io 5分で使えるクラウドサービスサイボウズでは cybozu.com というクラウドサービスを展開しています。クラウドサービスといえば「申し込んですぐ使える」のが一般的なイメージでしょう。 cybozu.com も web サイトから申し込むと、5～10分でサービスが利用可能になります。これを実現するために、インフラ担当者が24時間待機しておき、申し込みの通知を受付けたらデータベースを切って、サービスインスタンスに申し込まれたアプリケーションをデプロイして……なんてことをしていたら担当者がすぐに倒れてしまうので、そこのところは当然自動化さ

ksmzn 2015/10/23

リンク

利益率3割　日本企業が失ったアップル大もうけのカギ - 日本経済新聞

イノベーションを生み出す企業の代表とも言える米Apple（アップル）は、業績面でも超が付くほどの優良企業だ。例えば、2014年度（2014年9月27日を末日とする会計年度）では、売上高が約18兆円、営業利益率が約30%と驚異的な数値をたたき出し、直近の2015年度第3四半期(4～6月)でも前年同期比で売上高が33%増、純利益が39%増と、第3四半期で過去最高を記録した。Appleはなぜ、こんなにもうかるのか。本当の理由を、管理会計および技術領域の改革を融合したコンサルティングを手掛けるプリベクトの北山一真氏に解説してもらう。

ksmzn 2015/10/21

リンク

Xgboost のR における具体例 (クラス分類) - puyokwの日記

前回、Xgboost のパラメータについて列挙しましたが、あれだけ見ても実際にどう使うのかよく分かりません。そこで今回はR で、とりあえず iris data を用いてその使い方を見ていきたいと思います。まず、iris data の奇数番目を訓練データ、偶数番目を検証データとします。 dim(iris) # 行数:150, 列数:5 odd.n<-2*(1:75)-1 iris.train<-iris[odd.n,] # 奇数を訓練データ iris.test<-iris[-odd.n,] # 偶数を検証データ次に、xgboost に適した形式に変換します。 library(xgboost) y <- iris.train[,5] # 目的変数 y <- as.integer(y)-1 #xgboost で既定されいるクラスは 0 base train.x<-iris.train[,1:

ksmzn 2015/10/19

“xgb.importance”

リンク

山崎製パン　カビさせないもう一つの技術 | FOOCOM.NET

どんなコラム？職業は科学ライターだけど、毎日お買い物をし、家族の食事を作る生活者、消費者でもあります。多角的な視点で食の課題に迫りますプロフィール京都大学大学院農学研究科修士課程修了後、新聞記者勤務10年を経て2000年からフリーランスの科学ライターとして活動山崎製パン(株)はもう、臭素酸カリウムを使っていない。このことを私は、本欄でも書いたし、雑誌の連載記事などでも書いている。しかし、相変わらず間違った情報が多い。最近ではこれ、である。すかさず、産経新聞の平沢裕子記者が『山崎製パン「添加物バッシング」の真相は？　カビにくいのは「無菌製造だから」臭素酸カリウムは残留ゼロ＆現在使用せず』という記事を出していた。記事にもあるとおり、山崎製パンは臭素酸カリウムを2014年2月から使用していない。私は、記事にも登場する山崎製パン中央研究所の山田雄司所長に思い切って尋ねたことがある。同社が

ksmzn 2015/09/25

すぐに反論するよりも、結果的にブランディングになっている気がする

リンク

プログラム組んだら負け！実はHTML/CSSだけでできること2015夏

ちゃんとした C# プログラムを書けるようになる実践的な方法～ Visual Studio を使った高品質・低コスト・保守性の高い開発慎一古賀

ksmzn 2015/09/04

リンク

Swift is like Go

Fork the repo if you want to help improve it. :) You may also check Hyperpolyglot C, Go, Swift: a side-by-side reference sheet

ksmzn 2015/08/28

リンク

esa.io - 趣味から育てたWebサービスで生きていく

YAPC::Asia 2015 http://yapcasia.org/2015/talk/show/c191c08a-0a98-11e5-be34-67dc7d574c3a 「esa」は esa LLC が開発・運営しているチーム向けMarkdownドキュメント共有サービスです。2015年1月に正式リリースされてから約半年、βテスト期間も含めると1年ほどになります。本トークではエンジニア1人とデザイナー1人で開発・運営・経営・営業などを行う上で考えたこと、経験したことなどを中心に、オフの時間に趣味で作り始めたWebサービスを事業化することについてお話したいと考えています。

ksmzn 2015/08/22

リンク

TypeScript入門しました – 機械学習の実装 1

TypeScript lets you write JavaScript the way you really want to. TypeScript is a typed superset of JavaScript that compiles to plain JavaScript. Any browser. Any host. Any OS. Open Source. TypeScriptとは TypeScript はマイクロソフトによって開発されたフリーでオープンソースのプログラミング言語である。TypeScript は JavaScript に使用するかどうかが任意の静的型付けとクラスベースオブジェクト指向を加えたスーパーセットとなっている。C# のリードアーキテクトであるアンダース・ヘルスバーグが TypeScript の開発に関わっている。- Wikipedia とのことです

ksmzn 2015/08/20

リンク

はてなで大規模サービスのインフラを学んだ - ゆううきブログ

中〜大規模サービスのインフラの様子を知りたいアプリケーションエンジニア向けに、もともとアプリケーションコードを書いていた視点から、個人的な体験をベースにはてなで大規模サービスのインフラを学んだ過程や学んだ内容の一部を紹介します。 Webアプリケーションのブラックボックス Webアプリケーションフレームワークの向こう側なぜ複数のサーバが必要なのか突然のWebサービス3層構成リバースプロキシアプリケーションデータベースその他のコンポーネントキャッシュは麻薬飛び道具としてのKVS/NoSQL 非同期処理バッチ処理 Mackerelの場合参考まとめ Webアプリケーションのブラックボックス今年もはてなインターンの時期が近づいてきた。毎年ではないけど、はてなインターンでは「インフラ講義」というのをやっている。今年はインフラ講義の講師としてアサインされたのでちょうど何を話そ

ksmzn 2015/08/04

リンク

はてなブックマーク

タグ

ksmznのブックマーク (257)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス