[B! algorithm] kojosanのブックマーク

機械学習アルゴリズムへの招待 | POSTD

機械学習の問題については以前に紹介したので、次はどんなデータを収集し、どんな機械学習アルゴリズムを使うことができるのかを見ていきましょう。本投稿では、現在よく使用されている代表的なアルゴリズムを紹介します。代表的なアルゴリズムを知ることで、どんな技法が使えるかという全体的なイメージもきっとつかめてくるはずですよ。アルゴリズムには多くの種類があります。難しいのは、技法にも分類があり拡張性があるため、規範的なアルゴリズムを構成するものが何なのか判別するのが難しいということですね。ここでは、実際の現場でも目にする機会の多いアルゴリズムを例にとって、それらを検討して分類する2つの方法をご紹介したいと思います。まず1つ目は、学習のスタイルによってアルゴリズムを分ける方法。そして2つ目は、形態や機能の類似性によって（例えば似た動物をまとめるように）分ける方法です。どちらのアプローチも非常に実用的

kojosan 2014/07/31

リンク

Spotify: 曲をシャッフルするのは単純にランダムではいけない - ワザノバ | wazanova

http://labs.spotify.com/2014/02/28/how-to-shuffle-songs/ 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約4時間前 SpotifyのLukáš Poláčekがプレイリストをシャッフルするロジックを改善した取り組みを紹介しています。以前のロジックランダムアルゴリズムには、Fisher-Yates shuffleを利用。順次再生する曲を選ぶロジック同士には依存関係がなく、完全にランダムに選択される。よって、同じアーティストとの曲が連続して再生されることも可能性としてはある。これはギャンブラーの誤謬と呼ばれる現象。例えば、コイントスで表が連続してでると、次は裏が出ると思いがちであるが、常に確率は1/2である。従前の結果が次の結果に影響を与えると考えてし

kojosan 2014/03/09

おもしろい！

リンク

Random Forestで計算できる特徴量の重要度 - なにメモ

(pixabay.comより) １．背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと（追記注釈１）などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。最近、Random Forestをカジュアルに使う例が多く（特にうちの研究室）、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。それで、いろいろな日本語の資料をいくら読んでも、Random Forestがもつ特徴の１つである、特徴量の重要度の詳細に関してはほとんどノータッ

kojosan 2013/12/25

リンク

クアッドコプターの驚くべき運動能力

Raffaello D'Andrea / 青木靖訳 2013年6月 (TEDGlobal 2013) 運動抜群の機械というのはどういうものでしょう？これから機械の運動能力の実演と、それに必要な研究を、クアッドコプターを使ってご覧に入れます。クアッドコプターは結構昔からあったんですが、最近流行りだした理由は、構造的にとてもシンプルだからです。４つのプロペラの回転を制御することで、ロール、ピッチ、ヨー、そしてプロペラの方向への加速が出来ます。またこれには電池、コンピュータ、様々なセンサと、無線がついています。クアッドコプターはとても敏捷ですが、その代償として本質的な不安定さがあり、飛ばせるためにある種のフィードバック制御が必要になります。 (クアッドコプターを放り投げると静かに戻ってくる) 今のをどうやってやったのかですが、天井のカメラとノートPCがこの室内の測位システムの役割をしていて、

kojosan 2013/10/02

リンク

入門データ構造とアルゴリズム

インド工科大学（IIT）と企業の両方で豊富な経験を持つインド人著者による、実例豊富なデータ構造とアルゴリズムの解説書。伝統的なデータ構造とアルゴリズムのトピックで、基本をしっかり押さえるだけでなく、集合のUnion/Find、動的プログラミングや計算量クラスといった話題も盛り込んでいます。圧倒的な情報量でプログラマに必要な知識を網羅。600弱の練習問題とその解を収録しており、理解度を細かく確認し、知識を着実に身に付けることができます。正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の上、ご利用ください。第1刷正誤表

kojosan 2013/08/10

けっこうなボリューム

リンク

Graphillion: 数え上げおねえさんを救え / Don't count naively

Graphillion は膨大な数のグラフに対して検索や最適化、列挙を行うための Python モジュールです。このビデオは Graphillion の概要を知るためのチュートリアルです。「フカシギの数え方」 http://youtu.be/Q4gTV4r0zRs の続編として作成されました。 Graphillion is a Python software package on search, optimization, and enumeration for a very large set of graphs. This video is a quick tutorial to learn what Graphillion is. The story follows our previous episode, "Let's count!" http://youtu.be/Q4gT

kojosan 2013/06/20

リンク

Modern GPU

© 2013, NVIDIA CORPORATION. All rights reserved. Code and text by Sean Baxter, NVIDIA Research. (Click here for license. Click here for contact information.) Modern GPU is code and commentary intended to promote new and productive ways of thinking about GPU computing. This project is a library, an algorithms book, a tutorial, and a best-practices guide. If you are new to CUDA, start here. If you'r

kojosan 2013/05/21

CUDAを使った各種アルゴリズムの実装ガイド

リンク

ボットはいかにして私から価格付けの力を奪ったのか

Carlos Bueno / 青木靖訳 2012年2月25日 Lauren Ipsum——コンピュータサイエンスやその他のありそうにないもののお話私に降りかかった問題について話す前に、“Computer Game Bot Turing Test”(コンピュータゲームボットのチューリングテスト)という別な本の話をしよう。ランダムなWikipediaの記事を元にマルコフチェーンを使って「書かれ」ネット上で法外な値段で売られている10万冊以上ある「本」の中の１冊だ。出しているのはBetascriptという、その手の出版社として悪名高い会社だ。なんかすごいことになっている。Amazonマーケットプレイスには古本を持ったフリをしたボットが山ほどいて、誰もいまだ目にしたことのないような価格戦争を繰り広げているのだ。このチューリングテストの本では輝く未来的なナンセンスを目にすることができる。人間の

kojosan 2012/02/28

リンク

アルゴリズムが形作る世界

アルゴリズムが形作る世界 (TEDTalks) Kevin Slavin / 青木靖訳 2011年7月この写真はマイケル・ナジャーによるものです。実際アルゼンチンに行って撮ってきたという意味で本物の写真ですが、フィクションでもあります。後でいろいろ手が加えられているからです。何をしたかというと、デジタル加工をして山の稜線の形をダウジョーンズのグラフにしたのです。だからご覧いただいている谷に落ち込んでいる絶壁は、2008年の金融危機です。この写真は私たちが谷の深みにいたときに作られました。今はどこにいるのか分かりません。こちらは香港のハンセン指数です。似たような地形ですね。どうしてなんでしょう？これはアートであり、メタファーです。でも重要なのは、これが牙のあるメタファーだということです。その牙のために、今日はひとつ現代数学の役割を再考したいと思います。金融数学でなく、もっと一般的な数学

kojosan 2012/02/28

リンク

MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena

Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscala ble.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。いくつかの実用的なケーススタディも提供している。すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー

kojosan 2012/02/24

リンク

New analysis reveals clearer picture of brain’s language areas

Researchers from the AI Policy Forum — a global effort convened by researchers from MIT — will present their initial policy recommendations aimed at managing the effects of artificial intelligence and building AI systems that better reflect society’s values.

kojosan 2012/01/19

リンク

quick sortよりも高速でmerge sortのように安定しているソートアルゴリズムtim sort [勘違い] - Islands in the byte stream

<追記>ベンチマークプログラムに誤りがありました。ソート済のシーケンスに対してソートを掛けていました。ご指摘ありがとうございます＞ak氏そんな夢のようなソートアルゴリズムがあるのかというと、あるらしいんです。それがtim sortと呼ばれるアルゴリズムです。画期的（？）なソートアルゴリズム「Sleep Sort」：濃縮還元オレンジニュース｜gihyo.jp … 技術評論社このあたりで拾ってきたネタですね。 merge sortを改良したアルゴリズムで、安定*1しており、しかも実行速度にも優れているとか。アルゴリズムの性能の評価は済んでいるらしく、CPythonやJDK7には既に導入済みのようですね。ならば当然Perlのソートも…と考えるわけですが、まず評価のためにJavaのソースをC++にそのまま移植してみました。それがこれ（いちおうテスト済）： https://github.co

kojosan 2011/10/19

リンク

EM algorithm（EMアルゴリズム、Expectation Maximization algorithm）について - データサイエンティスト上がりのDX参謀・起業家

EMアルゴリズムはいろんなところで使われます。基本的には未知パラメータの推定方法の一種です。とりあえず箇条書でまとめます。提案論文：Maximun likelihood from incomplete data via the EM algorithm. Dempster AP, Laird NM and Rubin DB. JRSS B. 39,1-38. 1977. 提案者のRubinは欠測分野、因果推論の権威で次の教科書も書いています。 Statistical Analysis with Missing Data (Wiley Series in Probability and Statistics) 作者: Roderick J. A. Little,Donald B. Rubin出版社/メーカー: Wiley-Interscience発売日: 2002/09/09メディア:

kojosan 2011/09/27

リンク

Googleアルゴリズム200項目全てを特別公開 – マーケティングブログ

Googleアルゴリズムの200の要素を発見しましょう！（Let’s Try to Find All 200 Parameters in Google Algorithm）は2009年に書かれた記事ですが、パンダアップデートが適用された今現在（2011年4月）でも重要項目が多く書かれているもので。多くはGoogleの特許（合衆国特許出願0050071741）に基づいていますが、筆者のアンが自身の解析結果や予測を盛り込んでいる事で、より実践に近い内容になっています。 SEO初心者の方は、これからのウェブ制作の軸に、SEOエキスパートの方はもう一度自身のサイトを見直す目次として確認してみてはいかがでしょうか。ドメインに関する13要因ドメイン年齢ドメイン取得からの長さドメイン登録情報（Who is情報）の表示/非表示ドメイン種類（サイトレベルドメイン（.com や co.uk）ト

kojosan 2011/04/23

リンク

アルゴリズムの紹介

ここでは、プログラムなどでよく使用されるアルゴリズムについて紹介したいと思います。元々は、自分の頭の中を整理することを目的にこのコーナーを開設してみたのですが、最近は継続させることを目的に新しいネタを探すようになってきました。まだまだ面白いテーマがいろいろと残っているので、気力の続く限りは更新していきたいと思います。今までに紹介したテーマに関しても、新しい内容や変更したい箇所などがたくさんあるため、新規テーマと同時進行で修正作業も行なっています。アルゴリズムのコーナーで紹介してきたサンプル・プログラムをいくつか公開しています。「ライン・ルーチン」「円弧描画」「ペイント・ルーチン」「グラフィック・パターンの処理」「多角形の塗りつぶし」を一つにまとめた GraphicLibrary と、「確率・統計」より「一般化線形モデル」までを一つにまとめた Statistics を現在は用意していま

kojosan 2009/10/16

algorithm

リンク

GC - GCアルゴリズム詳細解説 - livedoor Wiki（ウィキ）

GC¥¢¥ë¥´¥ê¥º¥à¾ÜºÙ²òÀâ ÆüËÜ¸ì¤Î»ñÎÁ¤¬¤¹¤¯¤Ê¤¤GC¥¢¥ë¥´¥ê¥º¥à¤Ë¤Ä¤¤¤Æ¾ÜºÙ¤Ë²òÀâ¤·¤Þ¤¹ ¥È¥Ã¥×¥Ú¡¼¥¸¥Ú¡¼¥¸°ìÍ÷¥á¥ó¥Ð¡¼ÊÔ½¸ GC ºÇ½ª¹¹¿·¡§ author_nari 2010Ç¯03·î14Æü(Æü) 20:47:11ÍúÎò Tweet ¤³¤ÎWiki¤¬ÌÜ»Ø¤¹½ê GC¤È¤Ï¡© GC¤ò³Ø¤ÖÁ°¤ËÃÎ¤Ã¤Æ¤ª¤¯»ö ¼Â¹Ô»þ¥á¥â¥ê¹½Â¤ ´ðËÜ¥¢¥ë¥´¥ê¥º¥àÊÔ Reference Counter Mark&Sweep Copying ±þÍÑ¥¢¥ë¥´¥ê¥º¥àÊÔ IncrementalGC À¤ÂåÊÌGC ¥¹¥Ê¥Ã¥×¥·¥ç¥Ã¥È·¿GC LazySweep TwoFinger Lisp2 Pa

kojosan 2008/12/15

algorithm

リンク

アルゴリズムの概要

第１項：アルゴリズムとは第２項：アルゴリズムの性能第３項：O(オー)記法第４項：データ構造［１］アルゴリズムとはアルゴリズムとは、ある問題を解くための手順、すなわち、公式のことです。もう少し厳密には、明確で有限個の手順を有限回繰り返す計算方法のことです。［アルゴリズム］明確に定義された有限個の規則の集まりであって、有限回適用することによって問題を解くもの。 (JIS(日本工業規格)より) 明確な手順とはその通りの意味です。第0部でも説明したように、コンピュータは明確な命令を必要とします。「冷蔵庫からキムチを取ってこい」というのは不明確な命令であり、「18度回転、182センチ前進、36度回転、腕を90度上昇・・・」は明確な命令です。有限個の手順とは、少々不思議な表現です。手順が無限になることは一般には考えづらいので、あまり気にしなくて

kojosan 2008/07/10

algorithm

リンク

集合知プログラミング

TOPICS Programming , Web , Python 発行年月日 2008年07月 PRINT LENGTH 392 ISBN 978-4-87311-364-7 原書 Programming Collective Intelligence FORMAT Print 本書は現在注目を集めている「集合知（collective intelligence）」をテーマにした書籍です。機械学習のアルゴリズムと統計を使ってウェブのユーザが生み出した膨大なデータを分析、解釈する方法を、基礎から分かりやすく解説します。本書で紹介するのは「購入・レンタルした商品の情報を利用した推薦システム」、「膨大なデータから類似したアイテムを発見し、クラスタリングする方法」、「数多くの解決策の中から最適なものを探し出す方法」、「オークションの最終価格を予想する方法」、「カップルになりそうなペアを探す方法」、

kojosan 2008/07/10

リンク

The Aggregate Magic Algorithms

There are lots of people and places that create and collect algorithms of all types (here are a few WWW sites). Unfortunately, in building systems hardware and software, we in The Aggregate often have found it necessary to do relatively obscure low-level things very efficiently. Many of the tricks we've devised or collected either require assem bly language coding or are not entirely porta ble when