タグ

programmingと統計に関するmyrmecoleonのブックマーク (8)

  • 勤労統計問題は根深い問題である - まなめはうす

    アゴラ(池田信夫氏)のキャッチーな取り上げ方に騙されてはいけない。 agora-web.jp アゴラ:COBOLが原因 事実:開発で使われている言語を扱える者が少なかったことが原因(JavaでもPythonでも使える人が少なければ起きる) アゴラ:COBOLで書かれた特殊なプログラムなので高齢者しか読めず、そのミスがチェックできない 事実:COBOLで有名といえば「株式会社COBOL」だけれど、サイト見たとおりに若い女性が多数いる。私もちょっとだけ読めるけれど、COBOLなんて制御簡単で業務を記載する言語だろうから他の言語読めればほとんど読めると思う。 そんな感じでCOBOLTwitterでバズっているけれど、当の原因は何なのか。厚労省の報告書からプログラムのバグに関するところを読んでみた。 変更管理がされていない 抽出替え等によりシステム改修の必要性が生じた場合には、企画担当係とシス

    勤労統計問題は根深い問題である - まなめはうす
    myrmecoleon
    myrmecoleon 2019/01/24
    「はやく!はやくプロジェクトを直してくれ!」「なぜならもうお分かりだろう! 誰もプロジェクト管理をしてないのである!」感。
  • PHP の壊れた mt_rand の品質を統計的に検証した - iwiwiの日記

    メルセンヌ・ツイスターと似て非なるアルゴリズムが実装されていたことが発覚して話題の PHP の mt_rand 関数の品質を統計的に検証しました.果たして,PHP の「壊れた」mt_rand は安心して使うことができるのでしょうか……? ちなみに,結論から言うと,PHP の壊れた mt_rand は,(少なくともこのテストの範囲では)家メルセンヌ・ツイスターと遜色ない品質を持っているようです.ただし,最後に PHP の乱数の別の懸念点についても紹介します. 壊れた mt_rand とは PHP の mt_rand は,ドキュメントによると,有名な乱数生成アルゴリズム「メルセンヌ・ツイスター」を利用して高品質の乱数を生成する関数です.ところが,どうやら一部では知られていたこととして,PHP の mt_rand の実装にはバグがあり,家メルセンヌ・ツイスターと挙動が一致していませんでした.

    PHP の壊れた mt_rand の品質を統計的に検証した - iwiwiの日記
  • 競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ

    記事のタイトル通り、競馬で回収率100%を超える方法を見つけたので、その報告をする。 ちなみに、この記事では核心部分はぼかして書いてあるため、読み進めたとしても「競馬で回収率100%を超える方法」が具体的に何なのかを知ることはできない。(私は当に有効な手法を何もメリットが無いのに公開するほどお人好しではないので) 当に有効な手法を見つけたいのであれば、あなた自身がデータと向き合う以外の道は無い。 ただし、大まかな仕組み(あと多少のヒントも)だけは書いておくので、もしあなたが独力でデータ解析を行おうという気概のある人物なのであれば、この記事はあなたの助けとなるだろう。 ちなみに、これは前回の記事の続きなので、読んでない方はこちらからどうぞ。 stockedge.hatenablog.com オッズの歪みを探す さて、前回からの続きである。 前回の記事のブコメで「回収率を上げたいならオッズ

    競馬の解析をガチでやったら回収率が100%を超えた件 - stockedge.jpの技術メモ
    myrmecoleon
    myrmecoleon 2016/01/18
    オッズの歪みか。馬の勝敗より人間の心理
  • 表計算をマジなことに使わないほうがいいよ(マジで)

    You shouldn’t use a spreadsheet for important work (I mean it) 経済学者はうらやましいね。コンピューター科学者とは違って、革新的な研究で、ベストセラーをだせるときている。たとえば、 Capital in the Twenty-First Centuryだ。このはマルクス経済を再認識させるだ。を読んでいない人のために要約すると、資の増加は賃金の増加よりも高いので、資を持つ者はますます富み、ますます強大になる。大多数は貧する。少数のエリート達が、富のすべてをかき集める。一般人には富は残らない。この見方は、彼の専売特許ではない。富の集中という概念には、富める者はますます富み、貧するものはますます貧すというキャッチフレーズまである。 同じ主張をするものはいくらでもいる。しかし、証明するのは難しいし、一部の経済学者は、反証すら

  • Kibana入門

    第2回elasticsearch勉強会の発表資料です。 Kibanaの基的な使い方について網羅的にまとめました。

    Kibana入門
    myrmecoleon
    myrmecoleon 2013/11/16
    ニコニコデータセットを使ってる。
  • R 3.0登場 - 8年ぶりメジャーリリース

    R is a language and environment for statistical computing and graphics. Rプロジェクトは4月3日(オーストリア時間)、プログラミング言語Rの最新版となる「R 3.0.0」を公開した。R 3.0.0の新機能に関しては「R 3.0.0 is released! (what’s new, and how to upgrade)」に詳しい説明がある。このバージョンではパッケージの再インストールが必要になっているため注意が必要。 Rは統計計算や統計データのグラフィック化などを実施するためのプログラミング言語および統計処理環境。ベル研究所で開発された「S」のオープンソース版実装に相当するもので、現在でも盛んに開発されており、多くの統計方法を実装し、高度で美しいグラフィックレンダリングを実施することで知られる。統計処理においてはよく

    myrmecoleon
    myrmecoleon 2013/04/12
    「コアエンジン基本データサイズ(ベクタ)の32ビットから64ビットへの引き上げ」おお。Rが64bit対応されたのか。
  • 統計学の力を借りて、文字化け退散! 解決&高速化編 | 月と燃素と、ひと匙の砂糖

    前回までのあらすじ。 文字化けをどうにかしたい。 それぞれのエンコードは、バイトとバイトのつながりに特徴がある。(数バイトで一文字表すから) これを、ベクトルに見立てて、それぞれの「角度」を調べて、一番近いので分類してみた。 ある場合†1について、エンコードに含まれるASCII部分が邪魔をして推定成功率がいまいち←イマココ! ■単純に除いてみる だけ! 前回、RFCの全データを使って作ったASCIIのデータがありました。これがASCIIの使われている領域ですから、これを判断に使わなきゃ良いんじゃないの? …というわけで、ASCII部分を除外して作ってみた各エンコードの画像がこちら。(クリックすると拡大します、ぜひクリックしてみてください) ASCIIと使用領域がかぶっているISO-2022-JP(JIS)でもちゃんと要素が残っているので、使えそうです。 かなり安直な方法†2ですが、とりあえ

  • 第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT

    今ほど統計解析が必要とされる時代はありません。オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しましょう! 読者にとってRは、世に溢れるデータの密林を切り開くための“ブッシュナイフ”となることでしょう(編集部) 統計解析の必要性とリテラシー 21世紀になって、経営学者の故ピーター・ドラッカー氏が言うところの知識労働者は、ますます統計解析を必要する局面が増えてきました。この状況は、20世紀後半から21世紀に起きた計算機能力の増大とインターネットの発展を基礎に、3つの大きな潮流が現れたことがキッカケとなっているように思います。その3つの潮流とは、オープンソース、オープンデータ、そしてオープンアイデアです。後ろの2つは今筆者が名付けました。 オープンソースは、皆さんがご存知のように、Linux、Apache、PerlPythonRubyなどのO

    第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT
    myrmecoleon
    myrmecoleon 2010/07/24
    よい連載! プッシュプッシュ。検定あたりを上手く使いこなせるようになりたいなあ。
  • 1