タグ

data-miningとrietiに関するnabinnoのブックマーク (2)

  • コラム「ビッグデータがブームで終わらないために何が必要か」

    データ、統計調査、統計学というと難しそうで、無機質で時代遅れな印象があったのではないだろうか。しかし、2013年はビッグデータ、統計学、データサイエンティストという言葉が広まり、それらは先進的で華やかな印象を与える言葉になった。多くの人々が「データに明るくならなければ」「統計学を勉強しなければ」と思い、そのニーズを受けビジネス雑誌では特集が組まれ、統計学やデータ分析の実践書が執筆された。ついに日の目を浴びる時がきたと感じた統計関係者も多かったのではないだろうか。ただ、一過性のブームにも見え、他の流行と同じように1年後には誰も興味を示さなくなるのではとの懸念や焦燥感もある。 なぜか? まず従来、調査も統計学も華やかではないからである。華やかに注目されるべきは結果で、その過程であるデータ収集のための調査やデータ構築、統計学を応用した分析はひどく泥臭い作業の連続である。データがビッグになったから

  • RIETI - 正確で効率的なデータ構築をめざして

    近年、マイクロデータへのアクセス可能性が高まり、計算機やソフトウェアの開発も進み、多くの研究者が豊かなデータベースを構築し、実証分析を行っている。マイクロデータを用いた実証分析は、エビデンスに基づく経済政策の立案にとって不可欠である。しかし現状でも、大規模なマイクロデータを入手した際には、分析可能な形にクリーニングし、形成するのに多大な時間を要する。また、データによっても形式 (txt、csv、固定長、特定のソフトでのみ読み込み可など)が異なり、変数名の定義や個体認識IDなどのルールも煩雑で、その都度時間をかけてデータを理解し、向き合っていくことになる。さらに、通常は複数統計を使用するので、マッチングの作業も必要となってくる。 データハンドリングに慣れている研究者でも、作業工程でミスをしてしまうことがあるが、その誤りが実証分析に与える影響は大きく質的である。ゆえにデータ構築には膨大な試行

  • 1