タグ

ブックマーク / id.fnshr.info (2)

  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
    mzi
    mzi 2017/01/10
    そのままは使えないけど、概念として
  • Googleなどでのヒット数は言語研究の証拠となるか?|Colorless Green Ideas

    Google などのサーチエンジンでのヒット数は、言語研究の証拠とするには問題がある。これはヒット数の変動が大きいなど、再現可能姓に乏しいためである。 はじめに 最近の言語学の論文では、Google などのサーチエンジンでのヒット数を議論の証拠としていることが結構ある。例えば、ある表現を Google で検索したところ5万件ヒットし、同様に別の表現を検索したところ500件しかヒットしなかったので、前者の方がよく使われる表現である、と主張するのである。 結論を先に言うと、Google などのサーチエンジンでのヒット数を言語研究の証拠とすることには問題が多い。問題点の1つとして、ヒット数に再現可能性がないことが挙げられる。ヒット数は安定的な数値ではなく、急変しうる。言語研究も科学的研究である以上、このような再現可能でないものを証拠として使うのは問題がある。また、サーチエンジンが検索対象としてい

    mzi
    mzi 2012/07/29
  • 1