タグ

統計とデータ工学に関するmziのブックマーク (5)

  • DATA GO JP/open data

    データセット データセットとは、ファイルやURLなどの「オープンデータ」が登録された入れ物を指します。 データポータルでは、複数の切り口からデータセットを探すことができます。

  • 転置インデックスの圧縮 - tsubosakaの日記

    Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。 利用したデータは英語版Wikidiaの全記事で 文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。 無圧縮の転置インデックスのフォーマットは 単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。 これに対して各圧縮アルゴリズムを適用した結果は アルゴリズム 無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

    転置インデックスの圧縮 - tsubosakaの日記
  • 検索エンジン相関図 2009年7月版 αSEO

    検索エンジン相関図 2009年7月版です。 検索連動型広告の掲載パートナーや、検索エンジンの主要な提携先等をまとめています。 主な動き 今年2回目の検索エンジン相関図です。直近3ヶ月の間で検索業界は大きな動きがありましたので、総括します。 まずAsk.jp。2004年8月にベータ版開始、翌年2月に正式日語版サービスを開始して格的に日市場に参入しました。当初は答えをずばり検索結果に表示する「一発検索」の拡充による利便性の向上、TV CM放映やディズニーサイトへの検索窓設置によるユーザ数拡大、ネットマイルと提携して検索するたびにマイルを貯められるインセンティブの提供など、Yahoo!Googleから検索シェアを奪うための様々な施策を行いました。しかし検索エンジンを乗り換える、あるいは併用するための動機付けをするには十分ではなく、日のユーザの心をつかむことはできませんでした。結果、

    検索エンジン相関図 2009年7月版 αSEO
  • Google Ad Planner

    Ad Planner has been replaced with Google Display Planner. Display Planner includes nearly all the features you used in Ad Planner. It also integrates the Contextual Targeting Tool and the Placement Tool. Plus, it's built right into AdWords, so you can directly modify your campaigns. Next steps Try out Display Planner Learn about Display Planner

  • パソコンで7割が「ファイルの迷子」経験

    パソコン内でファイルをどこに保存したか分からなくなり、迷子にしてしまったことがある人はどのくらいいるのだろうか。20代から40代のネットユーザーを対象に調査、有効回答数380名の回答を集計した。うち、自宅や職場でパソコンを利用しているのは344名(90.5%)。 ファイルの保存場所(フォルダなど)を決めているかと聞いたところ、45.9%が「すべて決めている」と回答。「すべて決めていない」のは3.2%にとどまり、「決めているものと決めていないものがある」が50.9%を占め、性別、年代別による差はほとんどなかった。 ファイルの整理頻度は「半年に1度程度」が31.1%で最も多く、次いで「月に1度程度」が25.6%、「年に1度程度」が14.8%といった順だった。 性別、年代別でも同じ順位だが、男性は「数年に1度程度」とほとんど整理をしたことがない人が10%近くいることが目についた。また、20代・3

    パソコンで7割が「ファイルの迷子」経験
  • 1