タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

あとで読むとビッグデータに関するminamishinjiのブックマーク (2)

  • ヤフー、高次元データの高速検索技術「NGT」をオープンソース化 企業に“眠る”ビッグデータを分析しやすく

    ヤフーは11月24日、高次元データの高速検索技術「NGT」(Neighborhood Graph and Tree for Indexing)を、商用・非商用を問わず利用できるApache License 2.0のオープンソースソフトウェア(OSS)として「GitHub」で公開した。同技術に関する特許実施権も無償提供する。 NGTは、テキストや画像、商品データ、ユーザーデータなど、複数の特徴を持つ高次元データを、大量のデータベースの中から高速に検索・特定できる技術。200万件の言語データを対象にした場合、これまで最速だった技術「SASH」の約4倍、主流の技術「FLANN」の約12.3倍の速さで検索でき、1000万件の画像データが対象だと、これまで最速だった「直積量子化手法」の約5.6倍、FLANNの約13.5倍の速さで検索できるという。 NGTを使えば、近似したデータを高速でマッチングでき

    ヤフー、高次元データの高速検索技術「NGT」をオープンソース化 企業に“眠る”ビッグデータを分析しやすく
  • ニューヨーク市に学ぶ大規模データ活用の真髄

    ブルームバーグ市長が推進するニューヨーク市政府の大規模データ活用に携わっていた筆者が、さまざまな実例を基に、企業が今後いっそう注力すべきデータ解析のキーポイントをお伝えする。 近年、ブログやSNSを活用したユーザー主体の情報交換が盛んである。「YouTube」をはじめとする動画投稿サイトでやり取りされる情報は、さらにほかのユーザーからのフィードバックを受け、巨大な集合知を形成している。また、これまで活用することがなかった非構造化データや、自由度の高い準構造化データへの期待も高まっている。センサーデータ、空間情報やバイナリ情報、音声、画像、動画情報など、これまでの常識的な解析対象の蓄積型構造化データの枠組みを越え、多様化するデータ(調査会社IDCのレポートによると、2020年に世界で作成されるデータ量は、35.2ゼタバイトに達すると予測されている)は、総量で2020年までにおよそ現在の44倍

    ニューヨーク市に学ぶ大規模データ活用の真髄
  • 1