タグ

bigdataに関するyassのブックマーク (25)

  • グーグルは、なぜAIエンジンをオープンソース化したのか?

    yass
    yass 2015/12/06
    " 「フリーソフトウェア・ムーヴメントの勝利」だとは考えなかった。彼はそれを「データの勝利」とみたのだ。"
  • TechCrunch

    In a recent New Yorker essay, Kyle Chayka poses a dread-inducing question: when was the last time you had fun on the internet? For his example of pure online fun, he points to a retro Flash gaming sit

    TechCrunch
    yass
    yass 2015/09/12
  • ビッグデータとプライバシーの将来像 - タニワキ日記

    2014年10月、ワシントン大学のNiel Richards法学部教授は、同大のJonathan King氏との共同論文「ビッグデータとプライバシーの将来像(Big Data and the Future for Privacy)」を発表した。示唆に富む論文の要旨を整理してみたい(以下の内容は稿の流れにおいて翻案している部分があるため、正確には原論文を参照していただきたい)。 従来、プライバシーとは個人の秘密を保持することだと整理されてきた。しかし、現実にはプライバシーは“完全に秘密”と“すべて公開”の中間状態にある。このため、個人情報を上記の2つの状態の間のどのあたりに位置づけるのかという情報取扱いのルールをプライバシーと位置付けることが適当だとしている。つまり、プライバシーとは個人情報の取り扱いのルール(information governance)とみることができる。また、このよ

    ビッグデータとプライバシーの将来像 - タニワキ日記
    yass
    yass 2014/12/28
    " ビッグデータ解析に用いられるアルゴリズムによって個人が様々な特性に応じてグルーピング化され、差別的な取扱いが行われたり、条件に合致しない個人に対して情報が提供されなくなる可能性がある。"
  • ビッグデータの本質はデータの大きさではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

    Leica M7, 1.4/50 Summilux, RDP III @Griffith Observatory, Los Angels, CA 残念なことに、全く忘れていて風呂に入っていたのだが、期せずして先日取材を受けたNHKスペシャルの「医療ビッグデータ」に、先ほど何秒か登場していたようだ。 それでそのリアルタイム検索結果*1を見ていたのだが、そこで扱われていたデータがビッグデータかどうかというツイートが結構な量であることに驚いた。ビッグデータの特徴として3V(Volume, Variety, and Velocity)と言った言葉が広まってしまっているせいもあるだろう。(自分も時たま使ってしまうので今回反省している。) この方々の気持ちはわかるが、このブログの読者の方々ならお気付きの通り、今起こっている変革の質はデータが巨大かどうかということではない。 ― 現在起こっている変革の

    ビッグデータの本質はデータの大きさではない - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
    yass
    yass 2014/11/03
    " 人類は10年前の約50倍の計算キャパを持っており、このままいけば10年後には10年前の2500倍もの計算キャパを持つことになる。人口は地球上の6割がたの地域ですでにプラトーに達し、むしろ減少方向にある中で、だ。"
  • 検索エンジンと将棋ソフトに見る計算馬力とのつきあい方 - アンカテ

    Webの検索エンジンと将棋の思考エンジンは似たような経緯で発展してきている。みんながどうやって場合分けを多くするか考えていた時に、逆の方向、つまり場合分けを少なくする方法で、大きなブレイクスルーが成し遂げられた。 Web上には、ニュース、マニュアル、企業の広告やPR、個人の日記など多種多様な文書があって、それぞれ作られ方も違うし、読む人が重視する特質も違う。だから、分類や検索をするのに、ジャンルごとに違う処理が必要だと思われていた。分野を限定すれば、ある程度機械的な処理が可能かもしれないが、当面それも無理なので、手作業で良質サイトのディレクトリが作られていた。 それに対し、グーグルのページランクは、全てのWeb文書を内容の区別なしにリンクのみで処理することで、機械的検索を実用化した。ここで重要なことは、文書の種類も区別しないし、文書間のリンクも、リンクする意図を一切考慮することなく全部一律

    検索エンジンと将棋ソフトに見る計算馬力とのつきあい方 - アンカテ
    yass
    yass 2014/05/18
    " 象徴的なのは、ボナンザ開発者の保木氏はそれまでの開発者と違って、将棋の初心者だったことだ / おそらく人間の抽象化能力は、ビッグデータよりずっと少ないデータ量に最適化されている "
  • MICの解説

    だいぶ前に大学で発表したMICの解説スライドです。 サイト作ってます。 http://logics-of-blue.com/

    MICの解説
  • 「ビッグデータが民主主義を壊す」のは悪くない話

    「ビッグデータ産業」の育成を目指して、政府のIT総合戦略部が2015年1月の通常国会で個人情報保護法を改正する方針を固めた。実現すれば、データを匿名化し、個人が特定できる状態に戻さないことを約束することなどを条件に、人の同意がなくてもパーソナルデータ(現行の個人情報保護法で定義された「個人情報」よりも広い「個人に結び付く情報」を言う)を第三者に提供できるようになる。 だが、最近の研究では、「匿名化できるビッグデータ」など、そもそも存在しないことが明らかになっている。たとえば、現在米FTCのチーフテクノロジストを務めるラタンヤ・スウィーニー氏のカーネギーメロン大学時代の研究によれば、年齢、性別、郵便番号の3情報だけで、米国在住の87%の個人を特定できる。また、米MITの研究者イヴス=アレキサンダー・デモントジョイ氏とセザー・ヒダルゴ氏の研究によれば、匿名化された位置情報であっても、ある日

    「ビッグデータが民主主義を壊す」のは悪くない話
    yass
    yass 2014/01/24
    " 業界と政府はビッグデータの規制緩和でともにメリットを得られる立場にあり、国民の側に立って、プライバシーの保護を真剣に検討することは期待しにくいのだ。"
  • みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

    Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

    みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
    yass
    yass 2013/10/05
  • How big is a Petabyte, Exabyte, Zettabyte, or a Yottabyte? - High Scalability -

    yass
    yass 2013/09/29
    " 5 Exabytes: All words ever spoken by human beings. "
  • BigData Counts

    During work and play, many times one has to make ‘back of the envelope’ calculations. Sometimes it is hard to get a perspective on scale and various aspects of big data – numbers like millions and billions or even GB/TB/PB et al. So I have started collecting a few representative numbers that can add perspective to any calculation. Please suggest more … PetaByte vs ExaBytes vs ZettaByte vs YoottaBy

    BigData Counts
    yass
    yass 2013/09/29
    " Google + -> Max 15 Million visits per week / eBay adds 50 TB/day / facebook messages numbers 6 Billion/Day, 180 Billion/Month, 6 PB (without compression) / 2 PB (LZO compressed) / Amazon S3 762 Billion Objects / Tweets per day & Tweets Per Second (TPS) 15,358 TPS "
  • Don't use Hadoop - your data isn't that big

    "So, how much experience do you have with Big Data and Hadoop?" they asked me. I told them that I use Hadoop all the time, but rarely for jobs larger than a few TB. I'm basically a big data neophite - I know the concepts, I've written code, but never at scale. The next question they asked me. "Could you use Hadoop to do a simple group by and sum?" Of course I could, and I just told them I needed t

    yass
    yass 2013/09/18
    " If you have a single table containing many terabytes of data, Hadoop might be a good option for running full table scans on it. If you don’t have such a table, avoid Hadoop like the plague. / Hadoop does not have any conception of indexing. Hadoop has only full table scans. "
  • バッドデータハンドブック

    TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した書は

    バッドデータハンドブック
  • ビッグデータはどこまで効率化できるか?

    第3回ビッグデータと統計学研究集会@統計数理研究所における「ビッグデータはどこまで効率化できるか?」の資料です(2013/05/27) http://dsms.iic.hokudai.ac.jp/BIGDATA/%E7%A0%94%E7%A9%B6%E9%9B%86%E4%BC%9A/3rd/

    ビッグデータはどこまで効率化できるか?
  • ビッグデータ活用事例と技術動向& Jubatusの概要 NTTソフトウェアイノベーションセンター ソフトウ アイ ション ンタグループリーダ・主幹研究員 木下真吾

  • 6 ways big data is helping reinvent enterprise security – Old GigaOm

    The advent of big data hasn’t changed the ideas behind most enterprise security practices, but it has made them better. While network security and endpoint security have always relied on the processing of files or traffic against threat databases of to determine whether they’re dangerous, big data lets them gather, store and analyze much more data. The result, in theory, are products that are more

  • ビッグデータの倫理

    ビッグデータへの注目が過熱する一方、そこに含まれる個人情報の取り扱いについて、さまざまな議論や問題が巻き起こっています。書はビッグデータを取り扱う業務に携わる読者に向けて、ビッグデータを扱う際の倫理について考え、議論を行う枠組みについて、「アイデンティティ」「プライバシー」「オーナーシップ」「信用」という4つの軸とともに紹介します。「倫理」という、個別性が高く、明快な答えの見つけづらい問題について、読者自身や組織の中で実りのある議論をする一助となるでしょう。なお書はEbookのみの販売となります。 まえがき 1章 ビッグデータのビッグインパクト なぜビッグデータなのか? ビッグデータは何を強制するのか? ビッグデータは倫理的に中立である 何をすべきかを尋ねてはいけない 重要な概念と用語 2章 価値と行動 価値を明確に表現する 価値を行動に変える 倫理的判断ポイント 3章 現在の業務 研

    ビッグデータの倫理
  • 機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development

    岡野原です。 情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。 今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。 以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

    機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development
  • A programmer’s guide to big data: 12 tools to know – Old GigaOm

    Over the past year, I’ve seen a lot of startups, projects and tools that aim to bring fairly advanced analytic capabilities to programmers. Sometimes they do this by enabling simple scripts that result in powerful dashboards or processes, while other times they just deliver the data in an easy-to-consume manner with little work at all on the developer’s part. I think this is a meaningful trend. In

  • データ解析基盤を構築する前に考慮すべきポイント - still deeper

    概要 ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。 解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。 ところで、データ(構造や収めているDBなども含めて)というのは寿命の長いもので、初期の設計を間違えてしまうと、その時点で戦略的な敗北は決まってしまいます。その後は運用しながら変更可能なところでゲリラ的に対応していくしか手を打てません。 そのため、実際に構築を行う前に、求められている解析がどのようなものかを十分に吟味した上で、適切なハードウェア、ミドルウェア、データ構造を選択し基盤を構築していくことが大変重要です。 着目すべき点 では解析のどのような点に着目すればよいかというと、私は次の5点を考えて

  • ビッグデータとプライバシーについて | 栗原潔のIT弁理士日記

    DISCLAIMER: 私はプライバシー分野はもちろん一応の勉強はしていますが、必ずしもコアな専門領域というわけではないのでBest Effortベースで書いています。もっと詳しい方からのコメントを期待します。 IBMの「ビッグデータ」担当の人が日経ITProのインタビュー記事で「ビッグデータ」の応用として通話履歴(CDR)を使ってソーシャルグラフを作るというような事例を挙げたのに対して「それは通信の秘密に反する違法行為ではないか」ということで、twitter界隈を中心にプチ炎上的な状況になっています(参考togetter)。 そもそも、「ビッグデータ」と言う言葉が出る前から通話履歴情報の分析はデータウェアハウスの重要応用分野でした。通話履歴の分析がいっさいできないということであれば容量計画もできないですし料金の設定もできません。 過去にこの手のデータウェアハウス・アプリケーションについて

    ビッグデータとプライバシーについて | 栗原潔のIT弁理士日記