2014年10月、ワシントン大学のNiel Richards法学部教授は、同大のJonathan King氏との共同論文「ビッグデータとプライバシーの将来像(Big Data and the Future for Privacy)」を発表した。示唆に富む本論文の要旨を整理してみたい(以下の内容は本稿の流れにおいて翻案している部分があるため、正確には原論文を参照していただきたい)。 従来、プライバシーとは個人の秘密を保持することだと整理されてきた。しかし、現実にはプライバシーは“完全に秘密”と“すべて公開”の中間状態にある。このため、個人情報を上記の2つの状態の間のどのあたりに位置づけるのかという情報取扱いのルールをプライバシーと位置付けることが適当だとしている。つまり、プライバシーとは個人情報の取り扱いのルール(information governance)とみることができる。また、このよ
Leica M7, 1.4/50 Summilux, RDP III @Griffith Observatory, Los Angels, CA 残念なことに、全く忘れていて風呂に入っていたのだが、期せずして先日取材を受けたNHKスペシャルの「医療ビッグデータ」に、先ほど何秒か登場していたようだ。 それでそのリアルタイム検索結果*1を見ていたのだが、そこで扱われていたデータがビッグデータかどうかというツイートが結構な量であることに驚いた。ビッグデータの特徴として3V(Volume, Variety, and Velocity)と言った言葉が広まってしまっているせいもあるだろう。(自分も時たま使ってしまうので今回反省している。) この方々の気持ちはわかるが、このブログの読者の方々ならお気付きの通り、今起こっている変革の本質はデータが巨大かどうかということではない。 ― 現在起こっている変革の
Webの検索エンジンと将棋の思考エンジンは似たような経緯で発展してきている。みんながどうやって場合分けを多くするか考えていた時に、逆の方向、つまり場合分けを少なくする方法で、大きなブレイクスルーが成し遂げられた。 Web上には、ニュース、マニュアル、企業の広告やPR、個人の日記など多種多様な文書があって、それぞれ作られ方も違うし、読む人が重視する特質も違う。だから、分類や検索をするのに、ジャンルごとに違う処理が必要だと思われていた。分野を限定すれば、ある程度機械的な処理が可能かもしれないが、当面それも無理なので、手作業で良質サイトのディレクトリが作られていた。 それに対し、グーグルのページランクは、全てのWeb文書を内容の区別なしにリンクのみで処理することで、機械的検索を実用化した。ここで重要なことは、文書の種類も区別しないし、文書間のリンクも、リンクする意図を一切考慮することなく全部一律
「ビッグデータ産業」の育成を目指して、政府のIT総合戦略本部が2015年1月の通常国会で個人情報保護法を改正する方針を固めた。実現すれば、データを匿名化し、個人が特定できる状態に戻さないことを約束することなどを条件に、本人の同意がなくてもパーソナルデータ(現行の個人情報保護法で定義された「個人情報」よりも広い「個人に結び付く情報」を言う)を第三者に提供できるようになる。 だが、最近の研究では、「匿名化できるビッグデータ」など、そもそも存在しないことが明らかになっている。たとえば、現在米FTCのチーフテクノロジストを務めるラタンヤ・スウィーニー氏のカーネギーメロン大学時代の研究によれば、年齢、性別、郵便番号の3情報だけで、米国在住の87%の個人を特定できる。また、米MITの研究者イヴス=アレキサンダー・デモントジョイ氏とセザー・ヒダルゴ氏の研究によれば、匿名化された位置情報であっても、ある日
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
During work and play, many times one has to make ‘back of the envelope’ calculations. Sometimes it is hard to get a perspective on scale and various aspects of big data – numbers like millions and billions or even GB/TB/PB et al. So I have started collecting a few representative numbers that can add perspective to any calculation. Please suggest more … PetaByte vs ExaBytes vs ZettaByte vs YoottaBy
"So, how much experience do you have with Big Data and Hadoop?" they asked me. I told them that I use Hadoop all the time, but rarely for jobs larger than a few TB. I'm basically a big data neophite - I know the concepts, I've written code, but never at scale. The next question they asked me. "Could you use Hadoop to do a simple group by and sum?" Of course I could, and I just told them I needed t
TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。本書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した本書は
第3回ビッグデータと統計学研究集会@統計数理研究所における「ビッグデータはどこまで効率化できるか?」の資料です(2013/05/27) http://dsms.iic.hokudai.ac.jp/BIGDATA/%E7%A0%94%E7%A9%B6%E9%9B%86%E4%BC%9A/3rd/
The advent of big data hasn’t changed the ideas behind most enterprise security practices, but it has made them better. While network security and endpoint security have always relied on the processing of files or traffic against threat databases of to determine whether they’re dangerous, big data lets them gather, store and analyze much more data. The result, in theory, are products that are more
ビッグデータへの注目が過熱する一方、そこに含まれる個人情報の取り扱いについて、さまざまな議論や問題が巻き起こっています。本書はビッグデータを取り扱う業務に携わる読者に向けて、ビッグデータを扱う際の倫理について考え、議論を行う枠組みについて、「アイデンティティ」「プライバシー」「オーナーシップ」「信用」という4つの軸とともに紹介します。「倫理」という、個別性が高く、明快な答えの見つけづらい問題について、読者自身や組織の中で実りのある議論をする一助となるでしょう。なお本書はEbookのみの販売となります。 まえがき 1章 ビッグデータのビッグインパクト なぜビッグデータなのか? ビッグデータは何を強制するのか? ビッグデータは倫理的に中立である 何をすべきかを尋ねてはいけない 重要な概念と用語 2章 価値と行動 価値を明確に表現する 価値を行動に変える 倫理的判断ポイント 3章 現在の業務 研
岡野原です。 情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。 今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。 以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。
Over the past year, I’ve seen a lot of startups, projects and tools that aim to bring fairly advanced analytic capabilities to programmers. Sometimes they do this by enabling simple scripts that result in powerful dashboards or processes, while other times they just deliver the data in an easy-to-consume manner with little work at all on the developer’s part. I think this is a meaningful trend. In
概要 ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。 解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。 ところで、データ(構造や収めているDBなども含めて)というのは寿命の長いもので、初期の設計を間違えてしまうと、その時点で戦略的な敗北は決まってしまいます。その後は運用しながら変更可能なところでゲリラ的に対応していくしか手を打てません。 そのため、実際に構築を行う前に、求められている解析がどのようなものかを十分に吟味した上で、適切なハードウェア、ミドルウェア、データ構造を選択し基盤を構築していくことが大変重要です。 着目すべき点 では解析のどのような点に着目すればよいかというと、私は次の5点を考えて
DISCLAIMER: 私はプライバシー分野はもちろん一応の勉強はしていますが、必ずしもコアな専門領域というわけではないのでBest Effortベースで書いています。もっと詳しい方からのコメントを期待します。 IBMの「ビッグデータ」担当の人が日経ITProのインタビュー記事で「ビッグデータ」の応用として通話履歴(CDR)を使ってソーシャルグラフを作るというような事例を挙げたのに対して「それは通信の秘密に反する違法行為ではないか」ということで、twitter界隈を中心にプチ炎上的な状況になっています(参考togetter)。 そもそも、「ビッグデータ」と言う言葉が出る前から通話履歴情報の分析はデータウェアハウスの重要応用分野でした。通話履歴の分析がいっさいできないということであれば容量計画もできないですし料金の設定もできません。 過去にこの手のデータウェアハウス・アプリケーションについて
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く