タグ

data scienceに関するvanbraamのブックマーク (15)

  • Stop Hiring Data Scientists.

  • 「千羽鶴」という単語を9ヶ月全件監視し続けて気づいたこと「自分より劣った他者を蔑むことで得られる感情があるのかもしれない」

    じゅりゅー @zyuryu_ 「千羽鶴」という単語を9ヶ月くらい全件監視してる僕だから分かるんですけど誰も千羽鶴を送ろうとしてないのに、千羽鶴を送るなってみんな言ってるんですよね。 仮想敵というか炎上に近い、ネット特有の過剰な攻撃性が垣間見られて非常に面白い。 twitter.com/zyuryu_/status… 2018-09-07 21:35:10

    「千羽鶴」という単語を9ヶ月全件監視し続けて気づいたこと「自分より劣った他者を蔑むことで得られる感情があるのかもしれない」
    vanbraam
    vanbraam 2018/09/10
    実際に送られてる,と主張する人は,是非とも"今日送られて来た千羽鶴の数"を房単位でいいのでtweetしてほしい.Googleじゃないが,情報が可視化されてくる事で初めて見えるものはあると思う(故に@zyuryu_氏の取組も興味深い)
  • Intel iQ Japan -

    Auto-suggest helps you quickly narrow down your search results by suggesting possible matches as you type.

    vanbraam
    vanbraam 2018/05/14
    "Semantic Data Lake"とcybersecurityの為のadvanced analyticsという2つのほぼ独立な話が1記事に入ってるのわかりにくい;でも"Thirty percent of the world’s data is already estimated to be healthcare data"というのは興味深い
  • 経済学者がビッグデータに熱心でない理由 - himaginary’s diary

    BOEチーフエコノミストのアンドリュー・ホールデンが、ビッグデータをテーマに講演している(H/T Mostly Economics)。 その中で、ビッグデータに対する経済学者とデータサイエンティストの態度の違いについて以下のように述べている。 The first thing to say is that Big Data and data analytic techniques are not new. Nonetheless, over recent years they have become one of the most rapidly rising growth areas in academic and commercial circles. Over that period, data has become the new oil; data analytic techniq

    経済学者がビッグデータに熱心でない理由 - himaginary’s diary
    vanbraam
    vanbraam 2018/05/05
    経済学者もdata scientistも立場が違うだけで両方正しいんだと思う;経済学者は所謂統計の嘘の危険を知り抜いていて,その経済学分野(人の生死にも関わる)での悪用を恐れる;data scientistは分析/予測が金に繋がればOK
  • なぜデータ基盤を作ったのか?「ゼクシィ縁結び・恋結び」で必要になった理由

    システム、プロセス、カルチャーをいかにエンジニアリングするか 連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』では「データ基盤」の構築事例を紹介します。具体的には、オンライン婚活サービス「ゼクシィ縁結び」ならびにその姉妹サービス「ゼクシィ恋結び」の開発現場において、筆者が実際に行ったことを題材としています。 データ基盤を実際に構築するのは容易ではありません。構築したデータ基盤を実際に利用し続けてもらうのはさらに難しいことです。 多くの関係者がデータを加工すると、似ている意味を持っていても微妙に異なるデータが生成されてしまい、どのデータが正しいのか誰も分からなくなってしまいます。きちんと全員に使われるためにはデータの持つ意味や加工ロジックを誰かが整理しなければいけません。 また、モダンなツールを使って派手なダッシュボードを構築しても、それだけでは1週間後には誰も見なくなって

    なぜデータ基盤を作ったのか?「ゼクシィ縁結び・恋結び」で必要になった理由
    vanbraam
    vanbraam 2018/04/24
    後半重要."部署ごとに加工ロジックや見ているデータが徐々にズレていき、最終的に「売上」という言葉で表現されるものが全く違う数字になるという状況が生まれてしまいました"
  • Wes McKinney - Announcing Ursa Labs: an innovation lab for open source data science

    Announcing Ursa Labs: an innovation lab for open source data science Funding open source software development is a complicated subject. I’m excited to announce that I’ve founded Ursa Labs (https://ursalabs.org), an independent development lab with the mission of innovation in data science tooling. I am initially partnering with RStudio and Two Sigma to assist me in growing and maintaining the lab’

    vanbraam
    vanbraam 2018/04/20
    OSSプロダクトとお金(開発者の生活含む)に関する話."Consulting","Startup","Corporate User"の3つの罠は鋭い指摘.本人の経験談からは情熱と共に冷静な態度が感じられる;Tideliftの被依存プロジェクトにfundを提供する仕組みも興味深い
  • Why so many data scientists are leaving their jobs

    Yes, I am a data scientist and yes, you did read the title correctly, but someone had to say it. We read so many stories about data science being the sexiest job of the 21st century and the attractive sums of money that you can make as a data scientist that it can seem like the absolute dream job. Factor in that the field contains an abundance of highly skilled people geeking out to solve complex

    Why so many data scientists are leaving their jobs
    vanbraam
    vanbraam 2018/04/01
    (海外でも)data scientist職の理想と現実は違う,という話;Data scientistsは有効なインフラを必要とするし,アルゴリズムより社内政治が重要だし,データの事は何でも知ってると思われがちだし,DSだけのチームでは力を発揮できない
  • Intel iQ Japan -

    Auto-suggest helps you quickly narrow down your search results by suggesting possible matches as you type.

    vanbraam
    vanbraam 2018/03/14
    食料品業界がe-commerceのリーダーであり,そこではAmazonだけでなく,Schwarz Group(Lidl等)とAldiが存在感を示しているとの事.LidlもAldiも知らなかった
  • グーグル検索が露わにする人間のヤバイ本性

    事件の4日後、オバマ大統領(当時)は国民向け演説で「差別を拒むことは、宗派を問わずすべての米国人の責務」と語り、「自由は恐怖に勝ることを忘れないよう」呼びかけた。「タフで冷静」、「恐怖に判断力を曇らせられないよう促した」。人々の良心に語りかけ、受容と寛容の重要性を説いた演説はメディアに称賛された。 しかし、著者らがグーグル検索のデータを分析したところ、異なる実態が浮かび上がってきた。イスラム教徒を「テロリスト」「悪人」「暴力的」「邪悪」などのワードと結びつけた検索が、演説終了後に倍増していたのだ。 データ分析が浮き彫りにする事実 書『誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい性』は、グーグルのデータサイエンティストや大学の客員講師などを勤めてきた人物が、データ分析が浮き彫りにする事実やそのインパクトについて縦横無尽に語った一冊である。著者がメインに取り組むグーグル検索分析

    グーグル検索が露わにする人間のヤバイ本性
    vanbraam
    vanbraam 2018/03/11
    "データによる行き過ぎた選別"は本当に危険.そのリスクを考えたら,データの利用を法律で制限してもいいくらい;本当に何度でも書くがb:id:entry:360126633はそれを伝える優れたフィクションだと思う
  • The Analytics Lab - Cmotions

  • R, Python, SAS, SPSSをヨーロッパのデータサイエンティストの視点で比べてみた - Qiita

    先日、第3の波ーAI機械学習、データサイエンスの民主化という記事の中でも話したように、今では世界中のどこでもデータサイエンスの世界ではRもしくはPythonといったオープンソースのプログラミング言語やツールが広く使われるようになりました。 実際私たちも特にシリコンバレーの様々なタイプのお客様と接することが多々ありますが、最近ではいよいよSASもしくはSPSSといった古くからあるエンタープライズ向けのデータ分析・統計ツールを会社で使用するためにかかる莫大なコストを見直すという圧力が日々大きくなっているようで、新規のプロジェクト、もしくは新規に雇用された人たちがそういった経費の承認を得るのは基的にありえないか、あってもかなり大変らしいです。で、結局、どうせSASもしくはSPSSを使ってやろうとしてることは何でもRもしくはPythonを使ってできてしまうし、さらにもっと多くの最先端のアルゴリ

    R, Python, SAS, SPSSをヨーロッパのデータサイエンティストの視点で比べてみた - Qiita
    vanbraam
    vanbraam 2017/05/31
    "説明のための分析"と"予測のための分析"か.なるほどなぁ
  • Cloudera Data Science Workbench:企業向けセルフサービスデータサイエンス

    原文:Cloudera Data Science Workbench: Self-Service Data Science for the Enterprise 原著者:Matt Brandwein, Tristan Zajonc 翻訳:有賀 私たちは機械学習の黄金時代に突入しています。それはすべてデータに関するものです。 データの量が増え、計算とストレージのコストが低下し続けることで、世界最大の問題を解決する機会はこれまでになく増えました。 当社のお客様は、すでに高度な機械学習を使用して自動運転車を構築し、病院での新生児のケアを改善し、金融犯罪の防止や、サイバー攻撃の脅威と戦っています。 しかしこれは始まりに過ぎません。 Clouderaでは、お客様がデータを活用することで実現できる限界を広げるためのご支援を行い続けています。 日、エンタープライズにおいても高速で使いやすく、セキュアな

    Cloudera Data Science Workbench:企業向けセルフサービスデータサイエンス
    vanbraam
    vanbraam 2017/03/17
    認証:Webアプリなのでサーバー側で実施して隠蔽;Hadoop,Spark:サーバー側で隠蔽,分析者は慣れた言語で;この2つはわかったが,"小データセット向けの手法が大データセットにスケールしない問題"はどう解決したのだろう?
  • 有力ネットサービスで超バカバカしいことを大マジメにやる理由

    ビッグデータの残酷な現実 ハーバード数学科を卒業後、仲間と創業した世界最大級の出会いサイト。そこから生み出された膨大なビッグデータから、普段は決して明かされることのない願望、恋愛、性的指向、容姿、偏見、アイデンティティ……当のあなた自身が見つかる! ニューヨークタイムズをはじめ、全米メディアが絶賛する世界的ベストセラー。 http://diamond.jp/category/s-hitotokigyou バックナンバー一覧 データサイエンティストのクリスチャン・ラダーは、世界最大級の出会いサイトを運営するうえで、時に壮大なムダとも思えるような実験を行っていた。8月4日に発売された新刊『ハーバード数学科のデータサイエンティストが明かす ビッグデータの残酷な現実』の著者であるラダーのアプローチについて、前回に続き、ニュース配信サービス「スマートニュース」のデータサイエンティストたちに聞いてみ

    有力ネットサービスで超バカバカしいことを大マジメにやる理由
    vanbraam
    vanbraam 2016/08/11
    "1日だけ出会いサイトのすべてのプロフィールから一時的に(9~16時までの7時間)写真を削除する実験"<強い.創業社長でなければできない実験.そして写真を削除した時間帯以外が驚く程"通常の火曜日"をなぞっている
  • On the Importance of Community-Led Open Source

    Data ScienceOn the Importance of Community-Led Open Source Domino2018-07-16 | 33 min read Wes McKinney, Director of Ursa Labs and creator of pandas project, presented the keynote, "Advancing Data Science Through Open Source" at Rev. McKinney's keynote covered open source's symbiotic relationship with data science and the importance of community-led open source. This blog post includes distilled hi

    On the Importance of Community-Led Open Source
    vanbraam
    vanbraam 2016/03/16
    以前会社の偉い人にanalyticsで何か新しい事をやりたいが何がいいかときかれて「Rがいい」と薦めたのは多分4年前.その時投資できていれば...とは思う
  • p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は、やたらはてブを稼いでしまった前回の記事の続きです。 ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse discovery rate*7といったものを用いるべき、という趣旨のコメントが入っています。とは言え、重回帰分析とか機械学習のような多変量モデリング(なおかつサンプルサイズも大きい)を伴うテーマならともかく、統計学的仮説検定のようなサンプルサイズも小さい(データも少ない)シチュエーションでどうやるんだよ的な疑問を持つ人も多いのではないかと。 そんなわけで、実際にそれっぽい各種検定の数々をStanによるベイジアンモデリングで代替してみたので、この記事ではその結果をつらつら紹介してみようと思います。テーマは前々回のこちらの記事の1節で取り上げた

    p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ
    vanbraam
    vanbraam 2016/03/10
    残念ながら内容は理解できなかった;こうして考えると,天下りの"5%"を使っていても,素人に仕組みが理解しやすいという意味でp値の計算には価値があったのかも;途中でてきた"2.5%"も天下りではないかと気になった
  • 1