タグ

ブックマーク / tjo.hatenablog.com (4)

  • 改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    追記 再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあるようなので、注意喚起も兼ねて改めてブログ記事として書いてみようと思います。 追記 (May 08, 2020) 文中にも記事公開当初の初稿の時点でいくつか但し書きを入れてありますが、この記事で最も強調したかったことは「時系列データに対して多項式フィッティングを行うという来あり得ないモデリングのやり方であっても、交差検証を行えば短期的な予測性能(汎化性能)を改善することができる」ということです。データセットにランダムウォークを選択したのは、単に極値が2つ以上ある時系列を生成し

    改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    shaphere939
    shaphere939 2020/05/08
    “シミュレーションしてみることにしましょう。なお脅かすわけではありませんが、これにほぼ同じかそれに近いシチュエーションに陥って大変なことになった大企業が何社か実在することを予めお断りしておきます。”
  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
    shaphere939
    shaphere939 2019/11/01
    “本職のエンジニア仕事も請け負わない限りはプロダクトインできるほどの完璧なコーディング力は必ずしも要らないとは思う”
  • データサイエンティストや機械学習エンジニアに求められる「素質」とは何か - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をいただいていたのでした。それは、データサイエンティストや機械学習エンジニアといったデータ分析人材に求められる「素質」について、です。 それは例えば統計学や機械学習はたまたプログラミングといった「スキル」や「素養」とも違う、言ってみれば性格的傾向とか仕事スタイルとかはたまた思想信条のような、もうちょっと属人的で曖昧なものだと思うのですが、個人的な経験からはその「素質」の有無がデータ分析職として育成した結果、ものになるかならないかを分けるように感じられています。 ということで、あくまでも個人的経験に基づく範囲でデータサイエンテ

    データサイエンティストや機械学習エンジニアに求められる「素質」とは何か - 渋谷駅前で働くデータサイエンティストのブログ
    shaphere939
    shaphere939 2018/08/26
    “戦力としてものになるまでのランタイムは大体「2年」ぐらいだと考えています。””ランタイムを待ちきれずに、促成栽培で育成された…前途に待っているのは、…「スキルのコモディティ化」に飲み込まれて無価値と
  • 「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話 - 渋谷駅前で働くデータサイエンティストのブログ

    3年前にこんな話を書いたわけですが、皆さんご記憶でしょうか。 この当時は「平均への回帰」という言葉にその不毛さを託したわけですが、前回の記事に着想を得てもう少し今時っぽく論じることが出来るんじゃないかと思ったので、ちょっと書いてみようかと思います。 なお、言うまでもありませんが以下に示す例は完全に単なるシミュレーションであり、特定の事例を意味するものではありません*1。過去にデータ分析業界の内部で見聞された数々の事例の最大公約数的な部分をベンチマークとしてまとめたものとご理解下されば幸いです。またシミュレーション自体も特に数理的な厳密さを期したものではありませんので、そこもご了承あれ*2。 ビジネスの現場でよくある光景 一般に「PDCAサイクルをとにかく速く回す」のがビジネスを成功させる近道だと言われるわけです。そこで、こんなケースを考えてみます。設定としては、何かしらのeCommerce

    「闇雲にPDCAサイクルを高速に回す」と場合によっては過学習して逆に怖いかもというお話 - 渋谷駅前で働くデータサイエンティストのブログ
    shaphere939
    shaphere939 2018/02/15
    “マーケティング系のデータの中でも最終的な売上高・利益などのKGIは概して長期的な上下動を伴います。なので、これに先行する指標があるとすれば、それもまた長期的・太極的な上下動を見せると考えた方が無難です”
  • 1