タグ

ブックマーク / www.cyberagent.co.jp (5)

  • メンテナブルな機械学習システムの考察 | 株式会社サイバーエージェント

    執筆者 執筆者:數見拓朗 所属部署:技術部 秋葉原ラボ 業務経歴:トレンド検知システムやスパムフィルタの開発・運用、Amebaと広告配信のデータ分析業務を担当。 概要 機械学習は、データの複雑な関係を明らかにし、未知データの予測や特徴の発見を得るのに有用である。しかし、一般に提供されている機械学習ライブラリは、長期的な運用を目標としてデザインされていない。そのため、高い識別性能を維持するには、通常のソフトウェア開発・運用の知見では不十分である。レポートの目的は、アメーバブログに提供している機械学習フィルタを例として、長期的に運用可能な機械学習システムを考察することである。 目次 1.はじめに アメブロは,アメーバで最も古く,情報発信手段として多くのユーザに利用されているブログサービスである.2015年2月のデータでは,一日当たり約数十万件のエントリーが投稿されている.一方で,一部の悪意

    chezou
    chezou 2016/10/24
    実システムの課題が良くまとまっていた
  • ツイートから好みのタイプの女の子を見つけるセンチメント分析とDeep Learning | 株式会社サイバーエージェント

    業務経歴: 2012年株式会社サイバーエージェント入社。現在、子会社WAVESTにてJCJK向けメイクと自撮りの研究サービス「メイクme」のシステム責任者を担当。主にサーバサイドを担当しています。 概要 膨大なツイートから好みの女の子を見つけたいです。 好きな女の子のタイプのキーワードを入力すると、該当するアカウントを出力するステキなシステムを作ります。 作成したコードやデータはこちら https://github.com/inkenkun/tech_twitter 目次 1. 女の子だけのアカウントを取得したい Twitterには性別という属性がないため、まずは女の子のアカウントを何とかして大量に取得してこなければなりません。 おっさんとマッチングされても困りますからね。 1-2. 女性単語辞書を作る。 確実にこれは女性だってわかるアカウントを30個ほど目視で取得します。 そして抽出した

    chezou
    chezou 2015/02/18
    zundaしらんかった。乾研のやつか
  • Hadoop上で動くスケーラブルなRandomForest分類器の開発 | 株式会社サイバーエージェント

    業務経歴: 大手総合電機メーカー、バイオベンチャーを経て、2011年に株式会社サイバーエージェント入社。現在は「Ameba」サービスの分析を担当。 1.はじめに RandomForestという分類器はパラメータ設定の容易さや確率分布を仮定してなくも良い手軽さ等の理由により、様々な分野で多様されている。しかしながら、アナリストがよく利用する分析ソフトウェアR上でのRandomForest実装をそのまま使うと大きなデータを扱うことができないためソーシャルゲームなどの分析には適用できない場合もあった。そのため弊社内で構築されているHadoop環境を使って大規模なデータを扱えるようなRandomForest分類器を開発し、それを利用してAmebaプラットフォームの分析を行った。 2.実装 以下にRandomForestの一般的なアルゴリズムを示し、現状のRとMahoutとの実装での制限を示した上で

    chezou
    chezou 2014/07/15
    planetアルゴリズムとの比較が待たれる
  • wavelet行列で高速な「もしかして友だち?」検索 | 株式会社サイバーエージェント

    業務経歴: Sierでのソフトウェア開発・大手メディアでのサービス運用を経て2012年サイバーエージェント入社。 アメーバ事業部コミュニティサービスの開発責任者を経て、現在はアドテクスタジオで広告配信技術に注力。 好きな分野はグラフ探索とチューリングマシン。 ソーシャルサービスでは、ユーザ間のつながりやユーザ同士の類似性がとても重要です。 つながりの近いユーザや自分と似ているユーザを「もしかして友だち?」とサジェストすることでユーザ間のつながりを伸展させることができます。 そこで、ユーザの「つながり」具合が似ているユーザを「友だちかもしれないユーザ」としてサジェストを行うことを考えました。 しかし「つながり」のデータというのはユーザ数のベキ乗であるため、容量が大きくなりやすい性質があります。 即ち、「つながり」類似度の算出には時間がかかる、ということです。 この「つながり」類似度算出

  • メンテナブルCSS

    概要 メンテナブルなCSSを目指し、定義された一般的なCSSルールの紹介と、それらのルールを適用するにあたって活用できるツールを報告します。 1. 序論 CSSは記述ルールが簡素であり、少しの学習コストですぐに記述ができる手軽なツールです。 しかし、大規模なアプリケーションで複数人で開発するケース等では、見栄えだけしか考えずに身勝手にコーディングしてしまうと、 非常にメンテナンスコストがかかる負の遺産が作られてしまいます。 そのためCSSの品質を保つために様々なプロジェクトで、CSSの定義ルールが決められています。 稿では一般的なCSSの定義ルールと、そのルールがなぜ作られたのかを合せて報告致します。 また、CSSのルールを適用するにあたって、手動・目視でルールの適用をチェックするのは非常にコストが高い作業です。 これらルールの適用を補助するツール群を、合せて報告致します。

  • 1