tsukkeeのブックマーク - はてなブックマーク

コアメンバーの連続退職、エンジニア組織崩壊の危機から、退職ゼロ・人員倍増に至るまでの話

2023年の4月から、プロダクト開発チームのEMを務めている岩谷です。本記事では、当時プロダクトエンジニア13人中3人の退職が重なる中々しびれる状況から、エンゲージメントや開発品質の改善に向き合い、怒涛の半年間が過ぎ、現在21人の組織になるまでに取り組んできたことや学びについてご紹介できればと思います。事業背景2023年3月以前、以下のような組織体制で、私はML Engineering / MLOpsを推進する基盤チームのEMを勤めておりました。プロダクト開発チームは、いわゆるマトリクス組織で、３つの職能横断のフィーチャーチームを構成し１つのAnewsというプロダクトを開発していました。エンジニアは全体でEMが1名、チームごとにエンジニアのリーダーがおり、開発の運用方法は全て各チームに委ねられている状態でした。そんな中、EM1名、リーダー１名、エンジニア1名が新しいチャレンジの場を求

tsukkee 2024/01/25

リンク

破壊的変更を乗り越えてVue3移行達成した話

はじめにこの記事では、私たちが開発しているAnewsというプロダクトでのVue 3移行プロジェクトについて紹介していきます。 Anewsはビジネス向けにユーザーの趣向に合わせて日々のニュースなどの最新情報を提供するプロダクトです。フロントエンドはVue.jsというフレームワークを使用しています。2023年末にVue 2のサポート期限が迫っており、それまでにAnewsのVue 3移行を完遂すべく、Vue 3移行プロジェクトを行いました。そこで得られた知見としてVue 2とVue 3の違いや、必要だった対応、実際に行った移行戦略などまとめていきたいと思います。移行前の環境今のAnewsは2020年に開発がはじまり、AnewsはVue 2.6.12、TypeScriptを使用していました。 TypeScriptを活用して開発するため、TypeScriptのクラスでVueのコンポーネントを定義

tsukkee 2023/12/15

vue
frontend

リンク

1年かけてAnewsのドキュメントを改善した話

エンジニアリングユニットの酒井といいます。昨年の9月に入社し、Anewsの開発に従事しつつ時々SREっぽいこともしています。今回は、自分が入社当初から改善したいなぁと考えていたAnewsのドキュメントについて、これまでやってきた取り組みについてお話しできればと思います。取り組みを始めたきっかけそもそも自分は組織開発において、ドキュメントが重要だという認識がありました。それはこれまでの経験則によるところもありますし、『Googleのソフトウェアエンジニアリング』中で以下のような言及があり、重要性を再認識したというのもあります。 10.2 何故ドキュメンテーションが必要なのか p220: ドキュメンテーションは長期的に見ると決定的に重要であり、決定的に重要なコードにとっては特に、組織がスケールするのに伴い途方もない恩恵をもたらす。テストを書くことは普通になりつつありますが、ドキュメント

tsukkee 2023/12/15

リンク

改善施策のプランニングが鍵 - 大規模バッチ処理のテストフレームワーク刷新プロジェクト

こんにちは、エンジニアリングユニットの飯森です。先日、Anewsのバッチ処理のテストフレームワークを刷新するプロジェクトに取り組みました。本記事ではこの取り組みについて紹介します。本記事を読むことで、以下の2点が分かります。バッチ処理のテストフレームワークの刷新をどのように進めたのかストックマークでは工数がかかる改善施策にどのように取り組んでいるのかプロジェクトの背景最初に、Anewsのバッチ処理とそのテストフレームワークについて説明します。 Anewsとバッチ処理ストックマークはAI 情報収集プラットフォームAnewsを運営しています。 Anewsでは、ニュース、論文、特許といった様々な情報を国内外約35,000メディアから収集し、AIによる最適な情報配信を提供しています。 Anewsで配信されるコンテンツ（フィード）には様々な種類があります。例えば、ユーザーの興味や嗜好に合わ

tsukkee 2023/12/05

リンク

ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

Research部門の近江崇宏です。ストックマークではビジネスのドメインや最新情報（2023年9月まで）に対応した130億パラメータの大規模言語モデル（LLM）を商用利用も可能なライセンスで公開しました。モデルはHuggingface Hubからダウンロードいただけます。 https://huggingface.co/stockmark/stockmark-13b このモデルは、合計2200億トークンの日本語のテキストデータにより事前学習が行われました。一般に事前学習でよく使われるWikipediaやCommonCrawl由来のコーパスだけではなく、当社が独自に収集しているビジネスに関連するWebページや特許などのデータも用いました。そのため、既存のモデルに比べると、最新の情報やビジネスのドメインに対応したようなモデルになっております。実際に、ビジネスに関連する知識を問うタスクで

tsukkee 2023/10/26

LLM

リンク

より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -

Stockmark の Researcher の広田です。 Stockmark には自然言語処理の研究開発を行う Research チームがあり、その中の1つの組織に知識グラフの自動構築をテーマとする Knowledge Unit があります。この記事では Knowledge Unit の取り組みを紹介します。なぜ知識グラフなのか？ストックマークは企業向けの情報収集ツール Anews を提供しています。私たちはよくお客様から、まだ自分たちが気づけていない情報があるのではないか不安だ、という声を耳にします。市場動向や技術動向・競合他社情報などから気づきを得ることはビジネスにおいて非常に重要です。一方で気づきを得るための情報収集はとても大変です。インターネット上では日々膨大な量のテキストが公開されており、これらを人力で収集し尽くすことはとても難しくなっています。また収集を行うに

tsukkee 2023/08/24

リンク

最近の話題にも詳しい14億パラメータの日本語LLMの公開

Research部門の近江崇宏です。今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM（大規模言語モデル）をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。 https://huggingface.co/stockmark/gpt-neox-japanese-1.4b 当社はビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっております。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ（2023年6月まで）も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発しました。具体的には、事前学習に用いたデータセットはCC100の

tsukkee 2023/08/08

リンク

エンジニア採用候補者の方にお伝えしたいこと

こんにちは、エンジニアリングユニットの岩谷と申します。今回はエンジニア組織と、採用の観点について記載していきたいと考えています。動機は２つあり、選考プロセスを進めた上で組織・人の面を見て魅力的に感じていただけることが多く、選考前の方にもしっかり発信していきたい文面だけでは見えないカルチャーやマインド面での相互不一致を減らしたい何かしらのきっかけでストックマークにご興味を持っていただいた方（まだ興味がない方も！）には、是非１度読んでいただけると幸いです。組織の特徴（仕組みの面）現在20名ほどのエンジニアが所属しており、プロダクト開発２チーム、ML処理基盤、オープンデータ、SREの５チームにわかれています。プロダクト開発チームはPdM・Designerとの一体チームで運用しており、チーム内の運用方法は各チームに委任されていますが、スクラムに近い運用で、KPTAなどしながらチームの運用自

tsukkee 2023/08/03

リンク

マネージャー＆リーダー向け社内トレーニング / Training of management and leadership for Stockmark

ストックマークの社内研修の公開版※資料です。（※実際に研修で利用したものとは異なります）

tsukkee 2023/08/02

リンク

価値検証を高速化するために開発チームで意識していること

はじめにどのスタートアップ企業でも、プロダクトリリースサイクルの高速化・最適化を心がけているかと思います。本記事では、ストックマークのプロダクトである Anews の新機能（論文配信）を例にとって、ストックマークの開発の実際について紹介いたします。本記事から学べる点は大きく 3 点です。高速な価値提供を実現するために意識すべきことフロー効率の極大化によりユーザー価値へつなげる方法中期目線で開発速度を保つ方法それでは、それぞれ個別に 1 つ見ていきましょう。高速な価値提供を実現するために意識すべきことどんなプロダクトであっても、実装しようとしている機能は、何らかの方法で検証してみるまで顧客にとって必要なものか分かりません。本記事のテーマである論文配信機能についても同様ですが、少なくともユーザーインタビューなどの仮説検証で一定のニーズは確認できていました。ニーズまでは確認できているので

tsukkee 2023/07/03

development

リンク

Extractive Noise Removal from Scraped News Articles using BERT and comparison with ChatGPT

Position-wise analysis In this section, we analyse the normalised positions of false positives generated by the model. Noise prediction and footer removal tend to make errors in different parts of the document. Errors of noise prediction can appear anywhere in the document, while those for footer removal are more likely to appear near the end. As important content often appears at the beginning of

tsukkee 2023/05/16

リンク

記事中のノイズ削除方式 - ChatGPTとの比較

本記事執筆時点の2023年4月時点で、ChatGPTのニュースを見ない日はないほど、世の中にChatGPTの記事が溢れています。「こんなことに使える」「あんなことに使える」と応用範囲が広いChatGPTですが、「あたかも当然のように嘘をつく」ように決して万能なわけではなく得手不得手があります。そんなChatGPTに対して、プロダクト開発側に立つ方にとって気になるのは「実際にプロダクトに組み込めるのだろうか？」という点でしょう。そこで、本記事ではストックマークのプロダクトで実現している「記事中にあるノイズ削除」にフォーカスして、自社で利用するモデルとChatGPTとを比較していきます。なお、プロダクトに組み込む場合は、ChatGPTではなくAPIを利用するケースが自然ですが、GPT-4ベースのAPIを執筆時点で利用できなかったことから、ChatGPT Plus(GPT-4)を利用しています

tsukkee 2023/05/08

chatgpt
bert

リンク

AWSのコスト削減: ストレージクラスの最適化

クラウドインフラに関わるコストは、各企業にとって1つの重要テーマかと思います。毎月、支払うコストであり、数％の増減であったとしても最終的にかなりの金額になります。昨今の為替事情もあり、そんなクラウドインフラのコストを弊社で削減してきた方法を本記事で紹介いたします。本記事を読むことで、実例と共に手法を学んでいただけます。何を実施したか？ストックマークでは、クラウドインフラに AWS を活用しています。AWS のコスト削減のプラクティスは広く知られており、公式からもドキュメントが提供されています。具体的な方法の中からいくつか代表的なものを取り上げると次のような項目があります。コスト分析と監視リザーブドインスタンス、スポットインスタンスの活用オートスケーリングの活用ストレージの最適化データ転送の最適化リソースの削除や停止たとえばリザーブドインスタンスの導入といったすでに利用中なものもあり

tsukkee 2023/04/20

AWS

リンク

日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介

はじめにResearch部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約等を行うことが必要不可欠となります。近年では、この要約タスクの分野では、高い精度が報告されている事前学習済モデルBART等が存在します。そこで、弊社で日本語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。 BART とはBART は、2019 年 10 月 29 日に Facebook社によって提案されました。 BART は、双方向エンコーダー (例えばBERT) と左から右へのデコーダー (例えばGPT) を使った seq2seq 構造を使用します。BART は、基本的に

tsukkee 2023/01/24

nlp
bart

リンク

月間1.6億秒の Lambda x Node.js 利用から得られた知見

はじめにStockmark のプロダクトでは、各メディアから記事を収集するために AWS Lambda (実行環境はNode.js) を大量に利用しています。「大量」とは実際にはどの程度なのかを紹介すると、月間で 1.6億秒ほど(1日で約60日分) 使用しています。もしかしたら「えっ、なんでそんなに使っているの？」と思われているかもしれません。本記事ではその疑問に回答しつつ、実運用から得られた知見を一部共有していきます。段階的に理解いただけるように、技術選定理由から説明していきます。なぜ Node.js なのか？なぜ AWS Lambdaなのか？Lambda x Node.js でスクレイピングする際の落とし穴ということで、早速1つ目からいってみましょう！なぜ Node.js なのか?ストックマークのプロダクトでは、Web記事などを中心としてスクレイピングして収集した情報をベースに

tsukkee 2022/10/19

リンク

プレスリリース駆動開発で起こった3つの変化

ストックマークではプロダクト開発の方法として、プレスリリース駆動開発を採用しています。このアプローチは Amazon で Working Backwards と呼ばれる方法に類似した方法です。本記事では、実際にプレスリリース駆動開発を実施すると何が起こるのか？という点について紹介します。今後、プロダクト開発においてプレスリリース駆動開発を採用してみようかな？という方には、有益な情報になると思います。先に実物を紹介本記事でベースとしているプレスリリースは Astrategy というプロダクトの新機能になります。詳細は実物をご覧いただければと思いますが、内容草案はまさにプロダクトのPRD(Product Requirements Document)や、実装が進む前からプロダクトオーナーが書いていたものです。では、詳細検討が進む前にプレスリリース案を作成すると、社内では何が起こるのでしょう

tsukkee 2022/08/30

リンク

Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms

Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms Please refer here for a related post in Japanese. IntroductionIn Stockmark, we collect tens of thousands of news articles from thousands of different media sources every day. Articles with similar content may be crawled from different news media. It is vital to detect and group similar articles in order to pro

tsukkee 2022/04/15

nlp

リンク

More Like This Query を活用した類似記事集約入門

はじめに本記事では、ストックマークのプロダクトの実装で工夫している類似記事集約という技術について紹介します。本技術により、多くのドキュメントを扱う機会がある場合に、お客様に高い価値を提供できるようになります。ストックマークでは社内のResearchチームと連携して、類似記事集約において実装面での工夫をいくつか積み重ねています。本記事ではまずイントロダクションとして、特にコアとなる OpenSearch の More Like This Query について紹介します。今後公開する別記事では、さらに発展的な類似記事集約の仕組みを紹介予定です。さて、本記事で扱う主なトピックはこちらです。類似記事集約がなぜ必要なのか？類似記事集約の実装方法とロジックストックマーク独自の工夫過去記事を含む再適用というわけで早速、本題に進みましょう！類似記事集約がなぜ必要なのか？ストックマークのプロダクトは

tsukkee 2022/04/11

リンク

ボケて電笑戦への挑戦〜AIで画像大喜利〜

こんにちは、Machine Learning部門の森長です。昨年(2021年)の9月に開催されました、AWS Dev Day Online Japanのスペシャルプログラム #1：ボケて電笑戦に参加させていただきました。そこで、本記事では、ボケて電笑戦で作成したお笑いモデルについて紹介いたします。ボケて電笑戦とはボケて電笑戦とは、「AIは人を笑わせられるのか？」という問いを解明すべく、アマゾンの奥地へ向かった膨大なボケのデータを学習させて新たな笑いを作り出せるのかを競い合う挑戦です。今回のボケて電笑戦では、弊社を含め3企業がお笑いモデルを独自に作成して、人を笑わせるべく大喜利対決を行いました。詳細は、スペシャルプログラム #1：ボケて電笑戦に以下のような記載されていますので、ご覧いただければと思います。人間の喜怒哀楽に AI は影響を与えることができるのでしょうか。「ボケて電笑