Stockmark Tech Blog[B!]新着記事・評価 - はてなブックマーク

Astrategyを支える技術: gRPC, Elasticsearch, Cloud TPU, Fargate... SaaS型AIサービスの内側の世界

28 users

tech.stockmark.co.jp

ストックマークでは、法人ユーザー向けの「Astrategy」というウェブサービスを開発、提供しています。本エントリでは、Astrategyで使われている技術やシステム構成をご紹介したいと思います。 AstrategyとはAstrategyとは、AIがウェブニュースを解析してあらゆる市場の動向やトレンド、有力企業の経済活動を可視化し、ユーザーが市場調査や市場分析レポート作成を行うことができるウェブサービスです。国内外約3万メディアから配信された約5000万件のビジネスニュースから、企業情報、言及されているニューストピック、業界や地域属性を抽出して分析に利用します。抽出には汎用言語モデルBERTを用いており、その処理はCloud TPU上で動く重たい処理であるため、事前に全てのニュースデータに対して抽出処理をかけた状態で検索サーバーに登録しています。ユーザーがAstrategyにアクセ

テクノロジー
2021/05/10 12:04

Stockmark Tech Blog

4 users

tech.stockmark.co.jp

自然言語処理テクノロジーで社会を進化させるストックマークのテックブログです。

テクノロジー
2021/03/17 20:52

blog

GPT-2におけるテキスト生成

77 users

tech.stockmark.co.jp

はじめにMachine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。昨今、OpenAIからGPT-3が発表され、生成系モデルが大きな注目を集めています。そこで、本記事では、弊社で作成している生成系モデルの紹介をいたします。自然言語処理におけるテキスト生成自然言語処理（NLP）は、人間の言語（自然言語）とコンピュータの相互理解、特に大量の自然言語データをコンピュータに処理および分析させるための研究分野です。今回紹介するテキスト生成は、この自然言語処理の研究分野の一つです。テキスト生成の応用例の一つは、スマートフォンのキーボードでの次の単語の予測です。このタスクはまさに言語モデルが行うことと同様です。言語モデルは、単語のリストを受け取り、次の単語を予測します。図1の例では、言語モデルが「今日は」という単語を受け取り、次の単語で

テクノロジー
2021/02/03 12:02

Flutterで高速開発したAnewsモバイルアプリ

66 users

tech.stockmark.co.jp

はじめに2020年11月にリリースされた、ストックマークのAnewsのモバイルアプリケーションにはFlutterが利用されています。本記事では、Flutterをなぜ採用したのか、どのような点に課題があり、どのように工夫していったのか、という開発現場の知見について紹介いたします。(本記事は、実際に開発を行った祖父江聡士さん・海老原隆太さんへの社内インタビューを元に執筆されています） Flutterで開発されたAnewsの画面イメージ FlutterとはGoogle社によって開発されているオープンソースのフレームワークです。クロスプラットフォーム向けの開発が可能であり、iOSやAndroidといったモバイルアプリケーションに多く利用されますが、Windows/Mac/Linuxといったプラットフォームのアプリケーションも開発可能です。 StockmarkにおけるFlutterの適用領域An

テクノロジー
2020/12/23 12:04

Wikipediaを用いた日本語の固有表現抽出データセットの公開

22 users

tech.stockmark.co.jp

ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

テクノロジー
2020/12/15 14:08

Wikipediaを用いた日本語の固有表現抽出データセットの公開

7 users

tech.stockmark.co.jp

ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

テクノロジー
2020/12/15 12:23

Wikipediaを用いた日本語の固有表現抽出データセットの公開

85 users

tech.stockmark.co.jp

ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

テクノロジー
2020/12/15 12:05

Cloud TPUを用いたBERT推論処理基盤の開発

23 users

tech.stockmark.co.jp

ML事業部の近江崇宏です。 Stockmarkでは日々、膨大な数のニュース記事に対してBERTの推論処理を行なっています。このような重いタスクを効率的に処理するために、最近、TPUを用いたBERTの推論処理基盤をGoogle Cloud Platform上に構築し、運用を開始しました。その結果として、これまで1週間程度かかっていた、数千万件のデータの処理を1日以内で完了できるようになるなどの大きな効果を得られました。今回はこの取り組みについて紹介します。はじめに近年のニューラルネットワークの研究の発展により、画像認識や自然言語処理の様々なタスクを人間と同等もしくはそれ以上のレベルで処理できるようになりました。その結果として、ビジネスでのニューラルネットワークの利用が進んでいます。その一方で、ニューラルネットワークには、モデルの巨大さに起因して処理時間が長いという大きな問題があります。その

テクノロジー
2020/11/04 15:06

Cloud TPUを用いたBERT推論処理基盤の開発

43 users

tech.stockmark.co.jp

ML事業部の近江崇宏です。 Stockmarkでは日々、膨大な数のニュース記事に対してBERTの推論処理を行なっています。このような重いタスクを効率的に処理するために、最近、TPUを用いたBERTの推論処理基盤をGoogle Cloud Platform上に構築し、運用を開始しました。その結果として、これまで1週間程度かかっていた、数千万件のデータの処理を1日以内で完了できるようになるなどの大きな効果を得られました。今回はこの取り組みについて紹介します。はじめに近年のニューラルネットワークの研究の発展により、画像認識や自然言語処理の様々なタスクを人間と同等もしくはそれ以上のレベルで処理できるようになりました。その結果として、ビジネスでのニューラルネットワークの利用が進んでいます。その一方で、ニューラルネットワークには、モデルの巨大さに起因して処理時間が長いという大きな問題があります。その

テクノロジー
2020/11/04 12:02

TPU VS GPU(日本語版)

42 users

tech.stockmark.co.jp

はじめに(この記事の英語版はTPU VS GPU(English Edition)にあります。) Machine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。昨今、大規模データでニューラルネットワークを訓練し良い結果を得ようとするならば、深層学習モデルの訓練にかかる時間の膨大さに誰もが悩まされたことがあるかと思います。さらに、深層学習モデルはハードウェアのリソースを多く必要とします。深層学習モデルの学習では、計算の特性上、CPU（Central Processing Unit）より GPU（Graphics Processing Unit）が高速であるため、GPUが推奨されます。しかし、GPU以外の選択肢として、TPU(Tensor Processing Unit)があります。そこで、本記事では、自然言語処理のタスクで深層学習モデル

テクノロジー
2020/10/30 12:54

TPU VS GPU(日本語版)

3 users

tech.stockmark.co.jp

はじめに(この記事の英語版はTPU VS GPU(English Edition)にあります。) Machine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。昨今、大規模データでニューラルネットワークを訓練し良い結果を得ようとするならば、深層学習モデルの訓練にかかる時間の膨大さに誰もが悩まされたことがあるかと思います。さらに、深層学習モデルはハードウェアのリソースを多く必要とします。深層学習モデルの学習では、計算の特性上、CPU（Central Processing Unit）より GPU（Graphics Processing Unit）が高速であるため、GPUが推奨されます。しかし、GPU以外の選択肢として、TPU(Tensor Processing Unit)があります。そこで、本記事では、自然言語処理のタスクで深層学習モデル

テクノロジー
2020/10/30 12:54

blog

ビッグリライトでシステム刷新した秘訣 ~ Anewsの成功事例から ~

36 users

tech.stockmark.co.jp

はじめにストックマークが提供するプロダクトであるAnewsにおいて、ビッグリライトによるフロントエンド・バックエンドの両方を含むアーキテクチャ刷新を成功させました。一般にビッグリライトは、ハイリスク・ハイリターンであり、難易度も高いと言われていますが、大きなトラブルもなく、かつお客様評価も高い状態を実現しています。 Anewsリニューアル後の画面イメージ本記事では、なぜビッグリライトを選択したのか、何が要因となって成功に至ったのか、といった事項について、開発チームで振り返りした中からいくつかの要因を紹介いたします。アーキテクチャ刷新の背景Anewsは、新規Feedを最適化して提供するプロダクトで、2020/8時点では累計1500社のお客様に利用されています。(参考：導入事例) スタートアップのプロダクトでは、顧客の声に耳を傾けながら、大小あるピボットを積み重ねて、洗練されたプロダクトを

テクノロジー
2020/09/15 12:02

ストックマークにおけるB2B SaaSセキュリティへの取り組み

19 users

tech.stockmark.co.jp

こんにちは、ストックマークでSREを担当している松下です。ストックマークでは企業向けの情報収集・企業分析・営業支援サービス(Anews, Astrategy, Asales)を運営しており、導入を検討されているお客様よりセキュリティの取り組みに関してお問い合わせをいただくことが多々あります。お客様のセキュリティ基準をプロダクトが満たせるかどうかは、ストックマークにとっても最重要課題であり、ストックマークのセキュリティ向上への姿勢をより分かりやすく示すために、8月にはISMS認証を取得しました。今回はISMS認証取得を記念して、私が担当しているAsalesを例にしながら、これまでにストックマークが行ってきたセキュリティ対策の一部をざっくりとご紹介させていただこうと思います。 AsalesについてAsalesはセールスなどの提案資料や社内資料を自然言語処理技術で学習・解析し、売上拡大のた

テクノロジー
2020/09/03 12:08

BERTによるニュース記事の構造化：企業名抽出

70 users

tech.stockmark.co.jp

はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。ストックマークが公開した言語モデルの一覧と振り返り今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

テクノロジー
2020/07/15 12:11

ストックマークが公開した言語モデルの一覧と振り返り

4 users

tech.stockmark.co.jp

こんにちは、Machine Learning部門の森長と申します。 Machine Learning部門は、プロダクト適用を目指した基礎研究&基礎研究のプロダクト適用の二軸を担当しています。基礎研究では、言語モデルの作成、文章のカテゴリ分類・クラスタリング、要約の検証等、プロダクトへの適用を見据えて研究テーマを設定しています。また、自然言語処理の盛り上がりに少しでも貢献できればと考え、言語モデルの公開を行っていますので、もしよろしければ使ってみてください。今回は、弊社で公開している言語モデルについて書いていきます。言語モデルとは言語モデルにも色々な種類のモデルがあり、一口でこれというのは難しいですが、簡単に言うとすると、「単語列に対して確率を計算するモデル」です。厳密には各言語モデルで目的が違うため、呼称が少しずつ異なりますが、本投稿では言語モデルという表現で統一させていただきます。

テクノロジー
2020/06/26 15:57

BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み

19 users

tech.stockmark.co.jp

こんにちは、Development部門に所属しているSREの佐藤と申します。 Development部門では複数プロダクト共通の基盤構築や、新技術の検証、インフラ整備などを幅広く担当しています。これまでストックマークではCI/CD基盤の構築やAWS上で構築するインフラのコード化、ニュース収集基盤のアーキテクチャの改善や運用負荷軽減から、製品利用状況のデータ分析基盤構築などに取り組んできました。今日はAstrategyという製品でのMLOpsの取り組みについて話します。 AstrategyについてAstrategyは国内外Webメディアを対象として情報を収集・構造化し、調査・報告業務を包括的にサポートする検索プラットフォームです。図1: 「言葉のAI」自然言語解析を用いたオープンデータ解析ツール複数の分析画面を提供しており、目的に応じて異なる観点で市場変化や競合動向を可視化できます。

テクノロジー
2020/06/02 13:49

はてなブックマーク

はてなブックマーク

『Stockmark Tech Blog』

Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム

Astrategyを支える技術: gRPC, Elasticsearch, Cloud TPU, Fargate... SaaS型AIサービスの内側の世界

Stockmark Tech Blog

GPT-2におけるテキスト生成

Flutterで高速開発したAnewsモバイルアプリ

Wikipediaを用いた日本語の固有表現抽出データセットの公開

Wikipediaを用いた日本語の固有表現抽出データセットの公開

Wikipediaを用いた日本語の固有表現抽出データセットの公開

Cloud TPUを用いたBERT推論処理基盤の開発

Cloud TPUを用いたBERT推論処理基盤の開発

TPU VS GPU(日本語版)

TPU VS GPU(日本語版)

ビッグリライトでシステム刷新した秘訣 ~ Anewsの成功事例から ~

ストックマークにおけるB2B SaaSセキュリティへの取り組み

BERTによるニュース記事の構造化：企業名抽出

ストックマークが公開した言語モデルの一覧と振り返り

BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『Stockmark Tech Blog』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません