■イベント Sansan Builders Stage 2021 https://jp.corp-sansan.com/engineering/buildersstage2021/ ■登壇概要 タイトル: 継続して改善する固有表現抽出 登壇者:技術本部 DSOC 研究開発部 Data Analysisグループ シニアリサーチャー 高橋 寛治 ▼Sansan Engineering https://jp.corp-sansan.com/engineering/
Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-menRead less
第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習 特別回~の発表内容です。 https://dcai-jp.connpass.com/event/315963/ 書籍「Human-in-the-Loop 機械学習」において、翻訳を担当した章(1,7,8,11,12章)の内容を抜粋して紹介します。Human in the loop 機械学習において重要な概念であるアノテーションとヒューマンコンピューターインタラクションについて、著者の機械学習エンジニアとしての実例を交えつつ説明します。 Amazon での書籍リンク https://amzn.to/47u5tFz
Statistical Quality Control for Human Computation and Crowdsourcing
本記事は BASE アドベントカレンダー 2023 の15日目の記事です。 はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習を触ったりしている竹内です。 ChatGPT(GPT-3.5 Turbo)が2022年の11月に公開されてから、だいたい1年以上が経ったことになります。 そしてこの1年近くでChatGPTに匹敵する多数のLLMの公開や国産LLM作成の動き、拡散モデルを主軸とした画像生成AIの台頭など様々なムーブメントがあり、それを経て「生成AI」という単語は2023年の流行語大賞に選ばれるほど人口に膾炙する結果となりました。 生成AI、特にChatGPTをはじめとする対話用にチューニングされた大規模言語モデル(以下チャットLLMと表記します。)の実応用という面に関していうと、人の代わりに文章を作成させたり、知りたい
はじめに この資料は機械学習名古屋勉強会のAnnoFabハンズオンの補足説明です。 本編はこちらです。 自己紹介 n-kats(中西克典) 来栖川電算で機械学習エンジニア 話の内容 アノテーションと機械学習プロジェクト全体の関係の話を通して、研究者(機械学習エンジニア)視点で思っていることを話します。 結論を先に言うと、 サービス内容・アルゴリズム・アノテーション方法・データは密につながっている バッサリ分けて考えている人が多い気がする、炎上の元なのでやめてほしい 機械学習プロジェクトには研究者以外の努力も大切 丸投げダメ絶対、肝心な仕事を忘れないで 機械学習にばかり目が行き過ぎてもダメ(機械学習楽しいけど) アノテーションをするだけで分かることはたくさんある 素早くたくさん失敗する・上手く行かないところに気付くには、すぐには機械学習をしない選択も お断り 難しい話かも。 結論は言ったので
自然言語処理・機械学習を用いて、企業に眠っている契約書を資産として活用できるようにしていくサービスを作っているMNTSQの堅山です。 弊社の機械学習チームは、契約書データから様々な情報を抽出し、人が活用できるようにするのがの役割です。例えば、誰が相手の契約か?この条項と同じタイプの条項は他にあるか?などなど文書分類、NERなどなどのタスクを解いています。 弊社は現在3年目に突入したところで、無事に実証実験を終え、企業の皆様に使っていただけるところまでたどり着くことができました。 1年目と2年目を振り返って、プロダクトを作っていくために必要な考え方が違ったなと思ったので、どういう点がポイントだったのかを振り返って行こうと思います。 機械学習プロダクト開発の「1年目」弊社のプロダクトは、すでに収益を生むサービスに対して機械学習を投入するといったシチュエーションではなく、新しいタイプの製品を機械
AIは教師データの収集とアノテーションが大変 こんにちは、AIやってますか!?(唐突な問いかけ) AIの中でも、ディープラーニングの画像認識といえば、大変なのは教師データを集めることとアノテーションですね。 数千枚の画像に対して、例えばルールを変えてアノテーションのやり直しとか、セマンティックセグメンテーションのアノテーションとか地獄ですよね(想像です)。 なんとかこの教師データの収集とアノテーションを自動化するのが人類の夢なのではないかと思います。ただ、これは卵が先か鶏が先かの話なのでとても難しいです。今回は、Unityを使って、この教師データ生成をなんとか自動化できないかというトライアルになります。 既に先行事例に加えて、Unityさんが丁寧なチュートリアルを出していますので、今回はそれに沿って実践していく形になります。 ブログにも記事を書いていますので、よろしければこちらも合わせて参
はじめまして,インターンの中村です。今回は,アノテーションコストを抑えつつも,高性能な機械学習モデルを学習するための手法である能動学習 (Active Learning) について,その自然言語処理における研究例を紹介したいと思います。特に,自然言語処理において,大量のラベルありデータを集めることが難しく,必要最低限のアノテーションで高性能なモデルを効率的に学習したいといった方にぜひ一読をお勧めしたい内容となっています。 はじめに 深層学習の課題 Active Learningとは Active Learningの概要 1. ラベルなしデータの選択方法 2. ラベルなしデータの抽出基準 自然言語処理における Active Learning テキスト分類における Active Learning 事前学習済みモデル以前の Active learning 事前学習済みモデルを使った Active
実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。 能動学習をする動機 ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度
いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド コードや説明など細かく書いて公開されているのですごく勉強になる speakerdeck.com 上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい 機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、 ということで、学習用のデータを用意するのは大変だけど、 ある程度(自力でラベル付を行い正解データが)集まったらとりあえず学習させる 学習させたモデルを使って推論させてみる 推論結果を検証することで学習データを増やし、再び学習させることで精度が上がる というサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作
マイクロソフトがLobeというツールを公開しました。 このツールを使うことでとても簡単に画像分類の機械学習モデルを作ることができます。 Lobeの画像分類には「ResNet-50 V2」と「MobileNetV2」の2つのmodelを使用することができます。 それぞれのmodelには特徴があり目的や実行環境に合わせて使い分ける必要があります。 ResNet-50 V2を使用すると高い予測精度を達成できますが、予測時間が長くなりより多くのメモリが使用されます。 MobileNetV2は予測速度が速く、メモリ使用量は少ないですが、予測精度は高くありません。 ある程度のマシンパワーがある環境で高い精度が必要なときはResNet-50 V2を使用し、 スマホやRaspberry PiなどではMobileNetV2を使用することになると思います。 どちらのmodelを使用しても転移学習を用いることで
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く