[B! アノテーション] sh19910711のブックマーク

sh19910711 id:sh19910711

アノテーションに関するsh19910711のブックマーク (14)

継続して改善する固有表現抽出 / Continuous improvement of named entity extraction
■イベント Sansan Builders Stage 2021 https://jp.corp-sansan.com/engineering/buildersstage2021/ ■登壇概要タイトル： 継続して改善する固有表現抽出登壇者：技術本部 DSOC 研究開発部 Data Analysisグループ　シニアリサーチャー　高橋寛治 ▼Sansan Engineering https://jp.corp-sansan.com/engineering/
sh19910711 2024/05/11
"BERTを用いた固有表現抽出におけるバッチ能動学習 / 前処理や後処理は命名しオブジェクトとして注入することで可読性を高める / 実際に試したり使ったりすることで出力に関する問題点や改善要望が出てくる" 2021

*dev

NLP

アノテーション
リンク
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Twitter: ottamm_190 追記 2022/4/24 speakerdeck版：https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版：https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-menRead less
sh19910711 2024/05/11
"現実の環境は非常に変化しやすくNNが未知データと捉え「知らない」不確実性が生まれる / NNは分布の変化に敏感 + 性能を劣化させることがある / アンサンブルで重要なのはNN間の振る舞いの多様性" 2021

*algorithm

機械学習

アノテーション
リンク
シンプルなHITL機械学習と様々なタスクにおけるHITL機械学習
sh19910711 2024/05/11
"様々なサンプリング手法を組み合わせて活用することで同じ件数の学習データであってもモデルの予測性能を効率よく改善できる / 評価データを最初に作成しないとモデルの精度を正しく評価するのが難しくなる"

*algorithm

機械学習

アノテーション
リンク
能動学習のいろは：書籍「Human-in-the-Loop機械学習」3〜5章
sh19910711 2024/05/10
"エントロピー基準サンプリング: 正解ラベルを観測した際の「驚き」の期待値で不確実性を計算 / 多様性サンプリング: モデルが「知らないことを知らない」データを特定してサンプリングしたい"

*book

*algorithm

機械学習

アノテーション
リンク
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習特別回~の発表内容です。 https://dcai-jp.connpass.com/event/315963/ 書籍「Human-in-the-Loop 機械学習」において、翻訳を担当した章（1,7,8,11,12章）の内容を抜粋して紹介します。Human in the loop 機械学習において重要な概念であるアノテーションとヒューマンコンピューターインタラクションについて、著者の機械学習エンジニアとしての実例を交えつつ説明します。 Amazon での書籍リンク https://amzn.to/47u5tFz
sh19910711 2024/05/10
"データの性質が時間とともに変化する場合、既存のモデルを新しいデータに適応させるよりも、小規模でも新規にアノテーションしたデータを学習データに追加して再学習させるほうが効果的"

*book

*algorithm

機械学習

アノテーション
リンク
Human-in-the-Loop 機械学習 / Human-in-the-Loop Machine Learning
Statistical Quality Control for Human Computation and Crowdsourcing
sh19910711 2024/05/06
"Dawid-Skene: 複数人の回答からの正解予測問題 + EMアルゴリズムを使い回答者信頼性と正解を交互に推定 + Mechanical Turkで利用可能 (SageMaker GroundTruth) / HumanGAN: 人間をGANの識別器にして人間の感性を取り込む" 2021

*algorithm

機械学習

アノテーション

--

aws
リンク
LLMを利用したテキストアノテーションのツール化 - BASEプロダクトチームブログ
本記事は BASE アドベントカレンダー 2023 の15日目の記事です。はじめにこんにちは。BASEのデータ分析チーム（Data Strategy Team）で不正対策を行ったり、機械学習を触ったりしている竹内です。 ChatGPT（GPT-3.5 Turbo）が2022年の11月に公開されてから、だいたい1年以上が経ったことになります。そしてこの1年近くでChatGPTに匹敵する多数のLLMの公開や国産LLM作成の動き、拡散モデルを主軸とした画像生成AIの台頭など様々なムーブメントがあり、それを経て「生成AI」という単語は2023年の流行語大賞に選ばれるほど人口に膾炙する結果となりました。生成AI、特にChatGPTをはじめとする対話用にチューニングされた大規模言語モデル（以下チャットLLMと表記します。）の実応用という面に関していうと、人の代わりに文章を作成させたり、知りたい
sh19910711 2024/05/04
"LLMにアノテーションさせる / 低コストで十分な量および質データセットを作成することが可能 / ChatGPT: 出力をOpenAIとの競合となるようなモデルの学習目的で利用することが規約で禁止" 2023

*program

prompt

機械学習

アノテーション
リンク
機械学習プロジェクトとアノテーション（機械学習名古屋第22回勉強会） - Qiita
はじめにこの資料は機械学習名古屋勉強会のAnnoFabハンズオンの補足説明です。本編はこちらです。自己紹介 n-kats(中西克典) 来栖川電算で機械学習エンジニア話の内容アノテーションと機械学習プロジェクト全体の関係の話を通して、研究者（機械学習エンジニア）視点で思っていることを話します。結論を先に言うと、サービス内容・アルゴリズム・アノテーション方法・データは密につながっているバッサリ分けて考えている人が多い気がする、炎上の元なのでやめてほしい機械学習プロジェクトには研究者以外の努力も大切丸投げダメ絶対、肝心な仕事を忘れないで機械学習にばかり目が行き過ぎてもダメ（機械学習楽しいけど）アノテーションをするだけで分かることはたくさんある素早くたくさん失敗する・上手く行かないところに気付くには、すぐには機械学習をしない選択もお断り難しい話かも。結論は言ったので
sh19910711 2024/04/27
"専門家でなくても分かること・出来ることをちゃんとする / 機械学習が分からなくても出来ることをサボるとプロジェクトが上手く進まない / 「解決方法を探る」の段階でどうアノテーションするかも考える" 2019

*event

*algorithm

機械学習

アノテーション
リンク
機械学習プロダクト開発の「2年目」とこれから｜Yotaro Katayama
自然言語処理・機械学習を用いて、企業に眠っている契約書を資産として活用できるようにしていくサービスを作っているMNTSQの堅山です。弊社の機械学習チームは、契約書データから様々な情報を抽出し、人が活用できるようにするのがの役割です。例えば、誰が相手の契約か？この条項と同じタイプの条項は他にあるか？などなど文書分類、NERなどなどのタスクを解いています。弊社は現在3年目に突入したところで、無事に実証実験を終え、企業の皆様に使っていただけるところまでたどり着くことができました。 1年目と2年目を振り返って、プロダクトを作っていくために必要な考え方が違ったなと思ったので、どういう点がポイントだったのかを振り返って行こうと思います。機械学習プロダクト開発の「1年目」弊社のプロダクトは、すでに収益を生むサービスに対して機械学習を投入するといったシチュエーションではなく、新しいタイプの製品を機械
sh19910711 2024/04/21
"法務という領域では専門知識のある日本語話者が関わる必要があり、アノテーションができる方に参画してもらうのが大変 / 単純な手法からはじめる: いろいろなタスクにまずは取り組んでみて感覚を掴む" 2021

*dev

*work

機械学習

#

アノテーション
リンク
Unityでディープラーニング学習用の教師データを大量に生成する方法
AIは教師データの収集とアノテーションが大変こんにちは、AIやってますか！？（唐突な問いかけ） AIの中でも、ディープラーニングの画像認識といえば、大変なのは教師データを集めることとアノテーションですね。数千枚の画像に対して、例えばルールを変えてアノテーションのやり直しとか、セマンティックセグメンテーションのアノテーションとか地獄ですよね（想像です）。なんとかこの教師データの収集とアノテーションを自動化するのが人類の夢なのではないかと思います。ただ、これは卵が先か鶏が先かの話なのでとても難しいです。今回は、Unityを使って、この教師データ生成をなんとか自動化できないかというトライアルになります。既に先行事例に加えて、Unityさんが丁寧なチュートリアルを出していますので、今回はそれに沿って実践していく形になります。ブログにも記事を書いていますので、よろしければこちらも合わせて参
sh19910711 2024/04/18
"人類の夢: 教師データの収集とアノテーションを自動化する / Unityを使って、この教師データ生成をなんとか自動化できないか / com.unity.perception: Unityの教師データ生成のためのチュートリアル" 2021

*algorithm

機械学習

アノテーション
リンク
自然言語処理における Active Learning - ELYZA Tech Blog
はじめまして，インターンの中村です。今回は，アノテーションコストを抑えつつも，高性能な機械学習モデルを学習するための手法である能動学習 (Active Learning) について，その自然言語処理における研究例を紹介したいと思います。特に，自然言語処理において，大量のラベルありデータを集めることが難しく，必要最低限のアノテーションで高性能なモデルを効率的に学習したいといった方にぜひ一読をお勧めしたい内容となっています。はじめに深層学習の課題 Active Learningとは Active Learningの概要 1. ラベルなしデータの選択方法 2. ラベルなしデータの抽出基準自然言語処理における Active Learning テキスト分類における Active Learning 事前学習済みモデル以前の Active learning 事前学習済みモデルを使った Active
sh19910711 2024/04/16
"テキスト分類で 10数% 程度，NER で 20% 程度，Image Captioning では 45%程度のラベルありデータがあれば，訓練データ全てにラベルを付与した通常の教師あり学習に匹敵する性能を得られることが報告" 2021

*algorithm

NLP

アノテーション
リンク
実タスクで能動学習を試してみた - yasuhisa's blog
実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。能動学習をする動機ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度
sh19910711 2024/04/15
"Uncertainly Sampling: アノテーションされていない全てのデータに対してスコアを付与 + スコアの絶対値が最小の事例に人手でアノテーション + アノテーションされたデータ全体を使って分類器を再学習" 2016

*algorithm

機械学習

アノテーション
リンク
機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った - データの境界
いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライドコードや説明など細かく書いて公開されているのですごく勉強になる speakerdeck.com 上記のスライドのテキスト内容（ブログ記事）がこの辺になるらしい機械学習の結果の精度はツール自体（アルゴリズム）の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、ということで、学習用のデータを用意するのは大変だけど、ある程度（自力でラベル付を行い正解データが）集まったらとりあえず学習させる学習させたモデルを使って推論させてみる推論結果を検証することで学習データを増やし、再び学習させることで精度が上がるというサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作
sh19910711 2024/04/14
"機械学習の結果の精度はツール自体（アルゴリズム）の精度、というよりはインプットデータの量と綺麗さによる / 全く興味ない対象の学習データを自力で作るの、これ見たらやっぱり無理だと悟った" 2016

*algorithm

機械学習

アノテーション
リンク
マイクロソフトが公開した機械学習モデルの訓練を容易にできる「Lobe」を試してみた。 - Qiita
マイクロソフトがLobeというツールを公開しました。このツールを使うことでとても簡単に画像分類の機械学習モデルを作ることができます。 Lobeの画像分類には「ResNet-50 V2」と「MobileNetV2」の２つのmodelを使用することができます。それぞれのmodelには特徴があり目的や実行環境に合わせて使い分ける必要があります。 ResNet-50 V2を使用すると高い予測精度を達成できますが、予測時間が長くなりより多くのメモリが使用されます。 MobileNetV2は予測速度が速く、メモリ使用量は少ないですが、予測精度は高くありません。ある程度のマシンパワーがある環境で高い精度が必要なときはResNet-50 V2を使用し、スマホやRaspberry PiなどではMobileNetV2を使用することになると思います。どちらのmodelを使用しても転移学習を用いることで
sh19910711 2024/04/07
"Lobe: 画像分類 + 「ResNet-50 V2」と「MobileNetV2」 + 学習したmodelはエクスポートしてCoreMLやTensorFlowで利用 / 予測が間違っている場合は、下記の画像で示した場所をクリックするとLabelが修正されて再度Trainingが行われ" 2020

*algorithm

機械学習

アノテーション
リンク
1