あとで試すに関するnikkie-ftnextのブックマーク (78)

  • 日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

    概要 こんにちは@kajyuuenです。 日語自然言語処理のData Augmentationライブラリdaajaを作成しました。 この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。 ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。 はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。 日語ではデータ拡張という名前で知られています。 ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。 対応している手法 現在daajaは

    日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
  • Introduction to heredocs in Dockerfiles | Docker

    Guest post by Docker Community Member Justin Chadell. This post originally appeared here. As of a couple weeks ago, Docker’s BuildKit tool for building Dockerfiles now supports heredoc syntax! With these new improvements, we can do all sorts of things that were difficult before, like multiline RUNs without needing all those pesky backslashes at the end of each line, or the creation of small inline

    Introduction to heredocs in Dockerfiles | Docker
    nikkie-ftnext
    nikkie-ftnext 2021/08/01
    Dockerfileで&&でつなげていたRUNコマンド、BuildKit有効にするとheredocsが書ける!https://github.com/moby/buildkit/blob/master/frontend/dockerfile/docs/syntax.md#user-content-here-documents さらにRUN python3+heredocsでPythonのプログラムが書けちゃう👀
  • Tex tips

    0. 新しいパッケージ"xxx.sty"を導入したい。 tex ファイルを作っている内、既存の便利なパッケージを見つけて、組み込みたいことはよくあります。例えば "foo.sty"を導入したい場合、CATANなりどこかから見つけてきてダウンロードし、texの中に組み込めばよいわけですが(組み込み方法はここ)、通常は"foo.sty"ではなく、"foo.dtx"と"foo.ins" の形で供給されます。"foo.dtx"には"foo.sty"の他にコメントが入っています。手続きとしては、"foo.ins"を使って、"foo.dtx"から"foo.sty"を作り、それを組み込んだ後、"foo.dtx"を処理すればコメントが読めます。例えば"bbm.sty"を使いたい場合、 1) "bbm.ins"と"bbm.dtx"をCTANサイト("bbm.dtx"の場合はCTAN home / tex-a

    nikkie-ftnext
    nikkie-ftnext 2021/05/31
    見出しの定形部分「第」「章」の変え方などなど
  • 本番運用を想定したDjango settings.pyの書き方入門

    nikkie-ftnext
    nikkie-ftnext 2021/05/30
    #oscnagoya より。1.settings. pyを環境ごとに分ける(baseをimportして環境ごとに設定)2.秘密の値の環境変数からの読み取り、ImproperlyConfiguredを送出。3.ログ出力は標準出力のみ。cookiecutter-djangoで3つとも試せる。two scoop本3.0出た!
  • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

    特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

    公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
    nikkie-ftnext
    nikkie-ftnext 2021/04/30
    自然言語処理で会社名を認識したいケースにおいて名寄せタスクをエンティティリンキング的に解くため、2つの日本の会社名辞書を紹介:国税庁法人番号データ、NISTEP企業名辞書。前者からTISがJCLdicという企業名辞書を公
  • atmaCup第10回参加記録 - と。

    いつか出たいとは思っていたんですよ 優勝されたチームの方おめでとうございます。 参加者の皆さん、お疲れ様でした。 ようやくそれが叶いました。 当は少しデータを見るだけのつもりが、 徹夜でモデルをつくるとか、やっちゃいましたね…… あ、ブログのデザイン変えました。黒いほうが目にいいので。 結果は? 久しぶりのコンペだったので実質初心者です。 あまり力を入れすぎずにやっていこうと思っており、そこまで順位にこだわっていませんでした。 また、全力で取り組んでいる皆さんがいる中、ゆるふわで参加していたので、 せっかく美術品のコンペならドメイン知識提供しようと思ったポテトチップスや 精度指標がRMSLEだったので、全て0のsubmissionを出してtestのスコアの分布の代表値を考えるなど、 あんまり精度に貢献するわけでもないことをぼやいていました。 それでも皆さん読んでいただいて、いいねしていた

    atmaCup第10回参加記録 - と。
    nikkie-ftnext
    nikkie-ftnext 2021/03/14
    #atmaCup ディスカッションはたかだか47→全て目を通す(自分は漏れがあったという気付き)。特徴量は可能な組合せでマージして実験を回して放置(仕事とかしている裏で実験が進むように仕組み化すればいいのか!)
  • 結婚式のエンドロールを当日作った話

    結婚のお礼と報告 でちょこっと書いた結婚式エンドロールをその場で作ってみたのお話 注意事項# 結婚式のエンドロールを自作したりするには結婚式場の協力が必須です。 作り出す前に式場に必ず確認を取りましょう。 PCからそのままプロジェクトにだせばいいじゃん!と思い込むのだめです(自戒) 動機# エンドロールを式場にお願いしようと思ったら高かったので、最近のイケてるサービスとか適当にガッチャンコすれば作れると思った。 今は反省している。 全体の構成# LINE Botに参加者から画像投稿を投げてもらう S3に保存すると同時に投稿者情報をDynamoDBに保存 投稿された画像にDynamoDBの投稿者情報から名前を追記 画像を全部結合して動画化し、事前に生成したエンドロールで必要な部分を結合 式の最後に流してもらう 全体の構成はこんな感じです。 サーバーレスアーキテクチャのお勉強がてら作ろうとした

    結婚式のエンドロールを当日作った話
    nikkie-ftnext
    nikkie-ftnext 2021/03/06
    Lambdaを組合せ、アップロードされた画像を動画に変更する例(Python)
  • 【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法

    【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法
    nikkie-ftnext
    nikkie-ftnext 2021/02/27
    scikit-learnのTfidfVectorizerはtokenizer引数にcallableを指定できる。MeCabのTaggerを持ち、__call__でそれを呼び出すクラスを設定可能。MeCabのTaggerはpickle時に除き、unpickle時に再作成 https://docs.python.org/ja/3/library/pickle.html#object.__reduce_ex__
  • 日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ

    前回記事に続いてHugging Faceネタです。Transformers体ではなく、分かち書きを行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransformersでは、事前学習モデルと用いた分かち書き処理を同梱して配布している。 機械学習モデルの学習時と推論時の間で分かち書き設定が異なったり、分かち書き済み公開データと分かち書き設定が揃っていなかったりすると、モデルの挙動が正しく再現できないので、この設定が揃うように仕組みで吸収できる良いプラクティスといえる。 比較的古いバージョン*1のTransformersが用いるトークナイザは、ライブラリ内に同梱されるPython実装のものであった。 日語で配布されているTransformersモデルの事例でいうと、例えば東北大学の乾研究室から公開されている日語BERTモデルでは、Transfo

    日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ
  • Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 発展を続ける「自然言語処理」技術。その中でも幅広く使用される深層学習モデルTransformerは、自然言語処理以外の音楽生成や物体検出などの領域でも適用できます。ブログでは、 Transformerを時系列データに適用する方法をご紹介します。 こんにちは、AIソリューションサービス部の井出と申します。 この記事では、特に自然言語処理分野で幅広く使用される深層学習モデルTransformerを時系列データへ適用する方法に関してご紹介します。 以前の記事では、Transformerの構造や特徴などについて、自然言語処理分野の機械翻訳を例としてご紹介しております。はじめに、こちらの記事をご一読していただくことで、より記事でご紹介する内容に対する理解が深まるかと思います。 Transform

    Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad
  • MakefileでDocker+Jupyter Notebookなどの機械学習環境をスマートに扱う - CC56

    先日機械学習界隈の方とDockerの話をした際、Makefileを使って機械学習環境の整備をしている人は実は少数派なんじゃないかと感じました。 機械学習で使うコマンドは引数が長く、とても覚えられるものじゃありません。暗記できていてもミスタイプしたり、tmux内とかだと折り返されて何書いてるかよくわからなくなりがち 。Ctrl+Rとかで検索かけようとしても大体はdocker...から始まるのでタイプ数多くなりがち。 Makefile は、Docker のコマンドをいい感じにまとめやすく、jupyter notebook に使う長ったらしいコマンド jupyter notebook --port 8888 --ip="0.0.0.0" --allow-root なども簡略化できます。そういうわけで、全体的な生産性の向上に繋がると信じています。 今回紹介する Makefile は Docker

    MakefileでDocker+Jupyter Notebookなどの機械学習環境をスマートに扱う - CC56
    nikkie-ftnext
    nikkie-ftnext 2021/02/15
    Dockerコンテナのrunやjupyter notebookの立ち上げコマンドをMakefileで扱う例。Makefileの解説が最小限に絞ってという感じですぐ試せそう。@は複数行の実行で、-@がエラーで中断しない
  • Build better developer portals with Spotify’s Backstage - LogRocket Blog

  • PythonでPDFからテキストを読み取る方法について - ガンマソフト

    PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra

    PythonでPDFからテキストを読み取る方法について - ガンマソフト
  • PDFファイルに目次(アウトライン)を追加するPythonスクリプトを書いた | takemikami's note

    macos版の Microsoft WordでPDF出力をする場合、 目次の設定が出来ないようなので、スクリプトを書いてなんとかしてみました。 このエントリでは、その調査を行った際のメモを残しておきます。 # Windows版では、目次付きのPDFが出力できるようですが 作成したスクリプト実際に作成したスクリプトは、以下のようなスクリプトです。 add_outline_to_pdf.py https://gist.github.com/takemikami/7ac487f664a72cc25b49229b535b4c9e # PDFにoutlineをつけるスクリプト # # 概要: # PDFファイルの文中にある目次の文字列を解析し、 # 解析結果を元にPDFにアウトラインを設定する # セットアップ: # pip install pdfminer.six # pip install p

    PDFファイルに目次(アウトライン)を追加するPythonスクリプトを書いた | takemikami's note
  • bash スクリプトの先頭によく書く記述のおさらい - Money Forward Developers Blog

    こんにちは。 マネーフォワードでアグリゲーション開発を担当しています中川です。 今回のブログは、私が bash スクリプトを書く際に心がけている事のおさらいをします。 知ってて当たり前のことかも知れませんが、意外と理解されていないアレです。 では、私が bash スクリプトを書く際によく使う記述を一つずつ紹介します。 2種類の shebang シェルスクリプトの一行目に必ず記述する #! で始まる行を shebang と言います。 bash スクリプトの shebang は、bash を絶対パスで指定する方法と、env を使って指定する方法の二種類あります。 bash を絶対パスを指定する方法 #!/bin/bash env を使ってを指定する方法 #!/usr/bin/env bash 前者は /bin/bash が使われます。 (/bin/bash が存在しなければスクリプトの起動時に

    bash スクリプトの先頭によく書く記述のおさらい - Money Forward Developers Blog
    nikkie-ftnext
    nikkie-ftnext 2021/01/03
    bashスクリプトの先頭の定型的な記述の解説。シバンでenvコマンドを使うと$PATH上で使われる。set -ue -o pipefailと補足(未定義変数許す、エラーでも無視)。localeによってsortの並び順などを変えない設定がある(export LC_ALL=C)
  • [Pythonチートシート]特殊メソッド編

    特殊メソッドとは Pythonのクラスでは「特殊メソッド」と呼ばれるメソッドを定義(オーバーライド)できる。特殊メソッドとは、各種の演算子や組み込み関数などの操作の対象として、独自のクラスを利用できるようにするための仕組みだと考えられる。つまり、クラスを自分で定義しているときに、適切な名前の特殊メソッドを適切にオーバーライドすることで、例えば、次のような処理が可能になる。

    [Pythonチートシート]特殊メソッド編
    nikkie-ftnext
    nikkie-ftnext 2020/12/28
    Pythonの特殊メソッド実装例。演算子のオーバーロードでは isinstance(other, self.__class__) でチェックして、同じ型のインスタンスなら計算、違う型のインスタンスではNotImplementedError送出。連載は全7回
  • 2021年版Pythonの型ヒントの書き方 (for Python 3.9) | フューチャー技術ブログ

    Pythonに型ヒントが入ってからしばらく経ちます。型ヒントの立ち位置も、なんでもできるアノテーションとして導入されましたが、型ヒント以外の用途はあまり育たず、型ヒントが中心になり、PEPや仕様もそれに合わせて変化したり、より書きやすいように機能が追加されてきました。 エントリーでは、Python 3.9時点での最新情報を元に、現在サポート中のPythonバージョン(3.6以上)との互換性の情報も織り交ぜながら、最新の型ヒントの書き方を紹介します。 エントリーの執筆には、Pythonの型の有識者の@moriyoshi、@aodag、@tk0miya にアドバイスをもらいました。ありがとうございます。 環境構築Visual Studio CodeVisual Studio Codeの場合は、事前にどのインタプリタを利用するかを設定しておきます。その環境にインストールします。venvを使う

    2021年版Pythonの型ヒントの書き方 (for Python 3.9) | フューチャー技術ブログ
    nikkie-ftnext
    nikkie-ftnext 2020/12/24
    「コレクションの種類の使い分け」の図は必見ですね。VSCodeのmypy setting。enumのように動くLiteral。組み込みジェネリック型のlistやdictは、3.7,3.8ではfrom __future__ import annotationsを使えばいいのか!3.10からUnionは | でもOK
  • 「1年間続いたオンライン勉強会」秘伝のタレを公開します - jnuank blog

    記事は、 DDD-Community-Jp Advent Calendar 2020の20日目です。 ■ はじめに この記事について この記事では、1年続いたオンラインモブ開発のフォーマットを紹介します。 このフォーマットを紹介しようとした経緯ですが、2020年最後のモデリング会で 1年間を振り返っている中で、『せっかくDDDCJというコミュニティ内でやっているのだから、もっと実践したいという人を受け入れられる形にしたい』といった意見が出てきたのが発端です。 それに対して、「もうちょっとこの会として何をやっているのか、という透明性を高めるために、会としてのアウトプットを増やした方が良さそう」だと判断しました。 たとえば、今後モデリング会に参加したいもしくは、モデリング会のように自分が得た知識を実践する会を開くときに、いま私たちのやり方をフォーマットにしておくことで、何らかのヒントになるの

    「1年間続いたオンライン勉強会」秘伝のタレを公開します - jnuank blog
    nikkie-ftnext
    nikkie-ftnext 2020/12/23
    DDDCJで1年続いた勉強会のtips。開催日時の固定、カンバン確認してスタート→リモートのスタッフ作業にも活かせそう。「まず負けてみる」いいですね。失敗してもよい環境で色々試して経験値稼ぎは財産になると思います
  • Polyaxon を機械学習の実験プラットフォームとして導入した話 | メルカリエンジニアリング

    Merpay Advent Calendar 2020 の12日目は、メルペイで MLOps を担当している ML Platform チームの Mai Nakagawa がお送りします。 今回は、機械学習の実験を効率よく実行・管理するために Polyaxon という OSS のツールを導入した話をします。 Polyaxon 導入前の課題 Polyaxon について言及する前に、まずは Polyaxon 導入前に抱えていた課題について話します。それは機械学習の実験フェーズが属人化してしまっていたことです。下の図のように機械学習のワークフローを大きく実験フェーズ(Experiment Phase)、番環境に機械学習モデルをデプロイするフェーズ(Productionize Phase)、番環境で機械学習モデルを運用フェーズ(Operating Phase)の3フェーズに分けると、Produc

    Polyaxon を機械学習の実験プラットフォームとして導入した話 | メルカリエンジニアリング
    nikkie-ftnext
    nikkie-ftnext 2020/12/18
    k8s使った機械学習実験環境Polyaxon https://polyaxon.com/ 深層学習フレームワーク公式のDockerイメージ利用で実験環境の属人性排除。パラメタサーチ並列実行、ログ見られるダッシュボードよさそう。kubeflowとはどう違うんだろう?
  • Dashboard

    Continue with GitHubContinue with GitLabContinue with Bitbucket

    Dashboard
    nikkie-ftnext
    nikkie-ftnext 2020/12/18
    NextJSConf発のJS製バーチャルイベントプラットフォームキット。動画埋め込み、Discordへ案内、デモスペースやジョブボードをカバー。Vercelに簡単デプロイ。詳細は https://github.com/vercel/virtual-event-starter-kit Contentfulとも連携