タグ

ブックマーク / blog.hoxo-m.com (7)

  • RでCQT(Constant-Q変換)をやってみる - 株式会社ホクソエムのブログ

    ホクソエムサポーターの松です。音楽を作ったり聴いたりするのが趣味なので、音楽分析に興味があります。音データの分析にはPythonだとlibrosaというとても便利なパッケージがあるのですが、Rにはそういった汎用的なパッケージがなくてちょっと不便です。 最近ふとRでCQT(Constant-Q変換)をしてみたいと思い、既存のパッケージを使ってできないか探してみたところ特に見つからなかったので、どのように実装すればいいのか調べてみました。 スペクトログラムについて 音声や音楽データの分析を行う際には生の波形をそのまま扱うのではなく、スペクトログラム(時間周波数表現)に変換したものを特徴量として利用することがあります。下の画像は「あいうえお」という音声を録音したデータを表したものです。 左図の波形データは横軸は時間、縦軸は振幅を表します。右図のスペクトログラムは横軸は時間、縦軸は周波数、色はそ

    RでCQT(Constant-Q変換)をやってみる - 株式会社ホクソエムのブログ
  • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は日語の word2vec に着目し、日語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

    学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
  • 機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ

    はじめに 株式会社ホクソエム常務取締役のタカヤナギ=サンです、データサイエンスや意思決定のプロ・経営をしています。 掲題の件、現在、某社さんと”機械学習における評価指標とビジネスの関係、および宇宙の全て”というタイトルの書籍を書いているのですが、 記事のタイトルにあるような考え方については、論文・書籍などを数多く調査しても未だお目にかかることができず、これをいきなり書籍にしてAmazonレビューなどでフルボッコに叩かれて炎上して枕を涙で濡らすよりも、ある程度小出しにして様々な人々の意見を聞いた方が良いのではないかと思い独断で筆を取った次第です。 筋が良さそうなら論文にするのも良いと思っている。 「いや、そんなもん会社のBLOGに書くんじゃねーよ💢」という話があるかもしれないですが、ここは私の保有する会社なので何の問題もない、don't you? こういうビジネスを考えてみよう 「この人

    機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ
    Aobei
    Aobei 2021/06/27
    モデルの評価の仕方について。
  • darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 呪術廻戦をみて喜久福がべたくなりました *1。 今回は形態素解析について深堀りしてみます。 日語の自然言語処理において、形態素解析は必ずといっていいほど通る道です。 形態素解析を必要としないSentencePieceのような深層学習向けのtokenizerも出現していますが、品詞単位で分割する形態素解析が重要であることは変わりありません。 そんなこんなで、『実践・自然言語処理シリーズ2 形態素解析の理論と実装』 (以降「形態素解析」と表記)を読んでいます。 リンク先の目次を見て分かるとおり、基礎の部分から実装まで説明されているです。 今回は4章で紹介されている darts-clone を使って、精度は粗いが高速で分かち書きができる最長一致法で、どれぐらい分かち書きが可能かを検証します。 事前知識・辞書引き darts-cloneを使ってみる 単語辞

    darts-cloneを使って最長一致法で分かち書きしてみる - 株式会社ホクソエムのブログ
  • 有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

    はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日カフェデビューをして, アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します。 有価証券報告書をダウンロードするところからご紹介するのでご安心を。 こんな方が見たら役に立つかも 企業分析をプログラミングでやりたいが何してい

    有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ
  • データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ

    要約 drakeパッケージは、GNU makeのようにあらかじめ定義されたワークフローを自動的に実施する仕組みを、Rユーザに馴染みやすいデータフレーム形式で提供する ワークフローの構築と管理、実行はRの関数として提供され、依存関係を可視化する関数も用意される drakeパッケージを使うことで、データ分析でありがちな「再実行」の負担(再計算、コードの保守)を軽減することが可能となる 各オブジェクトは自動的にキャッシュされ、コードや依存関係に変更のない場合はキャッシュが利用される ワークフローの各処理の状況、依存関係を可視化する関数も用意され、ワークフロー管理が容易になる 要約 はじめに シーシュポスの岩 既存の解決策 drake: Rユーザのためのワークフロー処理パッケージ ワークフロー管理の基礎 ワークフローと依存関係の可視化 ワークフローの変更 参考URL はじめに データ分析の作業は、

    データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ
    Aobei
    Aobei 2019/04/01
  • DJタカヤナギ=サンで学ぶRを用いた画像操作 ·

    こんにちは、ホクソエムの市川です。 日々の業務の合間にちょっとクソコラを作りたいこと、あると思います。 でもクソコラに手間はかけたくない。 そんな時に使えるのがimagerパッケージです。 ちなみに画像操作に使えるRのパッケージには他にもEBImageパッケージ、magickパッケージ等があります。 それぞれに利点はあるのですが、EBImageはbioconductorからインストールする必要があるので手間がかかり、magickは画像の上に図形を描くのが意外と面倒だったりします。 繰り返しますがクソコラに手間はかけたくない。 ということで今回はCC0ライセンスで公開されているDJタカヤナギ=サンの画像を用いてimagerパッケージの使い方について学びたいと思います。 画像の読み込みと表示 画像の読み込みにはload.image()を用います。 読み込んだ画像の情報はprint.cimg()

    DJタカヤナギ=サンで学ぶRを用いた画像操作 ·
  • 1