並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 498件

新着順 人気順

mecabの検索結果1 - 40 件 / 498件

  • AI・Python活用レシピ100選 - Qiita

    ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

      AI・Python活用レシピ100選 - Qiita
    • 2019年末版 形態素解析器の比較 - Qiita

      形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

        2019年末版 形態素解析器の比較 - Qiita
      • Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog

        はじめに はじめまして。 プラットフォームサービス本部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。 データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなければ立つ瀬がありません。 そうならないように日々研鑽を積んでいるわけですが、その中で作ったTwitter分析システムっぽいもののご紹介が本稿の趣旨となります。 本来のデータ利活用プロジェクトでは、課題および仮説をまず明確にして、それに応じたデータ解析を進めていくのですが、本稿では堅苦しいもの

          Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
        • Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう

          検索エンジンを何故作ってみたかったか もともとこのブログのコンセプトのNLP的なことで、情報を整理してなにか便利にしたかった(Googleと同じモチベーションの世界の情報を整理する) 4年前にほぼ同じシステムを作ろうとしたとき、500万を超える大量のインデックスを検索するシステムは、数学的な理解度が十分でない+エンジニアリング力が伴わないなどでギブアップした背景があり、今回再チャレンジしたくなった ほぼすべての機能をpure python(+いくつかの例外はある)で実装して、世の中の ソフトウェアを使うだけ の検索エンジンをやってみたなどではなく、実際に理解して組んでみることを目的としたかった 依存パッケージと依存ソフトウェア GitHubのコードを参照してください 様々なサイトを巡回する必要があり、requestsが文字コードの推論を高確率で失敗するので、nkf をlinux環境で入れて

            Pythonで100万ドキュメントオーダーのサーチエンジンを作る(PageRank, tfidf, 転置インデックスとか) - にほんごのれんしゅう
          • Mozcdic-UT (Mozc-UT)が終わった話と、代替品を開発してる話 - Chienomi

            序 2023-01-12にLinux界隈に激震が走ったらしい。 Linux環境(Unix環境を含む)の日本語入力を支えていた、Mozcdic-UTプロジェクトが終了したからだ。 まず、前提として私の立場を明確にしよう。 私は2017年から、従来のMozc-UTに代わる新しい(ライセンス上の懸念のない)Mozc辞書として誕生したMozc-NEologd-UTのFcitxバインディング、fcitx-mozc-neologd-utのAURパッケージをメンテナンスしてきた。 その後新生Mozc-UTが誕生してからはfcitx-mozc-ut-unifiedとfcitx-mozc-ut-unified-fullというふたつのパッケージを加え、計3つパッケージをメンテナンスしてきた。 その後、mozcdic-ut自体がfcitx4をサポートしなくなったこと、fcitx5は既にメンテナーがいたことから私

            • 社会学者はtwitterでどう語られるか? - データをいろいろ見てみる

              twitter上でdisられる社会学者 しばしば 社会学者はSNSで悪し様に罵られる。 なぜ社会学はここまで嫌われるのか|小山晃弘|note 例えばこのブログが書いているように、胡散臭い、学問ではない と言われる。 ここで疑問に思ったのは、上で紹介したブログに様に社会学者だけに悪評が立っているのか?他の学問分野ではどうなのだろうか? twitterで社会学者はどの様に語られているか? twitterは、開発者向けに全ツイートの1%のサンプリングデータを公開している。私は2018年からそのtweetサンプルを収集している。現在、約7億件のtweetを収集している。 そのデータを利用して、社会学者はtwitter上でどの様に語られているかを調査する。 調査データ データ種別 説明 データ期間 2018-01-09から2021-01-28 データ件数 約7億2千4百万件 調査方法 サンプリングさ

                社会学者はtwitterでどう語られるか? - データをいろいろ見てみる
              • オタクと気持ち悪いという言葉 - データをいろいろ見てみる

                概要 Twitter上で「気持ち悪い」、「キモイ」という言葉が、どのように使われてるかと調査した。 調査対象は、キモイ、気持ち悪いという言葉を含むtweet、約28万件 時系列の変化を見るため、2018年と2019年で調査を行った 気持ち悪いと言う言葉は、オタクへの言及とともに使われている オタクを含んだtweetは、28万件中、14431件あった 調査結果 2018年調査 2018年に投稿されたツイート調査 調査期間 2018/01/09 - 2018/12/31 tweetソース元 Sample realtime Tweets API 2019年調査 2019年に投稿されたツィート調査 調査期間 2019/01/01- 2019/10/20 tweetソース元 Sample realtime Tweets API 気持ち悪いという言葉の特徴 気持ち悪いという単語は、他者を侮蔑する意味と

                  オタクと気持ち悪いという言葉 - データをいろいろ見てみる
                • 突撃! 隣のLinuxデスクトップ - Hatena Developer Blog

                  この記事は はてなエンジニア Advent Calendar 2022 16日目のエントリーです。 こんにちは、Webアプリケーションエンジニアの id:masawada です。過去のAdvent CalendarでLinuxデスクトップを業務利用している記事を書きまして*1、そこから早いもので3年経ちました。当初はこのころからの差分でも書こうかと考えていたのですが、書き出してみると案外大きな変化はなくネタとしてイマイチ面白みに欠けるので企画を練り直すことに。(裏返せば十分に安定して利用できているということで、それはそれでありがたいのですが!) 考えているうちに、そういえば社内でLinuxデスクトップを利用している他のエンジニアはどんな環境で作業しているのかな? と気になったのでアンケートをとってみることにしました。 アンケートの方法 以下の項目でGoogle Formを用意しました。 業

                    突撃! 隣のLinuxデスクトップ - Hatena Developer Blog
                  • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

                    アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

                      AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
                    • Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita

                      0、はじめに マッチングアプリで機械学習エンジニアをやっているはやとと言います。今回は「Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なもの、やって感じたこと」について書いていこうと思います。 「Web系企業で機械学習エンジニアやってみたい!」「組織としてデータ分析や機械学習をやり始めたいけど何からやったらいいかわからない!」という方も多くいるでしょう。 Web系企業での機械学習エンジニア・データサイエンティストの動きはメルカリのブログとか本でよく見ます。しかし、まだ規模があまり大きくない会社における機械学習エンジニア・データサイエンティストの記事や本は一切見当たらず、また、立ち上げ(そんな大げさな言葉を使っていいのか分かりませんがw)の話が書いてあるものは見たことがないです。そのため、もしかしたら日本で初めての記事になるのではないかなと考えてワクワクしながら書い

                        Web系企業での一人目の機械学習エンジニア・データサイエンティストに必要なスキルと経験して思ったこと - Qiita
                      • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                        前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                          WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                        • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

                          PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

                            Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
                          • 機械学習なdockerfileを書くときに気をつけとくと良いこと - nykergoto’s blog

                            みなさん機械学習系の環境構築はどうやってますか? 僕は最近は Docker を使った管理を行っています。 特に師匠も居なかったので、ぐぐったり人のイメージを見たり手探りで docker をつかいつかいしている中で、最初からやっとけばよかったなーということがいくつかあるのでメモとして残しておきます。 大きく2つです。 キャッシュは消す テストを書く キャッシュは消す ライブラリをいろいろと install すると大抵の場合ダウンロードしたファイルを保存されている場合が多いです。何かのタイミングで再びそのライブラリをインストールする際にはダウンロードしたファイルを使って、素早くインストールすることができます (この仕組みがキャッシュです)。 キャッシュがあると容量が重くなるという欠点があります。重たいイメージは pull に単に時間がかかりますから、システムとしてデプロイする時にトラフィックが

                              機械学習なdockerfileを書くときに気をつけとくと良いこと - nykergoto’s blog
                            • 小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita

                              はじめに これを書いてる人の機械学習・データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等でどんどん指摘してくださると有り難いです。(コードが汚い、変数の命名がおかしい等はご容赦ください) 本記事について 小説家になろうの作品でブックマーク10以上を獲得するために、有利なジャンルはあるのか、作品のタイトルとあらすじの文字数は重要か、本文の文字数は重要か、ジャンルが重要ならどのジャンルが良いのか、文字数が重要ならどのぐらいの文字数が良いのか、といったことを調べていきます。 先に分析の結果を書くと 大ジャンル ジャンル 15禁止作品かどうか、タイトルの文字数、あらすじの文字数

                                小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
                              • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                  歴代チャットボットと最近のLLMのまとめ - Qiita
                                • ラズパイ使って赤ちゃん快適室温設定システム構築してみた | ラズパイラボラトリー

                                  ラズパイを使ってやってみたかったことの一つ、センサーを用いた温度湿度の計測。 今回はセンサを用いて部屋の温度室温を計測してみることとしましたが、せっかく計測するなら、ラズパイでできる他の機能も活かして、何か生活に役立てられるようなものができないか、と考え、今回思いついたのが、「赤ちゃん快適室温設定システム」。 今回は、温度湿度センサーと、これまで本ブログで紹介してきたいくつかの簡単な技術、機能を組み合わせて、赤ちゃんが快適に過ごすことができる部屋をつくるためのシステムを構築しました。 こうがくん ラズパイで赤ちゃん快適室温設定システム構築したよ! 赤ちゃん快適室温設定システムの概要 経緯と目的 ラズパイの特徴と言えば、センサなどいろいろな電子機器を繋げて、計測したり、制御したりできることです。接続できるセンサは、本当にいろんな種類のものがあり、ラズパイを始めた身としては、全種類扱ってみたい

                                    ラズパイ使って赤ちゃん快適室温設定システム構築してみた | ラズパイラボラトリー
                                  • 自然な日本語ダミーテキストを生成するWebアプリを作りました

                                    こんな感じの文章を自動生成できます。 二人の男女を一様に観察していました。私は仕方なしに立って、再び封の中へ、自分の左右前後を見廻して母の頭は陛下の病と父の病と父の病とを結び付けて考えるのが変に気味が悪かったのです。固よりそこにはまるで解りませんけれど、おそらくそんな意味じゃないでしょう。私の考えは行き詰まればいつでも両方が同時に奥さんのいる事をとうから自覚していました。先生の附近で盗難に罹ったものが、僻んだ私の眼を擦りました。それでも鷹揚に育った私は、もっと海の中で遊んでいられるか、宅へ帰って食卓に向った時、両親の死に断えた私の卒業する前に、また一種の弛みができても、決して強い言葉で説明しました。 モチベーション 同じようなツール・サービスはいくつも公開されていますが、ほとんどが以下の 3 つの方式を採用しており、個人的にはあまり満足できていませんでした。 短い定型文の繰り返し: 一種の

                                      自然な日本語ダミーテキストを生成するWebアプリを作りました
                                    • 機械学習のための環境構築とその管理 - nykergoto’s blog

                                      機械学習プロジェクトでは python を始めとした言語 + それに付随したライブラリを使います。 僕も python 触りたての頃はローカルマシン上にひとつ python 環境を作り、必要なライブラリをインストールして使っていました。環境の分離ということはあまり意識しておらず、やったとしてもプロジェクトごとに anaconda や pyenv, venv などで個別環境を作って切り分けるレベルでした。 しかし上記の方法だと困ったことが起ることがあります。例えば… global な環境が壊れてしまってすべて壊れる。 これは各環境が global な環境に依存しているために起こります。 python 以外の変更で環境は突如として壊れます。例えば brew install hoge したら Mecab が使えなくなっちゃったとかはあるあるだと思います >_< linux / Mac / Win

                                        機械学習のための環境構築とその管理 - nykergoto’s blog
                                      • MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog

                                        こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。 github.com 本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。 自然言語処理の要素技術に興味のある方 データ構造・アルゴリズムに興味のある方 Rustでの自然言語処理に興味がある方 Vibratoについて 最小コスト法による形態素解析 単語ラティスの構築 最小コスト経路の計算 高速化の取り組み 辞書引きのキャッシュ効率化 実装での注意点 連接コスト参照のキャ

                                          MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog
                                        • 日本語の折り返しをJavaScriptで制御する - LIVESENSE ENGINEER BLOG

                                          インフラエンジニアの中野(etsxxx)です。今回はWebのフロントの話です。稚拙な部分はご容赦を。 はじめに 前提知識 解決案の候補 解決案1: 手でspanタグをつける 解決案2: サーバーサイドの処理 解決案3: クライアントサイドの処理 クライアントサイドで文節区切り 実装 結果と考察 さいごに はじめに 2020年12月、リブセンスにQ by Livesenseという広報ブログが誕生しました。このブログは明朝体と縦書きと長文にアイデンティティがあります。 Q by Livesenseはこういう見た目のブログです。 Q by Livesenseは縦書きということで、漢数字を使っていたり、写真やイラストを使わずに純粋な文体で記事を書いていたりと、書籍のような日本語らしさが求められるデザインとなっています。 縦書きはWebエンジニアにとっても珍しい実装ですが、読者にとっても慣れないUI

                                            日本語の折り返しをJavaScriptで制御する - LIVESENSE ENGINEER BLOG
                                          • Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog

                                            こんにちは。 クラシル開発部、バックエンドエンジニアの松嶋です。 delyに入社してから約3年間、私はSREチームに所属していましたが、昨年10月にバックエンドに転向しました。バックエンドに転向してからは、主にクラシルアプリの公式レシピおよびCGMコンテンツの検索機能に関する開発・改善に取り組んでいます。 クラシルは、2016年2月にサービスを開始してから、管理栄養士監修の「誰でも安全に・おいしい料理を作ることができるレシピ動画」を5万件以上提供してきました。 昨年12月には、クラシルのブランドリニューアルを行い、今後はシェフや料理研究家を中心としたクリエイターとともに多様化したユーザーの食の好みや課題解決に応えられるよう、幅広い食のコンテンツを提供するプラットフォームを目指しています。 ブランドリニューアルの詳細に関しては、こちらを御覧ください。 www.kurashiru.com この

                                              Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog
                                            • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

                                              はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

                                                大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
                                              • mozc-utの公開の終了といろいろについての所感

                                                どういうことだってばよ Linux 上の日本語入力システムで一番メジャーといえる mozc(Google 日本語入力のオープンソース版)向けの辞書として公開されていた、mozc-ut の公開を作者が終了してしまいました。それに伴ってディストリビューションにパッケージの公開をしている人に削除が求められています。自分の知る限りでは AUR でしかパッケージングされていないので、その部分の影響は少なそうですが、かなりメジャーな mozc の辞書として知られていたので、影響が大きそうだと思いまとめることにしました。(私事で恐縮ですが、mozc-ut を利用していたのでまあまあなショックがあります) 発端 山田ハヤオさんの 2 つのツイートが作者のサイトで原因としてあげられています。 作者は 1 つめのツイートについて 山田ハヤオさんが「UT 辞書はライセンスに問題があってまともではない」と書いてい

                                                  mozc-utの公開の終了といろいろについての所感
                                                • クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG

                                                  こんにちは!最近気になるニュースはスピノサウルスの尻尾の化石が発見されたこと1な、SRE部エンジニアの塩崎です。ZOZOテクノロジーズの前身となった会社の1つであるVASILYでは数多くのクローラーの開発・運用の担当をしてきました。 今回はその知見を生かして、クローラーを楽に運用するためのクラウドサービスを紹介します。 概要 データ解析を円滑に進めるためには、CSVやWeb APIなどの構造化されたデータが必要です。しかし全てのWebサイトにあるデータが構造化データを提供しているとは限りません。むしろ提供していないケースの方がはるかに多いです。そのため、Webクローラーを作成して構造化されていないWebページを解析し、構造化データを生成する必要があります。 しかし、Webクローラーの運用には数多くの「つらみ」があります。特に大量のWebページを1日1回などの頻度で定期的にクロールする際には

                                                    クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG
                                                  • 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services

                                                    Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

                                                      日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services
                                                    • AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

                                                      はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea

                                                        AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
                                                      • ラズパイ使って防犯システム構築してみた | ラズパイラボラトリー

                                                        ラズパイを使って、”安価に”、”容易に”、何か生活に役立てられるようなものができないかと、日々考えながら過ごしていた時に思いついたのが、外出時/就寝時の防犯システム。 不在の時や就寝時に、泥棒などが入ってきたことを自動で検知して、お知らせしてくれるシステムです。本記事では、以降これを「ラズパイ防犯システム」と称して、その構築の流れや実際の動作結果をまとめました。 完成形は下図の通りです! こうがくん ラズパイで防犯システムを構築したよ! ラズパイ防犯システムの概要 経緯と目的 本ブログでは以前、初めてラズパイにカメラを取り付けて、写真を撮影できるようにしてみました。 https://inupy.com/raspi-008/ このカメラを使って、また、ラズパイの特徴である電子工作も取り入れて実用的なものができないかと考え、以下のような目的で防犯システムを作ってみることにしました。 <システム

                                                          ラズパイ使って防犯システム構築してみた | ラズパイラボラトリー
                                                        • 有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ

                                                          はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日猫カフェデビューをして, 猫アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 本記事ではPythonを使って有価証券報告書をテキストマイニングする方法を紹介します。 有価証券報告書をダウンロードするところからご紹介するのでご安心を。 こんな方が見たら役に立つかも 企業分析をプログラミングでやりたいが何してい

                                                            有価証券報告テキストマイニング入門 - 株式会社ホクソエムのブログ
                                                          • 遅くないpandasの書き方 - ML_BearのKaggleな日常

                                                            これは何? この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。 この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件 この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。 並列化ライブラリ

                                                              遅くないpandasの書き方 - ML_BearのKaggleな日常
                                                            • 高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました

                                                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。LINEの小林滉河(@kajyuuen)です。NLPチームで固有表現抽出、有害表現の検知、LINEスタンプ推薦の改善など自然言語処理に関する仕事をしています。 この記事ではLINEが公開した言語モデル「LINE DistilBERT」について紹介します。 https://huggingface.co/line-corporation/line-distilbert-base-japanese https://github.com/line/LINE-DistilBERT-Japanese LINE DistilBERTは次のような特徴を持つ日本語言語モデルです。 高性能・高速・軽量 Hugging Faceのtra

                                                                高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました
                                                              • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

                                                                ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

                                                                  学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
                                                                • AIとか機械学習に詳しい人にガチで質問なんだが

                                                                  こういうのを実装したいと思ってるだがどんな言語とライブラリ使って どのくらいの勉強期間と実装期間を費やせば作れるかな? 質問のテキストを投げるとそれに一番見合ったFAQページのリンクとタイトルを表示してくれるチャットボット的なプログラムFAQは特定サイトのもので増減とかはあんまりない学習データは自分が手動で入力して作成する前提 ユーザーからの入力された質問データを利用して絶えず学習し続ける的な機能はなしインターフェースはCUIでとりあえずOK有償のライブラリや機械学習用の外部サービスは使わない前提 できれば全部OSSのもので完結させる 業務で使うというよりは習得メインだから回答の精度とかは二の次でいい ちなみに自分のスキルは一応本職だからPythonは触ったことないけど MySQLいじったりテーブル設計したり学習データ管理用のGUI作ったりとかMeCabの知識とかはどうにでもなると思う あ

                                                                    AIとか機械学習に詳しい人にガチで質問なんだが
                                                                  • 最終出社日 - kmuto’s blog

                                                                    本日で株式会社トップスタジオ https://www.topstudio.co.jp/ の勤務を終え、これから有給消化に入る。 SIerからの転職で1999年に入社し、3年くらいかなーと思っていたのが5年となり、10年となり、……といつのまにかずいぶんと長く在籍していた。 仕事的には自由度が高く、先端の技術分野の書籍を制作しながら知識を得て血肉にすることができ、私にはとてもフィットする職場だった。同僚にも恵まれて楽しかったので、離れるのは寂しい思いがある。 トップスタジオで何をやってきたの? 長くいたこともあり、それなりに成果を積んできたとは思う。 入社当初より、編集者として、各社のIT書籍の請負制作をしてきた。Linux、OSS、ネットワーク、セキュリティ、ソフトウェア工学、エンジニアリング、そして最近だと機械学習が多い。翻訳の監修や、執筆なども関連して担当。企画はあまりやっていない。

                                                                      最終出社日 - kmuto’s blog
                                                                    • Rustで扱える機械学習関連のクレート2021 - Stimulator

                                                                      - はじめに - 本記事では、Rustで扱える機械学習関連クレートをまとめる。 普段Pythonで機械学習プロジェクトを遂行する人がRustに移行する事を想定して書くメモ書きになるが、もしかすると長らくRustでMLをやっていた人と視点の違いがあるかもしれない。 追記:2021/02/24 repositoryにしました。こちらを随時更新します github.com 追記;2021/07/26 GitHub Pagesでウェブサイトにしました vaaaaanquish.github.io - はじめに - - 全体感 - - 機械学習足回り関連のクレート - Jupyter Notebook Numpy/Scipy Pandas 画像処理 形態素解析/tokenize - scikit-learn的なやつ - 各ライブラリと特徴比較 - Gradient Boosting - XGBoos

                                                                        Rustで扱える機械学習関連のクレート2021 - Stimulator
                                                                      • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

                                                                        こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

                                                                          ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
                                                                        • Pythonの機械学習用Docker imageのサイズ削減方法の紹介 - エムスリーテックブログ

                                                                          エムスリーエンジニアリンググループ AIチームの笹川です。 バスケと、ロードバイクが趣味なのですが、現在、NBAのplayoffと、Tour de Franceが同時に開催されていて大変嬉しい毎日を過ごしています。 特にNBAのplayoffは、連日overtimeとなるような激戦や、giant killingがあったりのアツい戦いが繰り広げられていて最高です。 そういう状況なので(?)、今回は先日取り組んだ、Pythonの機械学習バッチを実行するdocker imageのサイズ削減についてのアツい戦いについて紹介したいと思います。 膝の上に登って寝る為に、筆者がデスクに戻るのを机の下で待ち構える犬氏(かわいい) 今回の取り組みでは、もともと3GB程度だったPythonのML用のimageを、約2.0GBに削減することができました(それでもなかなかのサイズ。MLのimageは特に大きい印象

                                                                            Pythonの機械学習用Docker imageのサイズ削減方法の紹介 - エムスリーテックブログ
                                                                          • SQLで始める自然言語処理 - やむやむもやむなし

                                                                            こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

                                                                              SQLで始める自然言語処理 - やむやむもやむなし
                                                                            • ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog

                                                                              こんにちは、AppBrewでアルバイトをしている@Leoです。 自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。 今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。 自然言語処理・確率関係全然わからない!という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです! LIPSにおけるジャンル 教師データの作成 ナイーブベイズ 単語分割 モデルの実装 分類結果 おわりに LIPSにおけるジャンル 最近、LIPSにジャンル機能が追加されました。 これは投稿されたクチコミにジャンルを設定できる機能です。 適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。 ジャンルは7種類(

                                                                                ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog
                                                                              • AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開

                                                                                アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。 「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。 「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。 「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。 データはAmazon S3上でホストされているので、AWSで

                                                                                  AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開
                                                                                • JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.

                                                                                  プラコレアドベントカレンダーもラストスパート!こんにちは、森です! 仕組みをちゃんと理解するには実装してみることが一番!ということで、N-gramの中でも一番実装が簡単なuni-gramをjsで実装してみました! 目次 全文検索とは uni-gram インデックスの作成 文章にdocument IDを振る 文字列の分割 文字位置付与 トークンごとに位置情報をまとめる トークンをキーに引けるように保存 インデックスから検索 検索文字列をトークンに分割 インデックスからトークンのデータを取得 取得したデータをつなぎ合わせる 実装 動かし方 インデックスの作成 インデックスから文字列を検索 コード 参考文献 最後に 全文検索とは まず最初に全文検索とはなにかってことですが、Wikipediaで調べてみました「コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名

                                                                                    JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.