PyCon JP 2020 での発表スライドです。 GitHub: https://github.com/taishi-i/toiro/tree/master/PyConJP2020
ストップワードの除去は自然言語処理やテキストマイニングにおける重要な作業です. 解析の精度を上げるために不要な記号や単語を等をデータセットから除去します. ストップワードの選定にはタスクに特化した分析が必要ですが,ある程度整理されているデータがあるととても助かります. そこで,今回は私が自然言語処理のタスクでよく行う,日本語のストップワードについてまとめました. また単語の分布などから,品詞ごとのストップワードに対する考察も行いました. このことからストップワードを介して自然言語処理のあまり語らることのない知識などをご共有できればと思います. (この記事の考察部分は主に自然言語処理の初心者を対象とした入門記事です.) 目次 1. 自然言語処理・ストップワードとは 2. 分析の対象 3. 単語の分布に対する考察 ┣ 出現頻度 上位300件 ┗ 出現頻度と単語 4. 品詞ごとに考察 ┣ 名詞
概要 マーケティングにおいて対面のクチコミ(Wordof-Mouth)だけでなくインターネット上でのe クチコミ(eWOM)の重要性が認識されている(濱岡, 1994; 濱岡& 里村, 2009) 。そこで重要になるのは、いかにしてクチコミを広げるかである。本研究では、ツイッターにおけるリツイート(RT)を eWOM と捉えて、それを促進するメッセージ要因、発信者の要因を考慮した分析を行う。発信者については、属性のみならず社会ネットワーク特性も考慮する。結果 ツイートを取得して、RT数の要因を分析しています。結果がなかなか面白いですね。 メッセージの形態のうち、「http」「@」の符号は負で有意であり、これらを含むものは RT されにくくなること、逆に「RT(拡散願い)を含む」ものは実際に RT される傾向があることがわかる。マーケティング情報のうち、「値引き情報」は RT 回数への影響が
Go 言語による Lisp インタープリタ 2015-05-13 (鈴) 1. はじめに 2. 典型的なオブジェクト指向プログラミングとの違い 3. panic/defer/recover による大域エラー処理 4. 数値演算の簡易な実装 5. おわりに lisp-light.go: Lisp インタープリタ lisp-light.zip: 上記のダウンロード用ファイル (11973 バイト) 1. はじめに 一昨年の「Go 言語による簡単な Lisp」では簡単な Lisp の作例を与えた。 しかし,マクロを持たないなど制約が多く伝統的な Lisp としてはあまり使えないものだった。 そこで今回「Dart による高速な Lisp インタープリタ」で記述した Dart による Lisp インタープリタの Go 言語への移植を試みた。 この移植において他言語と共通の課題を同様に解くことによる
#include <stdio.h> #include <stdlib.h> int main(void) { int a = 65535; char b; b = a; printf("%d %d\n", a, b); return EXIT_SUCCESS; } 「a に 65535 を代入し,b に a の値を代入しているのだから,b も 65535 になるはず.」 などとLL言語(JavaScript や Ruby など)に慣れていると思ってしまいがちだが,そうはならない. なぜなら,一般に,char 型の変数が保持できる値の範囲は,int 型の変数が保持できる値の範囲よりも小さいから. 概ね(…とボカす理由は後述),char は -128 から 127 までの整数しか保存できない. この性質は,ときどき,極めて恐ろしい. C言語は,上の例のように保持できる値の範囲が小さい変数への
最近の投稿 問題: 積み木を10個積み上げるのにかかる時間は 2020/8/20 木曜日 Google の G Suit Team から “[Action Required] Remove internal links to the G Suite Domain Contact page for your organization” ていうメールが来た 2020/8/14 金曜日 NZXT H1 と ROG STRIX B550-I GAMING で組んでみた 2020/7/17 金曜日 花粉症対策2019 2019/3/16 土曜日 マルチディスプレイ時のDisplayPort問題を何とかしてみた 2019/1/12 土曜日 REALFORCEソフトウェアがインストールできない(解決済) 2018/12/6 木曜日 GeForce RTX 2080 Founders Edition を買
いつの時代もより高速に動作するフレームワークや言語に対する関心は高いものですが、そんな疑問に答えるWeb Framework Benchmarksの最新版が公開されています。こちらのベンチマークはテスト用のコードや環境がオープンソースになっており16の言語(C C# Clojure D Erlang Go Groovy Haskell Java JavaScript Lua Perl PHP Python Ruby Scala)と57のフレームワークについて最適な実装が集められてテストされているという点で一般性があります。また実行環境もEC2と実マシンの2種類をそれぞれ実行している点も興味深いです。 気になるテスト結果のうち特に複雑度の高いデータベースから複数件のデータを取得してHTMLページとして出力した場合の結果は下記のとおりです。 堂々のトップに輝いているのはServletで最大で1
なぜScalaがバカ向けなのか。 ぼくの経験を元に、バカ向け言語と非バカ向け言語を比較しながら見て行きましょう 非バカ向け言語 C プログラマーとして最初に携わったのがC言語です。 それは以下のようなものでした。 何十ものファイルにまたがるグローバル変数 緻密な制御が必要であるにも関わらず、無秩序に取得/開放が行われているメモリー管理 このような複雑な構造を、ぼくのようなポケコン並の処理能力しか持たないバカに把握可能でしょうか。もちろん不可能です そこで、次のようなコーディングを心がけました。 グローバル変数を使わず、関数に引数を定義して渡す メモリーの取得/解放を同一ファイル内に限定する これで、メモリーや変数参照の影響範囲を限定し、ぼくのようなバカでも理解できるようになります。 ですが、わざわざそんな事をやらなくても全てを理解できるエリート様達は、 「なぜ引数で渡すんだ。グローバル変数
プログラミングをより深く理解するための近道は、プログラミング言語を実装してみること。SchemeのサブセットをRubyで実装していくことで、プログラムはどう実行されるのか、その基本がはっきり分かります。 ※本書はCC BYにより配布されています。上記の「買い物かごへ」ボタンからは有償で購入できます。無料で入手したい場合は、下記リンクよりダウンロードしてください。なお、有償版も無償版も内容は同一です。 EPUB版PDF版内容紹介プログラムは書けても、その基礎となっている計算機科学(コンピュータサイエンス) の理解があやふやな人を、著者は多く見てきました。プログラミングに自信があるという人が、もう一歩先に進める道を示したいというのが、この文書を書き始めた動機です。 この文書を読むことで次の効果が得られることを期待しています。 プログラミング言語とは何かを深く理解することで、プログラミングのレベ
About 南の島のプログラマ。 たまに役者。 Practical Schemeの主。 WiLiKi:Shiro 最近のエントリ 無限cxr高校受験Defense振り返ってみると2019年は色々学んで楽...覚えるより忘れる方が難しい(こともある)眼鏡のつると3DプリンタIris Klein Acting ClassSAG-AFTRA conservatory: Voice Acting創作活動って自分を晒け出さねばならないと...ループを使わずに1から100までMore... 最近のコメント shiro on 歳を取ると時間が速く過ぎるのは、新しいことに挑戦しないから? (2023/03/14)1357 on 歳を取ると時間が速く過ぎるのは、新しいことに挑戦しないから? (2023/03/01)ベアトリーチェ on ハイポハイポハイポのシューリンガン (2022/04/02)ベアトリーチ
Rubyの例外について少し調べたので、まとめてみる。 多くのモダンな言語同様にRubyでは例外処理機構が組み込まれている。 ファイルを開こうと思ったらファイルが存在しなかった ネットワーク先のサーバが反応しなくてタイムアウトした 定義されていない(存在しない)メソッドを呼んだ 0で割り算をしてしまった など想定外の問題に遭遇したときに、その問題を無視せずプログラマが何らかの対応処理をするための枠組みを提供する。 C言語など古い言語では、関数からの戻り値でエラーコードを返し、それによって呼び出し側がエラー処理をその場で記述する。例えば、fopen(3)が失敗すると戻り値としてNULLが戻ってきてグローバル変数のerrnoに失敗の理由を示すエラーコードが設定される。 #include <stdio.h> #include <string.h> #include <errno.h> int ma
コーディング指針 基本方針 こんなコードはよいコード 読みやすいことはよいことだ 見た目が単純だと読みやすい 皆がよく知っている構成は読みやすい (標準に従う。すでに知っているもの (Unix のコマンドとか) に従う。すでにあるものに従う) 書かないことはよいことだ 一画面で読める文字の量は一定 頭の中に同時にロードしてられるコードの量も一定 (せいぜい多くて数十行分程度) しつこい説明よりも、一つの決めごと 変数の意味は変数名が表現しています (だから、説明のためのコメントは付けません) プログラマは言語の基礎を知っています (だから、言語の標準機能・ライブラリ関数について逐一説明はしなくていいです) などなど タイプ量が少ないことはよいことだ タイプ量が少ないと単純に見えやすい 言語によらず、開発者が一定時間に打てるキーの上限はほぼ均一 つまり、タイプ量が少ないと時間あたりの開発量が
2012年3月に言語処理学会の年次大会で発表されましたこちらの論文、ここ最近ちょっとだけ自然言語処理、機械学習界隈で話題になっていたのですが、皆様ご存知でしょうか? 論文まとめサイトと化しつつある我がブログ、まあ取り上げますよね! ポケモン論文は、実のところ数多くあります。cinii で検索するとけっこうありますね。しかしながら理系的なアプローチは珍しく、卒業論文「ポケモンつなげるもん♪ ―最長しりとり問題を整数計画法で解く―」だけが突出して有名です。この論文は、停滞した情報系ポケモン論文業界に一石を投じるものであります。 この論文、最初タイトル見たときは「どこのFランだよwww」と思ったのですが、Last Author である荒牧英治先生は自分と同じ大学の自分と同じ建物にいらっしゃることが分かり、急に真顔になりました。 さてさて内容です。 タイトルは『音象徴の機械学習による再現:最強のポ
春の伊予国漫遊記。松山・今治と愛媛の魅力を満喫してきました。 法事を兼ねて愛媛観光へ 2024年のGWは、毎年恒例の名古屋帰省ではなく自宅でゆっくり過ごしておりました。というのも、4月に法事のため愛媛・松山に親族大集合というイベントがありまして、そちらをGWの旅行代わりにしたという理由です。法事は日曜日の予定ということ…
Effective Scala Marius Eriksen, Twitter Inc. marius@twitter.com (@marius) [translated by Yuta Okamoto(@okapies) and Satoshi Kobayashi(@scova0731)] Table of Contents 序章 書式: ホワイトスペース, 命名, インポート, 中カッコ, パターンマッチ, コメント 型とジェネリクス: 戻り型アノテーション, 変位, 型エイリアス, 暗黙 コレクション: 階層, 使う, スタイル, 性能, Java コレクション 並行性: Future, コレクション 制御構造: 再帰, Return, forループと内包, require と assert 関数型プログラミング: 代数的データ型としてのケースクラス, Option, パターンマッチ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く