[B! checkitout_research] [2ページ] rawwellのブックマーク

分散データベース - WebLab.ota

スキーマ（schema）データベースの構造であり、データベース管理システム (DBMS) でサポートされている形式言語で記述される。関係データベースでは、スキーマは関係 (表) と関係内の属性 (フィールド) 、属性や関係の関連の定義である。スキーマは一般にデータ辞書に格納される。スキーマはテキストによるデータベース言語のデータ定義言語 (DDL) で定義されるが、グラフィカルにデータベース構造を表したものをスキーマと呼ぶことも多い（http://ja.wikipedia.org/wiki/%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%9E_(%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9)）マルチデータベース異種データベース間結合機能既存データベース間に内在する新しい関係を抽出する既存データベ

rawwell 2009/05/20

"* DDBS o FDBS + グローバルなスキーマはひとつ o MDBS + スキーマを複数許す f:id:n_euler666:20090430190358j:image o component schcma + 共有しやすくするための翻訳 o Export schcma

checkitout_research

リンク

教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路本郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六本木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。研究の背景と目的従来手法の問題点を指摘それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

rawwell 2009/05/20

"あとでみんなで話したところ、そもそも現状の検索エンジンについての認識が間違っているということで意見が一致。エンタープライズ検索・デスクトップ検索が Web 検索とは多少違っているというのはその通りだと思うし

リンク

技術者／プログラマのためのラムダ計算、論理、圏第3回に行ってきた

実は第2回にも行っていたんだけど内容をまったく咀嚼できず、そのうちやろうと思っているうちに第3回が開催されてしまった ^^; 第2回ラムダ計算と停止性問題第2回は、主にラムダ計算について。前回の復習からはじまって、回路図のような絵を交えながらラムダ抽象化につなげていき、最後はJavaScriptのようなCのような疑似コードを使って、チューリングマシンの停止性問題を背理法で証明して終わった（と思う）。詳しくは、檜山さんのBlogに書いてあるので、そちらを見た方が良いと思う。セミナー資料紙芝居：ラムダ抽象セミナー非参加者にもわかるリアルワールド向けラムダ計算なぜ停止性について話したのか？第3回自然演繹と型付きラムダ計算、カリー／ハワード対応第3回は、カリー・ハワード対応についての感覚的な理解がゴール。第2回とはうってかわって論理を中心に話をすすめていき、論理でやっていることが

rawwell 2009/05/19

"第2回ラムダ計算と停止性問題第2回は、主にラムダ計算について。前回の復習からはじまって、回路図のような絵を交えながらラムダ抽象化につなげていき、最後はJavaScriptのようなCのような疑似コードを使って、チュー

checkitout_research

リンク

はてなブログ | 無料ブログを作成しよう

来年も作りたい！ふきのとう料理を満喫した　2024年春の記録春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

rawwell 2009/05/19

checkitout_research

リンク

はてなブログ | 無料ブログを作成しよう

春の伊予国漫遊記。松山・今治と愛媛の魅力を満喫してきました。法事を兼ねて愛媛観光へ 2024年のGWは、毎年恒例の名古屋帰省ではなく自宅でゆっくり過ごしておりました。というのも、4月に法事のため愛媛・松山に親族大集合というイベントがありまして、そちらをGWの旅行代わりにしたという理由です。法事は日曜日の予定ということ…

rawwell 2009/05/19

checkitout_research

リンク

はてなブログ | 無料ブログを作成しよう

来年も作りたい！ふきのとう料理を満喫した　2024年春の記録春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

rawwell 2009/05/19

checkitout_research

リンク

はてなブログ | 無料ブログを作成しよう

ネイルで使う材料で、DIY時の木割れやネジ跡を派手にしたらかわいい OSB合板でちょっとしたボックスをつくりました。ビス止め下手すぎて木を割ったり穴あけすぎたりした場所に、好きな派手色の樹脂を詰めてパテ代わりにしてみました。ちょっと某HAYっぽみ出て可愛かったので、自分用にメモです。手順塗装派手色グミジェルで失敗部分…

rawwell 2009/05/19

checkitout_research

リンク

はてなブログ | 無料ブログを作成しよう

来年も作りたい！ふきのとう料理を満喫した　2024年春の記録春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

rawwell 2009/05/19

checkitout_research

リンク

Aho–Corasick algorithm - Wikipedia

In computer science, the Aho—Corasick algorithm is a string-searching algorithm invented by Alfred V. Aho and Margaret J. Corasick in 1975.[1] It is a kind of dictionary-matching algorithm that locates elements of a finite set of strings (the "dictionary") within an input text. It matches all strings simultaneously. The complexity of the algorithm is linear in the length of the strings plus the le

rawwell 2009/05/18

"The Aho-Corasick algorithm is a string searching algorithm created by Alfred V. Aho and Margaret J. Corasick. It is a kind of dictionary-matching algorithm that locates elements of a finite set of strings (the "dictionary") within an input text. It matches all patterns "at once", so the complexity

リンク

http://ciaa2008.cs.sonoma.edu/acceptedpapers.html

rawwell 2009/05/16

"Conference on Implementation and Application of Automata"

checkitout_research

リンク

Stanford School of Engineering

This fall, SEE launches its programming by offering one of Stanford’s most popular engineering sequences: the three-course Introduction to Computer Science taken by the majority of Stanford undergraduates, and seven more advanced courses in artificial intelligence and electrical engineering.

rawwell 2009/05/16

"Artificial Intelligence Introduction to Robotics CS223A Natural Language Processing CS224N Machine Learning CS229"

checkitout_research

リンク

The Quine Page (self-reproducing code)

One day, several years ago, I came across an article in an old Byte on "self-reproducing programs". I was a curious lad, and looked to see what the article was about. It said, "Listing 1 is a C program which duplicates itself. When the program is run it produces (on the standard output) a file containing an exact copy of its own source code". I was hooked immediately--these guys must be geniuse

rawwell 2009/05/16

リンク

猫はうろうろ - yasuhisa's blog

にゃーにゃー、ではなくてw。情報学類(今名前変わったんだっけか)のほうで出ている自然言語処理の講義ほうで、形態素解析をするための「wikipedia:ビタビアルゴリズム(Viterbi algorithm)」というのを勉強しました(GWの前くらいに)。なんか全然分かっていなかったので、書いてみることにしました。アルゴリズムの種類としては動的計画法(Dynamic Programming)に入るので、アルゴリズムデザインのほうの勉強にもなるし(という合理化)。「猫はうろうろ」という文字列は「猫、はう、ろう、ろ」や「猫、は、うろうろ」など様々な形で形態素解析することができます。これをある基準で分解したいのですが、ここでは一番単純そうな単語数最小法と呼ばれる方法でやります。このやり方で「猫はうろうろ」と「家におくりました」を形態素解析すると結果は次のようになります。 /tmp% ruby v

rawwell 2009/05/16

"「猫はうろうろ」のほうはきちんと形態素解析できていますが、「家におくりました」のほうはきちんとできていません。そこで「この品詞があの品詞と連結するコストは…」というのも考えようとすると、それはコスト

checkitout_research

リンク

Stephen Marsland

This webpage contains the code and other supporting material for the textbook "Machine Learning: An Algorithmic Perspective" by Stephen Marsland, published by CRC Press, part of the Taylor and Francis group. The first edition was published in 2009, and a revised and updated second edition is due out towards the end of 2014. The book is aimed at computer science and engineering undergraduates studi

rawwell 2009/05/12

"I've written a textbook entitled "Machine Learning: An Algorithmic Perspective". It will be published by CRC Press, part of the Taylor and Francis group, on 2nd April 2009. The book is aimed at computer science and engineering undergraduates studing machine learning and artificial intelligence. The

checkitout_research

リンク

Full text search - Couchdb Wiki

Full-text Indexing and Searching Lucene integration with CouchDB is available with an external project called couchdb-lucene ( http://github.com/rnewson/couchdb-lucene). Index interface couchdb-lucene's indexing process is configured with update notification as follows; [update_notification] indexer=/usr/bin/java -jar /path/to/couchdb-lucene-<version>-jar-with-dependencies.jar -index Search inte

rawwell 2009/05/12

checkitout_research

リンク

SLOT88 SumoBet88: Situs Agen Judi Online Slot Gacor Online Terbaru 2023

🎰Slot Gacor, ⚽️Sportsbook, ♠Live Casino, 🃏Poker Online, 🧮Togel Online, 🐠Tembak Ikan Sumobet88 merupakan salah satu pilihan situs judi Slot Online Indonesia resmi terpercaya dan bisa diandalkan. Kami juga dikenal sebagai salah satu pilihan situs Judi Online 24jam nonstop yang mampu memberikan layanan terbaik bagi seluruh membernya. Kehadiran situs ini tentu saja menjadi sebuah faktor terbaik ba

rawwell 2009/05/12

checkitout_research

リンク

糞ネット弁慶

糞ネット弁慶日本声優統計学会/声優統計についてはこちら

rawwell 2009/05/12

1. レビュー文書分類 1. 分類カテゴリの詳細化（good/badではなく5段階評価） 2. 評判部分の検出 3. 肯定否定が混在する場合 2. レビューの属性に着目した要約 3. 辞書生成 4. 著者判定 5. レビュー

checkitout_research

リンク

鳥取の言語処理学会のまとめ - 武蔵野日記

遅ればせながら先日の学会のフォローアップ。 Yahoo! 検索スタッフブログにshimpei-m くんがブログを書いている。あまり詳細は書いていないので参考にはならないかもしれないが、鳥取の雰囲気は伝わるかな…… あとは名大の萩原さんのブログ。文字ベースの自然言語処理がアツいクエリ書き換えについて発表してきました「論文を引用したら著者に見せる」メソッドが良い感じおもしろかった論文とか研究とかさまざま紹介されていて、非常に参考になる。金曜日 O 野原くんにもこの一番下のエントリでも取り上げられている柴田さんの「超大規模ウェブコーパスを用いた分布類似度計算」の話を聞いて、なぜか自分は聞き逃していたので、要チェック！と思ったり。id:emiko-y さんの「専門用語の内部構造解析」は萩原さん的最優秀発表賞だそうだ :-) 自分だったら悩みつつ鍛治さんの「文脈にもとづく未知語獲得における識

rawwell 2009/05/12

自分だったら悩みつつ鍛治さんの「文脈にもとづく未知語獲得における識別モデルの適用」かなぁ～

リンク

本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を書いてみた - FutureInsight.info

以前のエントリーで本文抽出ライブラリWebstemmerを使ってみました。 Webstemmerによるブログの本文抽出 - FutureInsight.info Webstemmerは非常に興味深い本文抽出ライブラリなのですが、ニュースサイトなどの複雑な階層構造を持っているサイトの本文抽出に特化しているため、逆にblogのようなシンプルなケースでの本文抽出に用いるには、ちょっとオーバースペックです。 Webstemmer Webstemmer はニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェアです。サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。そのあたりのことを考慮して、本文抽出ライブラリWebstemmerのblog本文抽出用特化スクリプト「blogstemmer」を作成してみました。

rawwell 2009/05/12

* blogの本文抽出だと各エントリーのレイアウトはほぼ同じと仮定してよいので、各ページのレイアウトを分類する精度はそこまで必要ない。広告エントリー、一行だけ、写真だけなどあきらかなごみエントリーをはじけ

checkitout_research

リンク

Webstemmer（クローラーツール）

日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ

rawwell 2009/05/12

1. まず、特定のニュースサイトから種となる HTML ページを多数取得する。 2. 取得したページのレイアウトを学習する。 3. 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 4. 2. で学習した結果

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

checkitout_researchに関するrawwellのブックマーク (73)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス