タグ

テキスト処理に関するn-yujiのブックマーク (18)

  • 浮紙

    コンテンツへスキップ ファイルを開く ファイルを保存する テーマ ドキュメントウインドウ 不可視文字 検索 テキスト整形 浮紙の整形項目 ストック 特定文字を確認 設定ファイル 今後の予定 v4とv8の違い

  • 番外編●特別コラム「[知っておきたい]正規表現にまつわる基本Q&A」[正規表現技術入門――最新エンジン実装と理論的背景(WEB+DB PRESS plusシリーズ)]|gihyo.jp … 技術評論社

    プログラミングの世界には実に多くの技術や方法論が溢(あふ)れていますが,その中でも「正規表現」はかなり特別な存在です。文字列のパターンを簡単な式で記述できる正規表現は,文字列処理をはじめ,さまざまな場面で活躍してくれるとても便利な道具です。プログラマの相棒となってから久しい正規表現ですが,多くの人々に知られている一方,正規表現に纏(まつ)わる疑問や間違った知識が多いのも事実です。 記事では,そんな正規表現に関するよくある疑問やあれこれに,2015年4月発売の『正規表現技術入門――最新エンジン実装と理論的背景』(新屋 良磨/鈴木 勇介/高田 謙著,技術評論社)の著者の一人がQ&A形式で答えます。 *(アスタリスク)は,「任意の文字列」(ワイルドカード)を表す正規表現? Q:正規表現って便利ですよね。 などなど,シェルでのファイル操作で重宝しています。 A:(!) A:はい,正規表現は便利で

  • K.Takata's software : bregonig.dll

    bregonig.dll 2008/10/12 更新 ダウンロード bron144.lzh (198,956bytes) : 通常版(正式公開版) bron200beta10.lzh (222,035bytes) : Unicode 対応版(テスト版) bregonig.dll について bregonig.dll Ver.1.44 Copyright (C) 2006-2008 K.Takata 1.概要 Tatsuo Baba氏による正規表現ライブラリである Bregexp.dll (*1) 互換 の正規表現ライブラリです。Windows アプリで Perl 互換の正規表現が使え るようになります。 正規表現エンジンとして鬼車 (Oniguruma) (*2) を採用することにより、 オリジナルの Bregexp.dll よりも高度な正規表現を使用できるようになっ

  • ボタンを押すとテキストが流れる、というゲームの文化

    先日、「428 ~封鎖された渋谷で~」「3年B組金八先生 伝説の教壇に立て!」なんかのアドベンチャーゲームで有名なゲームクリエイター、イシイジロウさんと、出版界で知の巨人とも呼ばれる編集工学研究所の所長、松岡正剛という方の対談がありまして、僕はその対談の司会をしていました。 松岡正剛さんという方は、出版の世界では大変な重鎮なんですが、この方がサイバードのスマートフォン向けゲームアプリ「NAZO」の制作に関わったということで、物語の表現方法の1つとして、ゲームというものに興味を持ってらっしゃいます。で、ゲームで物語を表現してきた、しかもに近い、テキスト主体の物語をを作ってきた人と言えば、イシイジロウさんの名前が挙がります。 この2人が、における物語と、ゲームにおける物語について、クロスして話をしたら面白いんじゃないか、というのが対談の趣旨です。 そこでは色んな面白い話がでるんですが、その

    ボタンを押すとテキストが流れる、というゲームの文化
  • Markdown文法の全訳

    Markdownの文法について作者が解説したページを全訳してみました。 まだまだ手を入れ足りないところがありますが暫定公開します。 【更新】2008年12月30日17時45分(ホームページを移動) 【原文】http://daringfireball.net/projects/markdown/syntax.php 【HP】http://daringfireball.net/projects/markdown/ はじめに 注意 ライセンスは修正BSDライセンスです。原文のライセンスを尊重の上、適当にどうぞ。 意訳していて、原文の意味を損なわない程度に言葉を加えたり省略している部分があります。 訳が間違っている可能性があります。暫時修正はするつもりですが、必ず原文を優先するようにしてください。 意見等につきましては遠くない将来にコメント欄など何らかの連絡方法を保てるようにしたいと考えていま

  • 電書ちゃんのでんでんマークダウン - でんでんマークダウン

    でんでんマークダウンの記法について解説します。 でんでんマークダウンの記法は Markdown の方言のひとつ PHP Markdown Extra をさらに拡張して、日語と電子出版に最適化させたものです。従って、オリジナルの Markdown の記法、PHP Markdown Extraに由来する記法、でんでんマークダウン独自の記法が混在しています。 それぞれを区別するために、オリジナルの Markdown でも使える記法には MarkdownPHP Markdown Extraでも使える記法には PHP Markdown Extra、でんでんマークダウン独自の記法には でんでんマークダウン、というラベルをつけています。違いを把握する際の参考にしてください。 また、でんでんマークダウンの執筆や表示の確認には、でんでんエディターが便利です。 でんでんエディターを使ってみる 段落 Mar

  • 富豪的正規表現で常用漢字とか色分け表示すれば… - 遠近法ノート

    テキストエディタに、色分け表示ってありますよね。プログラムやHTMLのソースを表示するのに使われてるやつ。あれって普通の文章書きにも使えるんじゃないかと思うんですよね。たとえば「」(カギ括弧)の中を色文字にするとか簡単にできるわけで。 それはさておき、タイトルどおりなのですけど、常用漢字を色分け表示する設定を作ってみました。 この画像は、文字コード表の第一水準の最初のあたりを色分け表示させたものです。見てのとおり常用漢字はバラバラに散らばって入っているわけで、正規表現でよくある [0-9]みたいな範囲指定はまったく不可能。だったら[ ]の中に常用漢字をそのまま全部入れてしまえばいいのではないか、という富豪的アプローチです。 JeditXの設定ファイルをこちらからダウンロード出来るようにしておきますので、まあ試してみてもらえればよいかなと。 常用漢字2010改定Coloring.plist

    富豪的正規表現で常用漢字とか色分け表示すれば… - 遠近法ノート
    n-yuji
    n-yuji 2012/02/29
    「富豪的正規表現で常用漢字とか色分け表示すれば…」書いてみた。はふう。
  • 世界のテキストエディターから - 国産テキストエディター「TepaEditor」

    今回の対象国は我々が住む日。国産のテキストエディターを数え上げると、秀丸、TeraPad、EmEditor……と古くから多くのソフトフェアが公開されてきました。また、ここにパッケージ製品を加えると、枚挙にいとまがありません。そもそもメジャーなテキストエディターは、解説文や紹介記事が数多く存在しますが、今回は小林哉氏が作り上げた国産テキストエディター「TepaEditor」を取り上げましょう。 同テキストエディターは、様々なアイディアをふんだんに取り込みつつも、快適な編集環境とテキストエディターに欠かせないシンプルさを備えたソフトウェアです。一般的な編集機能はもちろんのこと、任意の文字列を画像に変換する「TtoGコンバーター」や、TepaEditor内から外部アプリケーションを呼び出す「ツールランチャー」など、ユニークな機能も兼ね備えています。 また、TepaEditorには、JavaやP

  • 『常用漢字の改訂とTepaEditor活用法』

    押しつ押されつな日々文芸翻訳修行中の駆け出し翻訳者 兼 新米カーチャンが、 赤子を抱えて右往左往する様をつづる不定期更新ブログ(になる予定)。 こんばんは。 ウェブで常用漢字が改訂になるというニュースを読みました。 日経済新聞 常用漢字に「」「俺」など追加 パソコン普及に対応 196字を追加して5字を削除とあります。「誰」も常用の仲間入りになったそうで、ちょっと感慨深いです。だって、わりとよく使うし見かける漢字じゃありませんか? コレ。普通に書けるし読める人が多いと思います。でも、映像翻訳なんかだと常用漢字でないものは「ひらく」ルールですよね。この「誰」に代表される「常用っぽいけど常用じゃない、でもみんな常用してる漢字」(ラー油風)のうっかり見落としを防いでくれるのが「TepaEditor」なんです。 このエディター、わたしは最近使い始めたばかりなのですが、とても翻訳者向きだと思います

    『常用漢字の改訂とTepaEditor活用法』
  • ものかの » 正規表現の略記法 \d と \s と \w

    正規表現の文字クラスの略記法 \d と \s と \w がいつのまにかアレレなことになっていたのでメモ。(1 Perl 5.8 以降で正規表現を使うには use utf8 が必須。 use utf8 では \d と \s と \w の文字クラスの内容が Unicode のカテゴリーに基づいている。 InDesign(Boost)も同様。 PCRE や Ruby は変わりなし。 (2 参考資料:perldoc の perlrecharclass 参考資料:Programming Perl の 5.4. Character Classes ちょっと詳しく見ていきます。 *以降、Perl = use utf8 の Perl ほとんど全ての人が [0-9] の10文字として使っていますが、Perl では \p{Nd} です。ただし、Perlのバージョンによって(対応しているUnicodeバージョン

    ものかの » 正規表現の略記法 \d と \s と \w
  • 定番テキストエディター「EmEditor Professional」がメジャーバージョンアップ

  • gkbr.me

    このドメインを購入する。 gkbr.me 2018 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

  • 有名コピペのデフラグ化に成功 : 2chコピペ保存道場

    n-yuji
    n-yuji 2011/04/28
    1字づつ改行→ソート→改行トル。意外と簡単。
  • 本文中のキーワード抽出精度が向上しました - はてなダイアリー日記

    日、はてなダイアリー文中のキーワード抽出方法を変更しました。これにより、キーワード抽出精度が向上しました。 はてなダイアリーはこれまで、ある正規表現で文内のキーワードを抽出し、はてなキーワードへのリンクを生成していました。下記の例では「はてなダイアリー」「ブログ」「コンピュータ」「インターネット」のキーワードに対して自動的にリンクを生成しています。 このとき、単語の境界判定の誤りなどから、意図しないキーワードへリンクする場合がありました。これまで、こうしたキーワードはリンクスコアを下げることによって対応しており、はてなダイアリーの「キーワードの自動リンク設定」内の「スコアの閾値」を上げることで大部分を回避できました。 今回、キーワード抽出アルゴリズムを、形態素解析エンジン「MeCab」を使った方法に変更しました。これにより、単語の境界判定の精度が向上し、スコアの閾値を0に設定している

    本文中のキーワード抽出精度が向上しました - はてなダイアリー日記
  • ふりがな(ルビ)を追加

    ▼テキストを入力してください(約500文字まで) ▼学年を指定してください ▼区切り文字を設定してください 漢字の区切り ふりがなの区切り ▼パスワード(メールアドレス)を入力してください このサービスはYahoo! JAPANのWebサービスを利用しております。変換品質はYahoo! JAPANのAPIエンジンに依存します。変換結果についても無保証とさせていただきます。 サーバーの負担になるため、連続でのご使用はお控えください。10回/1日程度を限度とします。同一IPからの連続投稿を発見した場合、サイトごとブロック措置を取らせていただきます。

  • 【番外編】ルビを付加する - 名もないテクノ手

    まあこれはInDesignっていうよりも、エディタで正規表現置換をしてInDesignタグを作るといった方がただしい。 しかし、こうしてさまざまなアプリケーションで正規表現が使用できることこそ、正規表現の大きな魅力だろう。 こうした手だてがなければ、有料のプラグインを使うよりほかにないのだから。 ▼こんな感じのテキスト。「親文字《おや も じ》」というフォーマット。 出典は青空文庫。よりわかりやすくするためにルビを多めにしてみました。かつ、モノルビのための前処理として「 」を挿入しました。 ▼正規表現(今回はmiを使用) 検索フィールド:|?([一-龠]+)《(.+?)》 置換フィールド:<cRuby:1><cRubyString:$2>$1<cRuby:><cRubyString:> ▼置換結果 ▼InDesignタグのためにヘッダ「<SJIS-MAC>」を挿入し(InDesignタグは

    【番外編】ルビを付加する - 名もないテクノ手
  • 正規表現の機能の覚書き

    はじめに「はじめての正規表現」がホッテントリ入りしていますが、 導入としては、何に使うのかがわかりやすくて良いのではないかと思います。 あれを見て、基機能をまとめてみたくなったので、正規表現の基的な機能について書いてみます。 (正規表現が初めてという人は「はじめての正規表現」を先に見たほうがいいと思います。) 例では「検索」か「置換」をするものとして話を進めていきます。 (「はじめての正規表現」が実例を中心にしたのに対して、こちらは機能を中心に書きます) 正規表現は、プログラミング言語やその他のツールなど、それぞれで微妙な違い(方言)があるので、その点には注意が必要です。 (表記法が違ったり、ここに紹介する機能がサポートされていなかったり、逆に紹介していない機能をサポートしていたりする場合があります) メタ文字とリテラル文字正規表現には、メタ文字とリテラル文字というものがあります。 メ

    正規表現の機能の覚書き
  • 正規表現をいまのうちに覚えておきたい人のためのリソース集

    HTML5で正規表現がサポートされる、といったことをきっかけに、正規表現はプログラマだけでなくWebクリエイター全体のスキルとして求められていくものになっていくのではないでしょうか(参考:あまり知られていないけれど、HTML5では正規表現が使えるようになる )。 ここではそうした正規表現の初学者や、一度挫折したけど再入門したい人、そしてより高度な内容をマスターしたいすべての人のためのリソース集を作りました。 初学者向けには「はじめての正規表現」 「はじめての正規表現」は、文字通り正規表現という言葉は知っていても中味はよく分からない、という初学者の方にぴったりのコンテンツ。紙芝居形式のプレゼンテーションで楽しく正規表現について把握できます。 はじめての正規表現 初学者の方には、次の2つの記事も手っ取り早く読めて概要を把握できますので紹介しておきます。 使うほどに良さが分かる正規表現(1/2)

    正規表現をいまのうちに覚えておきたい人のためのリソース集
  • 1