タグ

charsetに関するnilabのブックマーク (98)

  • javascriptで文字コード変換 - Qiita

    概要 javascriptの文字列はUTF-16で String#charCodeAt(i) で取得出来る数値は2byte(0x0000から0xffff)になる。 escape("あ") は UTF-16がそのままエスケープされ "%u3042" になるが encodeURI("あ"),encodeURIComponent("あ") などではUTF-8に変換されて "%E3%81%82" になる。 var str = "文字列をUTF-8に"; var utf8str = unescape(encodeURIComponent(str)); var utf16str = decodeURIComponent(escape(utf8str)); if (str == utf16str) {alert(true);} //=> true とすることで UTF-16<=>UTF-8 の変換は出来

    javascriptで文字コード変換 - Qiita
    nilab
    nilab 2014/07/20
    javascriptで文字コード変換 - Qiita
  • Escape Codec Libraryの詳細情報 : Vector ソフトを探す!

    ソフト詳細説明 ◆文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。 ◆ビルトイン関数の escape() , unescape() とは異なり、どの種類のブラウザでも同じ変換結果が得られます。 ◆JISコード変換テーブルを搭載しているので、従来JavaScriptでは実現が困難であった、Shift_JISコードやEUC-JPコードなどの文字コードとしてのエンコード・デコードも可能となっています。 なお、この変換テーブルは、直接漢字は記述せず、Unicode 番号を圧縮したデータをASCIIコードの文字のみで記述しているので、任意の文字コードで使用可能です。 ◆動作確認用のフォーム TransEscape.html を付属しているので、すぐに使用することもできます。

    nilab
    nilab 2014/07/19
    Escape Codec Libraryの詳細情報 : Vector ソフトを探す! : JISエンコードも可能な escape エンコード・デコード関数のライブラリ Escape Codec Library: ecl.js
  • Escape Codec Library: ecl.js

    このページはhttp://nurucom-archives.hp.infoseek.co.jp/digital/にあったものをiswebのサービス終了に伴い伊藤がコピーしたものです。 Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ 文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。 ビルトイン関数 escape() , unescape() とは異なり、どの種類のブラウザでも同じ変換結果が得られます。 JISコード変換テーブルを搭載し、従来JavaScriptでは実現が困難であった、Shift_JISコードやEUC-JPコードなどの文字コードとしてのエンコード・デコードも可能となっています。なお、この変換テーブルには、直接漢字は記述せず、

    nilab
    nilab 2014/07/17
    Escape Codec Library: ecl.js : Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ
  • Convert UTF-16 to UTF-8 under Windows and Linux, in C

    I was wondering if there is a recommended 'cross' Windows and Linux method for the purpose of converting strings from UTF-16LE to UTF-8? or one should use different methods for each environment? I've managed to google few references to 'iconv' , but for somreason I can't find samples of basic conversions, such as - converting a wchar_t UTF-16 to UTF-8. Anybody can recommend a method that would be

    Convert UTF-16 to UTF-8 under Windows and Linux, in C
    nilab
    nilab 2012/01/19
    unicode - Convert UTF-16 to UTF-8 under Windows and Linux, in C - Stack Overflow : Conversions between UTF32, UTF-16, and UTF-8. Header file.
  • eucJP-ms

    TOG/JVC (オープン・グループ / 日ベンダ協議会) CDE/Motif 技術検討 WG が定めたコードセット名です。UI-OSF共通日語EUC にユーザー定義文字とIBM拡張文字、NEC特殊文字を追加した 日語EUC (eucJP-open) と Unicode (UCS) との間のコード変換規則に Microsoft Windows NT 3.51 の式の変換規則を用いる場合に、このコードセット名を用います。 Unicode 経由で Windows-31J で使用できる全文字 (コードポイント) の相互変換が可能となるように変換規則が定められています。 変換規則 eucJP-ms の変換規則の概要は次の通りです。 EUC コードセット0 (ASCII) ASCII (ISO/IEC 646 IRV) とみなして Unicode に変換する。 EUC コードセット1 (JIS

    nilab
    nilab 2011/05/22
    「ユーザー定義文字とIBM拡張文字、NEC特殊文字を追加した 日本語EUC (eucJP-open) と Unicode (UCS) との間のコード変換」eucJP-ms
  • ミラクル・リナックス:Samba 国際化プロジェクト > iconvについて

    オープンソースソフトウェアおよびフリーソフトウェアにおいてもソフトウェアの 国際化対応を行うために文字列処理の際に UCS(Unicode) を使う事が多くなってき ています。 UCS を用いる主な理由としては、各国のエンコーディングを考慮したコードを書か なくてもプログラム内部では UCS で処理して入出力の際にエンコーディング変換 を行えば良いという考えがあるようです。 UCS と各エンコーディングの変換を行う関数として iconv() がありますが、オー プンソースソフトウェアやフリーソフトウェアで利用されている libiconv や glibc2 での iconv() の実装では日語での利用が実用にならないという問題があ ります。 この問題に対して各ソフトウェアの日のコミュニティーが個別に対応していると いうのが現状で、必ずしも包括的な解決策がとられているわけではありません。

    nilab
    nilab 2011/05/20
    Samba 国際化プロジェクト:ミラクル・リナックス : iconvについて:Sambaでは 3.0から、文字コード変換にiconvを使用 : libiconv/glibc の問題点 : cp932 の問題点 : JIS系エンコーディングの問題 : cp932とeuc-jp,iso-2022-jp : libiconv/glibc パッチ
  • [ヅ] Ruby 1.8系と1.9系で文字エンコーディング変換 (2011-05-05)

    いわゆる文字コード変換。 文字エンコーディングがEUC-JPのファイルを読み込んで、UTF-8とShift_JISで標準出力とファイルへ出力するサンプルを書いてみた。 1.8系では Iconv.conv を使用。 1.9系では String#encode や File.open の第二引数にエンコーディングを指定することで対応。 以下は、読み込むファイル eucjp_sample.txt の中身 (文字エンコーディングは EUC-JP)。 Hello, my friend. きみに恋したNATSUがあったね。 変換サンプルのソースコード。 #!/usr/bin/env ruby # coding: UTF-8 # String#encode が存在するかどうかで判断 if ''.respond_to?(:encode) # Ruby 1.9系 def utf8_to_shift_jis(s

    nilab
    nilab 2011/05/05
    Iconv.conv と String#encode と File.open の第二引数。 / ヅラッシュ! - Ruby 1.8系と1.9系で文字エンコーディング変換
  • 文字コードの部屋 -- Web のエンコード

    ホームページの HTML 文書に使用するエンコード 目次 ページ作成にはどのコードが良いか? 美乳テーブル <META> タグの charset 指定 1. ページ作成にはどのコードが良いか? 21 世紀、ブラウザのじゅうぶんに進歩した今の時代、もはや シフト JIS EUC JIS コード どれでも構いません。あなたが一番便利だと思うものを選ぶとよいでしょう。特に思いつかなければ、あなたの OS が得意とするコードでよいでしょう。 エンコード判別のロジックの観点からすれば、EUC が一番判別を誤りやすく、文字化けしやすいです。Shift_JIS は判別が比較的容易です。JIS コードはほぼ間違うことは無いでしょう。しかし、もはや 95 %のユーザが使っているブラウザは、EUC コードですら、ほとんど判別を誤ることはありません。 さらに、どのコードが日語サイトに最もふさわしいというコンセ

    nilab
    nilab 2011/02/28
    「「美乳」という字は、EUCコードで C8 FE C6 FD です。ここにはシフト JIS では絶対に出現しない 0xFD や 0xFE が含まれていますので、EUCコードと断定することができます」美乳テーブル
  • 文字コード変換コマンドの nkfの使い方と実例をまとめました。 - それマグで!

    Linuxで文字コード変換コマンドする方法 LinuxはUTF8が普通になりました。EUC環境もまだまだ多く文字コード変換が必要になることもあります。 文字コード変換コマンド nkf。 使い方 nkf オプション ファイル [> 出力ファイル]よく使うオプション オプション一覧 -e : EUCコードを出力 -s : Shift-JISコードを出力 -w : UTF-8コードを出力(BOM無し) -g : 自動判別の結果を表示 --overwrite : 引数のファイルに直接上書き覚え方 -w / -W 大文字小文字はペア。 入力は大文字、出力は小文字。sjis-> utf8なら、入力-S 出力 -w で -Sw。入力は自動判別で十分で余り使うことがないので最後に書いた。 使用例 文字コードチェック nkf -g readme.txt UTF8に変換 nkf -w --overwrite

    文字コード変換コマンドの nkfの使い方と実例をまとめました。 - それマグで!
    nilab
    nilab 2011/01/19
    「--overwrite : 引数のファイルに直接上書き」「複数ファイルをまとめて変換」「文字コードと改行をコードを合わせて変換できる」文字コード変換コマンドの nkfの使い方と実例をまとめました。 - ブックマクロ開発
  • iconvコマンドの使い方 - とあるソフトウェア開発者のブログ

    Unix/Linuxで文字コード変換に使用される、iconvコマンドの使い方についてのメモ書きです。*1 iconvコマンドの基的な使い方 オプションの指定方法 入力データの文字コード 「-f (--from-code)」で指定する。 出力データの文字コード 「-t (--to-code)」で指定する。 省略すると、ロケールから自動的に決定される。 入力データ 標準入力から読み込む。(リダイレクト or パイプ) コマンドの引数として指定してもよい。 出力データ 標準出力に書き込む。(リダイレクト or パイプ) 「-o (--output)」で指定してもよい。 #標準入出力を使う例 iconv -f SJIS -t UTF8 < sjis.txt > utf8.txt #標準入出力を使わない例 iconv -f SJIS -t UTF8 sjis.txt -o utf8.txt 複数フ

    iconvコマンドの使い方 - とあるソフトウェア開発者のブログ
    nilab
    nilab 2011/01/19
    「iconvコマンドには、複数のファイルを一括で変換する機能はない。このため、for文などを利用する」iconvコマンドの使い方 - とあるソフトウェア開発者のブログ
  • 特にプログラマの方に質問です。 複数のテキストファイルの文字コードをまとめて変換したい時、よく利用しているorオススメのツール、もしくはtipsをご紹介下さ…

    特にプログラマの方に質問です。 複数のテキストファイルの文字コードをまとめて変換したい時、よく利用しているorオススメのツール、もしくはtipsをご紹介下さい。 必須要件は以下の通りです。 ・Windows(XP)環境で利用できる ・複数ファイルを一括変換可能 ・元の文字コードを自動認識 ・元の文字コードの明示指定可能 (各ファイル個別ではなく、全ファイル同一でOK) ・ShiftJIS, EUC-JP, UTF-8対応 ・結果の信頼性が高く、手軽に利用できること ・GUIでもコマンドラインでも可 ・こんなスクリプトを書け、でも可 以上です。宜しくお願いします。

    nilab
    nilab 2011/01/19
    特にプログラマの方に質問です。 複数のテキストファイルの文字コードをまとめて変換したい時、よく利用しているorオススメのツール、もしくはtipsをご紹介下さい - 人力検索はてな : iconv, nkf, skf, jme, CharsetConverter, Repl-Ace,
  • qkcコマンドの使い方: UNIX/Linuxの部屋

    最終更新 2018-05-09 qkc コマンドは、nkf コマンドと同じく文字コード変換や改行コード変換を行うツールである。nkf コマンドと異なり、ファイルを直接更新 (上書き) することができるので便利であったが、1995年頃の初期バージョン 1.0.0 から更新されておらず、UTF-8 などの Unicode 対応もなされていない (改変不可のライセンスのため第三者の機能追加も期待できない)。2018年現在の nkf コマンドには上書き機能もあるので、今どき qkc コマンドを使用する必要はないであろうと当ページ管理人は考える。 ただし、FreeBSD の port/package には qkc コマンドがまだ残っているが、Linux 系 OS ではパッケージになく、自前でソースからコンパイルする必要があり、利用するにもハードルが高い。ちなみに qkc コマンドは Quick Ka

    qkcコマンドの使い方: UNIX/Linuxの部屋
    nilab
    nilab 2011/01/19
    UNIXの部屋 コマンド検索:qkc (*BSD/Linux) : 「漢字コードを変換。改行コードを変換」「nkf とは違って、引数で指定したファイル自体を書き換える」
  • euctosjコマンドの使い方: UNIX/Linuxの部屋

    Solaris 標準の EUC-JP・Shift_JIS・ISO-2022-JP の文字コード変換コマンド。ここでは代表的に euctosj をあげたが、全部で 6つのコマンドが用意されている。 euctosj … EUC-JP から Shift_JIS に変換 euctojis … EUC-JP から ISO-2022-JP (JIS) に変換 sjtoeuc … Shift_JIS から EUC-JP に変換 sjtojis … Shift_JIS から ISO-2022-JP (JIS) に変換 jistoeuc … ISO-2022-JP (JIS) から EUC-JP に変換 jistosj … ISO-2022-JP (JIS) から Shift_JIS に変換

    euctosjコマンドの使い方: UNIX/Linuxの部屋
    nilab
    nilab 2011/01/19
    UNIXの部屋 コマンド検索:euctosj (*BSD/Linux):「Solaris 標準の EUC-JP・Shift_JIS・ISO-2022-JP の文字コード変換コマンド。ここでは代表的に euctosj をあげたが、全部で 6つのコマンドが用意されている」
  • Rubyist Magazine - 標準添付ライブラリ紹介 【第 3 回】 Kconv/NKF/Iconv

    『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について 『Rubyist Magazine』、略して『るびま』は、日 Ruby の会の有志による Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。 最新号 Rubyist Magazine 0058 号 バックナンバー Rubyist Magazine 0058 号 RubyKaigi 2018 直前特集号 Rubyist Magazine 0057 号 RubyKaigi 2017 直前特集号 Rubyist Magazine 0056 号 Rubyist Magazine 0055 号 Rubyist Magazine 0054 号 東京 Ruby 会議 11 直

    nilab
    nilab 2011/01/19
    Rubyist Magazine - 標準添付ライブラリ紹介 【第 3 回】 Kconv/NKF/Iconv : Kconv, NKF, Iconv, Uconv
  • Electronic Genome - nkfとiconvによる文字コード・改行コード変換

    UTF-8に対応しているnkfとiconvで文字コードや改行コードを変換するメモ。実行はUbuntu7.10で、ロケールは以下のようにja_JP.UTF-8。 $ echo $LANG ja_JP.UTF-8 ■インストール nkfのインストール $ sudo apt-get install nkf パッケージリストを読み込んでいます... 依存関係ツリーを作成しています... Reading state information... 以下のパッケージが新たにインストールされます: nkf アップグレード: 0 個、新規インストール: 1 個、削除: 0 個、保留: 8 個。 116kB のアーカイブを取得する必要があります。 展開後に追加で 295kB のディスク容量が消費されます。 取得:1 http://jp.archive.ubuntu.com gutsy/universe nkf

    nilab
    nilab 2011/01/19
    Electronic Genome - nkfとiconvによる文字コード・改行コード変換:「nkfで改行コード変換」「iconvには改行コード変換機能はないのでtrなどで処理するしかない」
  • キャラクタコード変換ツール(nkf, iconv, kcc) | MySQL日本語の旅 | OSS-Web

    Chat (Lingr.com) Informaiton コンセプト 注意事項 About Us メーリングリスト コメントの入力方法 RSSの配信 Daily 今日の一行(2009-06-12) Column MySQL語の旅(5/1) アクセス向上秘伝(5/9) 一風変ったHaskellλ門(6/13) SICP Answer Book (5/31) 問題3.26追加 Zope Solution Zope3 幕の内 Zopeとは なぜZopeなのか Extra JavaCube アーカイブ Project Looking Glass XPで楽しい人生を OSS案内所 書籍の紹介 技術者のブックマーク 読書会、勉強会 Site Info Recent Changes アクセス統計情報 関連リンク 次に、文字コードの変換ツールについて調べよう。 なお、ページの文字コードも、すべてEU

    nilab
    nilab 2011/01/19
    キャラクタコード変換ツール(nkf, iconv, kcc) | MySQL日本語の旅 | OSS-Web
  • UbuntuTips/FileHandling/ConvertTextfileCharacterEncoding - Ubuntu Japanese Wiki

    対象とするUbuntuのバージョン すべて テキストエディタ(gedit)で文字コードを変更して保存する Ubuntu標準のテキストエディタは文字コードを自動的に認識する機能を持つため、シフトJISや日語EUCなどの文字コードで保存されたテキストファイルでも、特に意識することなく読み込むことができます。もし文字コードの自動認識に失敗し、文字化けしてしまった場合は、ファイル選択ダイアログの最下部にある[エンコーディング]を、[自動検出]からほかのものに切り替えて読み込みます。正しい文字コードを選択すれば、文字化けせずに読み込むことができるはずです。文字コードを変更して保存するには[ファイル]-[別名で保存]を選択し、同じくダイアログの下部にある[エンコーディング]を変更して保存します。 iconvを使う コマンドラインでテキストファイルの文字コードを変換する場合は、iconvコマンドを利用

    nilab
    nilab 2011/01/19
    テキストファイルの文字コードを変換するには - Ubuntu Japanese Wikiテキストファイルの文字コードを変換するには - Ubuntu Japanese Wiki : iconv, nkf : 「コマンドラインでテキストファイルの文字コードを変換する場合は、iconvコマン
  • nkf Network Kanji Filter プロジェクト日本語トップページ - OSDN

    インストール Makefile があるので、 CC CFLAGS PERL が正しいかどうかを確認して、make してください。Linux, Solaris, Mac OS X で動作確認しています。 mkstemp がない場合は、config.h の #define OVERWRITE をコメントア... インストール方法を見る 使い方 nkf - ネットワーク用漢字コード変換フィルタ SYNOPSISnkf B<[-butjnesliohrTVvwWJESZxXFfmMBOcdILg]> B<[>I<file ...>B<]> DESCRIPTIONnkf はネットワークでメールやニュースの読み書き... 使い方を見る

    nkf Network Kanji Filter プロジェクト日本語トップページ - OSDN
    nilab
    nilab 2011/01/19
    nkf Network Kanji Filter プロジェクト日本語トップページ - SourceForge.JP : 「ものすごく古い漢字コード変換プログラムであるnkfを、メンテナンスするプロジェクトです」
  • EUC-JPのページからの文字列取得 [K'conf]

    EUC-JPのページからの文字列取得 RainmeterのWebparser.dllを使ったHTMLからの情報取得スキンを作り始めた頃から、悩みの種だったことがあります。それはEUC-JPのページからの2バイト文字の取得表示がうまくいかないというものです。 以下のマイクロソフトのリファレンスにもあるように、EUC-JPのCodePageは「51932」と定義されているはずですが、Rainmeterの設定ファイル上で「CodePage=51932」と指定しても動作しません。 Character Set Recognition 以前から、いろいろ試してみましたが結局解決できず、半ばあきらめていましたが、最近になってその問題がほぼ解決されました。 それはCodePageに「51932」ではなく「20932」を指定するというものです。 なぜ、「51932」ではダメで「20932」なのかということを

    nilab
    nilab 2011/01/05
    BingボックスのドキュメントにEUC-JPの指定方法が見つからなかった。どっちを指定すればいいのかわからないけどとりあえず。「EUC-JPのCodePageは「51932」」「「20932」とはマイクロソフト版 EUC-JP」EUC-JPのページからの文字列取
  • 世界の特殊文字ウィキ

    世界の特殊文字ウィキ ラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。 トップページページ一覧メンバー編集 FrontPage 最終更新: qvarie 2018年01月01日(月) 21:54:45履歴 Tweet まえがき 世界には様々な文字や記号が使われております。 ここでは世界中の文字に補助文字として追加されている拡張文字(追加文字やダイアクリティカルマークなど)と人工文字などの特殊文字について取り上げます。 ※絵文字関連など最新のユニコードフォントが必要なページがあります。 ※リンクフリーです。 拡張文字編 世界各国の既存文字に追加された拡張文字を取り上げております。 拡張文字辞典 ダイアクリティカル付き文字辞典 世界の文字編 人工文字・改良文字編 人工文字や既存文字の改良文字などを取り上げています。 ラテン・キリル改造文字 特殊音声記号

    世界の特殊文字ウィキ
    nilab
    nilab 2010/12/10
    「世界中の文字に補助文字として追加されている拡張文字(追加文字やダイアクリティカルマークなど)と人工文字などの特殊文字について取り上げます」世界の特殊文字ウィキ - livedoor Wiki(ウィキ)