タグ

文字コードに関するdeep_oneのブックマーク (23)

  • IPA、約6万字を収録した「IPAmj明朝フォント」の体験サイトを公開 

    deep_one
    deep_one 2012/06/04
    「今回の実験サイトを構築・運用すること自体が、6万文字に対応する伝送方式やコピー&ペースト機能などについての技術的検証」
  • IPA、約6万字の人名漢字などを収録した「IPAmj明朝フォント」検証版を公開 

    deep_one
    deep_one 2011/05/20
    IVSとかと関係するのか?
  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

    波ダッシュ・全角チルダ問題 - Wikipedia
    deep_one
    deep_one 2011/02/03
    2011/2の段階で、IVSに関する記述は無し。
  • BizPal - EPUB-2011.01.27 出版物のUnicode化推進セミナー

    Web2.0時代のキーワードである、SNS、ブログ、GUID、SOAP、RSS2.0、Unicodeなどを採用 開発と運用には、次世代のWindows VistaやLonghorn Serverも視野にマイクロソフト社製のVisualStudio2005、C#2.0、ASP.NET2.0、ADO.NET2.0、SQL Server2005を使用

  • UnicodeのIVSがもたらすメリットとデメリット

    UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか

    UnicodeのIVSがもたらすメリットとデメリット
    deep_one
    deep_one 2011/01/28
    まぁそんなことが色々あってもIVS部分を無視して親字を検索するとちゃんとヒットする、というのがIVSの良いところだと思う。/でも「アドビ」と「汎用電子」が被っているのは勘弁して欲しい(笑) 以後調整してくれ…
  • マイクロソフトなど6社が参加、異体字を取り扱う「IVS」促進協議会が発足

    アドビ システムズ、イースト、ジャストシステム、大日スクリーン製造、マイクロソフト、モリサワの6社は2010年12月6日、様々な字体をデジタルデータとして使用するための技術「IVS(Ideographic Variation Sequence)」の普及促進を目的とした協議会「IVS技術促進協議会」を設立した。6社共同で、アプリケーションやフォント、OSのIVS対応促進、異なるデバイス間やOS間でのIVSの相互運用性向上に向けて取り組む。 IVSは、文字コードの国際標準であるUnicodeが定める字形選択子(Variation Sequence)という仕組みを基に開発された技術。Unicodeの各文字に字形選択子を付け加えることで、字体のバリエーションを正確に指定する。この技術により、「邊」「邉」など1つの文字コードに複数の字体が存在する漢字や、これまで通常の方法で入力/表示ができずに外字

    マイクロソフトなど6社が参加、異体字を取り扱う「IVS」促進協議会が発足
  • 【新常用漢字表(仮)】「改定常用漢字表」試案にみる、許容字体の出世物語 

  • 【新常用漢字表(仮)】携帯電話にもUnicode実装を促す「改定常用漢字表」 

  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
    deep_one
    deep_one 2009/12/11
    「𠮟る」に注目。というか、これでWindows7への移行が促進されるかも。/Win7から打ち込んだので、たまに最初の「しかる」の漢字が化けるようだ。/↓いや、コンピューターの事情より文化を優先させているんでしょう。
  • 半角カナ - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "半角カナ" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年11月) 半角カナ(はんかくカナ)、半角片仮名(はんかくかたかな, Halfwidth Katakana)とは、コンピュータで使用される文字集合のひとつで、もっぱら幅が通常の半分(半角)で表示または印刷される特殊な片仮名のことである。 日におけるパーソナルコンピュータの黎明期から存在し、後に平仮名や漢字など多様な文字が利用可能になるまではコンピュータ上で日語を書き表すことができる唯一の手段だった。 歴史[編集] ASCII普及前、大型コンピュータ(メインフレーム)で使

    半角カナ - Wikipedia
    deep_one
    deep_one 2009/03/03
    「実際、「半角カナ」相当の文字を表現するのに、EUC-JP では 2 バイト、UTF-16 では 2 バイト、UTF-8 では 3 バイトを要する。」 DB設計でこの罠にひっかかった。
  • Microsoftコードページ932 - Wikipedia

    Template‐ノート:特殊文字に、このページに関する質問があります。(2023年1月) 質問の要約:Template:特殊文字で「Microsoftコードページ932(はしご高)」と書かれている場合があること この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932

    Microsoftコードページ932 - Wikipedia
    deep_one
    deep_one 2009/02/26
    重複時の優先順位については初めて知った。
  • 第5回■注目される文字コードのセキュリティ問題

    今回から5回にわたって,アプリケーション全体に関する文字コードの問題と対策について説明する。文字コードがセキュリティとどう関わるのか,疑問に思うかもしれないが,Webアプリケーションで文字コードを指定可能な個所は非常に多く,しかも文字コードの選定や処理方法次第ではぜい弱性の原因になることが分かってきている(図1)。実は文字コードはWebアプリケーションのセキュリティ問題の最新の話題と言ってよい。 2008年10月に開催されたセキュリティ・イベントBlack Hat Japan 2008では,ネットエージェントの長谷川陽介氏が「趣味と実益の文字コード攻撃」と題して,文字コード問題の広範なプレゼンテーションを発表した 。そのプレゼンテーション資料が発表されている のでこの問題の詳細に関心のある方は参照されたい。ここでは,セキュアなWebアプリケーションを開発するために文字コードの問題をどのよう

    第5回■注目される文字コードのセキュリティ問題
    deep_one
    deep_one 2009/02/17
    割と読みやすい。/Shift_JISよりはEUC-JPが安全。
  • textsearch-ja: Project Home Page

    形態素解析を使用した、組み込み型の日語全文検索です。 この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 日語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、 英語文書の検索と同様の方法で、日語文書を検索することができます。 検索は形態素解析を利用した単語単位で行われます。 形態素解析には MeCab を使用しています。 利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。 また、既に tsea

    deep_one
    deep_one 2008/02/28
    MediaWikiで日本語全文検索が出来るようになるのはもうすぐか。
  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

    deep_one
    deep_one 2008/01/31
    リストが見やすい
  • 第2回:C#プログラムでサロゲート・ペアの動作を検証する(前編)

    .NET Framework対応のアプリケーションが扱う文字列に,4バイト長で1文字を表す「サロゲート・ペア」が含まれる場合,文字列操作にどのような影響があるだろうか。.NET Frameworkの文字列操作には,ユーザー・インタフェースやファイル操作,プログラム内部での処理など様々な形態が考えられる。ここでは,基的な振舞いを見極めるために,文字列処理において最も基的で頻繁に利用されるStringクラス(Stringオブジェクト)に着目し,2回に分けて検証する。 Stringクラスには,メソッドやプロパティなどの構成メンバーが,50個くらい定義されており,それを一つひとつ詳細に解説するのはきりがない(注1)。ここでは,今後皆さんが,.NET Framework環境でサロゲート・ペアに対応したアプリケーションを構築する際にヒントや留意点を導き出せるように,Stringクラスの代表的な機能

    第2回:C#プログラムでサロゲート・ペアの動作を検証する(前編)
    deep_one
    deep_one 2008/01/16
    『Stringオブジェクトの文字列操作では,仕様としてcharオブジェクト単位(2バイト単位)で文字を参照したり,加工したりできる。』それで操作するのはかなり無理・・・
  • 富士通、文字コードの差異を吸収する文字管理ミドルウェアを説明

    富士通株式会社は12月7日、文字管理ミドルウェア「Interstage Charset Manager(ICM)」に関する記者説明会を開催。Windows Vistaで採用された文字コード「JIS2004」の登場で、さらに複雑となった文字コード運用に対する富士通の取り組みが説明された。 ICMは、SOAを支えるInterstageファミリーの中の“文字運用基盤”となる製品。ひと言でいえば、「OSやシステムごとの文字の違いを吸収するミドルウェア」(ソフトウェア事業部 データマネジメント・ミドルウェア事業部 第一開発部の野島伸一部長)である。 日の漢字には、同音異字が多い。代表例には「わたなべ」の「辺」という文字があるが、この1字をとっても何通りものパターンがあり、名字を書く際に神経をすり減らした経験が誰しもにあるはずだ。この文字には、目を凝らして見比べないと違いが分からないようなものが1

    deep_one
    deep_one 2007/12/10
    メインサーバー以外の部分がものすごく高い。上場企業~中堅ぐらいの規模向けか?
  • MathML Character Descriptions

    deep_one
    deep_one 2007/11/29
    HTMLの文字実体参照が実際はどんな記号で何に使うのかを表した表を探したが、これしか見つからず。厳密にはHTMLのものではないなぁ。
  • ドメイン名の更新を促す「不気味な明朝フォント」の通知に注意

    「Internet Week 2007」で21日に行なわれたカンファレンス「事業者がやってよいこと悪いことを考えよう」において、GMOインターネット取締役グループ法務戦略室長の橘弘一氏が「ドメイン名と商標権─他国からの脅威」と題して講演し、gTLDがらみで起こっている問題を紹介した。 ● ドメイン名に絡む「海外からの脅威」とは 橘氏にはまず、ドメイン名の紛争処理手段としてWIPOが提供しているフレームワークや、その処理件数の動向などを紹介した後、「海外から、あの手この手で勧誘する事例が目立つようになってきている」と指摘。こういった海外からの「脅威」について橘氏は、“東京でディープに語る4日間”という今年のInternet Week 2007のキャッチフレーズを引き合いに出し、伝聞情報を含むディープな事例を紹介した。 まず1つ目は、海外のドメイン名事業者と思われるところから、「不気味な明朝フ

    deep_one
    deep_one 2007/11/26
    なぜ「不気味なフォント」なの書かれていなかった。変な文字コードなのか、画像になっているのか。最後に、「.CN」のレジストラからくる正規の問い合わせがスパムっぽくてよく見過ごされるらしいことが書かれていた。
  • Japanese in the header

    目次 関連する RFC quoted-string と日語の扱いに関して encoded-word 前後の空白文字 Subject 全体を符号化することに関して ヘッダにおける JIS コードの扱い 添付ファイルにおける日語のファイル名 関連する RFC Internet Message Format 基中の基である RFC 822 の改定版。 RFC 2047 "MIME Part Three: Message Header Extensions for Non-ASCII Text" ヘッダで日語を扱うには基的にはこの方法による。 RFC 2231 "MIME Parameter Value and Encoded Word Extensions: Character Sets, Languages, and Continuations ヘッダで parameter として

    deep_one
    deep_one 2007/09/04
    メールヘッダ等に関して
  • ファイルをダウンロードする ASP.NET ページで日本語ファイル名が文字化けする - Microsoft サポート

    現象 Microsoft ASP.NET を使用してファイルをダウンロードする以下のような Web ページを作成した場合、ファイル名に日語を使用すると、文字化けや意図しないファイル名が表示されます。 ASP.NET Web アプリケーションで、送信する HTTP ヘッダーに Content-Disposition を含めると、Microsoft Internet Explorer 5 以降のブラウザではファイルのダウンロード ダイアログ ボックスが開きます。この機能を利用して、以下のようなコード (C#) を含む、.aspx ファイルを Web サーバーに配置します。 Response.AppendHeader("Content-Disposition","attachment; filename=日語.zip"); Internet Explorer を使用して該当のページを表示する