Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ
UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか
アドビ システムズ、イースト、ジャストシステム、大日本スクリーン製造、マイクロソフト、モリサワの6社は2010年12月6日、様々な字体をデジタルデータとして使用するための技術「IVS(Ideographic Variation Sequence)」の普及促進を目的とした協議会「IVS技術促進協議会」を設立した。6社共同で、アプリケーションやフォント、OSのIVS対応促進、異なるデバイス間やOS間でのIVSの相互運用性向上に向けて取り組む。 IVSは、文字コードの国際標準であるUnicodeが定める字形選択子(Variation Sequence)という仕組みを基に開発された技術。Unicodeの各文字に字形選択子を付け加えることで、字体のバリエーションを正確に指定する。この技術により、「邊」「邉」など1つの文字コードに複数の字体が存在する漢字や、これまで通常の方法で入力/表示ができずに外字
普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。 (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "半角カナ" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年11月) 半角カナ(はんかくカナ)、半角片仮名(はんかくかたかな, Halfwidth Katakana)とは、コンピュータで使用される文字集合のひとつで、もっぱら幅が通常の半分(半角)で表示または印刷される特殊な片仮名のことである。 日本におけるパーソナルコンピュータの黎明期から存在し、後に平仮名や漢字など多様な文字が利用可能になるまではコンピュータ上で日本語を書き表すことができる唯一の手段だった。 歴史[編集] ASCII普及前、大型コンピュータ(メインフレーム)で使
Template‐ノート:特殊文字に、このページに関する質問があります。(2023年1月) 質問の要約:Template:特殊文字で「Microsoftコードページ932(はしご高)」と書かれている場合があること この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日本語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932
今回から5回にわたって,アプリケーション全体に関する文字コードの問題と対策について説明する。文字コードがセキュリティとどう関わるのか,疑問に思うかもしれないが,Webアプリケーションで文字コードを指定可能な個所は非常に多く,しかも文字コードの選定や処理方法次第ではぜい弱性の原因になることが分かってきている(図1)。実は文字コードはWebアプリケーションのセキュリティ問題の最新の話題と言ってよい。 2008年10月に開催されたセキュリティ・イベントBlack Hat Japan 2008では,ネットエージェントの長谷川陽介氏が「趣味と実益の文字コード攻撃」と題して,文字コード問題の広範なプレゼンテーションを発表した 。そのプレゼンテーション資料が発表されている のでこの問題の詳細に関心のある方は参照されたい。ここでは,セキュアなWebアプリケーションを開発するために文字コードの問題をどのよう
形態素解析を使用した、組み込み型の日本語全文検索です。 この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 日本語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、 英語文書の検索と同様の方法で、日本語文書を検索することができます。 検索は形態素解析を利用した単語単位で行われます。 形態素解析には MeCab を使用しています。 利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。 また、既に tsea
.NET Framework対応のアプリケーションが扱う文字列に,4バイト長で1文字を表す「サロゲート・ペア」が含まれる場合,文字列操作にどのような影響があるだろうか。.NET Frameworkの文字列操作には,ユーザー・インタフェースやファイル操作,プログラム内部での処理など様々な形態が考えられる。ここでは,基本的な振舞いを見極めるために,文字列処理において最も基本的で頻繁に利用されるStringクラス(Stringオブジェクト)に着目し,2回に分けて検証する。 Stringクラスには,メソッドやプロパティなどの構成メンバーが,50個くらい定義されており,それを一つひとつ詳細に解説するのはきりがない(注1)。ここでは,今後皆さんが,.NET Framework環境でサロゲート・ペアに対応したアプリケーションを構築する際にヒントや留意点を導き出せるように,Stringクラスの代表的な機能
富士通株式会社は12月7日、文字管理ミドルウェア「Interstage Charset Manager(ICM)」に関する記者説明会を開催。Windows Vistaで採用された文字コード「JIS2004」の登場で、さらに複雑となった文字コード運用に対する富士通の取り組みが説明された。 ICMは、SOAを支えるInterstageファミリーの中の“文字運用基盤”となる製品。ひと言でいえば、「OSやシステムごとの文字の違いを吸収するミドルウェア」(ソフトウェア事業本部 データマネジメント・ミドルウェア事業部 第一開発部の野島伸一部長)である。 日本の漢字には、同音異字が多い。代表例には「わたなべ」の「辺」という文字があるが、この1字をとっても何通りものパターンがあり、名字を書く際に神経をすり減らした経験が誰しもにあるはずだ。この文字には、目を凝らして見比べないと違いが分からないようなものが1
「Internet Week 2007」で21日に行なわれたカンファレンス「事業者がやってよいこと悪いことを考えよう」において、GMOインターネット取締役グループ法務戦略室長の橘弘一氏が「ドメイン名と商標権─他国からの脅威」と題して講演し、gTLDがらみで起こっている問題を紹介した。 ● ドメイン名に絡む「海外からの脅威」とは 橘氏にはまず、ドメイン名の紛争処理手段としてWIPOが提供しているフレームワークや、その処理件数の動向などを紹介した後、「海外から、あの手この手で勧誘する事例が目立つようになってきている」と指摘。こういった海外からの「脅威」について橘氏は、“東京でディープに語る4日間”という今年のInternet Week 2007のキャッチフレーズを引き合いに出し、伝聞情報を含むディープな事例を紹介した。 まず1つ目は、海外のドメイン名事業者と思われるところから、「不気味な明朝フ
目次 関連する RFC quoted-string と日本語の扱いに関して encoded-word 前後の空白文字 Subject 全体を符号化することに関して ヘッダにおける JIS コードの扱い 添付ファイルにおける日本語のファイル名 関連する RFC Internet Message Format 基本中の基本である RFC 822 の改定版。 RFC 2047 "MIME Part Three: Message Header Extensions for Non-ASCII Text" ヘッダで日本語を扱うには基本的にはこの方法による。 RFC 2231 "MIME Parameter Value and Encoded Word Extensions: Character Sets, Languages, and Continuations ヘッダで parameter として
現象 Microsoft ASP.NET を使用してファイルをダウンロードする以下のような Web ページを作成した場合、ファイル名に日本語を使用すると、文字化けや意図しないファイル名が表示されます。 ASP.NET Web アプリケーションで、送信する HTTP ヘッダーに Content-Disposition を含めると、Microsoft Internet Explorer 5 以降のブラウザではファイルのダウンロード ダイアログ ボックスが開きます。この機能を利用して、以下のようなコード (C#) を含む、.aspx ファイルを Web サーバーに配置します。 Response.AppendHeader("Content-Disposition","attachment; filename=日本語.zip"); Internet Explorer を使用して該当のページを表示する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く