多媒体技术02文字

多媒体技术02文字第一篇媒体第2章文字输入、编码、输出第3章音频频率、数字化、格式、MIDI、声卡、编码第4章图形与图像种类、颜色、属性、格式、3D、显卡第5章动画概述、传统动画、计算机动画、制作、动画描述语言、OpenGL 第6章视频电视、视频数字化、编码标准、MPEG媒体种类计算机上常见的媒体有文字、图形、图像、声音、动画和视频等六种压力媒体的数据虽然可以被现在的计算机处理（如计算机游戏的控制钮和操纵杆），但需要专门的外设，使用的并不广泛气味和味觉媒体的处理，现在还仍然处在试验阶段，离日常使用还有很大的距离本篇介...

第一篇媒体第2章文字输入、编码、输出第3章音频频率、数字化、格式、MIDI、声卡、编码第4章图形与图像种类、颜色、属性、格式、3D、显卡第5章动画概述、传统动画、计算机动画、制作、动画描述语言、OpenGL 第6章视频电视、视频数字化、编码标准、MPEG媒体种类计算机上常见的媒体有文字、图形、图像、声音、动画和视频等六种压力媒体的数据虽然可以被现在的计算机处理（如计算机游戏的控制钮和操纵杆），但需要专门的外设，使用的并不广泛气味和味觉媒体的处理，现在还仍然处在试验阶段，离日常使用还有很大的距离本篇介绍六种常见媒体的基本概念、主要特性、处理方法、数字化与编码、以及应用与编程等常见媒体第2章文字 2.1文字输入键盘输入、手写输入、语音输入、扫描输入 2.2字符编码西文编码、中文编码、国际编码 2.3文字输出字形技术、语音合成文字文字是语言的记录，可以分为拼音文字（如英文）和象形文字（如中文）两大类，各类文字都是用图形符号（如字母和汉字）来表示的在多媒体技术出现之前，文字是人们书面交流的主要手段。在多媒体技术得到广泛应用的今天，文字也是最重要的媒体元素之一计算机对文字的处理，包括文字的输入、编码与输出本章依次介绍文字输入、字符编码与文字输出，重点放在汉字编码标准之上2.1文字输入将文字录入进计算机的方法主要有键盘输入、手写输入、语音输入和扫描识别输入键盘输入是传统和主要的文字录入手段随着计算机技术的发展，方便和快速的手写与语音输入成为解决文字输入瓶颈的有效途径扫描输入主要应用在印刷品的大量文字自动录入方面2.1.1键盘输入计算机的通用键盘源自传统的打字机，本身是为英文字母的键入而设计的，非常适合于拼音文字的字母输入。而像汉字这样的象形文字，用键盘输入则十分困难汉字的三个要素是形、音、义。汉字的编码输入主要可以分为形码（如五笔字型）和音码（如全拼）两大类。各种形码和音码输入法，可以结合汉字的词义与语义特性，进行词汇与整句等智能化的输入（如微软拼音输入法）2.1.2手写输入随着各种手持设备（如掌上电脑、手机）的不断出现与普遍使用，联机手写文字的实时识别与输入方法已经得到越来越广泛的应用手写输入是指，人用（特制的）笔在图形板上书写，机器进行实时的识别，并将对应文字的编码输入。汉字的联机手写输入是自动汉字识别中最简单的一种特点机器识别的是笔画而不是整字识别结果可以及时反馈，所以对识别率要求不高输入方便，不需对输入人员进行培训适合于边想边写可利用图形板方便地进行编辑和修改技术人写字时手的抖动、书写速度的变化、图形板的量化和感应噪声等，会对识别产生干扰，因此，必须进行必要的平滑和去噪预处理识别时还需进行字符分割，以区分哪些笔画属于同一汉字手写输入在技术涉及图像识别、模式匹配、人工智能、语言文字、书写方式与习惯等方面的知识和方法目前的手写识别方法和技术，还有待于进一步改进和完善，以提高识别率、减少对输入的限制、降低输入设备和识别软件的成本、加强软件的自学习功能2.1.3语音输入语音输入是指，利用语音内容的识别技术，将人的话音实时转换为对应文字编码并录入计算机语音输入的核心技术是语音识别技术语音识别技术，现在正在发展过程中，还有待于进一步完善语音识别技术早期的语音识别，技术一直很落后。到上世纪70年代中，采用线性预测编码LPC和同态信号处理(homomorphicsignalprocess)方法，技术有了长足的进步，但效果不理想。到了上世纪80年代，矢量量化(VQ,VectorQuantization)和隐马尔科夫模型(HMM,HiddenMarkovModel)的成功使用，使语音识别在上世纪90年代达到了商用化程度。不过现在仍然存在问题，识别率一直难以进一步提高，又进入了相对低潮的相持阶段语音输入的字词识别，涉及词库、声母分类规则库、声母与韵母结合规则库、声调知识库，这些统称为声学基元模型库；句子识别还涉及语义、语法、句法、语用知识库，这些统称为语言模型库；句子理解则涉及常识库（难！！！）语音识别的过程图语音输入↓数据采集↓波形自动分析↓预处理/参数特征提取分帧后的语音特征矢量集合→↓ 声学模型/时间对准←声学基元模型库↓语言模型库→组句分析←统计信息与规则语句候选→↓ 识别语句输出语音识别系统分类按可识别词汇量可分为小词汇量语音识别系统(<100) 中词汇量语音识别系统(100~1000) 大词汇量语音识别系统(>1000) 按语音输入方式可分为孤立词语音识别系统（简单）连接词语音识别系统（较难）连续语音语音识别系统（难）按发言人类型可分为特定人（1人）限定人（n人）非特定人（任意人）语音识别的目标是开发大词汇量、非特定人的连续语音识别系统2.1.4扫描输入扫描输入是指，将图书、期刊、打印材料和印刷品中的印刷体文字，先通过扫描仪变成计算机中的数字图像，然后再利用文字识别软件OCR自动转换成对应得文字编码并录入计算机目前我国研制的多种OCR软件的识别率已经达到95%以上，不过受印刷品质量的影响比较大 OCR=OpticalCharacterRecognition光学字符识别/OpticalCharacterReader光学字符阅读器计算机识别印刷汉字的核心问题是抓住汉字的字形特征，它主要体现在笔画和关键点上另一个核心问题是版面的分析与理解，包括从图文混排版面中自动排除图形部分、自动区分横排和竖排、自动识别标题和正文、对分栏文本实现自动对接等扫描输入方法除了用于印刷体文字的识别和输入外，也可以用于手写体印刷文字的输入，其文字识别的方法与印刷体文字类似。也与手写实时输入的方法相关，不过失去了笔顺信息，属于整字识别类型2.2字符编码字符编码包括西文编码、中文编码和国际通用字符编码，本节的重点放在常用的编码标准上 2.2.1西文编码（ASCII等） 2.2.2中文编码（GB2312、GB13000、GBK/GB18030） 2.2.3国际通用字符编码（Unicode、ISO/IEC10646）2.2.1西文编码西文编码主要介绍ASCII字符集，然后简单介绍IBM公司的EBCDIC和两种扩展ASCII显示字符表 1．ASCII 2．EBCDIC 3．扩展ASCII显示字符1．ASCII ASCII（AmericanStandardCodeforInformationInterchange，美国信息交换标准码）是ANSI于1963年提出、1968年确定的一种英文字符编码标准（ANSIX3.4-1986），广泛应用于计算机、网络和信息产业 ANSI=AmericanNationalStandardsInstitute =美国国家标准协会 ASCII采用7位二进制数的（共计128个）代码来表示字符（包括图示符和控制符），加上奇偶校验位（或最高位置0），则每个字符由8位（一个字节）组成ASCII字符集 ASCII字符集以32个字符为一组第一组（0x00~0x1F）为控制符（非打印符），用于数据处理/通信系统及其相应设备中的信息交换后面的除了第一个字符（SP空格符0x20）和最后一个字符（DEL删除符0x7F）外，全都是可打印（显示）的图示符，包括：第二组（0x20~0x6F）的数字、空格和常用标点符号第三组（0x40~0x5F）的大写拉丁字母（即英文字母）与少数标点符号第四组（0x60~0x7F）的小写拉丁字母与少数标点符号ASCII的国际标准 1972年，美国的国家标准ASCII与其若干拉丁语系国家的变体，一起成为国际标准ISO646:1972（Informationprocessing--ISO7-bitcodedcharactersetforinformationinterchange，信息处理——ISO用于信息交换的七位编码字符集）这些变体主要是将ASCII字符集中不常用的符号“#$@[\]^`{|}~”替换为他们各自语言的重音符号 1987年ISO646中的ASCII部分，成为646的国际参考版（IRV=InternationalReferenceVersion）：ISO646.IRV:1987，但是其中的美元符$被替换为国际通用货币符¤ 1991年推出的修订版ISO/IEC646.IRV:1991还原成原始的美国ASCII，所以又被称为ISO646-US或US-ASCII替代标准由于ISO646中各国的变体存在明显的兼容和统一问题，现在已经作废有关编码已经被新的国际标准ISO/IEC8859-1~16:1987/1998（Informationprocessing/technology--8-bitsingle-bytecodedgraphiccharactersets，信息处理/技术——8位单字节编码的图形字符集）所替代后来ISO646与ISO/IEC8859标准又都被纳入ISO/IEC10646:1993/2003（Informationtechnology--UniversalMultiple-OctetCodedCharacterSet(UCS)，信息技术——通用多八位编码字符集(UCS)）标准之中其中的标准编号ISO10646=ISO646+10000标准化组织 ANSI=AmericanNationalStandardsInstitute美国国家标准协会 ISO=InternationalOrganizationforStandardization国际标准化组织，是由153个国家的国家标准协会联合组成的一个非政府国际组织，总部（中央秘书处）设在瑞士的日内瓦，负责制定适应商业和广泛社会需要的各种国际标准，网址为http://www.iso.org IEC=InternationalElectrotechnicalCommission国际电工技术委员会，是一个成立于1906年6月的国际标准化权威组织，属于联合国的甲级咨询机构，负责制定关于电工电子各方面的标准，有42个会员国，总部也设在瑞士的日内瓦，网址为http://www.iec.ch，我国于1958年8月参加2．EBCDIC 西文的字符编码方案，除了通用的ASCII外，还有IBM公司于1960年代初提出的EBCDIC（ExtendedBinary-CodedDecimalInterchangeCode扩充的二进制编码的十进制交换码） EBCDIC现在仍然（仅）在IBM的OS/390与TPF以及富士通-西门子的BS2000/OSD等大型机的操作系统中使用 EBCDIC是一种八位编码，其字符的编码方案与ASCII的完全不同EBCDIC字符集3．扩展ASCII显示字符（1）IBMPC IBMPC的扩展ASCII显示字符由IBM公司为其PC机制定，可以由原始的IBMPC显示器在DOS状态下显示（2）MicrosoftWindows MicrosoftWindows的扩展ASCII显示字符由微软公司为其Windows操作系统制定，可以在Windows环境的西文状态下被显示IBMPC的扩展ASCII显示字符表MicrosoftWindows的扩展ASCII显示字符表2.2.2中文编码 1．GB1988与GB2311 2．GB2312 3．汉字编码的辅助集 4．Big5 5．少数民族文字编码 6．GB13000 7．GBK与GB18030汉字编码为了计算机处理汉字，必须先对汉字进行编码。由于汉字数量大（《康熙字典》收字47035个、《汉语大字典》收字54678个，据统计在形成楷体后出现的汉字约有9万个左右），显然不能像ASCII那样用7位或单字节来进行编码，至少需要两个字节 1980年我国制定了著名的GB2312-80双字节汉字编码标准（其中，GB为“国标”这两个汉字的拼音首字母），收汉字6763个 1993年底又推出了等同于国际通用字符编码标准ISO/IEC10646.1-1993的国家标准GB13000.1-93，收汉字20902个由于GB13000与GB2312的编码不兼容，作为过渡，2000年又公布了GB18030-2000（GBK），收汉字2万7千个1．GB1988与GB2311 为了能够同时表示和处理汉字和英文，实现中外文混排，汉字编码必须兼容通用的ASCII编码。因此，1980年我国制定了与国际标准ISO646:1972（即ASCII）对应的国家标准GB1988-80《信息处理交换用的七位编码字符集》汉字成千上万，不可能像ASCII一样只用单字节的七位来表示，必须扩展到八位和多字节。但是，不能随意扩充，而应该符合国际规范。因此，我国于1980年又制定了与七位代码扩充到八位编码的国际标准ISO2022兼容的国家标准GB2311-80《信息处理交换用七位编码字符集的扩充办法》GB1988-80（ASCII）的代码结构图GB2311-80的八位编码结构图列行 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 C032个控制符 SP GL94或96个图形字符 C132个控制符 10/0 GR94或96个图形字符 1 …… 14 15 DEL 15/152．GB2312 GB2312-80《信息交换用汉字编码字符集·基本集》是我国制定的一个使用最广泛的汉字编码的强制性国家标准，由原第四机械工业部的华北计算机研究所（后改名为电子工业部第十五研究所）起草，1980年批准，1981年5月1日起实施 GB2312-80是在已有的国家标准GB1988-80（对应于ISO646）和GB2311-80（对应于ISO2022）的基础上制定的，采用与ISO2022兼容的GB2311之7位到八位的代码扩充办法，用双字节编码表示汉字，与ASCII兼容收录的字符 GB2312对应的是汉字的基本集，共收汉字6763个，可达到99.99%的使用频率。因此，除了极少数生僻的人名、地名和古文外，GB2312中的汉字已经能基本满足平时的使用了除了汉字外，GB2312还收录了682个非汉字图形符号，包括202个一般符号（含间隔符、标点、运算符和制表符）、60个序号符、22个数字符、52个英文字母、169个日文假名、48个希腊字母、66个俄文字母、26个汉语拼音符号和37个汉语注音字母所以，在GB2312-80标准中，共收录了（6763汉字+682非汉字图符=）7445图形字符两级汉字 GB2312将其收录的六千多个汉字分成两个级别：一级汉字有3755个，都为使用频率高的常用汉字，为便于检索，像字典那样，将这些汉字按拼音字母顺序排列（同音字再按笔顺的横、竖、撇、捺、点、折序排列）二级汉字有3008个，大部分较生僻，不易掌握读音，所以按部首顺序排列（同部首的字按笔画数排列，同笔画数的字再按笔顺排列）编码方案 GB2312对所有图形字符（包括汉字和非汉字图符）都采用两个字节表示，每个字节的低七位用于编码，最高位全为1，这样可以兼容ASCII编码（字节的最高位全为0）虽然在一个字节中，最高位为1的符号位置有128个，但从前面GB2311的分析可知，为了与ASCII的代码结构兼容，保留了（32+2=）34个控制符位置，最后只有（128–34=）94个符号位可供图形字符编码使用图形字符在代码表中的位置用区位码表示。将码表分成94个区，对应于编码的第一个字节取值0x21~0x7E。每个区又分成94个位，对应于编码的第二个字节取值0x21~0x7E（参见表2-6）例如“中山大学”的编码为：中(0xD6D0)、山(0xC9BD)、大(0xB4F3)、学(0xD1A7)GB2312-80字符集结构第1区的部分非汉字图符第16区的部分一级汉字第56区的部分二级汉字3．汉字编码的辅助集除了GB2312基本集的6763个简体汉字外，国家标准还给出了汉字编码字符集的多个辅助集第二/四辅助集，分别增加了7237/7039个简体汉字第一和三/五辅助集则分别是，与基本集和第二/四辅助集所对应的，繁体汉字字符集的国家标准基本集加上辅助集，共有21039个简体汉字和21142个繁体汉字繁体汉字之所以多一些，是因为在第一辅助集中，有时几个繁体字对应一个简体字，因此比基本集多出103个汉字基本集和辅助集的代码页之间靠其编码字节的最高位来区分编码字符的分页标志双字节汉字编码的页面结构列号行号第二字节 0···32 3334……125126 127 128··160 161162……254 255 第一字节 0··32 （兼容ASCII）区号位号→↓ 123……9394 3334···126 12···94 第四/五辅助集（7039个汉字） 127 128··160 区号位号→↓ 123……9394 区号位号→↓ 123……9394 161162···254 12···94 第二/三辅助集（7237个汉字） 12···94 基本集/第一辅助集(6763/6866个汉字)（682个非汉字图符） 255 4．Big5 除了中国大陆使用的简体汉字外，在台湾、香港、澳门和海外华侨社区使用的是传统的繁体汉字简体汉字使用GB（国标）系列编码标准繁体汉字一般使用的是Big5内码（大五码），即台湾的“资讯工业策进会”发布的《标准交换码(Ⅲ码)》，收录汉字13053个 Big5内码是1984年由台湾财团法人资讯工业策进会与宏碁(Acer)、神通(MiTAC)、佳佳、零壹(ZeroOne)、大众(FIC)等五大软件公司联合推出，故称为大五码BIG5的代码空间5．少数民族文字编码中国共有56个民族，除了汉、回、满族一般使用汉语外，其他少数民族大多有自己的民族语言我国各民族使用的50多种文字，可以分为字母式结构文字和非字母式结构文字两大类字母式结构的有拉丁文、斯拉夫文、蒙古文、维吾尔文、哈萨克文、藏文和朝鲜文等字母式非字母式结构的有汉字、象形文字、图画文字和音节文字等各民族文字的书写方向也有不同：壮文、藏文、朝鲜文、彝文等的字从左到右、行从上到下维吾尔文、哈萨克文和柯尔克孜文等的字从右到左、行从上到下蒙古文和满文的字从上到下、行从左到右汉字的书写方向有两种：大陆的简体汉字的字从左到右、行从上到下港台与古旧书的繁体汉字的字从上到下、行从右到左国家标准下面按发布时间列出若干已经公布的我国少数民族文字编码集的国家标准（这些字符集一般分成两类：对字母式结构文字采用八位编码、对非字母式结构文字采用双字节编码）： GB8045-87《信息处理交换用蒙古文七位和八位编码图形字符集》，收82个蒙古文字母和12个其他符号，共94个字符 GB12050-89《信息处理交换用维吾尔文编码图形字符集》，收32个维吾尔文字母、一个维吾尔文复合字符和37个其他符号，共70个字符 GB12052-89《信息交换用朝鲜文编码字符集》，收5297个朝鲜文字和682个其他符号（与GB2132同），共5979个字符 GB13134-91《信息交换用彝文编码字符集》，收1165个彝文字符和688个其他符号，共1853个字符 GB16959-1997《信息技术信息交换用藏文编码字符集基本集》，收41个藏文字母、36个藏文主字、13个元音字符、12个语音字符、10个藏文数字、10个半值符、一个控制用连接符和46个其他藏文图形符号，共169个字符6．GB13000 GB13000是与ISO/IEC10646等价的国际通用编码字符集标准，收汉字2万多个，但是与GB2312和GBK不兼容 1993年5月ISO与IEC联合推出了可用于世界各种文字的通用编码字符集的国际标准的第1部分： ISO/IEC10646-1:1993Informationtechnology--UniversalMultiple-OctetCodedCharacterSet(UCS)--Part1:ArchitectureandBasicMultilingualPlane（信息技术——通用多八位编码字符集（UCS）——第1部分：体系结构与基本多文种平面）该标准收字符9.6万个，几乎涵盖世界上的所有文字，其中包含汉字21003个。 1993年底我国推出了等同于国际标准ISO/IEC10646.1:1993的强制性国家标准： GB13000.1-93《信息技术通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面》该标准于1993年12月24日被国家技术监督局批准，1994年8月1日起实施GB13000的主要特点世界各语言文种字符统一编码，避免冲突，便于国际交流编码空间宽阔连续，每个图形字符的编码唯一（一字一码），不再存在兼容性问题按文种而不是按语言编码，避免重复和浪费（如中日韩汉字的统一编码CJK）与GB2312和GBK不兼容体系结构 UCS的体系结构是基于所谓“多八位”的，而“八位”就是一个字节，“多八位”就是多个字节 UCS采用4个字节来表征组、面、行、位的四维空间整个UCS空间包含128个组（0x00组~0x7F组），每组有256个平面（0x00平面~0xFF平面），每个平面有256行，每行又由256个字位构成 UCS共有（128×256=）32768个平面，每个平面有（256×256=）65536个字位，每个字位对应于一个字符的编码目前的编码只限于00组，已经定义的平面有00组的00平面——称之为基本多文种平面BMP（BasicMultilingualPlane），及若干辅助平面UCS的全部编码空间UCS的00组BMP BMP=BasicMultilingualPlane基本多文种平面 BMP用作双八位编码字符集，称之为UCS-2。它被分成四个区： A-区（字位0x0000~0x4DFF，有19903个字位）用于字母文字、音节文字以及各种符号 I-区（字位0x4E00~0x9FFF，共20992个字位）用于中日韩统一汉字（CJK） O-区（字位0xA000~0xDFFF，共16384个字位）保留未来标准化用 R-区（字位0xE000~0xFFFD，共8190个字位）为BMP的限制使用区，包括专用字符、变形显现形式及兼容字符BMP总貌 A-区 00~33 拼音文字（见下图） 34~3D 朝鲜文 3E~44 朝鲜文补充-A 45~4D 朝鲜文补充-B I-区 4E~9F CJK统一汉字 O-区 A0~DF R-区 E0~F8 专用区 F9~FA CJK兼容汉字 FB 拼音文字变形显现形式 FC~FD 阿拉伯文变形显现形式-A FE 半形组合用标志 CJK兼容形式小写变体阿拉伯文变形显现形式-B FF 半形及全形字符特殊字符BMP的0x00~0x33行字母文字区 00 基本拉丁文拉丁文-1补充 01 拉丁文扩充-A 拉丁文扩充-B 02 拉丁文扩充-B 国际音标扩充进格修饰字符 03 组合用发音符基本希腊文希腊符号及哥普特文 04 西里尔文 05 美亚尼亚文希伯来文（基本和扩充） 06 基本阿拉伯文阿拉伯文扩充 07 08 09 梵文孟加拉文 0A 锡克教文古吉拉特文 0B 奥利雅文泰米尔文 0C 泰卢固文卡纳达文 0D 德拉维族文 0E 泰文老挝文 0F 10 格鲁吉亚文 11 朝鲜文字母 12~1D 1E 拉丁文扩充增补 1F 希腊文扩充 20 广义标点上/下标货币符号符号组合用区分标志 21 类似字母的符号数字形式箭头 22 数学运算符 23 零杂技术用符号 24 控制图符光学识别符带括号的字母数字 25 制表符方块元素几何图形符 26 零杂符号 27 示意符等 28~2F 30 CJK符号和标点平假名片假名 31 注音朝鲜文兼容字母 CJK零杂字符 32 带括号的CJK字母及月份 33 CJK兼容字符表示形式 GB13000提供了字符编码表示的两种替代使用的形式：双八位BMP形式（UCS-2）——允许使用BMP中的字符，且每个字符用两个字节表示肆八位正则形式（UCS-4）——允许使用GB13000中的全部字符，且每个字符用四个字节表示除了UCS-2/4外，还有另外两种变形的表示形式： UTF-8（单字节~多字节） UTF-16（双字节和4字节，与UCS-2等价）目前在工业上的实现，均为UTF-16（UCS-2）和UTF-8 UTF=Unicode/UCSTransformationFormat，统一码/UCS转换格式关于统一码我们会在下一小节详细介绍7．GBK与GB18030 由于GB13000标准与GB2312标准的字符编码不兼容，作为过渡，在国家信息技术标准化委员会的主持下，制定了与GB2312兼容的《汉字内码扩展规范（GBK）》（K为扩展的“扩”字的拼音首字母），并于1995年12月15日由原国家技术监督局标准司联合原电子工业部科技与质量监督司作为指导性技术规范发布实施 2000年，GBK又被国家标准GB18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》所代替，该标准收汉字2万7千个与GB2312一样，GB18030也为中国的强制性国家标准。微软公司的Windows95/98/Me/NT/XP中文版与IBM公司的OS/2Warp4.0等操作系统已经全面支持GBKGB18030的码位范围分布字节数码位空间码位数目单字节 0x00~0x7F 128 双字节第1字节第2字节 23940 0x81~0xFE 0x40~0x7E，0x80~0xFE 四字节第1字节第2字节第3字节第4字节 1587600 0x81~0xFE 0x30~0x39 0x81~0xFE 0x30~0x39GB18030的总体结构图收录字符单字节部分——收录了GB/T11383的0x00~0x7F全部128个字符（似ASCII）双字节部分——收录内容如下：(21003个汉字和884个符号共21887个字符) GB13000.1-93的全部CJK统一汉字字符20902个（GB2312的编码汉字在双字节2区，其他CJK统一汉字在双字节3/4区） GB13000.1-93的CJK兼容区挑选出来的21个汉字“郎凉秊……﨨﨩”（0xFD9C~0xFDA0和0xFE40~0xFE4F） GB13000.1-93中收录而GB2312未收录的台湾地区使用的图形字符139个“ˊˋ˙……﹪﹫”（0xA840~0xA895和0xA940~0XA988） GB13000.1-93收录的其他字符31（13？）个（在双字节5区？） GB2312-80中的非汉字字符682个（0xA1A1~0xA9EF） GB12345-90的竖排标点符号19（29？）个“︵︶︹……︳︴”（0xA6D9~0xA6F5） GB2312-80未收录的10个小写罗马数字“ⅰⅱⅲ……ⅸⅹ”（0xA2A1~0xA2AA） GB2312-80未收录的带音调的汉语拼音字母5（4？）个“ńňǹ”以及ɑ和ɡ（0xA8BB~0xA8C0）汉字数字零“〇”(0xA996)和欧元符“€”(0xA2E3) 表意文字描述符13个“〾⿰⿱……⿺⿻”（0xA989~0xA995）对GB13000.1-93增补的汉字和部首/构件80个“⺁……䶮”（0xFE50~0xFEA0）四字节部分——收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB13000.1-93中的全部字符GB18030双字节部分的码位安排GB18030双字节部分的编码空间结构图尾字节首字节 0x40←――→0x7E 0x80←――→0xA0 0xA1←――――――――――――→0xFE 0x81↑↓0xA0 0xA1↑↓0xA7 0xA80xA9 0xAA↑||||||||||↓0xFE 双字节3区汉字区：6080个码位双字节用户区3用户自定义区：672个码位双字节1区图形符号区：564个码位双字节5区图形符号区：192个码位双字节4区汉字区：8160个码位双字节用户区1用户自定义区：564个码位双字节2区汉字区：6768个码位双字节用户区2用户自定义区：658个码位2.2.3国际通用字符编码 Unicode（统一码）是由多语言软件制造商组成的统一码协会（http://www.Unicode.org）所制定一种国际字符的编码标准 ISO/IEC10646是ISO与IEC联合开发的国际通用的字符编码标准本节主要介绍这两种关系密切的主流国际字符编码标准的来历、编码方案、各自特点与相互关系1．Unicode统一码发展历史 1987年施乐（Xerox）公司的JoeBecker与LeeCollins和苹果（Apple）公司的MarkDavis等人开始讨论统一编码 1987年12月JoeBecker造词Unicode（统一码），含义为“unique,universal,anduniformcharacterencoding”（单一、通用、统一的字符编码） 1989年2月开始定期召开统一码会议，1989年9月公布Unicode草案 1991年1月3日由Xerox、Apple、Sun、IBM、Aldis、Microsoft等公司出资，在美国加州成立了统一码协会（UnicodeConsortium），并由协会设立非盈利性的统一码公司（Unicode,Inc.），后来HP、Adobe、Borland、Digital、Lotus、Novell等公司也纷纷加入 1991年1月成立统一码技术委员会UTC，并制定了其规程 1991年2月在EdHart的推动下，进行了“统一码对10464国际标准草案1”的对话，Unicode与ISO/IEC10646开始走向融合 1991年8月发布Unicode标准1.0版的第1卷（体系结构，非表意字符） 1992年6月发表Unicode1.0版的第2卷（表意字符） 1993年6月发布Unicode1.1版，与1993年5月公布的ISO/IEC10646-1:1993实现了合并 1996年7月发布Unicode2.0版 1999年9月发布Unicode3.0版 2003年4月发布Unicode4.0版，对应于ISO/IEC10646:2003 2005年3月31日发布Unicode4.1.0版 2006年7月14日发布Unicode5.0.0版。字符集 Unicode字符集的空间分成双字节的基本多语言平面(BasicMultilingualPlane,BMP)和4字节的辅助多语言平面(SupplementaryMultilingualPlane,SMP)两种 BMP Unicode的基本平面或基本多语言平面BMP，对应于ISO/IEC10646-1的第00组的00平面（BMP）。即Unicode与ISO/IEC10646的BMP中的字符编码完全一致 SMP 鉴于Unicode原有的16位元空间不足以应用，从Unicode3.1版本开始，设立了16个辅助平面，使Unicode的可使用空间由六万多字增至约一百万字原有的Unicode双字节空间称为基本平面或基本多语言平面BMP。辅助多语言平面SMP字符要用4字节来储存第一辅助平面：摆放拼音文字（主要为现时已不再使用的文字）及符号。范围在U+10000-U+1FFFD 第二辅助平面：又称为表意文字补充平面(SupplementaryIdeographicPlane,简称SIP)。现时摆放“中日韩统汉字扩展B区”，共43,253个汉字。范围在U+20000-U+2FFFD 第三至十三辅助平面：尚未使用第十四辅助平面：又称为特殊用途补充平面(SupplementarySpecial-purposePlane,简称SSP)，摆放Languagetags和VariationSelectors，它们都是控制字符。范围在U+E0000-U+E01FF 第十五至十六辅助平面：都是私人使用区。它们的范围是U+F0000-U+FFFFD及U+100000-U+1000FD Unicode字符集的具体编码方式，参加第4小节“4．UTF”2．ISO/IEC10646 ISO/IEC10646是ISO与IEC联合开发的国际通用的字符编码标准 ISO/IEC10646标准由ISO与IEC联合成立的ISO/IECJTC1/SC2/WG2制定： JTC1（JointTechnicalCommittee1onInformationtechnology，ISO/IEC信息技术联合技术委员会1），负责信息技术方面标准的制定工作 SC2（SubCommittee2onCodedcharactersets，编码字符集分会2）下的WG2（WorkingGroup2onUniversalcodedcharacterset，通用编码字符集工作组2）负责制定国际通用字符编码标准，即后来公布的ISO/IEC10646发展历史 1984年ISO的一些会员国发起制定新的国际字符编码标准；同年4月ISO与IEC联合成立ISO/IECJTC1/SC2/WG2 1987年3月制定出编码架构；1989年1月出版1stDP（DraftProposal，草案）；1989年12月出版2ndDP；1990年12月出版1stDIS（DraftInternationalStandard，国际标准草案）；1991年6月投票通过1stDIS；1992年6月投票通过2ndDIS； 1993年5月推出10646标准时，将内容分成两个部分标准，首先发布的是其中的第1个部分（体系结构与基本多文种平面）的第1版（Edition1）：ISO/IEC10646-1:1993Informationtechnology--UniversalMultiple-OctetCodedCharacterSet(UCS)--Part1:ArchitectureandBasicMultilingualPlane（信息技术——通用多八位编码字符集（UCS）——第1部分：体系结构与基本多文种平面）； 2000年3月推出10646标准第一个部分的第2版（Edition2）：ISO/IEC10646-1:2000Informationtechnology--UniversalMultiple-OctetCodedCharacterSet(UCS)--Part1:ArchitectureandBasicMultilingualPlane； 2001年10月推出10646标准第2版的第二个部分（辅助平面）的第1版（Edition1）：ISO/IEC10646-2:2001Informationtechnology--UniversalMultiple-OctetCodedCharacterSet(UCS)--Part2:SupplementaryPlanes； 2003年10月推出的10646新标准（第1版，Edition1），将老标准中的两个部分标准合并成了一个单一的标准：ISO/IEC10646:2003Informationtechnology--UniversalMultiple-OctetCodedCharacterSet(UCS)UCS通用字符集通用字符集（UniversalCharacterSet，UCS）是ISO/IEC10646标准所定义的字符编码方式，采用4字节编码。又称为UniversalMultiple-OctetCodedCharacterSet（通用多八位编码字符集）通用字符集是所有包括了其他字符集。它保证了与其他字符集的双向兼容，即，如果你将任何文本字符串翻译到UCS格式，然后再翻译回原编码，你不会丢失任何信息 UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语，还包括中文、日文、韩文这样的象形文字，UCS还包括大量的图形、印刷、数学、科学符号名字与组合字符 UCS不仅给每个字符分配一个代码，而且赋予了一个正式的名字。表示一个UCS或Unicode值的十六进制数通常在前面加上“U+”，例如“U+0041”代表字符“A” UCS里有些编码点分配给了组合字符，组合字符机制允许在任何字符后加上重音符或其他指示标记,这在科学符号中特别有用,比如数学方程式和国际音标字母,可能会需要在一个基本字符后组合上一个或多个指示标记实现级别并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO10646指定了如下三种实现级别：级别1：不支持组合字符和韩语HangulJamo字符(一种特别的,更加复杂的韩国文的编码,使用两个或三个子字符来编码一个韩文音节) 级别2：类似于级别1，但在某些文字中，允许一列固定的组合字符(例如,希伯来文,阿拉伯文,Devangari,孟加拉语,果鲁穆奇语,Gujarati,Oriya,泰米尔语,Telugo,印.埃纳德语,Malayalam,泰国语和老挝语)，因为如果没有最起码的几个组合字符，UCS就不能完整地表达这些语言。级别3：支持所有的UCS字符，如，可以在任意一个字符上加上一个箭头或/和一个tilde(颚化符号，即字母上面的～)编码方式 UCS有如下两种编码方式： UCS-2：与Unicode的2字节编码基本一样 UCS-4：4字节编码，目前是在UCS-2前加上2个全零的字节 UCS还有UTF编码方式，参见下面第4小节“4．UTF”3．Unicode与ISO/IEC10646 关系历史上存在两个独立的尝试创立单一字符集的组织，即国际标准化组织（ISO）和多语言软件制造商组成的统一码协会组织（Unicode.org）。前者开发的ISO10646项目，后者开发的Unicode项目。因此最初制定了不同的标准 1991年前后，两个项目的参与者都认识到，世界不需要两个不兼容的字符集。于是，它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作从Unicode2.0开始，Unicode采用了与ISO10646-1相同的字库和字码；ISO也承诺，ISO10646将不会替超出U+10FFFF的UCS-4编码赋值，以使得两者保持一致两个项目仍都存在，并独立地公布各自的标准。但Unicode协会和ISO/IECJTC1/SC2都同意保持两者标准的码表兼容，并紧密地共同调整任何未来的扩展异同 Unicode协会公布的Unicode标准包含了ISO10646-1实现级别3的基本多文种平面。在两个标准里，所有的字符都在相同的位置并且有相同的名字 ISO10646标准，就像ISO8859标准一样，只不过是一个简单的字符集表。它定义了一些编码的别名，指定了一些与标准有关的术语，并包括了规范说明，指定了怎样使用UCS连接其他ISO标准的实现等 Unicode标准，额外定义了许多与字符有关的语义符号学。并详细说明了绘制某些语言（如阿拉伯语）表达形式的算法，处理双向文字（比如拉丁文和希伯来文的混合文字）的算法，排序与字符串比较所需的算法等等考虑到Unicode标准有一个易记的名字，既便宜又包括更多的辅助信息，因而它使用得更广泛然而一般认为，用于打印ISO10646-1标准的字体在某些方面的质量要高于用于打印Unicode2.0的。专业字体设计者总是被建议说要两个标准都实现，但一些提供的样例字形有显著的区别。ISO10646-1标准同样使用四种不同的风格变体来显示表意文字如中文，日文和韩文(CJK)，而Unicode2.0的表里只有中文的变体4．UTF Unicode和UCS都是一个字符集，可以看作为内码 UTF（Unicode/UCSTransformationFormat统一码/通用字符集转换格式）是一种编码方式，它的出现是因为Unicode和UCS不适宜在某些场合直接传输和处理 UCS和Unicode只是分配整数给字符的编码表。现在存在好几种将一串字符表示为一串字节的方法（如高或低位字节在前）最显而易见的两种方法是将UCS和Unicode文本存储为2个或4个字节序列的串。这两种方法的正式名称分别为UCS-2和UCS-4 常用的UTF具体编码方式有UTF-8、UTF-16和UTF-32UTF-8 UTF-8是UTF的一种具体编码方式，在ISO10646-1的附录R和IETF的RFC2279里定义由于要使文档中的文字与ASCII兼容，故UTF-8选择了使用可变长度字节来储存Unicode和UCS，例如： ASCII字母继续使用1字节储存重音文字、希腊字母或西里尔字母等使用2字节来储存常用的汉字就要使用3字节辅助平面字符则使用4字节即，ASCII不作变换，其他字符做变长编码，每个字符1~4字节 UTF-8通常作为外码在UTF-8文件的开首，很多时都放置一个U+FEFF字符(UTF-8以EFBBBF代表)，以显示这个文字档案是以UTF-8编码UTF-8的优点与CPU字节顺序无关，可以在不同平台之间交流容错能力高，任何一个字节损坏后，最多只会导致一个编码码位损失，不会链锁错误(如GB码错一个字节就会整行乱码)UTF-8的缺点 UTF-8使用可变长度字节储存，使计算机程序设计变得复杂(故此，在计算机程序或操作系统内部，多采用UCS-2编码) 在旧式的中文、日文及朝鲜文编码之中，每字符都使用2字节储存，而UTF-8须使用3字节(采用UTF-16编码则可只使用2字节储存) 泰语以往使用的ISO8859-11，每字符只使用1字节储存，而UTF-8须使用3字节UTF-8储存的多字节串字符 U-00000000-U-0000007F:0xxxxxxx U-00000080-U-000007FF:110xxxxx10xxxxxx U-00000800-U-0000FFFF:1110xxxx10xxxxxx10xxxxxx U-00010000-U-001FFFFF:11110xxx10xxxxxx10xxxxxx10xxxxxx 在多字节串中，第一个字节的开头“1”的数目就是整个串中字节的数目每个使用UTF-8储存的字符，除了第一个字节外，其余字节的头两个位元都是以"10"开始，使文字处理器能够较快地找出每个字符的开始位置UTF-16 UTF-16是UTF的另一种具体编码方式，在ISO10646-1的附录Q和IETF的RFC2781里定义 UTF-16，是变长码（2或4字节），大致相当于20位编码，值在0到0x10FFFF之间，基本上就是Unicode编码的实现。UTF-16与CPU字序有关，但因为最省空间，常作为网络传输的外码。UTF-16是Unicode的完美编码 <0x10000的直接用其对应的16位整数编码，位于0x10000~0x10FFFF之间的用0xD800~0xDBFF的16位整数后跟0xDC00~0xDFFF的16位整数的4字节编码，>0x10FFFF的不能用UTF-16表示在Unicode的BMP中定义的字符（无论是拉丁字母、汉字或其他文字或符号），一律使用2字节存储。而在辅助平面定义的字符，则以两个2字节的值来存储UTF-16的特点 UTF-16比起UTF-8的好处在于大部分字符都以固定长度的2字节存储，但UTF-16却无法相容于ASCII编码 UTF-16有两种编码模式，即大尾序（bigEndian，高位字节在前）和小尾序（littleEndian高位字节在后）储存形式（一般來說，以Macintosh制作和存储的文字使用大尾序格式，以Microsoft或Linux制作和存储的文字使用小尾序格式）为了弄区分UTF-16文件的大小尾序，在UTF-16文件的开头，都会放置一个U+FEFF字符作为字节顺序标记(UTF-16LE以FFFE代表，UTF-16BE以FEFF代表)，以显示该文档是以UTF-16编码的UTF-32 UTF-32，仅使用了Unicode范围(0到0x10FFFF)的32位编码，相当于UCS-4的子集由于Unicode和ISO/IEC10646的编码和结构与前面讲过的GB13000类似或等价，这里就不再做详细的介绍5．支持现在Unicode/UCS已经获得了十分广泛的支持：网络与浏览器（如HTML4.0/XML与IE5.5/Netscape6）操作系统（如WindowsNT/2000/XP和Linux）编程语言（如ISOC/C++/Java/C#）Unicode代码的浏览器显示2.3文字输出文字输出是指将计算机内的字符编码，通过计算机的输出设备（如显示器、打印机、喇叭），展现出所对应字符的图形或声音，供人们阅读或聆听本节主要介绍文字图示输出的字形技术文字声音输出属于语音合成，只在本节的末尾作简单的介绍2.3.1字形技术文字=图形不论是象形文字中的单字，还是拼音文字中的字母，都是用图形来表示的在计算机里，文字的表示/输出（显示和打印）涉及字型字体字库1．字型字型指构造和生成字形的方法，一般可分为点阵字：DOS/显卡ROM，金山/科印。特点似位图：显示快、占空间（字库大）、放大后有马赛克效应显示：字母8*8、汉字16*16 打印：24*24、48*48、64*64 矢量字：单线条，用于笔式绘图仪。特点：字库小、算法简单、难看轮廓字：用曲线描绘字的轮廓，输出效果好，所见即所得(WYSWYG)，可无级放大，易实现空心/阴影/填充/变形等各种特效功能。轮廓曲线一般采用样条曲线，如TrueType(Apple1991MacOS/Microsoft1992Windows3.1)用的是二次B样条/Bezier曲线，中文之星/RichWin采用的是三次B样条/Bezier曲线字型种类2．字体字体指字的形状风格，如汉字的英文的常用汉字字体宋体——宋体来自于北宋时雕版刻书所采用的欧体字（唐朝欧阳询体），宋体字的横顿、拉捺、挑钩，别具特色，间架平正，疏密适中，字体秀丽遒劲。但笔画横细竖粗，适合于刀刻，不宜于手写。现在宋体广泛用于印刷，常来表现文档的正文仿宋体——1920年钱塘的丁辅之与丁善之等人，将明代以后盛行的方廓形字体加以改造，创造出长形和方形的聚珍仿宋，后来演化为现在的仿宋体。仿宋体比较接近于手写体，为宋体和楷体的折中，是采用的宋体的结构和楷体的笔法而成。现常来表现打印文件，以及文档的摘要和注释等黑体——黑体是适应工艺美术的发展而出现的一种等线体，是从日本引进的。黑体的结构与宋体没有什么差别，只是其笔画粗细一致，健实粗壮。主要用于文档的标题和重点及标语、广告等方面楷体——楷体源于楷书，楷体的笔画圆浑、笔调灵活、结构端正美观。但不宜于木板雕刻，所以直到清末西洋的石板印刷术传入后才开始广泛用于印刷。现代的楷体创造于20世纪的二三十年代。主要用于文档的正文（多用于中小学教材），也可用于工艺美术等方面3．字库字库为一种文字的某一字体的所有字符的集合，一般存放在一个磁盘文件中由于象形文字中单字的数量大（成千上万），而拼音文字中字母的数量小（不到一百个），所以字库的大小有很大的差别为了使文档界面丰富多彩，常见的字处理软件都支持多种字体，带有众多字库4．点阵字型的国家标准我国已经公布了若干字体的点阵字型之国家标准： GB5007.1-1985/2001信息技术汉字编码字符集（基本集）24点阵字型 GB5007.2-1985/2001信息技术汉字编码字符集（辅助集）24点阵字型 GB5199-1986/2001信息技术汉字编码字符集（基本集）16点阵字型宋体 GB6345-1986/2001信息技术汉字编码字符集（基本集）32点阵字型宋体 GB12041-2001信息技术汉字编码字符集（基本集）48点阵字型宋体 GB17698-1999信息技术通用多八位编码字符集（I区）汉字16点阵字型2.3.2语音合成文字的声音输出，主要使用的是语音合成的技术语音合成功能是文→语转换英语合成已经成熟中文/汉语合成正在发展过程中语音合成的过程图作业平时作业1：用VC编写一个在屏幕上输出中文字符串的Windows应用程序，要求用户可以设置字体、字号、颜色、方向和串的内容。平时作业2：编写宽字符串（UTF-16）与普通字符串（GB2312）的相互转换函数。（提示：可以利用MFC的CString的AllocSysString()和STL的map容器）大作业1：研究GB13000、Unicode和/或ISO/IEC10646标准的结构、内容、字符集、编码方式、以及相互关系。大作业2：实现GB2312、Big5、GBK/GB18030、GB13000等两个或多个标准之间的汉字代码转换。复习思考题计算机对文字的处理，包括哪三个部分？文字录入计算机的方法主要有哪几类？汉字有哪三个要素，各对应于什么键盘输入法？语音识别系统可以如何分类？语音识别的目标是开发什么样的语音识别系统？ ASCII的英文原文和中文译文是什么？ASCII是由什么组织在什么时候制定的？ ASCII所对应的ISO标准号是多少？该ISO标准是什么时候制定的？给出标准化组织ANSI、ISO和IEC的含义。常用的中文编码的国家标准有哪些？它们各自的特点与适用范围是什么？ GB2312中的汉字分成几级？各级中的汉字按什么顺序排列？ GB2312中的汉字用几个字节表示？为什么只有94个区/位？给出Big5的含义。 GB13000与ISO/IEC10646的关系是什么？给出UCS和BMP的英文原文、中文译文、含义与相互关系。中日韩统一汉字（CJK）在BMP的哪个区？含有多少个汉字？ UCS的字符编码有哪些表示形式？它们各有什么特点？ GBK与GB18030有什么关系？它们与GB2312和GB13000又有什么关系？ Unicode与ISO/IEC10646有什么关系？比较它们的异同。 UTF是什么？它有哪些具体编码方式？这些方式各有什么特点？文字输出方式包括哪两大类？字形技术含哪三个方面？有哪三种字型？它们各有什么特点？常用的汉字字体是哪几种？它们各用于哪些方面？语音输入与语音输出的核心技术各是什么？

                    本文档为【多媒体技术02文字】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

多媒体技术02文字

你可能还喜欢