PHP网站制作之php各类编码集详解和在甚么情形下停止使...
我想在讲述自己的学习方式前,对那些期望能从我的文章中获得有用信息的人说一句心里话: 字符是各类文字和符号的总称,包含列国家文字、标点符号、图形符号、数字等。字符集是多个字符的纠合,字符集品种较多,每一个字符集包括的字符个数分歧,罕见字符集称号:ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。盘算机要正确的处置各类字符集文字,需求停止字符编码,以便盘算性能够辨认和存储各类文字。中文文字数量大,并且还分为简体中文和繁体中文两种分歧书写划定规矩的文字,而盘算机最后是按英语单字节字符设计的,因而,对中文字符停止编码,是中文信息交换的手艺基本。本文将依照字符集的工夫按次会商几种典范的字符集,拔取几种代表性的中文字符集,研讨汗青由来、特色、手艺特点。
ASCII 字符集
1.称号的由来
ASCII(American Standard Code for Information Interchange,美国信息交换尺度代码)是基于罗马字母表的一套电脑编码体系。
2.特色
它次要用于显示古代英语和其他西欧言语。它是当今最通用的单字节编码体系,并同等于国际尺度ISO 646。
3.包括内容
掌握字符:回车键、退格、换行键等。
可显示字符:英文巨细写字符、阿拉伯数字和西文符号
4.手艺特点
7位(bits)暗示一个字符,共128字符
5.ASCII扩大字符集
7位编码的字符集只能撑持128个字符,为了暗示更多的欧洲经常使用字符对ASCII停止了扩大,ASCII扩大字符集利用8位(bits)暗示一个字符,共256字符。
ASCII扩大字符集比ASCII字符集扩大出来的符号包含表格符号、盘算符号、希腊字母和特别的拉丁符号。
GB2312 字符集
1.称号的由来
GB2312又称为GB2312-80字符集,全称为《信息互换用汉字编码字符集·根基集》,由原中国国度尺度总局宣布,1981年5月1日实行。
2.特色
GB2312是中国国度尺度的简体中文字符集。它所收录的汉字已掩盖99.75%的利用频率,根基知足了汉字的盘算机处置需求。在中国大陆和新加坡获普遍利用。
3.包括内容
GB2312收录简化汉字及普通符号、序号、数字、拉丁字母、日文化名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。个中包含6763个汉字,个中一级汉字3755个,二级汉字3008个;包含拉丁字母、希腊字母、日文平化名及片化名字母、俄语西里尔字母在内的682个全角字符。
4.手艺特点
(1)分区暗示:
GB2312中对所收汉字停止了“分区”处置,每区含有94个汉字/符号。这类暗示体例也称为区位码。
各区包括的字符以下:01-09区为特别符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔划排序;10-15区及88-94区则未有编码。
(2)双字节暗示
两个字节中后面的字节为第一字节,前面的字节为第二字节。习气上称第一字节为“高字节” ,而称第二字节为“低字节”。
“高位字节”利用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”利用了0xA1-0xFE(把01-94加上0xA0)。
5.编码举例
以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多半盘算机法式中,高字节和低字节分离加0xA0失掉法式的汉字处置编码0xB0A1。盘算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。
BIG5 字符集
1.称号的由来
又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、公共 (FIC)创建,故称大五码。
Big5码的发生,是由于事先台湾分歧厂商各自推出分歧的编码,如倚天码、IBM PS55、王安码等,彼此不克不及兼容;另外一方面,台湾当局事先还没有推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
2.特色
Big5字符集共收录13,053个中文字,该字符集在中国台湾利用。耐人寻味的是该字符集反复地收录了两个不异的字:“兀”(0xA461及0xC94A)、“”(0xDCD1及0xDDFC)。
3.字符编码办法
Big5码利用了双字节贮存办法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码局限0xA1-0xF9,低位字节的编码局限0x40-0x7E及0xA1-0xFE。
各编码局限对应的字符类型以下:0xA140-0xA3BF为标点符号、希腊字母及特别符号,别的于0xA259-0xA261,寄存了双音节器度衡单元用字:憝H;0xA440-0xC67E为经常使用汉字,先按笔画再按部首排序;0xC940-0xF9D5为次经常使用汉字,亦是先按笔画再按部首排序。
4.Big5 的局限性
虽然Big5码内包括一万多个字符,然而没有思索社会下流通的人名、地名用字、方言用字、化学及生物科等用字,没有包括日文平化名及片化名字母。
例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“u”、“h”等)、罕见的人名用字(如“”、“煊”、“”、“”等) 也没有收录到Big5当中。
GB18030 字符集
1.称号的由来
GB 18030的全称是GB18030-2000《信息互换用汉字编码字符集根基集的扩大》,是我国当局于2000年3月17日宣布的新的汉字编码国度尺度,2001年8月31往后在中国市场上宣布的软件必需合适本尺度
2.特色
GB 18030字符集尺度的出台经由普遍介入和论证,来自国际外著名信息手艺行业的公司,信息家产部和原国度质量手艺监视局结合实行。
GB 18030字符集尺度处理汉字、日文化名、朝鲜语和中国多数平易近族文字构成的大字符集盘算机编码成绩。该尺度的字符总编码空间超越150万个编码位,收录了27484个汉字,掩盖中文、日文、朝鲜语和中国多数平易近族文字。知足中国大陆、喷鼻港、台湾、日本和韩国等东亚区域信息互换多文种、大字量、多用处、一致编码格局的请求。而且与Unicode 3.0版本兼容,弥补Unicode扩大字符字汇“一致汉字扩大A”的内容。而且与之前的国度字符编码尺度(GB2312,GB13000.1)兼容。
3.编码办法
GB 18030尺度采取单字节、双字节和四字节三种体例对字符编码。单字节局部利用0 至于模板嘛,各位高人一直以来就是争论不休,我一只小菜鸟就不加入战团啦,咱们新手还是多学点东西的好。 开发工具也会慢慢的更专业,每个公司的可能不一样,但是zend studio是个大伙都会用的。 为了以后维护的方便最好是代码上都加上注释,“予人方便,自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。 小鸟是第一次发帖(我习惯潜水的(*^__^*) 嘻嘻……),有错误之处还请大家批评指正,另外,前些日子听人说有高手能用php写驱动程序,真是学无止境,人外有人,天外有天。 写js我最烦的就是 ie 和 firefox下同样的代码 结果显示的结果千差万别,还是就是最好不要用遨游去调试,因为有时候遨游是禁用js的,有可能代码是争取结果被遨游折腾的认为是代码写错。 本文当是我的笔记啦,遇到的问题随时填充 使用zendstdio 写代码的的时候,把tab 的缩进设置成4个空格是很有必要的 没接触过框架的人,也不用害怕,其实框架就是一种命名规范及插件,学会一个框架其余的框架都很好上手的。 本文当是我的笔记啦,遇到的问题随时填充 没接触过框架的人,也不用害怕,其实框架就是一种命名规范及插件,学会一个框架其余的框架都很好上手的。 小鸟是第一次发帖(我习惯潜水的(*^__^*) 嘻嘻……),有错误之处还请大家批评指正,另外,前些日子听人说有高手能用php写驱动程序,真是学无止境,人外有人,天外有天。 曾经犯过一个很低级的错误,我在文件命名的时候用了一个横线\\\\\\\'-\\\\\\\' 号,结果找了好几个小时的错误,事实是命名的时候 是不能用横线 \\\\\\\'-\\\\\\\' 的,应该用的是下划线\\\\\\\'_\\\\\\\' ; 装在C盘下面可以利用windows的ghost功能可以还原回来(顺便当做是重转啦),当然啦我的编译目录要放在别的盘下,不然自己的劳动成果就悲剧啦。 使用 jquery 等js框架的时候,要随时注意浏览器的更新情况,不然很容易发生框架不能使用。 我学习了一段时间后,我发现效果并不好(估计是我自身的问题)。因为一个人的精力总是有限的,同时学习这么多,会导致每个的学习时间都得不到保证。 建议加几个专业的phper的群,当然啦需要说话的人多,一处一点问题能有人回答你的,当然啦要让人回答你的问题,平时就得躲在里面聊天,大家混熟啦,愿意回答你问题的人自然就多啦。 在我安装pear包的时候老是提示,缺少某某文件,才发现 那群extension 的排列是应该有一点的顺序,而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去,只留下我需要使用的扩展。 其实没啥难的,多练习,练习写程序,真正的实践比看100遍都有用。不过要熟悉引擎 因为blog这样的可以让你接触更多要学的知识,可以接触用到类,模板,js ,ajax
页:
[1]
2