您的位置:首页 > 其它

web中的字符问题总结

2014-08-24 17:03 134 查看
计算机中的字符表示都是2进制,1B(字节)=8bit 用八个内存单元为一个位标号(编码),这是ASCII编码 8bit用了7bit 2^7=128个 扩展的ASCII用了8bit 2^8=256个

256对汉字是远远不够,代替汉字就要用多位表示,gb2312是2字节 utf8是3字节

1、ASCII表中的字符分 为可打印与非打印字符

非打印字符 : 0-31 + 127

剩下的是可打印字符

ASCII码表

BinDecHex缩写/字符解释
00000000000NUL(null)空字符
00000001101SOH(start of headling)标题开始
00000010202STX (start of text)正文开始
00000011303ETX (end of text)正文结束
00000100404EOT (end of transmission)传输结束
00000101505ENQ (enquiry)请求
00000110606ACK (acknowledge)收到通知
00000111707BEL (bell)响铃
00001000808BS (backspace)退格
00001001909HT (horizontal tab)水平制表符
00001010100ALF (NL line feed, new line)换行键
00001011110BVT (vertical tab)垂直制表符
00001100120CFF (NP form feed, new page)换页键
00001101130DCR (carriage return)回车键
00001110140ESO (shift out)不用切换
00001111150FSI (shift in)启用切换
000100001610DLE (data link escape)数据链路转义
000100011711DC1 (device control 1)设备控制1
000100101812DC2 (device control 2)设备控制2
000100111913DC3 (device control 3)设备控制3
000101002014DC4 (device control 4)设备控制4
000101012115NAK (negative acknowledge)拒绝接收
000101102216SYN (synchronous idle)同步空闲
000101112317ETB (end of trans. block)传输块结束
000110002418CAN (cancel)取消
000110012519EM (end of medium)介质中断
00011010261ASUB (substitute)替补
00011011271BESC (escape)溢出
00011100281CFS (file separator)文件分割符
00011101291DGS (group separator)分组符
00011110301ERS (record separator)记录分离符
00011111311FUS (unit separator)单元分隔符
001000003220(space)空格
001000013321! 
001000103422" 
001000113523# 
001001003624$ 
001001013725% 
001001103826& 
001001113927' 
001010004028( 
001010014129) 
00101010422A* 
00101011432B+ 
00101100442C, 
00101101452D- 
00101110462E. 
00101111472F/ 
0011000048300 
0011000149311 
0011001050322 
0011001151333 
0011010052344 
0011010153355 
0011011054366 
0011011155377 
0011100056388 
0011100157399 
00111010583A: 
00111011593B; 
00111100603C< 
00111101613D= 
00111110623E> 
00111111633F? 
010000006440@ 
010000016541A 
010000106642B 
010000116743C 
010001006844D 
010001016945E 
010001107046F 
010001117147G 
010010007248H 
010010017349I 
01001010744AJ 
01001011754BK 
01001100764CL 
01001101774DM 
01001110784EN 
01001111794FO 
010100008050P 
010100018151Q 
010100108252R 
010100118353S 
010101008454T 
010101018555U 
010101108656V 
010101118757W 
010110008858X 
010110018959Y 
01011010905AZ 
01011011915B[ 
01011100925C\ 
01011101935D] 
01011110945E^ 
01011111955F_ 
011000009660` 
011000019761a 
011000109862b 
011000119963c 
0110010010064d 
0110010110165e 
0110011010266f 
0110011110367g 
0110100010468h 
0110100110569i 
011010101066Aj 
011010111076Bk 
011011001086Cl 
011011011096Dm 
011011101106En 
011011111116Fo 
0111000011270p 
0111000111371q 
0111001011472r 
0111001111573s 
0111010011674t 
0111010111775u 
0111011011876v 
0111011111977w 
0111100012078x 
0111100112179y 
011110101227Az 
011110111237B{ 
011111001247C| 
011111011257D} 
011111101267E~ 
011111111277FDEL (delete)删除
9    制表符  \t

10  换行符  \r

13  回车符  \n

2 浏览器对url的编码

浏览器会对表单中的key/val 进行编码之后再传递 php脚本会自动将之解码

编码规则: %+字符对应的十六进制

这个是HTML实体的对照表:

php函数中 html_entity_decode 函数将HTML实体转化成对应的char,

HTML实体表示方式 &entity_name; &#numner;(数字可以是10进制与十六进制x两种)

php函数 html_entity_decode 的一个bug就是 不能识别 没有分号的,但是这种没有分号的却可以被浏览器识别

字符

十进制字符编号实体名字说明
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
--- ---制表符Horizontal tab
--- ---换行Line feed
--- ---未使用Unused
--- ---未使用Unused
--- ---回车Carriage Return
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
------未使用Unused
  ---Space
!!---惊叹号Exclamation mark
"""双引号Quotation mark
##---数字标志Number sign
$$---美元标志Dollar sign
%%---百分号Percent sign
&&&Ampersand
"'---单引号Apostrophe
((---小括号左边部分Left parenthesis
))---小括号右边部分Right parenthesis
**---星号Asterisk
++---加号Plus sign
,,---逗号Comma
-----连字号Hyphen
..---句号Period (fullstop)
//---斜杠Solidus (slash)
00---数字0 Digit 0
11---数字1 Digit 1
22---数字2 Digit 2
33---数字3 Digit 3
44---数字4 Digit 4
55---数字5 Digit 5
66---数字6 Digit 6
77---数字7 Digit 7
88---数字8 Digit 8
99---数字9 Digit 9
::---冒号Colon
;;---分号Semicolon
<<<小于号Less than
==---等于符号Equals sign
>>>大于号Greater than
??---问号Question mark
@@---Commercial at
AA---大写A Capital A
BB---大写B Capital B
CC---大写C Capital C
DD---大写D Capital D
EE---大写E Capital E
FF---大写F Capital F
GG---大写G Capital G
HH---大写H Capital H
II---大写J Capital I
JJ---大写K Capital J
KK---大写L Capital K
LL---大写K Capital L
MM---大写M Capital M
NN---大写N Capital N
OO---大写O Capital O
PP---大写P Capital P
QQ---大写Q Capital Q
RR---大写R Capital R
SS---大写S Capital S
TT---大写T Capital T
UU---大写U Capital U
VV---大写V Capital V
WW---大写W Capital W
XX---大写X Capital X
YY---大写Y Capital Y
ZZ---大写Z Capital Z
[[---中括号左边部分Left square bracket
/\---反斜杠Reverse solidus (backslash)
]]---中括号右边部分Right square bracket
^^---Caret
__---下划线Horizontal bar (underscore)
``---尖重音符Acute accent
aa---小写a Small a
bb---小写b Small b
cc---小写c Small c
dd---小写d Small d
ee---小写e Small e
ff---小写f Small f
gg---小写g Small g
hh---小写h Small h
ii---小写i Small i
jj---小写j Small j
kk---小写k Small k
ll---小写l Small l
mm---小写m Small m
nn---小写n Small n
oo---小写o Small o
pp---小写p Small p
qq---小写q Small q
rr---小写r Small r
ss---小写s Small s
tt---小写t Small t
uu---小写u Small u
vv---小写v Small v
ww---小写w Small w
xx---小写x Small x
yy---小写y Small y
zz---小写z Small z
{---大括号左边部分Left curly brace
||---竖线Vertical bar
}---大括号右边部分Right curly brace
~~---Tilde
------未使用Unused
   空格Nonbreaking space
?¡¡Inverted exclamation
¢¢货币分标志Cent sign
££英镑标志Pound sterling
¤¤¤通用货币标志General currency sign
¥¥日元标志Yen sign
|¦¦ or &brkbar;断竖线Broken vertical bar
§§§分节号Section sign
¨¨¨ or ¨变音符号Umlaut
?©©版权标志Copyright
aªªFeminine ordinal
?««Left angle quote, guillemet left
?¬¬Not sign
 ­­Soft hyphen
?®®注册商标标志Registered trademark
ˉ¯¯ or &hibar;长音符号Macron accent
°°°度数标志Degree sign
±±±加或减Plus or minus
2²²上标2 Superscript two
3³³上标3 Superscript three
´´尖重音符Acute accent
μµµMicro sign
?Paragraph sign
···Middle dot
?¸¸Cedilla
1¹¹上标1 Superscript one
oººMasculine ordinal
?»»Right angle quote, guillemet right
?¼¼四分之一Fraction one-fourth
?½½二分之一Fraction one-half
?¾¾四分之三Fraction three-fourths
?¿¿Inverted question mark
àÀÀCapital A, grave accent
áÁÁCapital A, acute accent
?ÂÂCapital A, circumflex
?ÃÃCapital A, tilde
?ÄÄCapital A, di?esis / umlaut
?ÅÅCapital A, ring
?ÆÆCapital AE ligature
?ÇÇCapital C, cedilla
èÈÈCapital E, grave accent
éÉÉCapital E, acute accent
êÊÊCapital E, circumflex
?ËËCapital E, di?esis / umlaut
ìÌÌCapital I, grave accent
íÍÍCapital I, acute accent
?ÎÎCapital I, circumflex
?ÏÏCapital I, di?esis / umlaut
DÐÐCapital Eth, Icelandic
?ÑÑCapital N, tilde
òÒÒCapital O, grave accent
óÓÓCapital O, acute accent
?ÔÔCapital O, circumflex
?ÕÕCapital O, tilde
?ÖÖCapital O, di?esis / umlaut
×××乘号Multiply sign
?ØØCapital O, slash
ùÙÙCapital U, grave accent
úÚÚCapital U, acute accent
?ÛÛCapital U, circumflex
üÜÜCapital U, di?esis / umlaut
YÝÝCapital Y, acute accent
TÞÞCapital Thorn, Icelandic
?ßßSmall sharp s, German sz
àààSmall a, grave accent
áááSmall a, acute accent
aââSmall a, circumflex
?ããSmall a, tilde
?ääSmall a, di?esis / umlaut
?ååSmall a, ring
?ææSmall ae ligature
?ççSmall c, cedilla
èèèSmall e, grave accent
éééSmall e, acute accent
êêêSmall e, circumflex
?ëëSmall e, di?esis / umlaut
ìììSmall i, grave accent
íííSmall i, acute accent
?îîSmall i, circumflex
?ïïSmall i, di?esis / umlaut
eððSmall eth, Icelandic
?ññSmall n, tilde
òòòSmall o, grave accent
óóóSmall o, acute accent
?ôôSmall o, circumflex
?õõSmall o, tilde
?ööSmall o, di?esis / umlaut
÷÷÷除号Division sign
?øøSmall o, slash
ùùùSmall u, grave accent
úúúSmall u, acute accent
?ûûSmall u, circumflex
üüüSmall u, di?esis / umlaut
yýýSmall y, acute accent
tþþSmall thorn, Icelandic
?ÿÿSmall y, umlaut
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  编码 web