ANSI和UTF-8文本编码的体积比较
2009-10-16 10:39
579 查看
ANSI和UTF-8文本编码的体积比较
语言设置指的是<meta>这里的charset,如简体中文是charset=gb2312,UTF-8是charset=utf-8;文本编码指的是文件的储存格式,我们新建的文本文件默认都是ANSI格式,所以不能含有如©、®这类字符。为了不让网页出现乱码,语言设置和文本编码应该相对应,简体中文的文本编码格式是gb2312,UTF-8文本编码格式是UTF-8。语言设置和文本编码对于任何客户端网页都适用,如.htm、.asp、.php、.jsp、.aspx的网页。
ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,均去掉了Unicode签名(BOM),如下表:
总结:(以下的byte就是字节)
1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。
2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
5、Unicode码则比较折中,所有字符都占用2个byte。
总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。
语言设置指的是<meta>这里的charset,如简体中文是charset=gb2312,UTF-8是charset=utf-8;文本编码指的是文件的储存格式,我们新建的文本文件默认都是ANSI格式,所以不能含有如©、®这类字符。为了不让网页出现乱码,语言设置和文本编码应该相对应,简体中文的文本编码格式是gb2312,UTF-8文本编码格式是UTF-8。语言设置和文本编码对于任何客户端网页都适用,如.htm、.asp、.php、.jsp、.aspx的网页。
ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,均去掉了Unicode签名(BOM),如下表:
字符 | 编码格式 | 重复次数 | 文件体积 |
英文、半角字符: | |||
a | ANSI | 100次 | 100 bytes |
A | ANSI | 100次 | 100 bytes |
a | UTF-8 | 100次 | 100 bytes |
a | UTF-8 | 1000次 | 1000 bytes |
a | UTF-8 | 10000次 | 10000 bytes |
汉字、全角字符: | |||
好 | ANSI | 100次 | 200 bytes |
あ | ANSI | 100次 | 200 bytes |
好 | UTF-8 | 100次 | 300 bytes |
® | UTF-8 | 100次 | 200 bytes |
한 | UTF-8 | 100次 | 300 bytes |
好 | UTF-8 | 1000次 | 3000 bytes |
好 | UTF-8 | 10000次 | 30000 bytes |
Unicode编码格式: | |||
a | Unicode | 100次 | 200 bytes |
好 | Unicode | 100次 | 200 bytes |
® | Unicode | 100次 | 200 bytes |
한 | Unicode | 100次 | 200 bytes |
한 | Unicode | 1000次 | 2000 bytes |
1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。
2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
5、Unicode码则比较折中,所有字符都占用2个byte。
总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。
相关文章推荐
- ANSI和UTF-8文本编码
- ANSI和UTF-8文本编码
- 将电脑新建文本文档txt的默认编码从ANSI改为utf-8
- 如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)
- 如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)
- URL 编码方法比较 Encode,Javascript,escape,encodeURI,encodeURIComponent,UTF-8
- 关于编码ansi、GB2312、unicode与utf-8的区别
- 字符编码的故事(ASCII,ANSI,Unicode,Utf-8区别)转载
- 编码格式(UTF-8 与 ANSI)各种编码解码(encode、decode)
- ANSI,Unicode,UTF-8网页编码的区别
- ansi,gb2312,gbk,gb18030,unicode,utf-8,unicode big endian编码的区别
- 编码格式简介(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)
- unicode,ansi,utf-8,unicode big endian编码的区别
- 字符编码:ANSI, UNICODE, UTF
- ASCII、ANSI、Unicode及UTF-8编码
- UNICODE GBK UTF-8等文本编码
- 各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解
- 关于编码ansi、GB2312、unicode与utf-8的区别
- 各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解
- 各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解