【算法竞赛练习题】提取拼音首字母
2015-11-09 20:35
176 查看
在很多软件中,输入拼音的首写字母就可以快速定位到某个词条。比如,在铁路售票软件中,输入: “bj”就可以定位到“北京”。怎样在自己的软件中实现这个功能呢?问题的关键在于:对每个汉字必须能计算出它的拼音首字母。
GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。
GB2312编码方案对每个汉字采用两个字节表示。第一个字节为区号,第二个字节为区中的偏移号。为了能与已有的ASCII编码兼容(中西文混排),区号和偏移编号都从0xA1开始。
我们只要找到拼音a,b,c,...x,y,z 每个字母所对应的GB2312编码的第一个汉字,就可以定位所有一级汉字的拼音首字母了(不考虑多音字的情况)。下面这个表给出了前述信息。请你利用该表编写程序,求出常用汉字的拼音首字母。
a 啊 B0A1
b 芭 B0C5
c 擦 B2C1
d 搭 B4EE
e 蛾 B6EA
f 发 B7A2
g 噶 B8C1
h 哈 B9FE
j 击 BBF7
k 喀 BFA6
l 垃 C0AC
m 妈 C2E8
n 拿 C4C3
o 哦 C5B6
p 啪 C5BE
q 期 C6DA
r 然 C8BB
s 撒 C8F6
t 塌 CBFA
w 挖 CDDA
x 昔 CEF4
y 压 D1B9
z 匝 D4D1
【输入、输出格式要求】
用户先输入一个整数n (n<100),表示接下来将有n行文本。接着输入n行中文串(每个串不超过50个汉字)。
程序则输出n行,每行内容为用户输入的对应行的汉字的拼音首字母。
字母间不留空格,全部使用大写字母。
例如:
用户输入:
3
大家爱科学
北京天安门广场
软件大赛
则程序输出:
DJAKX
BJTAMGC
RJDS
代码实现
GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。
GB2312编码方案对每个汉字采用两个字节表示。第一个字节为区号,第二个字节为区中的偏移号。为了能与已有的ASCII编码兼容(中西文混排),区号和偏移编号都从0xA1开始。
我们只要找到拼音a,b,c,...x,y,z 每个字母所对应的GB2312编码的第一个汉字,就可以定位所有一级汉字的拼音首字母了(不考虑多音字的情况)。下面这个表给出了前述信息。请你利用该表编写程序,求出常用汉字的拼音首字母。
a 啊 B0A1
b 芭 B0C5
c 擦 B2C1
d 搭 B4EE
e 蛾 B6EA
f 发 B7A2
g 噶 B8C1
h 哈 B9FE
j 击 BBF7
k 喀 BFA6
l 垃 C0AC
m 妈 C2E8
n 拿 C4C3
o 哦 C5B6
p 啪 C5BE
q 期 C6DA
r 然 C8BB
s 撒 C8F6
t 塌 CBFA
w 挖 CDDA
x 昔 CEF4
y 压 D1B9
z 匝 D4D1
【输入、输出格式要求】
用户先输入一个整数n (n<100),表示接下来将有n行文本。接着输入n行中文串(每个串不超过50个汉字)。
程序则输出n行,每行内容为用户输入的对应行的汉字的拼音首字母。
字母间不留空格,全部使用大写字母。
例如:
用户输入:
3
大家爱科学
北京天安门广场
软件大赛
则程序输出:
DJAKX
BJTAMGC
RJDS
代码实现
#include<stdio.h> #include<malloc.h> #include<string.h> #define MAXLEN 100 unsigned short decode(char *ch) { unsigned short code = 0; code = ()*ch;//求出汉字的区号 code <<= 8;//将区号左移到正确位置 code |= *(ch+1);//求出偏移号,将区号和偏移号合并 return code; } void extract(char **str,char **initial,int n) { unsigned short area[23] = {0xB0A1,0xB0C5,0xB2C1,0xB4EE,0xB6EA,0xB7A2,0xB8C1, 0xB9FE,0xBBF7,0xBFA6,0xC0AC,0xC2E8,0xC4C3,0xC5B6, 0xC5BE,0xC6DA,0xC8BB,0xC8F6,0xCBFA,0xCDDA,0xCEF4, 0xD1B9,0xD4D1}; char letter[23] = {'A','B','C','D','E','F','G','H','J','K','L','M','N', 'O','P','Q','R','S','T','W','X','Y','Z'};//错误,忘记排除i为拼音首字母的情况 unsigned short code = 0;//*****错误,忘记考虑short的溢出情况 (要牢记这种隐蔽的错误) for(int i=0,cur=0,len=0;i<n;++i) { len = strlen(str[i]); cur = 0; for(int j=0,pos;j<len;j+=2) { pos=0; code = decode(str[i]+j); while(!(code>=area[pos] && code<area[pos+1]) && pos<22)++pos; //错误,Z的边界情况考虑不周 if(pos == 21 && code>=0xD4D1)++pos; //printf("test code: %x pos:%d\n",code,pos); initial[i][cur++] = letter[pos]; } initial[i][cur] = '\0';//错误,忘记人为给字符串加结束标记 } } int main() { int n; scanf("%d",&n); char **str; //用来存储输入的字符串 char **initial;//保存字符串每个汉字的首字母 initial--字首的 str = (char **)malloc(sizeof(char *)*n); initial = (char **)malloc(sizeof(char *)*n); for(int i=0;i<n;++i) { str[i] = (char *)malloc(sizeof(char)*MAXLEN); scanf("%s",str[i]); getchar(); } for(int i=0;i<n;++i) { int len = strlen(str[i]); initial[i] = (char *)malloc(sizeof(char)*len/2); } extract(str,initial,n); for(int i=0;i<n;++i) { printf("%s\n",initial[i]); } return 0; }
相关文章推荐
- LeetCode---Majority Element II
- Java读取xml文件的四种方法
- JAVA课后作业
- JS 使用 window对象的print方法实现分页打印
- hdu 4689 Derangement(dp)
- oracle参数open_cursors和session_cached_cursor详解!
- Java基础学习24 (interface一)
- 最新 Hadoop 视频分享
- OpenGL_Qt学习笔记之_04(3D图形的绘制和旋转)
- hihocoder #1099 枚举
- 最新 Hadoop 视频分享
- audio和EMBED配合同时兼容IE8和safiri
- OpenGL_Qt学习笔记之_03(平面图形的着色和旋转)
- ASP.NET多文件上传实例
- Context是什么?
- javascript:with的用法以及延长作用域链
- mvc项目问题清单以及解决方法
- NFA-DFA(c++实现代码c#实现画图)
- Java生成MD5字符串
- Leetcode149: Surrounded Regions