您的位置:首页 > 其它

我和我的输入提示--格式化输入文件

2014-04-09 20:33 295 查看
把原始文件进行格式化处理。去掉一些噪声内容。

原始文件的格式为:

前缀,查询词,权重,过滤信息|扩展信息

其中:前缀就好比市编号。每个市下面有自己的数据。要查询的时候就要指定市。

查询词,要显示的内容。

权重,最后会把符合条件的结果按照权重进行排序。【可以为空】

过滤信息,一个short类型的数字,最后的显示结果可以根据这个值进行过滤。可以获取指定过滤信息值的结果,或者指定区间的结果等。【可以为空】

扩展信息,最后显示在结果中,让结果显示的更加丰富。【可以为空】

格式化后文件的格式为:

在原始文件的前面增加了一项,为格式化后的内容

格式化查询词后的结果,前缀,查询词,权重,过滤信息|扩展信息

#include "isformat/FormatFile.h"

#include "util/ConfigReader.h"

#include "util/ReadBigFile.h"

#include "util/WriteBigFile.h"

#include "util/XHStrUtils.h"

int CFormatFile::RunFormat(const string & strFileIn, const string & strPath, const string & strFileOut)

{

        printf("path:%s; filein:%s; fileout:%s\n", strPath.c_str(), strFileIn.c_str(), strFileOut.c_str());

        string strPathNew = strPath;

        int iPos = strPath.size() - 1;

        for(; iPos > 0; iPos--) {

                if(strPath[iPos] != '\\') {

                        break;

                }

        }

        if(iPos == 0) {

                printf("error: RunFormat path error:%s\n", strPath.c_str());

                return -1;

        }

        strPathNew = strPathNew.substr(0, iPos + 1);

        m_strFileIn  = strPathNew + "/" + strFileIn;

        m_strFileOut = strPathNew + "/" + strFileOut;

        return Process();

}

int CFormatFile::Process()

{

        CReadBigFile fdR;

        CWriteBigFile fdW;

        CWriteBigFile fdWError;

        string strError = m_strFileIn + ".error";

        fdR.Open(m_strFileIn.c_str());

        fdW.Open(m_strFileOut.c_str());

        fdWError.Open(strError.c_str());

        char *p;

        map<string, int> mapHasCollected;

        while(fdR.GetLine(p)) {

                vector<string> vecSplit;

                XHStrUtils::StrTokenize(vecSplit, p, ",");

                if(vecSplit.size() < 2) {

                        string strErrMsg = "error:(less than 2 paramter)";

                        strErrMsg += p;

                        fdWError.WriteLine((const char *)strErrMsg.c_str());

                        continue;

                }

                string strValue = vecSplit[1];

                XHStrUtils::FiltNoiseSymbol(strValue); //去除噪音

                XHStrUtils::ToCase(strValue, false);   //转换成小写

                XHStrUtils::JoinMultiSpace(strValue);  //把多个空格合并成一个

                XHStrUtils::trim(strValue);            //去除字符串两端的空格

                if(strValue.size() < 2) {

                        string strErrMsg = "error:(after format, less than 2 charater)";

                        strErrMsg += p;

                        fdWError.WriteLine((const char *)strErrMsg.c_str());

                        continue;

                }

                string strPreAndValue = vecSplit[0] + "#" + strValue;

                if(mapHasCollected.find(strPreAndValue) != mapHasCollected.end()) {

                        string strErrMsg = "error:(has collected key)";

                        strErrMsg += p;

                        fdWError.WriteLine((const char *)strErrMsg.c_str());

                        continue;

                }

                mapHasCollected[strPreAndValue] = 1;

                string strResult = "";

                //把格式化好的新的放到最前面

                strResult = strValue + ",";

                strResult += p;

                fdW.WriteLine((const char *)strResult.c_str());

        }                     

        return 0;

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: