标准库string原理与实现
2013-09-19 14:48
267 查看
设计一个完美的String是不可能的,但是无论如何,这个string为许多需要提供了很好的服务。
字符集就是在字符和整数值之间的一种映射。C++的方式就是允许程序员使用任何字符集作为串的字符类型。原则上讲,串能以任何带有正确的复制操作的类型作为其字符类型,然而对于那些没有用户自定义复制操作的类型,他可以改进效率并简化实现。因此标准库string要求作为其字符类型的类型不包含用户定义复制操作。
一个字符类型的性质由其char_traits定义。
char_traits就是模板的一个专门特化:
从SGI标准库的代码中可以看出:通用的char_traits本身没有任何属性(除了一些字符之间的操作和类型定义),只有针对特定字符类型的专门char_traits具有属性。
任何一个类想要作为basic_string的字符类型,必须支持上述功能的专门化的char_traits。
下面我们分析针对char类型的特化版本:
宽字符很像char,除了它占用两个或者多个字节之外。wchar_t通常用于保存16位字符集,如Unicode。
基础串类basic_string
basic_string很像vector,但是不会直接用数组或者vector实现,为了支持string的许多常见应用,实现中需要尽量减少复制,对短的字符串不适用自由存储空间,允许对长串简单修改等。首先,basic_string总是在字符末尾存储一个null字符,这有助于执行c_str操作;其次,标准库定义了一些basic_string特有的操作,比如:char_traits<>::assign, char_traits<>::copy和char_traits<>::move;最后,虽然basic_string增加了一些很方便的接口,但严格上将是多余的。
虽然C++标准强加了一个限制:_charT必须是一个POD类型,但是sgi的实现弱化了限制,只要_charT有个默认构造函数就行。
basic_string和其它标准库容器一样,首先是类型的定义:
只要_charT提供与char相同的语义,相应的串就可以像char的串一样使用。
与其他容器一样,一个string也提供了常规额和反向的迭代器:
字符集就是在字符和整数值之间的一种映射。C++的方式就是允许程序员使用任何字符集作为串的字符类型。原则上讲,串能以任何带有正确的复制操作的类型作为其字符类型,然而对于那些没有用户自定义复制操作的类型,他可以改进效率并简化实现。因此标准库string要求作为其字符类型的类型不包含用户定义复制操作。
一个字符类型的性质由其char_traits定义。
char_traits就是模板的一个专门特化:
// Class __char_traits_base. template <class _CharT, class _IntT> class __char_traits_base { public: typedef _CharT char_type; // 字符类型 typedef _IntT int_type; // 字符的整数值类型 static void assign(char_type& __c1, const char_type& __c2) { __c1 = __c2; } // char_type的复制操作 = // 字符的整数表示 static char_type to_char_type(const int_type& __c) { // int_type 到 char_type 的转化 return static_cast<char_type>(__c); } static int_type to_int_type(const char_type& __c) { // char_type 到 int_type 的转化 return static_cast<int_type>(__c); } static bool eq_int_type(const int_type& __c1, const int_type& __c2) { return __c1 == __c2; } // char_type单字符比较操作 static bool eq(const _CharT& __c1, const _CharT& __c2) { return __c1 == __c2; } static bool lt(const _CharT& __c1, const _CharT& __c2) { return __c1 < __c2; } // char_type字符序列s 的比较操作 static int compare(const _CharT* __s1, const _CharT* __s2, size_t __n) { for (size_t __i = 0; __i < __n; ++__i) if (!eq(__s1[__i], __s2[__i])) return __s1[__i] < __s2[__i] ? -1 : 1; return 0; } static size_t length(const _CharT* __s) { const _CharT __nullchar = _CharT(); size_t __i; for (__i = 0; !eq(__s[__i], __nullchar); ++__i) {} return __i; } static const _CharT* find(const _CharT* __s, size_t __n, const _CharT& __c) { for ( ; __n > 0 ; ++__s, --__n) if (eq(*__s, __c)) return __s; return 0; } // 使用标准C库的memmove和memcpy提高了效率 static _CharT* move(_CharT* __s1, const _CharT* __s2, size_t __n) { memmove(__s1, __s2, __n * sizeof(_CharT)); return __s1; } static _CharT* copy(_CharT* __s1, const _CharT* __s2, size_t __n) { memcpy(__s1, __s2, __n * sizeof(_CharT)); return __s1; } static _CharT* assign(_CharT* __s, size_t __n, _CharT __c) { for (size_t __i = 0; __i < __n; ++__i) __s[__i] = __c; return __s; } // I/O相关操作 #ifdef __STL_USE_NEW_IOSTREAMS typedef streamoff off_type; // 流中的偏移量 typedef streampos pos_type; // 流中位置 typedef mbstate_t state_type; // 多字节流状态 #endif /* __STL_USE_NEW_IOSTREAMS */ static int_type eof() { // 文件结束 return static_cast<int_type>(-1); } static int_type not_eof(const int_type& __c) { // __c不等于eof()则为__c;否则返回0 return !eq_int_type(__c, eof()) ? __c : 0; } }; // Generic char_traits class. Note that this class is provided only // as a base for explicit specialization; it is unlikely to be useful // as is for any particular user-defined type. In particular, it // *will not work* for a non-POD type. template <class _CharT> class char_traits : public __char_traits_base<_CharT, _CharT> {};
从SGI标准库的代码中可以看出:通用的char_traits本身没有任何属性(除了一些字符之间的操作和类型定义),只有针对特定字符类型的专门char_traits具有属性。
任何一个类想要作为basic_string的字符类型,必须支持上述功能的专门化的char_traits。
下面我们分析针对char类型的特化版本:
// Specialization for char. __STL_TEMPLATE_NULL class char_traits<char> : public __char_traits_base<char, int> { public: static char_type to_char_type(const int_type& __c) { return static_cast<char_type>(static_cast<unsigned char>(__c)); } static int_type to_int_type(const char_type& __c) { return static_cast<unsigned char>(__c); } // 使用mencmp提高效率 static int compare(const char* __s1, const char* __s2, size_t __n) { return memcmp(__s1, __s2, __n); } static size_t length(const char* __s) { return strlen(__s); } static void assign(char& __c1, const char& __c2) { __c1 = __c2; } // 使用menset提高效率 static char* assign(char* __s, size_t __n, char __c) { memset(__s, __c, __n); return __s; } };
宽字符很像char,除了它占用两个或者多个字节之外。wchar_t通常用于保存16位字符集,如Unicode。
// Specialization for wchar_t. __STL_TEMPLATE_NULL class char_traits<wchar_t> : public __char_traits_base<wchar_t, wint_t> {};
基础串类basic_string
basic_string很像vector,但是不会直接用数组或者vector实现,为了支持string的许多常见应用,实现中需要尽量减少复制,对短的字符串不适用自由存储空间,允许对长串简单修改等。首先,basic_string总是在字符末尾存储一个null字符,这有助于执行c_str操作;其次,标准库定义了一些basic_string特有的操作,比如:char_traits<>::assign, char_traits<>::copy和char_traits<>::move;最后,虽然basic_string增加了一些很方便的接口,但严格上将是多余的。
虽然C++标准强加了一个限制:_charT必须是一个POD类型,但是sgi的实现弱化了限制,只要_charT有个默认构造函数就行。
basic_string和其它标准库容器一样,首先是类型的定义:
template <class _CharT, class _Traits, class _Alloc> class basic_string : private _String_base<_CharT,_Alloc> { public: typedef _CharT value_type; typedef _Traits traits_type; typedef value_type* pointer; typedef const value_type* const_pointer; typedef value_type& reference; typedef const value_type& const_reference; typedef size_t size_type; typedef ptrdiff_t difference_type; typedef const value_type* const_iterator; typedef value_type* iterator; #ifdef __STL_CLASS_PARTIAL_SPECIALIZATION typedef reverse_iterator<const_iterator> const_reverse_iterator; typedef reverse_iterator<iterator> reverse_iterator; #else /* __STL_CLASS_PARTIAL_SPECIALIZATION */ typedef reverse_iterator<const_iterator, value_type, const_reference, difference_type> const_reverse_iterator; typedef reverse_iterator<iterator, value_type, reference, difference_type> reverse_iterator; #endif /* __STL_PARTIAL_SPECIALIZATION */ // ... };
只要_charT提供与char相同的语义,相应的串就可以像char的串一样使用。
与其他容器一样,一个string也提供了常规额和反向的迭代器:
template <class _CharT, class _Traits, class _Alloc> class basic_string : private _String_base<_CharT,_Alloc> { public: // Iterators. iterator begin() { return _M_start; } iterator end() { return _M_finish; } const_iterator begin() const { return _M_start; } const_iterator end() const { return _M_finish; } reverse_iterator rbegin() { return reverse_iterator(_M_finish); } reverse_iterator rend() { return reverse_iterator(_M_start); } const_reverse_iterator rbegin() const { return const_reverse_iterator(_M_finish); } const_reverse_iterator rend() const { return const_reverse_iterator(_M_start); } };
相关文章推荐
- String 类的常用方法及其大概实现原理
- JDK源码之解读String最终类的equals()和hashcode()方法实现原理
- 关于switch语句中使用String类型的实现原理
- JDK源码之解读String最终类的equals()和hashcode()方法实现原理
- Redis 源码解析 string内部实现原理之简单动态字符串SDS
- Java中字符串String Switch的实现原理
- std::string实现原理1
- Java高级技术第三章——Java的String字符串类实现原理
- 基于标准库实现string和wstring的转换
- Lua语言中字符串String实现原理
- 基于标准库实现string和wstring的转换
- 关于switch语句中使用String类型的实现原理
- 通过汇编看vs2015下c++各标准库的实现原理
- [Java]String中“+”的实现原理及效率
- [C/C++标准库]_[初级]_[如何实现std::string自己的Format(sprintf)函数]
- [C/C++标准库]_[初级]_[如何实现std::string自己的Format(sprintf)函数]
- Redis 源码解析 string内部实现原理之链表
- String 的hashCode源码实现原理
- JDK源码之解读String最终类的trim()方法实现原理
- 【C++学习笔记】标准库容器Vector可变长度实现原理