本文使用的paddingRedis5.0源码概述-本文源码-唐朝资源网

Redis 5.0 本文用到的源码

概览

我最近正在通过 Redis 学习 C 语言。不得不说Redis的代码真的是很整洁。本文将对Redis数据结构字符串的源码实现进行全面深入的讲解，希望大家能从中有所收获。

Redis的字符串源码主要放在sds.c和sds.h这两个文件中。具体实现已被剥离到一个单独的库中：.

Redis的动态字符串结构如下图所示：

SDS大致由header和data segment两部分组成，其中header还包含len、alloc和flags 3个字段。 len代表数据长度，alloc代表分配的内存长度，flags代表sds的数据类型。

在以前的版本中，sds header实际上占用了固定的8字节大小，所以如果所有小字符串都存储在redis中，sds header会占用大量内存空间。

但是随着sds版本的变化，在内存使用方面做了一些优化：

在 sds 2.0 之前，header 的大小是固定的 int 类型。在 2.0 版本之后，会根据传入的字符大小调整 header 的 len 和 alloc 类型，以节省内存使用。 header的结构用__attribute__修饰，主要是为了防止编译器自动对齐内存，这样可以减少编译器由于内存对齐导致的填充次数占用的内存。

当前版本定义了五种sds headers，其中sdshdr5没用，所以不画了：

源码分析sds的创建

sds的创建主要包括以下功能：

sds sdsnewlen(const void *init, size_t initlen);
sds sdsnew(const char *init);
sds sdsempty(void);
sds sdsdup(const sds s);

所以通过上面的创建，我们可以知道最终会调用sdsnewlen来创建一个字符串，那么我们来看看这个函数是怎么实现的。

sdsnewlen

其实对于一个字符串对象的创建，其实是做了三件事：申请内存，构造一个结构体，把字符串拷贝到字符串内存区。下面我们来看看Redis的具体实现。

请求内存

sds sdsnewlen(const void *init, size_t initlen) {
    void *sh; //指向SDS结构体的指针
    sds s; //sds类型变量，即char*字符数组
    char type = sdsReqType(initlen); //根据数据大小获取sds header 类型
    if (type == SDS_TYPE_5 && initlen == 0) type = SDS_TYPE_8;
    int hdrlen = sdsHdrSize(type); // 根据类型获取sds header大小
    unsigned char *fp; /* flags pointer. */
    assert(hdrlen+initlen+1 > initlen); /* Catch size_t overflow */
    sh = s_malloc(hdrlen+initlen+1); //新建SDS结构，并分配内存空间，这里加1是因为需要在最后加上
    ...
    return s;
}

在内存分配之前，需要做以下事情：

因为sds会根据传入的size来设计header类型，所以需要调用sdsReqType函数根据initlen获取header类型；然后调用sdsHdrSize根据header类型获取header占用的字节数；最后根据header长度和字符调用s_malloc字符串长度分配内存，这里需要加1，因为c中的字符串以结尾，为了兼容c的字符串格式。

既然说到了header类型，我们来看看header类型的定义：

struct __attribute__ ((__packed__)) sdshdr8 { // 占用 3 byte
    uint8_t len; /* used */
    uint8_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 { // 占用 5 byte
    uint16_t len; /* used */
    uint16_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 { // 占用 9 byte
    uint32_t len; /* used */
    uint32_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 { // 占用 17 byte
    uint64_t len; /* used */
    uint64_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};

这里__attribute__用来防止内存对齐，否则会浪费一些存储空间。关于内存对齐相关的知识，我也在《Going for WaitGroup引起的内存对齐思考》一文中解释过。知识点比较笼统，有兴趣可以回溯过去。

看完上面的定义，我们自然可以认为Redis会根据传入的大小来判断生成的sds header类型：

static inline char sdsReqType(size_t string_size) {
    if (string_size < 1<<5) // 小于 32
        return SDS_TYPE_5;
    if (string_size < 1<<8) // 小于 256
        return SDS_TYPE_8;
    if (string_size < 1<<16) // 小于 65,536
        return SDS_TYPE_16;
#if (LONG_MAX == LLONG_MAX)
    if (string_size < 1ll<<32) 
        return SDS_TYPE_32;
    return SDS_TYPE_64;
#else
    return SDS_TYPE_32;
#endif
}

可以看到sdsReqType是根据传入字符串的长度来判断字符类型的。

构造结构

对于Redis来说，如果你没用过C语言，你会觉得这里构造结构的方式比较hacky。首先直接根据需要的内存大小申请一块内存，然后初始化头结构的指针指向的位置，最后给头结构的指针设置值。

#define SDS_HDR_VAR(T,s) struct sdshdr##T *sh = (void*)((s)-(sizeof(struct sdshdr##T)));
sds sdsnewlen(const void *init, size_t initlen) {
	...
    sh = s_malloc(hdrlen+initlen+1); // 1.申请内存，这里长度加1是为了在最后面存放一个 
    if (sh == NULL) return NULL;
    if (init==SDS_NOINIT)
        init = NULL;
    else if (!init)
        memset(sh, 0, hdrlen+initlen+1);// 2.将内存的值都设置为0
    s = (char*)sh+hdrlen; 				//3.将s指针指向数据起始位置
    fp = ((unsigned char*)s)-1; 		//4.将fp指针指向sds header的flags字段
    switch(type) {
        case SDS_TYPE_5: {
            *fp = type | (initlen <len = initlen; // 初始化 header len字段
            sh->alloc = initlen; // 初始化 header alloc字段
            *fp = type; // 初始化 header flag字段
            break;
        }
        ...
    }
    ...
    return s;
}

上面的流程我已经标注清楚了。直接看代码可能很难理解构造头结构的过程。我会用下图来展示指针所指向的位置：

字符串复制

sds sdsnewlen(const void *init, size_t initlen) {
    ...
    if (initlen && init)  
        memcpy(s, init, initlen); //将要传入的字符串拷贝给sds变量s
    s[initlen] = ''; //变量s末尾增加，表示字符串结束
    return s;
}

memcpy函数会将字符串逐字节复制到s对应的内存区域。

sdscatlen 字符串追加

sds sdscatlen(sds s, const void *t, size_t len) {
    size_t curlen = sdslen(s); // 获取字符串 len 大小
    //根据要追加的长度len和目标字符串s的现有长度，判断是否要增加新的空间
    //返回的还是字符串起始内存地址
    s = sdsMakeRoomFor(s,len);
    if (s == NULL) return NULL;
    // 将新追加的字符串拷贝到末尾
    memcpy(s+curlen, t, len);
    // 重新设置字符串长度
    sdssetlen(s, curlen+len);
    s[curlen+len] = '';
    return s;
}

在这种字符串追加的方法中，空间检查和扩展其实都封装在了sdsMakeRoomFor函数中，只需要：

是否还有剩余空间，如果有，直接返回；如果没有剩余空间，那么需要扩展，多少？字符串是否可以在原位置追加空格，或者需要重新申请内存区域。

那我将sdsMakeRoomFor函数分为扩展和内存申请两部分。

扩展

sds sdsMakeRoomFor(sds s, size_t addlen) {
    void *sh, *newsh;
    size_t avail = sdsavail(s); //这里是用 alloc-len,表示可用资源
    size_t len, newlen;
    char type, oldtype = s[-1] & SDS_TYPE_MASK;
    int hdrlen;
    if (avail >= addlen) return s; // 如果有空间剩余，那么直接返回
    len = sdslen(s); // 获取字符串 len 长度
    sh = (char*)s-sdsHdrSize(oldtype); //获取到header的指针
    newlen = (len+addlen); // 新的内存空间
    if (newlen < SDS_MAX_PREALLOC) //如果小于 1m， 那么存储空间直接翻倍
        newlen *= 2;
    else
        newlen += SDS_MAX_PREALLOC; //超过了1m，那么只会多增加1m空间
    ...
    return s;
}

对于扩容，首先检查空间是否足够，即根据alloc-len，如果有剩余空间则直接返回。

然后Redis会根据sds的大小进行扩展。如果len+addlen空间小于1m，则直接增加一倍新空间；如果len+addlen空间大于1m，新空间只会增加1m。

内存请求

sds sdsMakeRoomFor(sds s, size_t addlen) {
    ...
    type = sdsReqType(newlen); // 根据新的空间占用计算 sds 类型 
    hdrlen = sdsHdrSize(type); // header 长度
    if (oldtype==type) { // 和原来header一样，那么可以复用原来的空间
        newsh = s_realloc(sh, hdrlen+newlen+1); // 申请一块内存，并追加大小
        if (newsh == NULL) return NULL;
        s = (char*)newsh+hdrlen;
    } else { 
        //如果header 类型变了，表示内存头变了，那么需要重新申请内存
        //因为如果使用s_realloc只会向后追加内存
        newsh = s_malloc(hdrlen+newlen+1);
        if (newsh == NULL) return NULL;
        memcpy((char*)newsh+hdrlen, s, len+1);
        s_free(sh); // 释放掉原内存
        s = (char*)newsh+hdrlen;
        s[-1] = type;
        sdssetlen(s, len);
    }
    sdssetalloc(s, newlen);//重新设置alloc字段
    return s;
}

在内存申请中，Redis分为两种情况，一种是sds头类型没有改变，那么可以直接调用realloc在原内存后面增加一块新的内存区域；

另一个是sds头类型发生了变化。一般情况下，header占用的空间变大了。因为realloc不能向前添加内存区，所以只能调用malloc重新申请一块内存区，然后用memcpy把改变字符的字符串复制到新地址。

总结

通过这篇文章，我们深入了解了 Redis 字符串是如何实现的，以及通过版本变化做了哪些改变。您可以将 sds 与您熟悉的语言的字符串进行比较。看看在实现上有什么不同，哪个更好。

参考

本站下载的源码均来自公开网络收集转发二次开发而来，若侵犯了您的合法权益，请来信通知我们1413333033@qq.com，我们会及时删除，给您带来的不便，我们深表歉意。下载用户仅供学习交流，若使用商业用途，请购买正版授权，否则产生的一切后果将由下载用户自行承担，访问及下载者下载默认同意本站声明的免责申明，请合理使用切勿商用。

THE END