协程切换原理与实践 — 从ucontext api到x86_64汇编

admin • 2023-05-18 20:31 • 研发管理

1.协程切换原理理解

2.ucontext实现协程切换

2.1 实现流程

2.2 根据ucontext流程看协程实现

2.3 回答开头提出的问题

3.x86_64汇编实现协程切换

3.1libco x86_64汇编代码分析

3.2.保存程序返回代码地址流程

3.3.恢复程序地址以及上下文

4.实现简单协程框架

1.协程切换原理理解

协程可以实现在一个线程中调度并切换不同任务，参考了网上一些经典的协程实现，记录一下任务切换的原理。下文将实现一个对称协程切换的demo，相同流程先使用ucontext api实现，了解流程后再使用x86_64汇编实现，x86_64汇编直接拷贝了开源项目libco的代码，封装成类似ucontext api的方法调用。文章最后实现一个可以选择使用ucontext和汇编切换协程的简单demo。

对称协程的切换流程如下

实现上述流程，直观上讲首先需要知道如何把程序计数器PC(IP)切到指定代码的位置，另外每个线程都有固定的堆栈来记录局部变量和程序返回地址，那么如何给协程执行的任务分配堆栈呢？总结一下，当前面临三个问题

1.如何修改程序计数器的位置，使程序能在不同位置跳转执行

2.如何给协程分配属于当前协程的堆栈

3.除了需要恢复对栈，切换协程后还需要恢复哪些东西（提前透露答案：还需要恢复其他通用寄存器可以思考一下这些寄存器的内容如何存放）

解决了这三个问题，基本就完成了协程切换。

下面先使用ucontext实现一下，再借用libco提供的x86_64的汇编代码，封装一个类似ucontext api的实现，由浅入深理解协程切换。

2.ucontext实现协程切换

ucontext是posix提供的一套api，可以用于保存当前堆栈，头文件是<ucontext.h>。其中api很简单，只有四个接口，分别如下。

获得当前 CPU 上下文

int  getcontext(ucontext_t *);

重置当前 CPU 上下文

int  setcontext(const ucontext_t *);

修改上下文信息，比如设置栈指针，需要执行的入口函数也是在这里作为函数指针传入。

void makecontext(ucontext_t *, (void *)(), int, ...);

执行makecontext设置的内容，也就实现协程切换

int  swapcontext(ucontext_t *, const ucontext_t *);

下面大致了解一下ucontext_t结构体，可以发现这里主要是是存放了栈空间和寄存器，也就是文章第一节中说的三个问题的后两个，这里看着都有关联。

typedef struct ucontext
  {
    unsigned long int uc_flags;
    struct ucontext *uc_link;       //需要切换的下一个context    
    stack_t uc_stack;         //当前栈信息  如果使用自己分配的内存作为当前栈内存 需要修改这里
    mcontext_t uc_mcontext;      // 保存寄存器信息
    __sigset_t uc_sigmask;
    struct _libc_fpstate __fpregs_mem;      
  } ucontext_t;


typedef struct
  {
    gregset_t gregs;
    /* Note that fpregs is a pointer.  */
    fpregset_t fpregs;
    __extension__ unsigned long long __reserved1 [8];
} mcontext_t;

2.1 实现流程

下面贴一下man中ucontext最基本的使用，网上引用这个代码的博客很多，咱这里也贴一下并简单分析，直观上理解ucontext的用法。这个demo虽然并非完整的协程框架，但是基本上讲明白了协程切换的流程，我理解协程框架是在这个基础上完善了堆栈管理的内容。补充一下，ucontext在Mac M1机器上比较新的操作系统版本下，使用Rosetta模式运行似乎也有问题，这里最好搞个X86_64的Linux机器运行。

#include <ucontext.h>
#include <stdio.h>
#include <stdlib.h>
 
static ucontext_t uctx_main, uctx_func1, uctx_func2;
 
#define handle_error(msg) 
    do { perror(msg); exit(EXIT_FAILURE); } while (0)
 
    static void
func1(void)
{
    printf("func1: startedn");
    printf("func1: swapcontext(&uctx_func1, &uctx_func2)n");
    if (swapcontext(&uctx_func1, &uctx_func2) == -1)
        handle_error("swapcontext");
    printf("func1: returningn");
}
 
    static void
func2(void)
{
    printf("func2: startedn");
    printf("func2: swapcontext(&uctx_func2, &uctx_func1)n");
    if (swapcontext(&uctx_func2, &uctx_func1) == -1)
        handle_error("swapcontext");
    printf("func2: returningn");
}
 
    int
main(int argc, char *argv[])
{
    char func1_stack[16384];
    char func2_stack[16384];
 
    if (getcontext(&uctx_func1) == -1)
        handle_error("getcontext");
    uctx_func1.uc_stack.ss_sp = func1_stack;
    uctx_func1.uc_stack.ss_size = sizeof(func1_stack);
    uctx_func1.uc_link = &uctx_main;
    makecontext(&uctx_func1, func1, 0);
 
    if (getcontext(&uctx_func2) == -1)
        handle_error("getcontext");
    uctx_func2.uc_stack.ss_sp = func2_stack;
    uctx_func2.uc_stack.ss_size = sizeof(func2_stack);
    /*  Successor context is f1(), unless argc > 1 */
    uctx_func2.uc_link = (argc > 1) ? NULL : &uctx_func1;
    makecontext(&uctx_func2, func2, 0);
 
    printf("main: swapcontext(&uctx_main, &uctx_func2)n");
    if (swapcontext(&uctx_main, &uctx_func2) == -1)
        handle_error("swapcontext");
 
    printf("main: exitingn");
    exit(EXIT_SUCCESS);
}

下面捡重要的流程简单分析一下。这里uctx_func1可以理解为一个协程的实例，先给这个实例安装我们自己分配的内存作为栈，并且安装一个回调函数func1作为协程入口。另外一个协程实例uctx_func1也是这样操作

    char func1_stack[16384];
    ...
    if (getcontext(&uctx_func1) == -1)
        handle_error("getcontext");
    uctx_func1.uc_stack.ss_sp = func1_stack;
    uctx_func1.uc_stack.ss_size = sizeof(func1_stack);
    //uctx_func1.uc_link = &uctx_func2;
    uctx_func1.uc_link = &uctx_main;
    makecontext(&uctx_func1, func1, 0);

下面代码，在main函数中，调用swapcontext完成协程切换，这里推测主要做了以下操作：

1.当前main函数执行的上下文环境，包括堆栈，堆栈栈顶指针，其他寄存器当前的状态，都被保存到了uctx_main。

2.当前程序寄存器的栈顶指针指向给uctx_func2分配的uc_stack.ss_sp，将func2函数指针作为返回地址入栈

3.swapcontext执行完毕后栈顶作为返回地址，返回func2，这样程序计数器会执行func2函数，由于sp栈顶指针寄存器在上一步已经指向了我们分配的内存，此时func2中函数调用和临时变量分配都会放到我们自己分配的内存

4.另外其他寄存器也会重新分配，如果uctx_func2不是第一次执行，那么swapcontext就会把其他通用寄存器恢复回uctx_func2之前离开时的样子。

    printf("main: swapcontext(&uctx_main, &uctx_func2)n");
    if (swapcontext(&uctx_main, &uctx_func2) == -1)
        handle_error("swapcontext");

上面对swapcontext的解释是看了libco中的汇编代码猜的，属于提前剧透内容，下文还有具体分析，但是内核中不一定完全是这样的实现。

到这一步，func2就会被执行，也就是说ucontext协程切换已经完成了一次。

2.2 根据ucontext流程看协程实现

下面画了一个简图，描述了2.1小节中的流程以及剧透部分。

左边蓝色部分是主流程的堆栈和寄存器。

右边绿色部分是切到协程后，协程的状态。

洋红色箭头代表由协程切回主流程需要做的事情。

现在就可以看着这张图，加上提前剧透的知识，回顾一下开头提出的问题了。

2.3 回答开头提出的问题

这里比较重要，单独列了一个小节。

1.程序计数器的位置，是调用swapcontext进入时栈顶的值，这个值代表了函数的返回地址，如果需要切到其他线程，那么swapcontext函数退出前，将当前栈顶的值(长度为当前系统的sizeof(void*)，64位系统这个值就是一个8byte的地址)修改为要跳转的程序地址。如果第一次设置那么这个地址就是makecontext时设置的回调函数的地址。

2.如何给自己的协程分配堆栈内存呢，先自己手动分配一块内存，然后将栈顶指针SP指向这块内存的末尾位置。简单点说就是通过汇编语言直接修改SP指针，指到我们分配的内存。

对于64位系统，栈内存和SP寄存器的关系如下

3.剩下其他寄存器，在swapcontext时，对于要切走的协程，需要存储的就存在协程context自己的内存中，然后把要切入协程的context中保存的寄存器从内存拿出，恢复到寄存器中。

3.x86_64汇编实现协程切换

截止到目前，协程切换的原理已经讲完，下面要做的是使用x86_64汇编，根据我们自己的理解，封装一个类似ucontext api的函数接口。这里汇编部分直接粘贴了libco的代码。

3.1libco x86_64汇编代码分析

这块网上已经有不少文章做过类似的分析，我们这里先贴出流程分析，主要代码都做了比较详细的注释，可以参考上文内容一起理解。最后使用Xcode进行了一次debug并做截图，验证我们的分析过程。完整代码工程在文章最后的下载链接中。

.globl simple_ctx_swap
#if !defined( __APPLE__ )
.type  simple_ctx_swap, @function
#endif
simple_ctx_swap:

 ... ...

#elif defined(__x86_64__)
    //leaq (%rsp),%rax        //当前栈顶指针指向内存中存储的是 调用simple_ctx_swap的地址
                              //栈顶指针(%rsp)地址 放到rax寄存器  rax存储了栈顶指针
                              //栈顶指针指向当前simple_ctx_swap 存储在reg[9] 下次这个协程resume会走调用simple_ctx_swap的下一句
                              //这样就可以完成协程的终端返回

    movq %rsp,%rax            // 等效 leaq (%rsp),%rax

    //存当前寄存器 到给定的ctx  rdi是参数1 当前co的buffer
    //rdi 指向当前ctx的寄存器buffer   要把当前寄存器的值存到这个buffer中
    movq %rax, 104(%rdi) //[14]  存栈顶   为什么不直接存rsp??????????

    //存储通用寄存器
    movq %rbx, 96(%rdi)  //[13]
    movq %rcx, 88(%rdi)  //[12]
    movq %rdx, 80(%rdi)  //[11]

    movq 0(%rax), %rax   //[10] rax的指向地址中的值 存入rax   rax存储了栈顶值 也就是当前coctx_swap的返回值
                                                                                                   // movq 0(%rsp), %rax 为什么不直接这样
    movq %rax, 72(%rdi)  //[9]  返回地址存入reg[9]

    movq %rsi, 64(%rdi)  //[8]
    movq %rdi, 56(%rdi)  //[7]
    movq %rbp, 48(%rdi)  //[6]
    movq %r8, 40(%rdi)   //[5]
    movq %r9, 32(%rdi)   //[4]
    movq %r12, 24(%rdi)  //[3]
    movq %r13, 16(%rdi)  //[2]
    movq %r14, 8(%rdi)   //[1]
    movq %r15, (%rdi)    //[0]
    xorq %rax, %rax     //通过抑或将rax置0

    //取  rsi表示新的要执行的co的buffer 首次就是coctx_make后的寄存器数组
    //rsi指向pending的ctx 要把这里的内容恢复到寄存器中

    //恢复通用寄存器
    movq 48(%rsi), %rbp     //[6]      x86_64 rbp用于通用寄存器 非栈底

    //恢复栈
    movq 104(%rsi), %rsp    //[14]     更新栈顶指针  ctx->regs[kRSP] = sp; coctx_make强制将栈顶改成我们为每个协程分配的空间

    //恢复通用寄存器
    movq (%rsi), %r15       //[0]
    movq 8(%rsi), %r14      //[1]
    movq 16(%rsi), %r13     //[2]
    movq 24(%rsi), %r12     //[3]
    movq 32(%rsi), %r9      //[4]
    movq 40(%rsi), %r8      //[5]
                            // r10 r11 不用管

    //恢复回调参数1 给rdi
    movq 56(%rsi), %rdi     //[7]  ctx->regs[kRDI] = (char*)s;

    //恢复通用寄存器
    movq 80(%rsi), %rdx     //[10]  rdx 参数3
    movq 88(%rsi), %rcx     //[11]  rcx 参数4
    movq 96(%rsi), %rbx     //[13]  rbx 通用寄存器

    //栈空间 |         <-      | rsp |-------------| 当前栈顶为函数返回地址
    //栈空间 |         <-            | rsp |-------| 将当前的栈顶推掉8字节
    leaq 8(%rsp), %rsp
    //将要执行的函数地址入栈  这样从coctx_swap返回后 出栈地址就是reg[9] ip寄存器跳到回调函数执行
    //栈空间 |         <-      | rsp |-------------|
    pushq 72(%rsi)          //reg[9]存了回调地址  ctx->regs[kRETAddr] = (char*)pfn;

    //恢复回调参数2 给rsi
    movq 64(%rsi), %rsi     //[8]  ctx->regs[kRSI] = (char*)s1;
    ret
#endif

3.2.保存程序返回代码地址流程

leaq (%rsp), %rax 执行前

leaq (%rsp), %rax 这句话在这里基本等效于 movq %rsp, %rax ，将当前栈顶寄存器rsp中的值赋值给rax寄存器。这里可以看到 rsp中的值作为指针，指向地址为 0x01000033ac，记住这个值。

leaq (%rsp), %rax执行后

存储栈顶指针及栈顶值

这里看到， movq %rax, 104(%rdi) 将rax存储到rdi指向地址偏移104 byte，相当于栈顶置针rsp的值被存储到缓存buffer的reg[14]。

movq 0(%rax), %rax 这句话把rax地址 0x120027fa8 中的值赋值给rax，也就是执行完这句话后，rax中的值变为 0x01000033ac。这里读一下寄存器，发现这个值指向一个地址，也就是我们说的程序返回地址。这个demo中所有的协程跳转都依赖于这个操作。读取一下rax，程序的代码地址就显示出来了，这里是 simple_co.c的130行。

看一下，这个地址就是我们执行完simple_ctx_swap的位置。

3.3.恢复程序地址以及上下文

下面放行这个程序，yield当前协程，直到下一次swapcontext调度到这个协程。

恢复栈

上文存储的栈指针在buffer偏移104的位置，这里将偏移104位置的值移动到栈顶指针，此时协程栈顶位置已经恢复。

这一步恢复返回地址

之前压入的返回地址存储的位置在 0x120027fa8，内容是0x01000033ac，也就是 simple_co.c的130行。这里把当前栈后退一格，把0x01000033ac push到栈顶，这样这个函数退出后，程序执行的位置就到了simple_co.c的130行。

下图是libco寄存器buffer的内存分布，有颜色的部分是本节上文提到需要操作的部分，其他寄存器和buffer内存直接存取即可恢复环境。

4.实现简单协程框架

上图是demo中实现协程框架的原理，寄存器和栈切换的过程上文已经有较多的描述。下面说说demo中栈内存的分配与拷贝情况。

4.1栈内存管理

前提条件，主流程使用的是线程提供的栈空间，不是我们分配的，我们不直接操作这个栈。

1.对每个协程而言，运行使用的栈内存是一个公共的主栈，每次协程切换完环境后都要在主栈运行。

2.每个协程有自己的栈缓存，用于协程切出时保存当前主栈的内容，协程切入是恢复当前主栈的内容。这就需要切换协程时拷贝栈内存。

3.如何确认当前栈的长度？定一个临时变量dummy，&dummy就是下一行代码前的栈顶，栈底我们自己分配的内存自己可以根据内存长度获取，&dummy - 栈底的内容就是当前栈空间。

具体可以参考这段代码，在当前协程yield前，调用，将当前栈存储在协程的私有空间中

/**
 * @brief 保存当前执行状态 用于当前协程yield
 *        使用ucontext 在这里分配每个协程的堆栈
 * @param co 
 * @param top 
 */
static void _save_stack(simple_coroutine *co, char* top){
    //top = co->sched->stack + co->sched->stack_size;
    //dummy 的地址为当前函数_save_stack 重要
    // 程序执行到 "char dummy = 0;"时 sched中存储当前执行的栈的情况
    // |sched->stack|....|                        |             top                | 
    //   低地址                |&dummy| <- 栈增长 - |sched->stack + sched->stack_size| 高地址
    //                        |              co->stack_size                        |
    // |<-----                       SIMPLE_MAX_STACKSIZE                     ---->|
    //
    
    //LOGI("_save_stack top=%p n", top);
	char dummy = 0;
    
    //检查栈顶确认没有越界 top主栈最高地址 当前主栈栈顶&dummy
	assert(top - &dummy <= SIMPLE_MAX_STACKSIZE);
    //确保当前co的stack有足够的空间存储 当前执行栈的内容 
    //栈在高地址 向低地址增长 &dummy就是当前栈的首地址
	if (co->stack_size < top - &dummy) {
        //初始值为0 首次运行的co在这里分配栈空间
		co->stack = realloc(co->stack, top - &dummy);
		assert(co->stack != NULL);
	}
    // 执行完 memcpy 后每个协程co的栈保存了当前运行栈sched->stack
    // 等待下次执行时恢复
    // |co->stack|
    // |&dummy| <- 栈增长 - |sched->stack + sched->stack_size|
	co->stack_size = top - &dummy;
	memcpy(co->stack, &dummy, co->stack_size);
    
    //LOGI("_save_stack top=%p &dummy=%p co->stack_size=%dn", top, &dummy, co->stack_size);
}

4.加载栈内存

在resume时加载栈内存。将协程co存储的栈，拷贝到主运行栈中。此时co中SP指针指向的应该就是真个栈的栈顶。栈内存和栈寄存器是分开恢复的。

// sched->stack_size 初始化的时候已经写死这个运行栈的长度
        // |sched->stack|   <-----   sched->stack_size   ---->                   |            
        // |sched->stack|  <- 增长方向             |  co->stack_size(准备执行栈内存) |
        // 当前执行栈 sched->stack 的内容变为co中栈的内容 这样下一步又开始执行co的上下文
        // |sched->stack|                         |  co->stack_size(准备执行栈内存) |

        //将运行的协程
        memcpy(co->sched->stack + co->sched->stack_size - co->stack_size, co->stack, co->stack_size);
        co->status = SIMPLE_CO_STATUS_RUNNING;
                
        //char top;
        //LOGI("before simple_ctx_swap top=%p n", &top);
        //当前参数保存到sched->ctx 执行co->ctx
#ifndef SIMPLE_SWAP
        swapcontext(&sched->ctx, &co->ctx);
#else
        simple_ctx_swap(co->sched->ctx.regs, co->ctx.regs);
#endif

4.2 封装切换api

makecurrent实现

这里只保存函数执行地址，参数和栈地址。在swap的时候将这些值给对应寄存器

void simple_ctx_makecontext(simple_ctx *ctx, simple_ctx_func func, void* arg){
    //低 |             <-        |sp|      | 高   栈顶指针指向协程堆栈的最高地址
    //                           |  8字节  |
    char *sp = ctx->ss_sp + ctx->ss_size - sizeof(void*);
    //对齐
    sp = (char*)((unsigned long)sp & -16LL);
    ctx->regs[kRSP] = sp;
    
    ctx->regs[kRETAddr] = func;
    ctx->regs[kRDI] = arg;
}

swapcurrenet

上文汇编代码 simple_ctx_swap

至此，简单协程切换框架就完成了。

demo下载地址

https://download.csdn.net/download/lidec/87780929

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

协程协程切换协程原理汇编网络编程

二维码

腾讯云智（武汉）Android面经，已拿Offer

< <上一篇

)">

刷完这个笔记，17K不能再少了….

下一篇>>

搜索内容

协程切换原理与实践 — 从ucontext api到x86_64汇编

1.协程切换原理理解

2.ucontext实现协程切换

2.1 实现流程

2.2 根据ucontext流程看协程实现

2.3 回答开头提出的问题

3.x86_64汇编实现协程切换

3.1libco x86_64汇编代码分析

3.2.保存程序返回代码地址流程

3.3.恢复程序地址以及上下文

4.实现简单协程框架

4.1栈内存管理

最新文章

分类

标签云