微信服务器协程原理解析及优化

发表于2016-06-15

一、缘起

　　前段时间把几个接入服务，做了协程的优化。微信开发框架里很好的集成了协程（基于部门开源的libco），所以涉及的开发量很少，但涉及到的思考却很多，要追溯到几年前曾经困扰我的问题。

　　曾经开发这种类型的服务：接入层负责做一点点处理、然后转发给后端的服务做实际的运算；相比接入层，后端处理速度非常慢，有数千倍的差距，在后端计算时，接入层是等在那里的（也就是同步、阻塞）。

　　为了应付不断增长的请求量，后端不断扩容。假设后端有10台机器，每个机器开启24个线程；为了把后端压满，前端就需要至少240个线程来匹配，如果是3个C1的机器，那每个机需要80个线程。如果后端扩容一倍，那前端线程也需要扩容一倍。每个机器160个线程感觉太多了，这些线程大部分时间是等待io的，直观上感觉系统的context switch开销会很大，CPU没有完全用于实际的业务处理。

二、有没有办法优化这个问题呢？

　　Todo：linux的线程实现实际上效率很高，一个机器多少线程才算多？多少context switch算高，才需要优化？需要实际测试，或者实际业务具体分析。

　　我们知道，网络服务框架大多采用半异步半同步的架构，比如上面的svkkit的框架模型图。利用epoll来处理client发起的连接、读写请求，这是框架的“异步”那部分（高效）。而框架同步的那部分，就发生在worker实际处理请求、以及RPC调用时，也是发生等待的地方（cpu等io），比较低效。

　　直观的想法是，如果我们把RPC也利用epoll+ callback的方式来处理，这样不就高效了吗？

　　然后我就着手开始进行开发、封装接口，很快就发现了问题所在。这种模式需要注册各种callback，成功的、失败的、超时的等等，把这种复杂性暴露出来很难管理和理解；此外更重要的是还需要一种灵活的保持上下文的机制，如何在调用callback时获得上次请求的上下文、临时变量等等？如何处理各种错误逻辑？即便咬牙实现了，也不够易用，远离了框架的初衷。

　　Nginx却恰恰是在异步这条路上走到了极致，提到Nginx常见的描述都是异步、高性能、复杂、不好理解等等。基于Nginx模块开发也不失为一个方案。Python的Twisted也是类似的思路，笔者也用过一阵子，感觉比较难用。

　　后来看到python的gevent（基于greenlet）以及由此接触到协程（coroutine）这个概念，貌似是解决这个问题的银弹。当一个greenlet遇到IO操作时，比如访问网络，就自动切换到其他的greenlet，等到IO操作完成，再在适当的时候切换回来继续执行。由于IO操作非常耗时，经常使程序处于等待状态，有了gevent为我们自动切换协程，就保证总有greenlet在运行，而不是等待IO。可以认为greenlet增强了python的协程机制，什么是协程呢？

三、什么是coroutine

　　coroutine不是一个新概念，早在70年代就已经出现了，后来由于某种原因一直没引起大家的重视，近几年却开始被广泛使用（跟深度学习的尿性很像）。

　　本质上讲Coroutine是一种特殊类型的subroutine，它可以在执行过程中多次暂停（yield）、然后过一段时间又可以重新从暂停的地方开始执行（resume），在重新执行时subroutine的上下文（局部变量）是保持的。

　　function object也可以有类似的保存上下文的能力，coroutine不同的地方在于每次是从上次暂停的地方开始继续执行，而function object每次是从头开始执行。

　　此外coroutine和进程、线程也比较像，都可以理解为一种“指令的执行序列”。协程和这俩之间有啥关系和区别呢？

　　首先，协程对于OS来说透明的，OS只知道进程、线程（统称task），但不知道协程。这意味着对应同一线程的多个协程之间只是伪并发，不能像多线程那样利用多核，因为OS只能调度线程。

　　如果OS不知道协程，那协程是如何被调度、执行的呢？答案是程序员自己控制协程什么时候暂停，什么时候切换、以及切换到哪个协程。

　　我们知道OS对整个计算机负责，控制着各种权限，开放出一些syscall给process、thread调用访问系统资源，决定下一步执行那个task，保证整个计算机的高效、安全的运行；如果开放出调度的权限给我们，那整个计算机不就乱套了吗？事实上也不会有这种问题，同样是因为OS并不知道coroutine，多个coroutine只会瓜分同一个task的资源（OS分配的cpu时间片之类），至于如何瓜分，就随便程序员你了，OS并不care。

四、coroutine有啥用

　　Coroutine主要几个用途，最开始应用在数据处理、xml解析等情景，利用coroutnie能够代码逻辑比较清晰，但是这种需求并不广泛。；coroutine也可以应用在网络服务、并发编程里；但可能由于机器性能、OS优化，进程、线程的改进，直接利用线程来做类似的事情也不会差到哪里去，所以协程就被大家遗忘了。但现在海量服务越来越多，利用coroutine优化网络服务性能这个需求又冒了出来，所以还是时势造英雄啊。

　　微信的libco专注于利用协程解决RPC情景遇到的问题，通过hooksocket系统调用的方式（类似于python gevent），程序员可以采用同步的写法，写出异步执行的代码。

　　启用协程后，协程在会阻塞的地方（比如socket read），自动挂起，然后选择执行其他ready的协程执行；未来某个时间协程等待的数据到达时，协程转化为就绪状态，可以重新开始执行。而协程的挂起、继续执行对程序员是透明的。但这一切的基础是协程的context switch相比线程要是非常高效的，否则利用线程完全可以做同样的事情。

五、coroutine的调度

　　那我该如何控制coroutine的调度呢？有两个问题要回答：选择哪个coroutine执行，如何让他执行。

　　我们都学过OS的进程、线程调度，OS的调度目标是保证公平、响应时间、优先级等条件下最大化机器的利用率。

　　而协程这里要考虑的问题要简单些，一个task内的多个协程谁能跑谁就跑，至于跑多长时间则无所谓，如果有个协程一直能跑那也可以一直不切换。但如果当前正在执行的协程跑不动了（网络IO），那它要主动退出（靠自觉），靠另外一个Manager协程选择另一个能跑的协程继续跑。

　　Manager如何知道哪个协程能跑呢？这个就要自己实现了，一般协程挂起时，都是由于需要等待一个条件的满足，比如socket的可读事件，如果socket有数据可读就会触发相应的协程由等待状态转化为就绪状态。

　　由此可见协程是一种cooperative类型的调度策略，而OS的调度一般都是preemptive的，不然有些恶意程序一直while(true)死循环，这个机器就跪了。

　　如何让某个协程开始执行呢？简单说来就是利用getcontext、makecontext、swapcontext来做用户态的contextswitch。

　　就像在本文开始提到的，我们之所以使用coroutine技术就是期望协程具有比线程更好的context switch性能，因此swapcontext的性能对于协程就至关重要。

　　Boost::Context、 libco都有自己的实现（汇编代码，跟硬件架构有关）。Boost::Context测试比系统调用的swapcontext性能有几十倍的提升，这样整个coroutine的技术方案终于make sense了。

六、并发带来的复杂性

　　微信的开发框架基本都利用libco支持了协程，总体工作量很小。但由于引入了协程，在开发的过程中需要额外注意一些问题。

　　我们都知道线程的引入带来了很多好处，多线程向进程内部引入了额外的并发，线程之间共享地址空间、共享打开的文件。这些并发、共享带来了高效率，但恰恰由于这些并发、共享，多线程开发就需要额外注意共享资源之间的同步问题，需要引入线程锁、原子操作等复杂性来保证多线程程序的正常操作。

　　类似地，协程进一步向线程内部引入了并发，这时线程局部变量对协程来说也是共享的，同样需要注意并发安全的问题。

　　我觉得最好要保证函数是reentrant的，因为有可能一个协程在函数内部挂起，然后另一个协程重新进入这个函数。这就意味着要特别注意对全局变量、静态变量的使用。还要特别注意锁的使用。libco提供了协程局部变量，使这个问题容易解决一些。

　　其实为了处理协程之间访问共享变量的竞争的问题，只要不发生协程切换就好了，对于libco就是不发生网络IO。

七、协程的其他实现

　　python、Boost提供了更通用的协程实现。当然还有很多其他语言。

　　python的协程可以看看这个pdf：

　　"A Curious Course on Coroutines and Concurrency "

　　http://www.dabeaz.com/coroutines/Coroutines.pdf

　　libco的代码是公司内开源的，阅读下也挺好的

如社区发表内容存在侵权行为，您可以点击这里查看侵权投诉指引

标签：

游戏开发 Boost CPU XML 接口

首页

出海助力

开发者社区

大奖赛

同行

合作案例

关于我们

微信服务器协程原理解析及优化