【并发操作】协程,线程,进程是什么,在Python中怎么应用?


前言

生活中的多任务时时刻刻存在,例如小张一边码字一边看屏幕,又例如小蔡可以一边跳舞一边打篮球,这就是生活中的多任务。那么计算机中的多任务是什么呢、怎么使用呢?就让我们一起探讨计算机中,多任务-线程、多任务-进程、多任务-协程的理解以及在Python中的应用。


多任务

多任务处理是指用户可以在同一时间内进行多种操作,每个操作被称作一个任务。在计算机中,同时打开迅雷以及QQ是多任务同时进行,在迅雷中看电影的时候,进行边下边播也是多任务,在同一时间同一单位进行的不同操作,都可以理解为多任务。

现在多核CPU已经非常普及了,但事实上,过去即便是单核CPU也可以执行多任务。由于CPU执行代码都是顺序执行的,那单核CPU是怎么执行多任务的呢?

答案就是操作系统轮流让各个任务交替执行,任务1执行0.01秒,切换到任务2,任务2执行0.01秒,再切换到任务3,……这样反复执行下去。表面上看,每个任务都是交替执行的,但是,由于CPU的执行速度实在是太快了,我们感觉就像所有任务都在同时执行。

真正实现并行执行多任务只能在多核CPU上实现,但往往任务数量远远多于CPU的核心数量,所以操作系统也会自动把很多任务轮流调度到每个核心上执行。在这里我们引入并发与并行以及队列的概念:

并发:

cpu通过在任务间快速切换达到多任务一起执行,但实际上并不是同时执行,举例:

A和B去跑步,跑道很挤只能容纳一个人,两人约定好每人跑一秒,大家都跑一秒就退出跑道。这时,在同一时间内,总有一个人在跑道内、一个人在跑道外(下图中两队人排同一个咖啡机即为并发)

并行:

每个任务都有不同cpu去执行,达到多任务一起执行,实际是真正的同时执行,举例还是A和B两人去跑步。这次跑道升级了,有两条跑道,A和B实现了并肩奔跑,你我互不影响(图中两队人排两台咖啡机即为并行)

队列:

就是一个有序的排列,在多任务中需要把待执行的任务排好队,有序执行。在A和B跑步的例子中,假设有20个A和20个B需要跑步,在排队等待跑步的时候,形成的排列就称为队列(图中两个队伍即为队列)

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

思考:迅雷播放电影的同时用QQ聊天,和在迅雷中看电影边下边播多任务有什么不同?

01 线程

  • 一个程序运行起来至少有一个进程,一个进程至少有一个线程;
  • 处理器cpu分配给线程,即cpu真正运行的是线程中的代码;
  • 分配cpu给线程时,是通过时间片轮训方式进行的;
  • 进程是操作系统分配程序执行资源的单位,而线程是进程的一个实体;
  • 是CPU调度和分配的单位。

在上述思考中,迅雷和QQ属于不同的进程,迅雷下载电影和播放电影属于不同的线程,即一开始分配了两份资源给迅雷和QQ,迅雷和QQ各为一个进程。

当你打开迅雷边下边播功能的时候,在迅雷这个进程中又新开了两个线程,不断地在下载和播放间进行切换,达到多任务的效果. 线程与进程是属于关系。

线程由进程创建,进程结束线程也结束了,但线程结束进程不一定结束,cpu最终分配给的是线程,而不是进程。

线程执行代码片段原理:线程获得cpu执行内存,执行当前代码,在执行另一个代码块之前打上时间戳,存储上下文然后去执行另一代码块。当再次回到该代码块时加载时间戳,上下文,验证执行的合理性,如此反复执行下去,在不同的需要执行的代码块间切换。

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

子线程何时开启,何时运行?

当调用thread.start()时 开启线程,再运行线程的代码。

子线程何时结束?

子线程把target指向的函数中的语句执行完毕后,或者线程中的run函数代码执行完毕后,立即结束当前子线程。

查看当前线程数量

通过threading.enumerate()可枚举当前运行的所有线程。

主线程何时结束?

所有子线程执行完毕后,主线程才结束。

02 进程

进程:

一个程序运行起来后,“代码+用到的资源”称之为进程,它是操作系统分配资源的基本单位。

进程状态:

工作中,任务数往往大于cpu的核数,即一定有一些任务正在执行,另外一些任务在等待cpu进行执行,因此导致了有了不同的状态。

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

就绪态:

运行的条件都已经满足,正在等在cpu执行。

执行态:

cpu正在执行其功能。

等待态:

等待某些条件满足,例如一个程序sleep了,此时就处于等待态,好比说:红绿灯、等待消息回复、等待同步锁都是处于等待态。

03 协程

协程是Python中另外一种实现多任务的方式,只不过比线程更小占用、执行单元,由于协程是本世纪出现的新概念,所以对于协程来说没有统一的概念,这里介绍我自己的理解,协程相当于更便捷更轻量的线程

协程与线程差异在于,实现多任务时, 线程切换从系统层面远不止保存和恢复 CPU上下文这么简单。操作系统为了程序运行的高效性,每个线程都有自己缓存Cache等数据,操作系统还会帮你做这些数据的恢复操作。所以线程的切换非常耗性能。但是协程的切换只是单纯操作CPU的上下文,所以一秒钟切换个上百万次系统都扛得住。

04 队列与他们的关系

三者在工作时都需要取得cpu,为了避免彼此之间争夺cpu,所以需要对他们进行排队处理,排好的队伍就叫队列,例如线程池、进程池。

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

05 三者间的关系

进程>线程>协程

线程由进程创建,属于进程,协程是进程更小程度的划分,更轻便灵活,如下图:

【并发操作】协程,线程,进程是什么,在Python中怎么应用?


在Python中实现多任务

01 Python实现多线程

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

  • 自定义类,继承threading.Thread;
  • 创建对象;
  • 调用对象的run()方法。

02 Python实现多进程

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

  • 实例化一个对象 target= 指定到对应的函数;
  • 调用对象的run()方法。

03 Python实现多协程

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

  • 函数中调用yield;
  • 调用yield后函数会在执行到调用send() 方法结果返回时才继续进行下一步;
  • 执行函数,函数会交替执行。

多任务的痛点及解决方法

01 痛点1

如果多个线程同时对一个全局变量操作,会出现资源竞争问题,从而数据结果会不正确。

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

运行上述代码后会发现两个线程对同一个数据操作完后得到的数据不一样,这就是遇到了线程安全问题。

解决方法:
同步就是协同步调,按预定的先后次序运行。如:你说完,我再说;你做完,我再做;你执行完,我再执行。

在多线程编程中,一些敏感数据不允许被多个线程同时访问,因为会出现线程安全问题。通过线程同步机制,能保证共享数据在任何时刻,最多有一个线程访问,以保证数据的正确性。线程同步提示的几点:

  1. 线程同步就是线程排队;
  2. 共享资源的读写才需要同步;
  3. 变量才需要同步,常量不需要同步;
  4. 给数据加锁,即我操作完你再操作,你操作完我再操作。

threading模块中定义了Lock类,可以方便的处理锁定:

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

【并发操作】协程,线程,进程是什么,在Python中怎么应用?

02 痛点2

GIL全局解释器锁:顾名思义,这是解释器内部的一把锁,确切一点说是CPython解释器内部的一把锁,所以要注意区分我们在Python代码中使用的Lock不是一个层面的概念。言外之意,就是全局解释器就是为了锁定整个解释器内部的全局资源,每个线程想要运行首先获取GIL,而GIL本身又是一把互斥锁,造成所有线程只能一个一个one-by-one-并发-交替的执行。

也就是说Python中多线程并不能很好的实现并发操作,但Python恰好又是实现多协程的一种方法,所以对于Python来说,实现多任务最好的方式即为多进程+多协程


扩展 celery原理

celery是基于Python实现的一个异步任务的调度工具,同时还是一个任务队列,主要用于处理耗时的任务。

大家在使用celery的时候,都需要去配置一个队列才能继续使用,因为对于celery来说,也是一个生产者消费者的模式,我们一般使用的队列是Redis或者RabbitMQ,因为存储格式为键值对形式,序号对应任务,利于cpu执行。celery即为消息中间件,任务执行单元,任务执行结果储存的形式进行异步操作,如图:

【并发操作】协程,线程,进程是什么,在Python中怎么应用?


总结

请看如下例子: 有一个老板想要开个工厂进行生产剪子,他需要花一些财力物力制作一条生产线,这个生产线上有很多的器件以及材料这些所有的,为了能够生产剪子而准备的资源称之为:进程

只有生产线是不能够进行生产的,所以老板的找个工人来进行生产,这个工人能够利用这些材料最终一步步的将剪子做出来,这个来做事情的工人称之为:线程

这个老板为了提高生产率,想到3种办法:

  • 在这条生产线上多招些工人,一起来做剪子,这样效率是成倍増长,即单进程 多线程方式

  • 老板发现这条生产线上的工人不是越多越好,因为一条生产线的资源以及材料毕竟有限,所以老板又花了些财力物力购置了另外一条生产线,然后再招些工人这样效率又再一步提高了,即多进程 多线程方式

  • 老板发现,现在已经有了很多条生产线,并且每条生产线上已经有很多工人了(即程序是多进程的,每个进程中又有多个线程),为了再次提高效率,老板想了个损招,规定:如果某个员工在上班时临时没事或者再等待某些条件(比如等待另一个工人生产完某道工序 之后他才能再次工作) ,那么这个员工就利用这个时间去做其它的事情,那么也就是说:如果一个线程等待某些条件,可以充分利用这个时间去做其它事情,其实这就是:协程方式

简单来说:

  1. 进程是操作系统资源分配的单位;
  2. 线程是CPU调度的单位;
  3. 进程切换需要的资源最大,效率很低;
  4. 线程切换需要的资源一般,效率一般(当然在不考虑GIL的情况下);
  5. 协程切换任务资源很小,效率高;
  6. 多进程、多线程根据cpu核数不一样可能是并行的,但是协程是在一个线程中所以是并发。

蓝鲸智云

本文由腾讯蓝鲸智云编辑发布,腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化运维平台。目前已经推出社区版、企业版,欢迎体验。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/281674.html

(0)
上一篇 2022年8月22日
下一篇 2022年8月22日

相关推荐

发表回复

登录后才能评论