go入门教程- 14.14 并行化大量数据的计算

  1. 14.14 并行化大量数据的计算
    1. 链接

14.14 并行化大量数据的计算

假设我们需要处理一些数量巨大且互不相关的数据项,它们从一个in通道被传递进来,当我们处理完以后又要将它们放入另一个out通道,就像一个工厂流水线一样。处理每个数据项也可能包含许多步骤:Preprocess(预处理) / StepA(步骤A) / StepB(步骤B) / … / PostProcess(后处理)

一个典型的用于解决按顺序执行每个步骤的顺序流水线算法可以写成下面这样:

1
2
3
4
5
6
7
8
func SerialProcessData(in <-chan *Data, out chan<- *Data) {
for data := range in {
tmpA := PreprocessData(data)
tmpB := ProcessStepA(tmpA)
tmpC := ProcessStepB(tmpB)
out <- PostProcessData(tmpC)
}
}

一次只执行一个步骤,并且按顺序处理每个项目:在第1个项目没有被PostProcess并放入out通道之前绝不会处理第2个项目。

如果你仔细想想,你很快就会发现这将会造成巨大的时间浪费。

一个更高效的计算方式是让每一个处理步骤作为一个协程独立工作。每一个步骤从上一步的输出通道中获得输入数据。这种方式仅有极少数时间会被浪费,而大部分时间所有的步骤都在一直执行中:

1
2
3
4
5
6
7
8
9
10
11
12
13
func ParallelProcessData (in <-chan *Data, out chan<- *Data) {
// make channels:
preOut := make(chan *Data, 100)
stepAOut := make(chan *Data, 100)
stepBOut := make(chan *Data, 100)
stepCOut := make(chan *Data, 100)
// start parallel computations:
go PreprocessData(in, preOut)
go ProcessStepA(preOut,StepAOut)
go ProcessStepB(StepAOut,StepBOut)
go ProcessStepC(StepBOut,StepCOut)
go PostProcessData(StepCOut,out)
}

通道的缓冲区大小可以用来进一步优化整个过程。

链接


免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com

推荐阅读:

文章标题:go入门教程- 14.14 并行化大量数据的计算

本文作者:知识铺

发布时间:2019-10-15, 22:30:20

最后更新:2019-10-16, 21:00:34

原始链接:https://blog.zshipu.com/2019/10/15/golang/20191015/14.14/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏