pytorch如何部署半精度模型
小编给大家分享一下pytorch如何部署半精度模型,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
背景pytorch作为深度学习的计算框架正得到越来越多的应用.
我们除了在模型训练阶段应用外,最近也把pytorch应用在了部署上.
在部署时,为了减少计算量,可以考虑使用16位浮点模型,而训练时涉及到梯度计算,需要使用32位浮点,这种精度的不一致经过测试,模型性能下降有限,可以接受.
但是推断时计算量可以降低一半,同等计算资源下,并发度可提升近一倍
具体方法在pytorch中,一般模型定义都继承torch.nn.Moudle,torch.nn.Module基类的half()方法会把所有参数转为16位浮点,所以在模型加载后,调用一下该方法即可达到模型切换的目的.接下来只需要在推断时把input的tensor切换为16位浮点即可
另外还有一个小的trick,在推理过程中模型输出的tensor自然会成为16位浮点,如果需要新创建tensor,最好调用已有tensor的new_zeros,new_full等方法而不是torch.zeros和torch.full,前者可以自动继承已有tensor的类型,这样就不需要到处增加代码判断是使用16位还是32位了,只需要针对input tensor切换.
补充:pytorch 使用amp.autocast半精度加速训练
准备工作pytorch 1.6+
如何使用autocast?根据官方提供的方法,
答案就是autocast + GradScaler。
如何在PyTorch中使用自动混合精度?答案:autocast + GradScaler。
1.autocast正如前文所说,需要使用torch.cuda.amp模块中的autocast 类。使用也是非常简单的
fromtorch.cuda.ampimportautocastasautocast#创建model,默认是torch.FloatTensormodel=Net().cuda()optimizer=optim.SGD(model.parameters(),...)forinput,targetindata:optimizer.zero_grad()#前向过程(model+loss)开启autocastwithautocast():output=model(input)loss=loss_fn(output,target)#反向传播在autocast上下文之外loss.backward()optimizer.step()2.GradScaler
GradScaler就是梯度scaler模块,需要在训练最开始之前实例化一个GradScaler对象。
因此PyTorch中经典的AMP使用方式如下:
fromtorch.cuda.ampimportautocastasautocast#创建model,默认是torch.FloatTensormodel=Net().cuda()optimizer=optim.SGD(model.parameters(),...)#在训练最开始之前实例化一个GradScaler对象scaler=GradScaler()forepochinepochs:forinput,targetindata:optimizer.zero_grad()#前向过程(model+loss)开启autocastwithautocast():output=model(input)loss=loss_fn(output,target)scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()3.nn.DataParallel
单卡训练的话上面的代码已经够了,亲测在2080ti上能减少至少1/3的显存,至于速度。。。
要是想多卡跑的话仅仅这样还不够,会发现在forward里面的每个结果都还是float32的,怎么办?
classModel(nn.Module):def__init__(self):super(Model,self).__init__()defforward(self,input_data_c1):withautocast():#codereturn
只要把forward里面的代码用autocast代码块方式运行就好啦!
自动进行autocast的操作如下操作中tensor会被自动转化为半精度浮点型的torch.HalfTensor:
1、matmul
2、addbmm
3、addmm
4、addmv
5、addr
6、baddbmm
7、bmm
8、chain_matmul
9、conv1d
10、conv2d
11、conv3d
12、conv_transpose1d
13、conv_transpose2d
14、conv_transpose3d
15、linear
16、matmul
17、mm
18、mv
19、prelu
那么只有这些操作才能半精度吗?不是。其他操作比如rnn也可以进行半精度运行,但是需要自己手动,暂时没有提供自动的转换。
以上是“pytorch如何部署半精度模型”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。