邓韬 发表于 2022-6-29 15:21:14

GTS NX在不同硬件下的运算速度测试

GTS NX在不同硬件下的运算速度测试
(作者邓韬 严禁转载)
如果需要看结论,可直接拉到文末部分。

有些用户在运行有限元运算的时候,需要数小时甚至数天的时间才可以得出结果,非常影响工作和科研速度。网上虽有很多硬件测评,但是针对有限元分析软件的测试并不多,大多数有限元公司给出的配置建议都比较模糊(包括北京迈达斯),不同的配置参数对运算速度的影响说明并不详细。

因此我专门设计了这次测试,用来判断CPU、GPU的各项参数是如何影响midas GTS NX的运算速度的。midas FEA NX、midas NFX求解器的运算内核和midas GTS NX基本一致,因此本文在这两款软件中同样具有有参考性。本文除了会测试不同硬件参数的运算表现外,也会在文末做一些配置推荐,用来帮大家节省装机成本,用最少的钱跑最快的速度。

为了节省篇幅,测试截图没有放在文中,如有需要可以在附件中下载查看,解压缩密码为www.midasuniversity.cn

本次测试主要有如下几类
1. GPU加速效果
2. CPU核心数量对运算速度的影响
3. CPU频率对运算速度的影响
4. CPU超线程对运算速度的影响
5. 12代Intel兼容性测试

本次测试的主要分析类型有
1. 特征值分析
2. 线性时程分析(直接积分法)
3. 渗流(稳态)分析
4. 三维基坑施工阶段分析(施工阶段分析)
5. 基坑开挖对临近建筑的影响性分析(施工阶段分析)

本次所使用的软件为GTS NX 2022R1 完整版(正版)

一.GPU加速效果


关于GPU方面的选择,NVIDIA官方对迈达斯软件加速主要有两处说明

第一是2020年的一份文件对GTS NX和NFX的加速有一些说明https://www.nvidia.com/content/d ... cations-catalog.pdf





按NVIDIA的说法,在GTS NX中只有Linear equation solver(Multi Frontal Solver)才会使用GPU加速,就是说,在分析选项中,只有使用“多波前”方程求解才可以调用GPU加速,而“稠密”和“AMG”则不行。

而在NFX中,对于结构分析,规则同GTS NX一致,对于CFD分析,linear equation solver (Iterative Solver and AMG Preconditioner)可以使用GPU加速,就是说,在分析选项中,只有使用“迭代” 方程求解,才可以调用GPU加速。
FEA NX的规则基本同GTS NX一致。

同时我们也发现,GPU加速不支持多显卡,且仅支持线性计算。

第二是一份专门介绍midas GPU加速的PPThttps://images.nvidia.com/content/gtc-kr/part_4_midasit.pdf
其中主要讲了GPU加速在midas 软件中的计算原理,以及加速效果展示。对加速原理感兴趣的可以去链接里自行了解,这里不多介绍。主要有用的信息是,要开启GPU加速,模型的求解矩阵维度需要大于2048,模型太小是不行的(主要针对开普勒架构显卡,现在显卡的架构主要是安培、伏特和帕斯卡,我猜想应该差不多)。

除此之外,Midas官方曾有一份文件提到过,GPU加速运算主要吃双精度性能(fp64),并且不支持非cuda GPU,因此优先考虑特化双精度性能的NVIDIA tesla系列GPU

综上,要GPU加速发挥作用,需要选择“多波前”方程求解(结构分析)或“迭代”方程求解 (CFD分析)。模型需要足够大(求解矩阵大于2048),求解方程为线性方程,选择双精度性能更高的显卡,内存需要大于显存。

按照上述要求,我们会测试GPU对计算速度究竟有多大影响。


测试A
特征值分析GPU加速测试

硬件配置1:
CPU:Intel Xeon Platinum 8255C 24核心48线程 2.5Ghz
GPU:NVIDIA Tesla V100 32G
内存:40G DDR4 2666 双通道
硬盘:50G SSD

硬件配置2:
CPU:Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
GPU:NVIDIA Tesla T4 16G
内存:80G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:204905
单元数:206350
求解类型:特征值

测试方法:
分别测试2、5、10核心时开启和关闭GPU加速时的效果



在开启GPU加速后运算时间会减少27%-37%,核心数量越少,加速效果越明显。


测试B
线性时程分析GPU加速测试

硬件配置1:
CPU:Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
GPU:NVIDIA Tesla V100 32G
内存:40G DDR4 2666 双通道
硬盘:50G SSD

硬件配置2:
CPU:Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
GPU:NVIDIA Tesla T4 16G
内存:80G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:204905
单元数:206350
求解类型:线性时程分析(直接积分法)

测试方法:
分别测试2、5、10核心时开启和关闭GPU加速时的效果



在开启GPU加速后运算时间会减少10%-38%,核心数量越少,加速效果越明显。


二. CPU核心数量对运算速度的影响
CPU并没有什么官方说明,不过软件对AMD ZEN系列CPU支持不太好,运算效率远低于同性能Intel的CPU,同时软件求解器对多路CPU支持的不好,第一颗以外的CPU基本不会调用,因此本次主要测试Intel的CPU单路运行状况。


测试C
特征值CPU多核心测试

硬件配置:
CPU:Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
内存:160G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:204905
单元数:206350
求解类型:特征值

测试方法:
分别测试2、5、10、15、20、30、40线程时的加速效果



2-15线程时线程数量越多,运算速度越快,但是增量越慢,超过15线程时,运算速度开始下降。


测试D
线性时程分析CPU多核心测试

硬件配置:
CPU:Intel Xeon Platinum 24核心48线程 2.5Ghz
内存:160G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:204905
单元数:206350
求解类型:线性时程分析(直接积分法)

测试方法:
分别测试2、5、10、15、20、30、40线程时的加速效果



2-20线程时线程数量越多,运算速度越快,但是增量越慢,超过20线程时,运算速度开始下降,可能是超线程的原因。


测试E
渗流分析(稳态)CPU多核心测试

硬件配置:
CPU:Intel Xeon Platinum 24核心48线程 2.5Ghz
内存:160G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:340811
单元数:1975098
求解类型:渗流分析(稳态)

测试方法
分别测试2、5、10、15、20、30、40线程时的加速效果



2-10线程时线程数量越多,运算速度越快,但是增量越慢,但是超过10线程后速度基本没有变化


测试F
基坑施工阶段分析CPU多核心测试

硬件配置:
CPU:Intel Xeon Platinum 24核心48线程 2.5Ghz
内存:160G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:17310
单元数:25883
求解类型:三维基坑施工阶段分析

测试方法
分别测试2、5、10、15、20、30、40线程时的加速效果



2-20线程时线程数量越多,运算速度越快,但是增量越慢,超过20线程时,运算速度开始下降,可能是超线程的原因。


测试G
基坑开挖影响性分析CPU多核心测试

硬件配置:
CPU:Intel Xeon Platinum 24核心48线程 2.5Ghz
内存:160G DDR4 2666 双通道
硬盘:50G SSD

模型:
节点数:65831
单元数:106339
求解类型:基坑开挖影响性分析

测试方法
分别测试2、5、10、15、20、30、40线程时的加速效果



2-20线程时线程数量越多,运算速度越快,但是增量越慢,超过20线程时,运算速度开始下降,可能是超线程的原因。



三. CPU频率对运算速度的影响
所有CPU在满载时,均运行在标注的最高频率。


测试H
CPU频率测试

硬件配置A:
CPU:Intel Xeon Platinum 8255C 24核心48线程 2.5Ghz
内存:160G DDR4 2666 双通道
硬盘:50G SSD

硬件配置B:
CPU:Intel core i9 10900k 10核心20线程4.88Ghz
内存:32G DDR4 2400双通道
硬盘:1T SSD

模型1:
节点数:17310
单元数:25883
求解类型:三维基坑施工阶段分析



模型2:
节点数:65831
单元数:106339
求解类型:基坑开挖影响性分析

模型3:
节点数:204905
单元数:206350
求解类型:线性时程分析(直接积分法)

模型4:
节点数:204905
单元数:206350
求解类型:特征值

模型5:
节点数:340811
单元数:1975098
求解类型:渗流分析(稳态)

测试方法:
分别测试CPU 4.88Gh在10线程和2.5Ghz 在10线程、20线程的运算速度。(Xeon Platinum 8255C和core i9 10900k制程相近,可忽略代差的影响)



频率越高速度越快,不过和运算时间并不是线性相关的,大概是频率越高增量越慢,但是比起增加核心,增加频率对减少运算时间的效果更明显。


四. CPU超线程对运算速度的影响
所有CPU在满载时,均运行在标注的最高频率。


测试I
CPU超线程测试

硬件配置:
CPU:Intel core i9 10900k 10核心20线程4.88Ghz
内存:32G DDR4 2400双通道
硬盘:1T SSD

模型1:
节点数:17310
单元数:25883
求解类型:三维基坑施工阶段分析

模型2:
节点数:65831
单元数:106339
求解类型:基坑开挖影响性分析

模型3:
节点数:204905
单元数:206350
求解类型:线性时程分析(直接积分法)

模型4:
节点数:204905
单元数:206350
求解类型:特征值

模型5:
节点数:340811
单元数:1975098
求解类型:渗流分析(稳态)

测试方法:
分别测试CPU在10线程、15线程、20线程时的运算速度。



超线程在大多数情况下会延长计算时间,少数情况会缩短计算时间,但是影响都不大。


五. 12代Intel兼容性测试


测试J
12代Intel兼容性测试

硬件配置:
CPU:Intel core i7 12700H 6大核8小核20线程 2.3-4.7Ghz
显卡:RTX 3050ti 4G
内存:16GDDR5 4800 双通道
硬盘:512G SSD

模型1:
节点数:65831
单元数:106339
求解类型:基坑开挖影响性分析

模型2:
节点数:204905
单元数:206350
求解类型:特征值

测试方法:
分别测试core i7 12700H在6、14、20线程时的运算表现,同时测试在特征值分析中开启和关闭GPU加速的运算速度。与之对比的是core i9 10900k和Xeon Platinum 8255C能达到的最快运算速度。





Core i7 12700H的运算速度要比Core i9 10900k和Xeon Platinum 8255C都快,而且超线程技术也可以明显提升计算速度,使用的线程数越多速度越快,这和之前的测试有所不同,可能是新架构和大小核设计的影响。
在特征值分析中,RTX 3050ti作为游戏显卡,依然可以将运算时间缩短23%左右。
因笔记本供电、散热等问题,本次测试并不一定准确,Intel core i7 12700H的实际性能可能更强。


结论:
GPU
在特征值分析和线性时程分析中,开启GPU加速会加快运算速度,但是效果在40%以内(TeslaV100的运算性能远超一般显卡,基本代表了最强性能)。

测试中TeslaV100、TeslaT4和RTX 3050ti的加速效果相差很小,和之前求解器使用双精度运算的说法有点矛盾。怀疑软件看的是GPU的单精度运算性能。


GPU型号单精度浮点性能双精度浮点性能
TeslaV10014130 GFLOPS7066 GFLOPS
TeslaT48141 GFLOPS254 GFLOPS
RTX 3050ti5299 GFLOPS82.80 GFLOPS

在边坡稳定SRM、渗流(稳态)、施工阶段分析、过小模型中,GPU占用全程为0%,并且开启GPU加速与不开启GPU加速时间差距小于1%,故认为上述几类运算无法调用GPU加速。

绝大多数模型都无法调用GPU加速,而且加速效果一般,故不需要在GPU上投入太多预算,并且不用为了双精度性能追求tesla显卡。

AMD和Intel的GPU无法开启GPU加速。


CPU
软件对AMD支持的不好,同样性能的情况下运行效果不如Intel的CPU

12代Intel处理器运行速度远强于之前的处理器,并且对GTS NX、FEA NX、NFX的兼容性很好。

关闭超线程功能可以增加大部分模型的运算速度(或是在软件中设置线程处理=核心数量)。

核心数量越多越好,10核心以内时增加核心的加速效果明显,超过10核心后增加核心数收益较低,少数模型在超过15核心时增加核心数对运算速度有负影响(可以在软件设置中减少线程数防止这种影响)。

运行频率越高越好,带来的收益要高于增加核心。

部分分析只能使用少量核心,例如边坡稳定SRM分析,无论设置了多少线程,最多只能使用到2线程。

软件支持AVX2指令集,不支持AVX512指令集。


装机推荐:
组装台式机:

1. 极致性价比的垃圾佬配置(除硬盘电源外均在淘宝购买)
CPU:E5 2666V3                               约170元
主板:X99                                        约400元
内存:2*DDR4 ECC 8G 2400               约100*2=200元
显卡:GT 740 1G                              约190元
硬盘:512G 固态硬盘                        约280元
电源:300-400W(航嘉、振华、长城、金河田等品牌)      约150元

总价(不含机箱):约1390元

优点:价格及其便宜,CPU核心数量多,频率尚可,运算速度远超一般电脑。

缺点:无法开启GPU加速。E5 系列CPU、ECC内存基本都是国外服务器上淘汰下来的洋垃圾,X99主板大多是华强北生产、显卡是二手显卡,整体稳定性较差,遇到梅雨季节,或是初入冬夏等温度明显变化的时期,电脑可能会出一些问题,需要一定的电脑知识储备来排查问题自行修理。



2. 质量、性能、价格兼顾的推荐配置(均在京东自营采购)
CPU:Core i5 12400                        约1500元
主板:H610                                    约550元
内存:2*DDR4 2666 8G                     约150*2=300元
硬盘:1T 固态硬盘                            约600元
电源:300-400W(航嘉、振华、长城、金河田等品牌)      约200元

总价(不含机箱):约3130元

优点:12代英特尔处理器性能高,比同价位11代处理器快不少,运算速度远超一般电脑(甚至超过了10代i9)。京东自营质量有保证。

缺点:无法开启GPU加速。


3. 重视速度的高性能配置(均在京东自营采购)
CPU:Core i7 12700                         约2600元
主板:B660(DDR4版)                     约900元
内存:2*DDR4 3200 8G                   约150*2=350元
显卡:RTX3060 12G                         约2800元(也可以不采购独立显卡,影响较小)
硬盘:1T 固态硬盘                           约600元
电源:450-550W(航嘉、振华、长城、金河田等品牌)      约300元

总价(不含机箱):约7550元
总价(不含显卡机箱):约4750元

优点:12代英特尔处理器性能高,比同价位11代处理器快不少,运算速度远超一般电脑。京东自营质量有保证。

缺点:无

4. 只要速度的顶级配置(均在京东自营采购)
CPU:Core i9 12900K                        约4400元
主板:Z690(DDR5版)                         约2000元
内存:2*DDR5 4800 16G                   约700*2=1400元
显卡:RTX3090 24G                           约11000元
硬盘:1T 固态硬盘                            约800元
电源:700-1000W(航嘉、振华、长城、金河田等品牌)       约700元

总价(不含机箱):约20300元

优点:速度极快,几乎是现有设备中能达到GTS NX最快运算速度的配置。

缺点:贵。

上述超链接是一些推荐,也可以选择同型号其他品牌的京东自营商品,基本上没有什么区别。

笔记本/品牌台式机/服务器:

因为这些类型自由度不大,因此不做详细推荐,主要思路是,优先选择12代intel处理器,不需要使用太好的显卡,尽量不选择至强Xeon CPU、尽量不选择tesla和quadro系列显卡,尽量不选择AMD的显卡和CPU。


结语
因为测试数量有限,内容可能会有错误,后续我也会逐渐完善测试,如有可靠证据,欢迎各位指正。

随着GTS NX的升级,上述结论可能也会有相应的变动。

鸣谢
感谢王志阳老师、孟凡鹏老师提供的GTS模型,王平平老师解答了求解器的一些问题,杨洋领导提供的12代CPU笔记本。








qq764401085 发表于 2022-7-18 11:20:32

不错的分析

pc逆流而上 发表于 2022-11-3 08:45:49


不错的分析

pc逆流而上 发表于 2022-11-11 11:52:06

不错的分析

pc逆流而上 发表于 2022-11-18 08:46:41

不错的分析

ssv977 发表于 2024-5-11 09:44:16

琢磨装机很久了,这个是真不错
页: [1]
查看完整版本: GTS NX在不同硬件下的运算速度测试