GTS NX在不同硬件下的运算速度测试

邓韬发表于 2022-6-29 15:21:14

GTS NX在不同硬件下的运算速度测试
(作者邓韬严禁转载)
如果需要看结论，可直接拉到文末部分。

有些用户在运行有限元运算的时候，需要数小时甚至数天的时间才可以得出结果，非常影响工作和科研速度。网上虽有很多硬件测评，但是针对有限元分析软件的测试并不多，大多数有限元公司给出的配置建议都比较模糊(包括北京迈达斯)，不同的配置参数对运算速度的影响说明并不详细。

因此我专门设计了这次测试，用来判断CPU、GPU的各项参数是如何影响midas GTS NX的运算速度的。midas FEA NX、midas NFX求解器的运算内核和midas GTS NX基本一致，因此本文在这两款软件中同样具有有参考性。本文除了会测试不同硬件参数的运算表现外，也会在文末做一些配置推荐，用来帮大家节省装机成本，用最少的钱跑最快的速度。

为了节省篇幅，测试截图没有放在文中，如有需要可以在附件中下载查看，解压缩密码为www.midasuniversity.cn

本次测试主要有如下几类
1. GPU加速效果
2. CPU核心数量对运算速度的影响
3. CPU频率对运算速度的影响
4. CPU超线程对运算速度的影响
5. 12代Intel兼容性测试

本次测试的主要分析类型有
1. 特征值分析
2. 线性时程分析(直接积分法)
3. 渗流(稳态)分析
4. 三维基坑施工阶段分析(施工阶段分析)
5. 基坑开挖对临近建筑的影响性分析(施工阶段分析)

本次所使用的软件为GTS NX 2022R1 完整版（正版）

一.GPU加速效果

关于GPU方面的选择，NVIDIA官方对迈达斯软件加速主要有两处说明

第一是2020年的一份文件对GTS NX和NFX的加速有一些说明https://www.nvidia.com/content/d ... cations-catalog.pdf

按NVIDIA的说法，在GTS NX中只有Linear equation solver(Multi Frontal Solver)才会使用GPU加速，就是说，在分析选项中，只有使用“多波前”方程求解才可以调用GPU加速，而“稠密”和“AMG”则不行。

而在NFX中，对于结构分析，规则同GTS NX一致，对于CFD分析，linear equation solver (Iterative Solver and AMG Preconditioner)可以使用GPU加速，就是说，在分析选项中，只有使用“迭代” 方程求解，才可以调用GPU加速。
FEA NX的规则基本同GTS NX一致。

同时我们也发现，GPU加速不支持多显卡，且仅支持线性计算。

第二是一份专门介绍midas GPU加速的PPThttps://images.nvidia.com/content/gtc-kr/part_4_midasit.pdf
其中主要讲了GPU加速在midas 软件中的计算原理，以及加速效果展示。对加速原理感兴趣的可以去链接里自行了解，这里不多介绍。主要有用的信息是，要开启GPU加速，模型的求解矩阵维度需要大于2048，模型太小是不行的(主要针对开普勒架构显卡，现在显卡的架构主要是安培、伏特和帕斯卡，我猜想应该差不多)。

除此之外，Midas官方曾有一份文件提到过，GPU加速运算主要吃双精度性能(fp64)，并且不支持非cuda GPU，因此优先考虑特化双精度性能的NVIDIA tesla系列GPU

综上，要GPU加速发挥作用，需要选择“多波前”方程求解(结构分析)或“迭代”方程求解 (CFD分析)。模型需要足够大(求解矩阵大于2048)，求解方程为线性方程，选择双精度性能更高的显卡，内存需要大于显存。

按照上述要求，我们会测试GPU对计算速度究竟有多大影响。

测试A
特征值分析GPU加速测试

硬件配置1：
CPU：Intel Xeon Platinum 8255C 24核心48线程 2.5Ghz
GPU：NVIDIA Tesla V100 32G
内存：40G DDR4 2666 双通道
硬盘：50G SSD

硬件配置2：
CPU：Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
GPU：NVIDIA Tesla T4 16G
内存：80G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：204905
单元数：206350
求解类型：特征值

测试方法：
分别测试2、5、10核心时开启和关闭GPU加速时的效果

在开启GPU加速后运算时间会减少27%-37%，核心数量越少，加速效果越明显。

测试B
线性时程分析GPU加速测试

硬件配置1：
CPU：Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
GPU：NVIDIA Tesla V100 32G
内存：40G DDR4 2666 双通道
硬盘：50G SSD

硬件配置2：
CPU：Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
GPU：NVIDIA Tesla T4 16G
内存：80G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：204905
单元数：206350
求解类型：线性时程分析(直接积分法)

测试方法：
分别测试2、5、10核心时开启和关闭GPU加速时的效果

在开启GPU加速后运算时间会减少10%-38%，核心数量越少，加速效果越明显。

二. CPU核心数量对运算速度的影响
CPU并没有什么官方说明，不过软件对AMD ZEN系列CPU支持不太好，运算效率远低于同性能Intel的CPU，同时软件求解器对多路CPU支持的不好，第一颗以外的CPU基本不会调用，因此本次主要测试Intel的CPU单路运行状况。

测试C
特征值CPU多核心测试

硬件配置：
CPU：Intel Xeon Platinum 8255C24核心48线程 2.5Ghz
内存：160G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：204905
单元数：206350
求解类型：特征值

测试方法：
分别测试2、5、10、15、20、30、40线程时的加速效果

2-15线程时线程数量越多，运算速度越快，但是增量越慢，超过15线程时，运算速度开始下降。

测试D
线性时程分析CPU多核心测试

硬件配置：
CPU：Intel Xeon Platinum 24核心48线程 2.5Ghz
内存：160G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：204905
单元数：206350
求解类型：线性时程分析(直接积分法)

测试方法：
分别测试2、5、10、15、20、30、40线程时的加速效果

2-20线程时线程数量越多，运算速度越快，但是增量越慢，超过20线程时，运算速度开始下降，可能是超线程的原因。

测试E
渗流分析(稳态)CPU多核心测试

硬件配置：
CPU：Intel Xeon Platinum 24核心48线程 2.5Ghz
内存：160G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：340811
单元数：1975098
求解类型：渗流分析(稳态)

测试方法
分别测试2、5、10、15、20、30、40线程时的加速效果

2-10线程时线程数量越多，运算速度越快，但是增量越慢，但是超过10线程后速度基本没有变化

测试F
基坑施工阶段分析CPU多核心测试

硬件配置：
CPU：Intel Xeon Platinum 24核心48线程 2.5Ghz
内存：160G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：17310
单元数：25883
求解类型：三维基坑施工阶段分析

测试方法
分别测试2、5、10、15、20、30、40线程时的加速效果

2-20线程时线程数量越多，运算速度越快，但是增量越慢，超过20线程时，运算速度开始下降，可能是超线程的原因。

测试G
基坑开挖影响性分析CPU多核心测试

硬件配置：
CPU：Intel Xeon Platinum 24核心48线程 2.5Ghz
内存：160G DDR4 2666 双通道
硬盘：50G SSD

模型：
节点数：65831
单元数：106339
求解类型：基坑开挖影响性分析

测试方法
分别测试2、5、10、15、20、30、40线程时的加速效果

2-20线程时线程数量越多，运算速度越快，但是增量越慢，超过20线程时，运算速度开始下降，可能是超线程的原因。

三. CPU频率对运算速度的影响
所有CPU在满载时，均运行在标注的最高频率。

测试H
CPU频率测试

硬件配置A：
CPU：Intel Xeon Platinum 8255C 24核心48线程 2.5Ghz
内存：160G DDR4 2666 双通道
硬盘：50G SSD

硬件配置B：
CPU：Intel core i9 10900k 10核心20线程4.88Ghz
内存：32G DDR4 2400双通道
硬盘：1T SSD

模型1：
节点数：17310
单元数：25883
求解类型：三维基坑施工阶段分析

模型2：
节点数：65831
单元数：106339
求解类型：基坑开挖影响性分析

模型3：
节点数：204905
单元数：206350
求解类型：线性时程分析(直接积分法)

模型4：
节点数：204905
单元数：206350
求解类型：特征值

模型5：
节点数：340811
单元数：1975098
求解类型：渗流分析(稳态)

测试方法：
分别测试CPU 4.88Gh在10线程和2.5Ghz 在10线程、20线程的运算速度。(Xeon Platinum 8255C和core i9 10900k制程相近，可忽略代差的影响)

频率越高速度越快，不过和运算时间并不是线性相关的，大概是频率越高增量越慢，但是比起增加核心，增加频率对减少运算时间的效果更明显。

四. CPU超线程对运算速度的影响
所有CPU在满载时，均运行在标注的最高频率。

测试I
CPU超线程测试

硬件配置：
CPU：Intel core i9 10900k 10核心20线程4.88Ghz
内存：32G DDR4 2400双通道
硬盘：1T SSD

模型1：
节点数：17310
单元数：25883
求解类型：三维基坑施工阶段分析

模型2：
节点数：65831
单元数：106339
求解类型：基坑开挖影响性分析

模型3：
节点数：204905
单元数：206350
求解类型：线性时程分析(直接积分法)

模型4：
节点数：204905
单元数：206350
求解类型：特征值

模型5：
节点数：340811
单元数：1975098
求解类型：渗流分析(稳态)

测试方法：
分别测试CPU在10线程、15线程、20线程时的运算速度。

超线程在大多数情况下会延长计算时间，少数情况会缩短计算时间，但是影响都不大。

五. 12代Intel兼容性测试

测试J
12代Intel兼容性测试

硬件配置：
CPU：Intel core i7 12700H 6大核8小核20线程 2.3-4.7Ghz
显卡：RTX 3050ti 4G
内存：16GDDR5 4800 双通道
硬盘：512G SSD

模型1：
节点数：65831
单元数：106339
求解类型：基坑开挖影响性分析

模型2：
节点数：204905
单元数：206350
求解类型：特征值

测试方法：
分别测试core i7 12700H在6、14、20线程时的运算表现，同时测试在特征值分析中开启和关闭GPU加速的运算速度。与之对比的是core i9 10900k和Xeon Platinum 8255C能达到的最快运算速度。

Core i7 12700H的运算速度要比Core i9 10900k和Xeon Platinum 8255C都快，而且超线程技术也可以明显提升计算速度，使用的线程数越多速度越快，这和之前的测试有所不同，可能是新架构和大小核设计的影响。
在特征值分析中，RTX 3050ti作为游戏显卡，依然可以将运算时间缩短23%左右。
因笔记本供电、散热等问题，本次测试并不一定准确，Intel core i7 12700H的实际性能可能更强。

结论：
GPU
在特征值分析和线性时程分析中，开启GPU加速会加快运算速度，但是效果在40%以内(TeslaV100的运算性能远超一般显卡，基本代表了最强性能)。

测试中TeslaV100、TeslaT4和RTX 3050ti的加速效果相差很小,和之前求解器使用双精度运算的说法有点矛盾。怀疑软件看的是GPU的单精度运算性能。

GPU型号单精度浮点性能双精度浮点性能
TeslaV10014130 GFLOPS7066 GFLOPS
TeslaT48141 GFLOPS254 GFLOPS
RTX 3050ti5299 GFLOPS82.80 GFLOPS

在边坡稳定SRM、渗流(稳态)、施工阶段分析、过小模型中，GPU占用全程为0%，并且开启GPU加速与不开启GPU加速时间差距小于1%，故认为上述几类运算无法调用GPU加速。

绝大多数模型都无法调用GPU加速，而且加速效果一般，故不需要在GPU上投入太多预算，并且不用为了双精度性能追求tesla显卡。

AMD和Intel的GPU无法开启GPU加速。

CPU
软件对AMD支持的不好，同样性能的情况下运行效果不如Intel的CPU

12代Intel处理器运行速度远强于之前的处理器，并且对GTS NX、FEA NX、NFX的兼容性很好。

关闭超线程功能可以增加大部分模型的运算速度(或是在软件中设置线程处理=核心数量)。

核心数量越多越好，10核心以内时增加核心的加速效果明显，超过10核心后增加核心数收益较低，少数模型在超过15核心时增加核心数对运算速度有负影响(可以在软件设置中减少线程数防止这种影响)。

运行频率越高越好，带来的收益要高于增加核心。

部分分析只能使用少量核心，例如边坡稳定SRM分析，无论设置了多少线程，最多只能使用到2线程。

软件支持AVX2指令集，不支持AVX512指令集。

装机推荐：
组装台式机：

1. 极致性价比的垃圾佬配置(除硬盘电源外均在淘宝购买)
CPU：E5 2666V3                            约170元
主板：X99                                     约400元
内存：2*DDR4 ECC 8G 2400             约100*2=200元
显卡：GT 740 1G                            约190元
硬盘：512G 固态硬盘                      约280元
电源：300-400W(航嘉、振华、长城、金河田等品牌)    约150元

总价(不含机箱)：约1390元

优点：价格及其便宜，CPU核心数量多，频率尚可，运算速度远超一般电脑。

缺点：无法开启GPU加速。E5 系列CPU、ECC内存基本都是国外服务器上淘汰下来的洋垃圾，X99主板大多是华强北生产、显卡是二手显卡，整体稳定性较差，遇到梅雨季节，或是初入冬夏等温度明显变化的时期，电脑可能会出一些问题，需要一定的电脑知识储备来排查问题自行修理。

2. 质量、性能、价格兼顾的推荐配置(均在京东自营采购)
CPU：Core i5 12400                      约1500元
主板：H610                                  约550元
内存：2*DDR4 2666 8G                   约150*2=300元
硬盘：1T 固态硬盘                         约600元
电源：300-400W(航嘉、振华、长城、金河田等品牌)    约200元

总价(不含机箱)：约3130元

优点：12代英特尔处理器性能高，比同价位11代处理器快不少，运算速度远超一般电脑(甚至超过了10代i9)。京东自营质量有保证。

缺点：无法开启GPU加速。

3. 重视速度的高性能配置(均在京东自营采购)
CPU：Core i7 12700                      约2600元
主板：B660(DDR4版)                   约900元
内存：2*DDR4 3200 8G                约150*2=350元
显卡：RTX3060 12G                      约2800元(也可以不采购独立显卡，影响较小)
硬盘：1T 固态硬盘                         约600元
电源：450-550W(航嘉、振华、长城、金河田等品牌)    约300元

总价(不含机箱)：约7550元
总价(不含显卡机箱)：约4750元

优点：12代英特尔处理器性能高，比同价位11代处理器快不少，运算速度远超一般电脑。京东自营质量有保证。

缺点：无

4. 只要速度的顶级配置(均在京东自营采购)
CPU：Core i9 12900K                      约4400元
主板：Z690(DDR5版)                      约2000元
内存：2*DDR5 4800 16G                约700*2=1400元
显卡：RTX3090 24G                         约11000元
硬盘：1T 固态硬盘                         约800元
电源：700-1000W(航嘉、振华、长城、金河田等品牌)    约700元

总价(不含机箱)：约20300元

优点：速度极快，几乎是现有设备中能达到GTS NX最快运算速度的配置。

缺点：贵。

上述超链接是一些推荐，也可以选择同型号其他品牌的京东自营商品，基本上没有什么区别。

笔记本/品牌台式机/服务器：

因为这些类型自由度不大，因此不做详细推荐，主要思路是，优先选择12代intel处理器，不需要使用太好的显卡，尽量不选择至强Xeon CPU、尽量不选择tesla和quadro系列显卡，尽量不选择AMD的显卡和CPU。

结语
因为测试数量有限，内容可能会有错误，后续我也会逐渐完善测试，如有可靠证据，欢迎各位指正。

随着GTS NX的升级，上述结论可能也会有相应的变动。

鸣谢
感谢王志阳老师、孟凡鹏老师提供的GTS模型，王平平老师解答了求解器的一些问题，杨洋领导提供的12代CPU笔记本。

qq764401085 发表于 2022-7-18 11:20:32

不错的分析

pc逆流而上 发表于 2022-11-3 08:45:49

不错的分析

pc逆流而上 发表于 2022-11-11 11:52:06

不错的分析

pc逆流而上 发表于 2022-11-18 08:46:41

不错的分析

ssv977 发表于 2024-5-11 09:44:16

琢磨装机很久了，这个是真不错

页: [1]

midas学堂论坛's Archiver

GTS NX在不同硬件下的运算速度测试