1. 1650显卡够用吗
GTX1650显卡性能在上一代的GTX1050ti和1060之间,整体能效比又有一定的进步,移动版1650相比桌面版只是频率有所下降,总体性能几乎相当,可以说是非常适合笔记本电脑的显卡,不仅有一定的游戏性能,而且用来绘图和剪辑视频也完全没问题。
GeForce GTX 1650显卡拥有1024个Shaders单元、32个光栅单元以及85个纹理单元,搭配有4GB容量、128Bit位宽的GDDR5显存。GPU默认频率为1395MHz,Boost频率为1560MHz,Fire Strike的成绩大约为6800分左右,Time Spy的成绩大约为2500分左右,这样的性能完全能满足大部分游戏性能需求。
对于绘图和剪辑这类专业应用而言,GTX1650因为使用了最新的图灵架构和cuda计算单元,所以可以在许多支持cuda加速的软件中获得更强的性能表现,像常用的PS和PR最新版都可以支持cuda显卡加速,从而加快我们的工作效率,当然,除了显卡以外,最好也配备一颗4-6核的主流CPU和不低于16G的内存,这样才能充分保证绘图和视频剪辑时的性能。
2. cuda 计算力查看
原文链接: https://www.cnblogs.com/wmr95/articles/8846749.html
序号名称值解释
1Detected 1 CUDA Capable device(s)1检测到1个可用的NVIDIA显卡设备
2Device 0: "GeForce 930M"GeForce 930M当前显卡型号为" GeForce 930M "
3CUDA Driver Version / Runtime Version7.5/7.5CUDA驱动版本
4 CUDA Capability Major/Minor version number 5.0CUDA设备支持的计算架构版本,即计算能力,该值越大越好
5 Total amount of global memory 4096MbytesGlobal memory全局存储器的大小。使用CUDA RUNTIME API调用函数cudaMalloc后,会消耗GPU设备上的存储空间,合理分配和释放空间避免程序出现crash
6 (3) Multiprocessors, (128) CUDA Cores/MP 384 CUDA Cores3个流多处理器(即SM),每个多处理器中包含128个流处理器,共384个CUDA核
7GPU Max Clock rate941 MHzGPU最大频率
8Memory Clock rate900 MHz显存的频率
9Memory Bus Width64-bit
10L2 Cache Size1048576 bytes
11Maximum Texture Dimension Size (x, y, z)1D=(65535)
2D=(65535, 65535)
3D=(4096,4096,4096)
12Maximum Layered 1D Texture Size, (num) layers1D=(16384),2048 layers
13Maximum Layered 2D Texture Size, (num) layers2D=(16384,16384), 2048 layers
14 Total amount of constant memory 65535 bytes常量存储器的大小
15 Total amount of shared memory per block 49152 bytes共享存储器的大小,共享存储器速度比全局存储器快;多处理器上的所有线程块可以同时共享这些存储器
16Total number of registers available per block65535
17 Warp Size 32Warp,线程束,是SM运行的最基本单位,一个线程束含有32个线程
18 Maximum number of threads per multiprocessor 2048一个SM中最多有2048个线程,即一个SM中可以有2048/32=64个线程束Warp
19 Maximum number of threads per block 1024一个线程块最多可用的线程数目
20 Max dimension size of a thread block (x, y, z) (1024,1024,64)ThreadIdx.x<=1024,
ThreadIdx.y<=1024,
ThreadIdx.z<=64
Block内三维中各维度的最大值
21 Max dimension size of a grid size (x, y, z)(2147483647,65535,65535)Grid内三维中各维度的最大值
22Maximum memory Pitch2147483647 bytes显存访问时对齐时的pitch的最大值
23Texture alignment512 bytes纹理单元访问时对其参数的最大值
24Concurrent and kernel executionYes with 1 engine(s)
25Run time limit on kernelsYes
26Integrated GPU sharing Host MemoryNo
27Support host page-locked memory mappingYes
28Alignment requirement for SurfacesYes
29Device has ECC supportDisabled
30其他
3. gtx1650支持深度学习吗
支持。
GTX 1650基于图灵架构的小核心12nm TU117,桌面896个流处理器,笔记本1024个流处理器,搭配128-bit 4GB GDDR5显存,功耗在桌面上60-80W,笔记本上35-50W。
除了继续精简流处理器和显存,并且不支持光线追踪、DLSS深度学习抗锯齿(至少目前没有说会开放),GTX 1650其实还偷偷地在多媒体编码上缩了水。
卷积运算受计算速度的约束比较大。因此,要衡量GPU运行ResNets等卷积架构的性能,最佳指标就是FLOPs。张量核心可以明显增加FLOPs。Transformer中用到的大型矩阵乘法介于卷积运算和RNN的小型矩阵乘法之间,16位存储、张量核心和TFLOPs都对大型矩阵乘法有好处,但它仍需要较大的显存带宽。
需要特别注意,如果想借助张量核心的优势,一定要用16位的数据和权重,避免使用RTX显卡进行32位运算!GPU和TPU的标准性能数据,值越高代表性能越好。RTX系列假定用了16位计算,Word RNN数值是指长度<100的段序列的biLSTM性能。