首页 > 代码库 > GPU与MIC对比

GPU与MIC对比

属性

NVIDIA GPU

Intel MIC

单核

流处理器/CUDA core

每个核运行一个线程

X86 core

每个核上最多支持4个硬件线程

主频

接近1GHz

1.0-1.1GHz

核数

数十个到数千个

57-61

并行度

Grid、block、thread多级并行

细粒度并行(线程数>>核数)

线程之间开销为0

线程+向量化

线程数<=(核数-1)*4

向量化宽度512bit(单精度:16,双精度:8)

内存大小(GB)

最大12GB

6/8/16GB

内存带宽

288 GB/s

240-352GB/s

数据访问要求

Warp内的线程访问的数据连续最佳

线程内访问的数据连续;如果向量化的话,向量化的数据访问连续最佳

峰值性能

单精度:最大4.29TFlops

双精度:最大1.43TFlops

计算方法:指令吞吐率*运算单元数量*频率

单精度:2.0-2.2 TFlops

双精度:1.0-1.1 TFlops

Sample DP calculation:  16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s

编程语言

CUDA、OpenCL、OpenACC

OpenMP、OpenCL、Cilk、OpenACC

编程模式

Offload

Offload、Native、Symmetric

功耗

235W

225-300W

PCI-E带宽

支持2.0(双向各8GB/s)

支持3.0(双向各16GB/s)

支持2.0(双向各8GB/s)

目前不支持3.0

运行平台

PC、服务器、工作站

个人可以在PC上配置一块GeForce卡运行CUDA,成本低、性能高

服务器

比较专业,成本较高,个人很少配置

产品

GeForce:几百到几千元,用在PC上(当前主流GTX710-780)

Tesla:1W-3W元,用在服务器上(当前主流K20,K40)

Quadro:数千元,用在工作站上(当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M)

KNC:1W-2W元左右

当前主流7110P、5110P、3110P

支持的操作系统

Windows:XP、win7、win8

Linux X86:Fedora、OpenSUSE、RHEL/CentOS、SLESSteamOSUbuntu

Linux ARM:Ubuntu

Mac OSX

Windows:Windows 8 Server, Win 7, Win 8

Linux:RedHat6.0及以上,SuSE SLES11及以上

卡上自带OS

自带uOS,有独立IP

GPU与MIC对比