首页 > 代码库 > GPU与MIC对比
GPU与MIC对比
属性 | NVIDIA GPU | Intel MIC |
单核 | 流处理器/CUDA core 每个核运行一个线程 | X86 core 每个核上最多支持4个硬件线程 |
主频 | 接近1GHz | 1.0-1.1GHz |
核数 | 数十个到数千个 | 57-61 |
并行度 | Grid、block、thread多级并行 细粒度并行(线程数>>核数) 线程之间开销为0 | 线程+向量化 线程数<=(核数-1)*4 向量化宽度512bit(单精度:16,双精度:8) |
内存大小(GB) | 最大12GB | 6/8/16GB |
内存带宽 | 288 GB/s | 240-352GB/s |
数据访问要求 | Warp内的线程访问的数据连续最佳 | 线程内访问的数据连续;如果向量化的话,向量化的数据访问连续最佳 |
峰值性能 | 单精度:最大4.29TFlops 双精度:最大1.43TFlops 计算方法:指令吞吐率*运算单元数量*频率 | 单精度:2.0-2.2 TFlops 双精度:1.0-1.1 TFlops Sample DP calculation: 16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s |
编程语言 | CUDA、OpenCL、OpenACC | OpenMP、OpenCL、Cilk、OpenACC |
编程模式 | Offload | Offload、Native、Symmetric |
功耗 | 235W | 225-300W |
PCI-E带宽 | 支持2.0(双向各8GB/s) 支持3.0(双向各16GB/s) | 支持2.0(双向各8GB/s) 目前不支持3.0 |
运行平台 | PC、服务器、工作站 个人可以在PC上配置一块GeForce卡运行CUDA,成本低、性能高 | 服务器 比较专业,成本较高,个人很少配置 |
产品 | GeForce:几百到几千元,用在PC上(当前主流GTX710-780) Tesla:1W-3W元,用在服务器上(当前主流K20,K40) Quadro:数千元,用在工作站上(当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M) | KNC:1W-2W元左右 当前主流7110P、5110P、3110P |
支持的操作系统 | Windows:XP、win7、win8 Linux X86:Fedora、OpenSUSE、RHEL/CentOS、SLES、SteamOS、Ubuntu等 Linux ARM:Ubuntu Mac OSX | Windows:Windows 8 Server, Win 7, Win 8 Linux:RedHat6.0及以上,SuSE SLES11及以上 |
卡上自带OS | 无 | 自带uOS,有独立IP |
GPU与MIC对比