基于Xilinx的Kintex-7系列XC7K325T的硬件加速卡

article/2025/10/25 22:21:41

 

基于Xilinx <wbr>Kintex-7的高性能计算(HPC)硬件加速卡
 


产品型号: B-PCIE-K7F5XILINX的Kintex-7系列FPGA处理器

  B-PCIE-K7F5是一款基于PCI Express总线架构的高性能FPGA算法加速卡,该板卡采用Xilinx的高性能28nm 7系列FPGA作为运算节点。Xilinx的28nm 7系列FPGA通过对资源、接口以及时钟的优化,在高性能计算(High Performance Computing)上表现出卓越的性能。Kintex-7系列FPGA具有优化的GTX高速收发器,最高支持12.5Gbps线速率,具有百万门级的逻辑资源,尤其适合于大规模逻辑运算。 
  B-PCIE-K7F5算法加速卡具有5片高性能FPGA处理节点,其中1片Kintex-7系列高容量高性能FPGA(具体型号为:XC7K420T-2FFG901I)作为主FPGA,其余4片Kintex-7系列低容量FPGA(具体型号为:XC7K325T-2FFG676I)作为从FPGA,主从处理节点之间全部采用高速串行通信进行数据交互。 
  主FPGA主要完成与各个处理节点之间的数据交换、对各个处理节点进行任务分配、资源调度、数据分发等。此外主FPGA还将完成高速串行接口GTX(SFP+万兆光纤接口)扩展、高性能PCIE DMA控制器等功能。 
  从FPGA主要完成主FPGA分解的算法模块,4个高容量运算节点进行并行运算,各个节点之间通过高速GTX串行接口进行数据交互。 
  板卡具有高带宽大容量动态缓存,其中各个处理节点均载有两组大容量DDR3 SDRAM缓存单元,用于完成处理复杂逻辑与算法时的数据缓存,适合于乒乓操作。其中每片FPGA的高性能BANK(HP)外挂4片4Gb 16位DDR3 SDRAM颗粒,通过Fly-by拓扑结构构成一组64位的DDR3缓存单元,最高可工作在800MHz时钟频率,其中数据速率可以达到1600M*64bps,DDR3 SDRAM效率可以达到90%以上。每片FPGA的宽范围BANK(HR)外挂2片4Gb 16位DDR3 SDRAM,可独立工作在高达400MHz的时钟频率下,其中数据速率可以达到800M*32bps。

硬件指标

  • 标准PCI Express全高全长卡,适合于普通服务器、工作站;
  • 符合PCI Express Gen2.0规范,x8模式,理论带宽高达4GByte/s;
  • 板载5片Kintex-7系列FPGA处理器: 主FPGA:1片Kintex-7系列 FPGA(XC7K420T-2FFG901I),可与XC7K355T-2FFG901I兼容。 从FPGA:4片Kintex-7系列FPGA(XC7K325T-2FFG676I),可与XC7K410T-2FFG676I、XC7K160T-2FFG676I兼容。
  • 每两个从处理节点之间都通过x4的高速串行总线进行互联(支持各种高速串行协议,如RapidIO、Aurora等)。
  • 主处理节点与从处理节点之间通过x4的高速串行总线进行互联(支持各种高速串行协议,如RapidIO、Aurora等);
  • 板载4路SFP+光纤通道,用于高速串行接口的扩展,最大支持10Gbps/lane线速率,理论传输带宽可达4Gbyte/s。光纤通道串行接口支持各种通信协议,例如RapidIO、Aurora64b/66b以及万兆网络等;
  • 每片FPGA均挂载2组DDR3 SDRAM内存,其中HR BANK挂2片4Gb DDR3颗粒,组成32位内存总线,可工作在400MHz时钟频率;HP BANK挂4片4Gb DDR3颗粒,组成64位内存总线,可工作在800MHz时钟频率;两组DDR3可进行乒乓操作。
  • 板载高精度有源晶振,温度稳定性高达±0.28ppm,老化率±1ppm;
  • 板卡具有1路外时钟输入;
  • 板卡具有2个独立的低偏斜、高精度全局时钟网络: 全局时钟网络1: 100MHz LVDS差分时钟网络,用于PCIE接口; 全局时钟网络2: 156.25MHz LVDS差分时钟网络,用于SRIO通信参考时钟;
  • 板载8位拨码开关,可通过拨码开关选择板卡的工作模式;
  • 具有调试指示灯;
  • 板载1片FRAM,用于存储少量参数信息;
  • 板载1片32MByte BPI Nor Flash,用于主FPGA的加载;
  • 板载4片SPI Flash用于从FPGA的加载。
  • 支持Chipscope在线调试加载;
  • 支持菊花链式JTAG调试接口;

功能特性

  • 从FPGA(XC7K325T)处理性能:
    1. FPGA采用Xilinx的Kintex-7系列(XC7K325T);
    2. 逻辑资源:50,950个Slices、326,080个逻辑单元;
    3. 存储器资源:最大4000Kb分布式RAM,445kb块RAM;
    4. 时钟资源:具有10个CMTs;
    5. IO资源:最大支持400个单端IO,最大支持192个差分IO;
    6. 具有1个PCIE Endpoint,支持gen2;
    7. 具有16个Gbits收发器,最大支持12.5Gbps。
  • 主FPGA(XC7K420T)处理性能:
    1. FPGA采用Xilinx的Kintex-7系列(XC7K420T);
    2. 逻辑资源:65,150个Slices、416,960个逻辑单元;
    3. 存储器资源:最大5938Kb分布式RAM,835kb块RAM;
    4. 时钟资源:具有8个CMTs;
    5. IO资源:最大支持300个单端IO,最大支持144个差分IO;
    6. 具有1个PCIE Endpoint,支持gen2;
    7. 具有32个低功耗GTX Transceivers,最大支持12.5Gbps。
  • 互联性能:
    1. 4个从FPGA: 两两之间通过x4 SRIO互联,支持SRIO gen2@5Gbps/lane,理论带宽可以到达20Gbps。 两两之间通过x16的IO相连,用于传输低速的控制与配置信号。
    2. 主FPGA与4个从FPGA: 通过x4 SRIO互联,支持SRIO gen2@5Gbps/lane,理论带宽可以到达20Gbps。 主FPGA与各个从FPGA之间有x4的IO相连,用于传输低速的控制信号。
  • 存储性能:
  1. FPGA的HP BANK: 每一个FPGA的HP BANK支持4Gb 64位 DDR3 SDRAM,可独立工作在800M的时钟频率下,数据速率为1600x64bit,运行效率高达90%;
  2. FPGA的HR BANK: 每一个FPGA的HR BANK支持4Gb 32位DDR3 SDRAM,可独立工作在400MHz时钟频率下,数据速率为800Mx32bit,运行效率高达90%;

接口特性

  • 标准PCIE全高全长卡;
  • 板卡具有4路SFP+光纤通道,LC接口,支持10G光模块;
  • PCIe金手指:x8 金手指,适用于x8、x16机箱;
  • 板卡具有1路外时钟输入,通过SMA连接器输入。

软件支持

  • FPGA软件支持:
    1. PCIE DMA链路控制;
    2. FPGA之间的SRIO通信;
    3. 板卡与板卡之间的10G光纤接口通信。
  • 其他软件支持:
  1. 定制算法与逻辑;
  2. 定制PC机驱动与演示程序。
  3. 支持win7 64位/32位操作系统,支持Linux操作系统。

应用场景

  • 高性能计算;
  • 服务器硬件加速;
  • 算法验证平台。

物理特征

物理与电气特征

板卡尺寸

106.65*352.19mm

板卡供电

2A max@12VDC(±5%)

散热方式

风冷散热

 

工作环境

工作温度

-40°~+85°C(工业级)

存储温度

-55°~+125°C

工作湿度

5%~95%,非凝结

 

可靠性指标

使用寿命

>10年

MTTR

<20分钟

MTBF

10,000,000小时

质量标准

 

优势(对比DINIGROUP公司的DNK7_F5PCIE

对比项目

DNK7_F5PCIE

B-PCIE-K7F5

结论

处理性能

5片K7系列FPGA,1片Virtex-6系列FPGA

5片Kintex-7系列FPGA
主FPGA:XC7K420T
从FPGA:XC7K325T
处理性能强大,更多的逻辑资源、更优化的LUT结构、更多的乘法资源、更多的GTX高速串行收发器

更优化的结构

逻辑资源

410K + 325K*4

420K + 325K*4

优于

高速串行收发器

主 FPGA:16个GTX 
从FPGA:8个GTX

主FPGA:32个GTX 
从FPGA:16个GTX

优于

互联方式

互联方式:46位并行总线
互联带宽:19.2Gbps
互联特点:占用大量IO,时序收敛困难

互联方式:串行SRIO x4 
互联带宽:20Gbps 
互联特点:串行总线,占用IO少,速度高

优于

接口类型

4个千兆以太网口

2个千兆网口+2个万兆光口

 

GTX扩展

4路高速万兆光纤,更易于与系统内其它板卡互联

优于

PCIE接口

支持PCIE gen1 x4,最高支持2.5Gbps线速率

支持PCIe gen2 x8,最高支持5Gbps线速率,总数据带宽:4GByte

等同

  B-PCIE-K7F5与DINI公司的DNK7_F5PCIE比较最大特色在于:
  (1)采用高容量高性能的420T FPGA,简化了PCIE设计,增加了GTX数量,使得系统互联更方便。省去了Virtex-6 FPGA作为PCIE桥片。
  (2)互联方式均采用RapidIO高速串行互联,简化了设计,提高了性能。

全文转自:

http://blog.sina.com.cn/s/blog_14ecc0afb0102wfx8.html


http://chatgpt.dhexx.cn/article/0JSx091V.shtml

相关文章

基于STM32设计的车库监控报警系统

一、前言 随着社会的发展,人们的生活水平不断提高对安防问题的关注度越来越高,因而各类防盗设备也层出不穷,本文采用红外测距传感器、摄像头、STM32单片机以及ESP8266无线通信模块设计一种车库防盗报警器,其可安装在车库的里,通过红外线测距检测是否有人入侵,产生报警信号…

dnw驱动更新,支持全系统(xp,win7,win8/win10)

前言: 本文用于解决win7以上系统使用dnw难装驱动问题&#xff0c;使用新驱动: zadig-2.3.exe&#xff0c;支持xp&#xff0c;win7/win8/win10系统&#xff0c;安装方便、高效&#xff0c;欢迎试用。 对于裸板开发&#xff0c;我们一般使用JTAG工具&#xff0c;比如OpenJTAG、…

jz2440s3c2440 jtag口、串口、usb devices 使用

1.串口&#xff1a; 串口类型&#xff1a; 针串口 、usb串口的使用 1. usb 串口 插入电脑&#xff0c;计算机上设备管理器中其他设备下出现新设备 设备管理器 中查看 2. 安装串口驱动 &#xff0c;安装驱动以后 系统分配com4 串口 3. windows下载串口连接软件 MobaXterm&…

基于STM32设计的城市绿化云端监控系统(华为云IOT)

一、设计需求 1.1 项目背景 随着科技的蓬勃发展改变了很多传统行业的作业方式,当我们用移动支付代替现金交易时,当我们足不出户就能满足饥饿的身体时,我们的生活方式因为科技而发生了改变;同样科技也在改变着我们周围的点点滴滴,城市绿化养护亦是如此。 通过智慧控制系统…

FPGA的调试-虚拟JTAG

对于FPGA调试&#xff0c;主要以Intel FPGA为例&#xff0c;在win10 Quartus ii 17.0环境下进行仿真和调试&#xff0c;开发板类型EP4CE15F17。主要包括一下几个部分&#xff1a; - FPGA的调试-虚拟JTAG&#xff08;Virtual JTAG&#xff09; - FPGA的调试-在线存储器内容编辑…

Win7、Win8、Win10系统USB-Blaster驱动程序无法安装的解决办法

这篇博文是我转载dezhihuang的博文&#xff0c;原文名称和地址如下&#xff0c;并对内容做了适当调整&#xff1a; [原]Win7、Win8系统USB-Blaster驱动程序无法安装的解决办法 第一次用Markdown编辑博客&#xff0c;格式方面真是捉急啊&#xff01; Win7、Win8、Win10操作系…

avr+开发环境+linux,win7下avr单片机开发环境的搭建

操作系统&#xff1a;win7 professional x86 开发软件&#xff1a;avr studio 4.19 首先下载avr studio 4.19&#xff0c;因为貌似这是atmel官方最后支持jtag ice的开发环境。而且也就只有这个4的版本才支持win7&#xff0c;正好本人有个jtag&#xff0c;所以果断选择这个版本…

IBM Spectrum LSF RTM

IBM Spectrum LSF RTM IBM Spectrum LSF RTM是IBM Spectrum LSF环境的操作仪表板&#xff0c;提供全面的工作负载监视、报告和管理。它使集群管理员在日常活动中更加高效&#xff0c;并提供所需的信息和工具&#xff0c;以提高集群效率&#xff0c;实现更好的用户生产力&#…

IBM Spectrum LSF Suites

IBM Spectrum LSF Suites 高性能计算(HPC)不再仅仅适用于大型组织和技术熟练的用户。在当今竞争激烈的商业环境中&#xff0c;几乎每个行业都需要更短的设计周期和更高质量的结果&#xff0c;HPC适用于任何规模的组织。它是为那些需要从大量数据中进行分析和回答的用户而设计的…

LSF_SPAN

span字符串指定并行作业运行的位置。如果省略span, LSF将从可用的处理器中为作业分配所需的处理器。 一、语法 span[host1]&#xff1a;指示分配给作业的处理器必须位于同一个主机上。 span[blockvalue]&#xff1a;对并行作业来说&#xff0c;LSF将根据block size来分配slot…

集群调度LSF-学习笔记

集群-------多台设备 HPC集群----多台用于计算的设备 集群调度-LSF&#xff1a;LSF 是一种强大的工作负载管理平台&#xff0c;提供基于各种策略的智能调度功能&#xff0c;利用分布式的基础架构资源来提高整体的系统性能。用户通过 LSF可以实现集群间的负载均衡&#xff0c;扩…

IBM Platform LSF在IC行业内的使用

LSF在&#xff29;&#xff23;设计中有哪些值得匹配的 1、管理低利用率Job •针对short normal这类队列&#xff0c;查询20分钟以后&#xff0c;Job利用率依然很低的Job信息。 •$bjobs -u all -q short -o ‘id user queue stat ugroup first_host sla idle_factor slots …

IBM Spectrum LSF-手册

在所有规模的企业中&#xff0c;应用程序能力和数据量持续显著增长&#xff0c;推动了对更多计算能力和高性能管理和分析工具的需求。即使在传统的高性能计算(HPC)环境中&#xff0c;多个计算竖井、不均匀处理、设计周期泄漏和延迟结果也是常见的。面对日益严格的经济压力&…

LSF - 提交GUI应用到LSF无法运行,报错Failed to connect to socket /tmp/dbus-xxxxxxxxx: Connection refused

问题描述 提交GUI应用到LSF无法运行&#xff0c;如下所示 问题分析 这种GUI应用&#xff0c;不能以交互式的方式提交。提交命令换成bsub firefox即可。

LSF的使用方法总结

一、LSF 基本介绍 LSF&#xff08;Load Sharing Facility&#xff09;是IBM旗下的一款分布式集群管理系统软件&#xff0c;负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口&#xff0c;让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制…

IBM Spectrum LSF

IBM Spectrum LSF IBMSpectrum LSF系列是对用于高性能计算(HPC)环境的工作负载管理解决方案有一个完整的组合。具有全面的智能配套调度能力&#xff0c;它有助于确保正确的资源自动分配到正确的作业&#xff0c;最大限度地提高应用程序性能和效率。具有强大的管理功能和无与伦…

LSF - 集群概览

LSF - 集群概览 LSF - 术语与概念 Job状态 PEND 在队列中等待调度和调度的。RUN 发送到主机并运行。DONE 正常结束与零退出值。EXIT 以非零退出值结束。PSUSP 当作业挂起时挂起。USUSP 被用户挂起。SSUSP 被LSF系统挂起。POST_DONE 后处理完成&#xff0c;没有错误。POST_ER…

LSF集群搭建笔记

LSF-linux_amd64集群搭建记录 修改节点ip地址为静态ip安装并开启ssh服务修改主机名修改/etc/hosts文件(为了方便所有机器都要改)设置集群间ssh免密钥通信(如果想root间无需密码登陆需要设置了所有机器可以root登陆&#xff0c;并改root密码为固定密码&#xff0c;默认root密码每…

LSF集群基本概念介绍

集群的基本概念-作业 作业是集群中最重要的一个概念&#xff0c;用户通过提交作业申请集群计算资源&#xff0c;完成计算任务作业状态 • PEND &#xff08;待定&#xff09;- - 作业在队列中等待调度与分派 • RUN &#xff08;运行&#xff09;- - 作业已经被分派到节点机上…

LSF client安装

在master01节点添加&#xff1a; [rootmaster01 conf]# pwd /share01/app/lsf/conf [rootmaster01 conf]# ls cshrc.lsf lsf.cluster.nju_cluster1 lsf.shared perl.lsf ego lsf.conf lsf.shared.old profile.lsf lsbatch lsf.entitlement…