本答复记录列出了 Xilinx Alveo U280-ES1 数据中心卡目前所有的已知问题。
问题:U280 ES1 卡的入口温度与气流要求。
详细说明:U280 ES1 卡支持 25℃ 的最大入口温度,海平面及海拔 1200 米以上的气流要求如下表所示。
进口温度与气流要求 PCIe 卡槽(34.8 毫米 x 106.65 毫米)在海平面位置在 85C 额定 QSFP 下 | ||
该卡的进口温度 (C) | 直线英尺/分 (LFM) | 立方英尺/分 (CFM) |
25 | 600 | 24 |
进口温度与气流要求 PCIe 卡槽(34.8 毫米 x 106.65 毫米)在海拔 1200 米位置在 85C 额定 QSFP 下 | ||
该卡的进口温度 (C) | 直线英尺/分 (LFM) | 立方英尺/分 (CFM) |
25 | 650 | 26 |
解决方法:U280 生产卡支持气流要求较低的进口温度范围,详情见 U280 产品说明书。
问题:一个跨协议栈事务处理可能会挂起协议栈间的通道
详细说明:在双 HBM 协议栈配置中启用了 AXI 交换机全局寻址,跨协议栈内存访问可能会导致协议栈间的通道挂起。
相同的协议栈访问不受影响。
以下配置可能也会出现挂起情况:
当从跨接在一个交换机和另一个交换机的 AXI 端口发送读写命令时,该命令无法传播,也不会向 AXI 端口返回错误标记或正常响应。
AXI 端口最终将会挂起,因为它在等待一个永远也不会出现的响应。
这是一个上电复位问题。
如果在第一次跨交换机事务处理时没有出现问题,那以后也不会有问题。
一个可工作一段时间的器件并不意味着该器件不受这个问题的影响,因为下次重启后该问题可能就会出现。
解决方法:为了避免协议栈间通道可能出现的挂起,从适当的 HBM 控制器端口连接和访问 HBM 通道,并避免在 HBM 控制器内跨协议栈访问内存。
联系 Xilinx,了解有关 U280 ES1 卡的其它潜在解决方法。在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。
问题:在某些情况下,AXI-RRESP 可互联。
详细说明:在以下任何一种情况下,AXI 读取数据从设备响应 (RRESP) 都可能是错误的:
见下图。
解决方法:要解决这个问题,请不要使用 ECC 擦除或部分字写入以及 ECC 校正。
在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。
问题:HBM 数据速率每针仅限于 1.6Gbps。
详细说明:该限制来自 HBM 厂商以及 U280 ES1 卡上使用的芯片,最大带宽限制为 410GB/s。
解决方法:在正常情况下,可以在每针 1.8Gbps 的最大 HBM 数据速率(460GB/s 带宽)下运行 U280 ES1 卡。
在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。
问题:XCU280 ES1 FPGA 器件上的静态功率可能会高于生产器件。
详细说明: 对于 U280 ES1卡上使用的工程样片 XCU280 ES1 FPGA 器件,静态功率增加了。
与 U280 生产卡上使用的 XCU280 生产器件相比,XCU280 ES1 器件的静态功率可能提高了 2 倍。
解决方法:在支持 XCU280 量产器件的 U280 生产卡上,该问题已修复。
问题:支持加速器的高速缓存一致性接口互联 (CCIX)。
详细说明:当前的 SDAccel shell 版本对于 U280 ES1 卡而言,不完全支持 CCIX
解决方法:在未来版本中,U280 ES1 卡将提供对 CCIX 的全面支持,如欲早日获得信息,请联系您的本地销售代表。
问题:硬件仿真可使用额外的主机内存。
详细说明:在某些应用中,硬件仿真运行可能会使用大约 10GB 的内存。
解决方法:这将在未来 shell 版本中得到修复。
问题:平台信息资源摘要不正确。
详细说明:平台信息会正确报告每个 SLR 的信息,但总体资源摘要不正确。
请使用每个 SLR 的信息。
解决方法:这将在未来 SDAccel 版本中得到修复。
问题:将 PLRAM 资源大小调整到 128kb(默认值)以上,可能会失败。
详细说明:如果将 PLRAM 资源的大小调整到 128kB(默认大小)以上,PLRAM 的大小调整可能会失败,导致数据访问崩溃。
解决方法:这将在未来 SDAccel 版本中得到修复。 用户逻辑不要试图将 PLRAM 资源的大小提高到 shell 的默认值之上。
(Xilinx 答复 72640) | Alveo 数据中心加速卡 — 在 AMD EPYC 主机上进行 PCI Express 带内热复位后,卡可能不会恢复 |
问题:目前还未提供 HBM 温度监控。
详细说明:由于不提供 HBM 温度,而且 FPGA 温度与 HBM 温度具有良好的相关性,因此 FPGA 温度仍然可用来监控阈值。
解决方法:HBM 温度监控问题在 201910_1 Shell Reset 中已解决
问题:目前未提供内存 ECC 监控和错误检查。
详细说明:在 DDR/HBM 内存资源上不启用 ECC 错误检查。
解决方法:201910_1 Shell 版本中提供了对 DDR/HBM 内存 ECC 的支持。
问题:目前未提供 QSFP 温度监控。
详细说明:SDAccel shell 和 Xilinx 运行时目前不支持卡 QSFP。
解决方法:这在 201910_1 Shell 版本中提供。
问题:硬件仿真限制了允许的最大缓冲容量。
详细说明:在 HBM 内存资源中,最大缓冲区不能为 256MB,因为在硬件目标上,该缓冲区是 256MB - 4KB(这是仿真内容所需的空间)
解决方法:这在 2019.1 SDAccel 版本中已解决。
问题:xbutil 查询输出被篡改。
详细说明:xbutil 查询输出有些内存分配及内存类型显示不正确。
解决方法:这在 201910_1 XRT 版本 (201910_1 Shell) 中已解决
问题:当前 shell 有 32 位 BAR,在具有多张 PCIe 卡的系统中可能会发生冲突。
详细说明:BIOS/OS 可能无法为所有卡分配内存,而且可能会出现机器启动问题。
解决方法:这在 201910_1 Shell 版本中已解决
问题:不支持在内核中将 MicroBlaze 调试模块和系统 ILA 结合在一起。
详细说明:将检测到调试桥接器,但系统 ILA 不工作。
解决方法:这在 201910_1 Shell 版本中已解决。
AR# 71975 | |
---|---|
日期 | 08/12/2019 |
状态 | Active |
Type | 已知问题 |
Boards & Kits |