作者:Sleibso,编译:csc57
可编程逻辑(PLD)由通用集成电路制造。
逻辑功能由编程设备的用户确定。
用户可以使用PLD对数字系统进行编程。
经过多年的发展,可编程逻辑器件已经从20世纪70年代的可编程逻辑矩阵(PLD)器件演变为具有数千万门的当前现场可编程阵列(FPGA)逻辑。
随着人工智能研究的快速发展,FPGA并行处理已经实时应用于几种神经网络计算任务。
浮点硬件布局消耗大量资源,但定点精度受FPGA限制,但某些应用可以通过选择正确的字来保证收敛精度。
浮点数更快,消耗的资源更少。
这是人工智能和机器学习的集成应用的理想选择。
最新的测试是英国伯明翰大学电气和电子系统工程系的Yufeng Hao和Steven Quigley的最新文章。
题为“Xilinx FPGA的深度递归神经网络语言模型”的文档展示了基于Python编程语言的基于循环的定点神经网络(DRNN)的成功实现和训练。
Theano数学库和多维矩阵
PYNQ开发环境可在PYNQ-Z1板,Digilent PYNQ-Z1开发板和Xilinx Zynq Z-7020接地芯片系统上使用。
Zynq-7000系列包括ARMCortex-A9双核处理器和Artix-7或Kintex-728nm可编程逻辑。
CPU,DSP和ASSP集成在一个芯片中,具有硬件和信号分析和速度,卓越的性价比和关键功能,可实现最大的设计灵活性。
两位联合开发人员使用Python DRNN(Xilinx提出的用于建立连接和交换数据以及硬件和软件逻辑的硬件库)的硬件加速覆盖实现了该应用程序。
20 GOPS(每秒十亿次)的自然语言处理(NLP)性能优于以前基于FPGA2的实现。
75到70次
5次
大多数文章提到NLP和LM(语言模型),“关于机器翻译,语音搜索,语音拨号,语音识别”。
在本文中,我们使用Vivado HLS开发工具和Verilog语言分析DRNNLM硬件加速器的实现,以便为PYNQ开发环境提供完整的硬件覆盖。
生成的加速器包含五个过程元素(PE),为此应用程序提供20 GOPS的数据吞吐量。
以下是该设计的框图。
加速器框图DRNN
Vivado设计套件为基于C / C ++和IP的下一代超高效设计提供了一种新方法。
通过采用超快速高效设计的新方法,用户可以实现10-15倍的高效率。
Vivado HLS通过将C,C ++和SystemC标准集成到Xilinx可编程器件中,与ISE和Vivado设计环境兼容,无需加速RTL模型创建和IP创建。
虽然本文档包含许多技术细节,但它总结了此博客文章的原因。
“最重要的是软件和硬件的联合设计应用和仿真过程。
神经网络领域。“
PYNQ-Z1开发板的价格是229美元,所以这个说法是完全正确的。
免责声明:本文来自XilinxXcellDailyBlog,由Xilinx Temple中文社区创新网络编制。
请包括作者,来源和原始链接。