一、矩阵的存储及存储地址研究(论文文献综述)
王威,曹越,喻忠军[1](2021)在《一种用于SAR成像的数据存储系统设计方法》文中指出针对合成孔径雷达(SAR)成像回波数据量巨大和存储器资源利用率偏低的问题,提出一种双倍数据速率动态随机存储器(DDR)的存储装置,并设计一种原位转置的存储方法。该方法首先比较雷达回波数据距离向和方位向的长度,通过预留出距离向和方位向中较长数据的单行或者单列所占用的存储空间来提高存储器读地址和写地址逻辑映射的灵活性,有效地实现了大数据量的片内转置操作,提高了双倍数据速率动态随机存储器(DDR)的资源利用率,并将分块子矩阵地址映射方法和跨页地址映射方法应用于原位转置中,有效地提高了SAR回波数据转置的访问效率。仿真实验结果表明,该数据存储系统在满足成像实时性的同时降低了一半的DDR存储器的用量,提高了DDR的资源利用率,降低了成本,目前已成功应用于多种模式的SAR成像处理中。
石硕,王瑞雪,李慧,韩昌彩[2](2021)在《LDPC码的多路并行编码器实现》文中认为针对空间数据系统咨询委员会(CCSDS)标准下低密度奇偶校验(LDPC)码编码器低硬件实现复杂度的应用需求,提出一种适用于不同码长、码率LDPC码的多路并行编码器实现架构。该架构通过重复利用编码器中的存储单元,将矩阵信息共享到所有并行的运算单元中从而提高资源利用率。进一步,在现场可编程门阵列(FPGA)平台上验证并测试码率分别为1/2、2/3及4/5的单路和多路编码器,测试结果表明采用多路并行架构的编码器吞吐量比单路编码器有明显的提高且均达到1 Gbps以上;与达到基本相同吞吐量的单路多组编码器相比,其查找表资源分别减少40%、44%和46%。该架构充分利用FPGA的存储资源进而有效降低硬件实现复杂度。
崔庆勋[3](2021)在《基于RISC-V的神经网络加速器设计》文中进行了进一步梳理近年来随着生活水平的显着提高,人们对移动式电子设备的性能提出了更高的要求。作为芯片的核心单元,中央处理器(Central Processing Unit,简称CPU)变得越来越重要。但是,一方面由于MOS晶体管达到了物理极限,另一方面由于以ARM等公司为代表的CPU厂商收取越来越高的专利费,CPU的发展进入了瓶颈期。RISC-V(Reduced Instruction Set Computer fifth edition,第五代精简指令集)是2014年由D.Patterson领导的团队推出的一种指令系统,它具有短小精悍,便于扩展,易于实现,且完全开放等特点。因此随着人工智能行业的蓬勃发展,人们开始研究基于RISC-V的CPU加神经网络加速器的架构来提高处理器的算力。然而由于用ASIC实现神经网络,每个版本都需要根据需要进行定制,导致其设计的成本高,又由于用FPGA实现神经网络,在板子烧完后整体电路就确定了,导致灵活度低且价格昂贵,因此使用RISC-V内核加上可以实现神经网络指令的协处理加速器的架构无疑是最佳的选择。本文致力于设计一款基于RISC-V的神经网络加速器。本文首先介绍了RISC-V的架构和指令的扩展原理以及方法。然后在蜂鸟E203内核的基础上扩展了具有卷积神经网络功能的加速器,加速了指令的运行。其中,加速器改变了传统CPU的数据移动形式,使用了脉动阵列、数据复用等方法,提高了数据的并行度,减少了数据流在处理单元与内存之间的反复移动。为了实现数据复用,本文还使用了权值复用的方法降低了加速器对内存的访问。最后在Vivado平台下,对加速器的每个模块及整个系统都进行了仿真与验证,同时分析了系统使用到的硬件资源并生成了版图。结果显示对于卷积计算,使用加速器的架构比未使用加速器的架构快4.1倍。对于激活和池化计算,使用加速器的架构比未使用加速器的架构快1.3倍。同时资源消耗表显示加速器约占整体系统的40%。功耗表还显示系统的动态功耗占65%,为0.142W,其中MMCM(混合模式时钟管理器)和BRAM(块随机存取存储器)占用了大部分功耗,分别为0.119W和0.011W,而静态功耗则使用了剩下的35%的功耗,为0.076W。
费照轩[4](2021)在《基于FPGA的长码私钥放大算法及其应用研究》文中提出随着量子计算机技术的迅速发展,基于计算复杂度的传统加密算法面临着极大的安全威胁。基于量子物理学基本原理的量子密钥分发(QKD)技术能够产生无条件安全的密钥,在此基础上结合“一次一密”的加密方式之后,使得无条件安全的保密通信成为可能。QKD技术可以分为离散变量(DV-QKD)和连续变量(CV-QKD)两大类。其中CV-QKD系统成本低,可靠性高等优点使其具有较大的应用前景。在CV-QKD系统中,由于信道噪声以及窃听者等的影响,原始密钥是不安全的,必须通过后处理过程去除这些影响以得到无条件安全的密钥。私钥放大是CV-QKD后处理中非常重要的一步,它通过将纠错后双方的一致密钥与通用散列函数作用,压缩密钥,去除窃听者的影响,以保证密钥的无条件安全性。考虑到CV-QKD系统中私钥放大的有限码长效应,为了保证长距离传输时最终密钥的安全性必须提高原始密钥码长。FPGA作为一种高集成度高安全性的算法实现平台,强大的并行计算能力使其在长码私钥放大算法的实现方面具有明显优势,但是受到资源总量的限制,在FPGA上实现大矩阵运算的难度较大。因此研究基于FPGA平台实现长码私钥放大算法具有重要意义。本论文的主要工作如下:1.针对私钥放大算法的整体过程,将整个算法分为三个主要步骤:矩阵构造、数据提取和私钥放大运算。矩阵构造需要解决原始码长在100Mb条件下预存矩阵数据量较大的问题,本文采用线性反馈移位寄存器(LFSR)生成符合Toeplitz矩阵构造条件的数据,并大幅缩减存储资源占用。数据提取是根据私钥放大运算模块提供的地址信息完成矩阵数据的提取。其中将大小为1M ×100M的初始矩阵进行了两次分块,第一次分块将其分为1M×1M的一阶子矩阵,这是为了确定存储LFSR结果的RAM的大小;第二次分块则是将一阶子矩阵分为单次计算的二阶子矩阵,大小为512× 512。私钥放大运算中采用了异或算法对矩阵乘法进行加速,将算法复杂度降低为O(n)。2.结合FPGA并行计算的优势,在方案中同时利用数据并行和流水线并行的方法提高算法的处理速度;并通过模块复用来降低FPGA的资源消耗。最终本文采用Verilog HDL语言在FPGA平台上实现了能够处理100Mb码长条件下的原始密钥。并对各子模块与总模块进行了仿真和硬件测试,保证其时序及功能正常。最终在压缩比为0.01的情况下,最终数据处理速度为33Mbps,而算法的整体资源消耗仅占所选FPGA的1/4左右。
薛栋[5](2021)在《基于DDR3的星载动态载荷缓存调度及管理技术研究》文中研究说明当今太空探索和对地监控是卫星的重要任务,随着卫星单次任务量的增加,其携带的检测设备也随之增加。这些设备都将产生庞大的数据量,各设备之间存在错综复杂的数据交互,部分载荷数据的码率也越来越高,所以如何对高速动态载荷进行灵活缓存和转存,使卫星在有限的带宽和工作时间内,传输重要信息显得尤为关键。基于此背景,本文依托于“XX多载荷高动态星上路由系统的FPGA设计”项目,针对该项目的高速多载荷接收、动态缓存调度、快速转存的设计要求,展开了一系列研究,其中,高速动态缓存调度和缓存空间管理是本文的核心研究内容。本文针对现如今应用于星上路由系统的主流方案——DDR3 SDRAM缓存阵列,主要对以下问题进行了研究与处理:1)如何在尽可能少的缓存芯片前提下实现对动态载荷数据的缓存调度?提出了一种改进型的WRR调度算法,在初始状态为各队列设定初始优先级,并为各优先级队列配置一个固定的权重,在传输过程中根据各优先级队列的当前缓存量以及该队列对应的载荷码率来共同决定该队列的优先级,最后再根据队列的优先级来依次轮询缓存。当载荷码率发生变化后,会重新计算各载荷数据对应队列的优先级从而决定轮询顺序,保证了各队列优先级设置的合理性,有效解决了队列数量较多时各队列数据缓存延时高的问题。2)在有限的存储空间下,如何在保证高使用率的情况下管理各载荷数据的缓存空间?由于载荷码率的动态变化,所以各载荷所占空间无法估计,预分配缓存空间的方法不适用,进而需要对其缓存空间进行精细化管理。在计算合理的基础缓存单元容量后,将各载荷的基础缓存单元地址以及其缓存的数据类型等信息存放在BAT表中,实现高效管理的同时保证了缓存空间的利用率。本文实现了以FPGA为主控的载荷缓存调度和缓存空间管理,遵照CCSDS协议对数据进行编帧、编码的同时不妨碍数据的高速传输。以上设计均进行了RTL仿真以及FPGA板级验证,确保了设计的准确性和可行性。
曹士杰[6](2021)在《基于算法-硬件协同设计的高性能人工智能计算》文中进行了进一步梳理大数据和深度学习的兴起使得人工智能在视觉、语音和语言等应用领域取得了革命性的突破。数据、算法和算力是人工智能取得巨大成功的三要素。上层应用的数据规模和算法规模与日俱增,对硬件算力的需求呈指数级增长。然而随着摩尔定律和登纳德缩放比例定律的停滞,通用处理器的性能提升显着放缓。因此,人工智能应用面临硬件算力需求和供应之间的巨大差距。实现高性能人工智能计算是学术界的研究热点也是工业界人工智能应用落地的迫切需求。算法-硬件协同设计同时在算法端减少对算力的需求,在硬件端带来性能提升,是实现高性能人工智能计算的重要方法。本文结合人工智能领域特性,通过分析算法设计和硬件设计对计算和访存特性的需求矛盾,提出了一套高性能人工智能计算的算法-硬件协同设计方法,其核心内容包括面向硬件优化算法和面向算法定制硬件。本文的研究工作以该算法-硬件协同设计方法为指导原则,围绕数据规模增长和算法规模增长带来的巨大算力需求,针对搜索引擎数据检索和深度学习模型推理选取了四个具体问题进行研究以实现高性能计算。具体研究内容如下:(1)搜索引擎海量互联网数据的快速选取。搜索引擎的选取服务为了选取匹配用户查询的文档,需要对海量的互联网数据进行检索。即使部署了大量的CPU,计算和访存密集的选取服务依然面临着高延迟,低吞吐和高能耗的挑战。本文对选取服务的关键部分匹配计算和索引读取进行了算法优化和硬件定制,提出了基于FPGA的选取服务专用加速器系统。具体地,本文在算法端基于剪枝减少了索引查询量和匹配计算量,在硬件端通过电路微结构设计定制了流水并行的匹配处理器和高效的索引流读取器。使用必应搜索的真实索引数据和查询日志进行实验评估,该系统可以显着降低选取服务的平均延迟和尾部延迟,并提高吞吐量。(2)深度神经网络权值稀疏的模型有效性和硬件高效性权衡。近年来深度神经网络的模型参数量和计算量呈指数级增长。权值稀疏化具有很好的模型压缩效果,同时也引入了不规则计算和访存,对并行计算硬件并不友好。结构化稀疏可以解决硬件高效性的问题,但是对模型准确率和压缩率产生了极大影响。本文同时从模型有效性和硬件高效性的角度对权值稀疏进行需求分析和协同设计,提出了组平衡权值稀疏模式。组平衡稀疏化算法将权值矩阵划分为大小相同稀疏度相同的组以进行并行计算,在组内采用非结构化稀疏以保证模型的准确率。实验表明,组平衡稀疏具有与非结构化稀疏几乎相同的模型压缩效果,且优于其他结构化稀疏;为组平衡稀疏设计实现的GPU加速库相比较于其他稀疏模式的GPU加速库,实现了显着的性能提升。(3)基于权值稀疏的LSTM网络低延迟推理。LSTM网络广泛应用于语言语音等延迟敏感的应用中。为了实现LSTM网络的低延迟推理,本文将组平衡稀疏模式应用到LSTM网络中,提出了基于FPGA的组平衡稀疏LSTM推理加速器。矩阵向量乘法是LSTM模型推理中计算最密集的部分,该FPGA加速器结合稀疏矩阵的组平衡特性,定制了负载均衡和访存规则的高并行矩阵向量乘法核心,因此对于批处理大小为1的LSTM模型推理也能实现低延迟。实验表明,与之前使用不同压缩技术的LSTM网络FPGA加速器相比,基于组平衡稀疏的LSTM网络FPGA加速器实现了显着的延迟降低。(4)基于特征稀疏的CNN模型高效推理。卷积神经网络产生的特征图中存在大量的稀疏性,利用特征稀疏可以避免大量无效的计算和访存,从而降低模型推理的负担。本文提出了一种新的基于数值量化预测特征稀疏的CNN推理加速框架。基于低比特数值量化的特征稀疏预测方法具有轻量性和通用性的优势,并且不需要对模型进行重训练。利用预测出的特征稀疏作为卷积计算的输出稀疏,该框架可以剪枝模型推理中大量零值对应的无效前序计算。实验表明,低比特量化网络可以准确地预测特征稀疏性,且对模型的总体准确率几乎没有影响;该框架的CPU实现显着减少了卷积计算量并加速了CNN模型推理。综上所述,本文的研究工作基于算法-硬件协同设计为人工智能面临性能瓶颈的代表性应用和算法提出了高性能计算方案,希望可以为未来研究提供借鉴和参考,促进高性能人工智能计算和算法-硬件协同设计的发展。
陈文杰[7](2021)在《高速高精度矩阵求逆器的设计与实现》文中研究指明随着技术的发展和应用需求的提升,神经网络、数字信号处理、无线通信技术等领域中涉及到大量高精度浮点数运算。而矩阵运算作为信号处理的基础运算在各个领域中得到广泛应用。求逆运算是矩阵运算中最复杂的运算。传统的求逆算法由于运算复杂度过高,过程复杂不利于硬件实现。因此,国内外大量研究团队提出了一系列矩阵求逆的方法,并在硬件上进行验证和实现。矩阵求逆运算的运算复杂度与阶数三次方成正比,现有的矩阵求逆器的面向对象大多数为一些基于定点数的特殊矩阵或者定规模矩阵。因此,设计一款面向高精度高维度的硬件矩阵求逆器具有十分重要架构探索意义和工程实用价值。综上所述,本文在深入研究了现有矩阵求逆算法和硬件实现架构,开展了以下主要工作:(1)对现有矩阵求逆算法进行分析和探究,根据算法本身的运算复杂度,硬件实现复杂度和数值稳定性等特点,选取基于按列Givens旋转的矩阵分解算法,并在其基础上综合使用原位替换的并行Column-wise Givens Rotation(CGR)分解方法,和分块求逆的上三角矩阵求逆方法,充分发挥算法并行特性,确保实际电路性能。(2)根据CGR算法的特性,设计了矩阵求逆运算的硬件加速器,用于加速双精度浮点方阵的求逆。在矩阵的QR分解过程中,优化二维脉冲阵列结构,设计了一维线性结构,该结构充分发挥了CGR算法的流水化计算过程特征,压缩了分解过程中的运算周期。(3)按照标准ASCI流程完成了仿真验证、综合实现、后端优化以及版图实现,最后在Xlinx XC7V440T FPGA平台上搭建验证环境并验证。实验结果表明,本文设计的矩阵求逆器可支持任意2-32阶的双精度浮点数矩阵求逆运算,在TSMC28nm工艺下,该求逆器支持工作频率为700MHz,芯片面积为1.08mm2,可在14123个周期内完成32阶双精度浮点矩阵求逆运算,计算结果与MATLAB的平均相对误差在10-8以下,频率归一后其性能是AMD Ryzen 5 3500U CPU的40倍,面积归一后性能是NVIDIA RTX3070 GPU的118倍。
明小满[8](2021)在《面向稀疏神经网络的片上系统设计与实现》文中认为深度神经网络算法具有很高的精度,因此受到很多智能计算领域的关注。但是深度神经网络算法的高精度是以巨量的参数和计算量为代价的,这阻碍了大规模的神经网络算法应用在存储空间、能量和计算能力有限的智能硬件平台中。理论上,神经网络的剪枝技术可以大幅度的降低深度神经网络的数据规模和计算量。但是,由于经过剪枝处理的稀疏神经网络的数据具有不规则性,现有的硬件平台执行稀疏神经网络算法面临两个挑战。第一、数据的访存效率低。第二、稀疏神经网络的解码复杂度较高,解码过程增加了大量额外的计算。另一方面,现有的神经网络算法种类繁多,新的算法不断被提出。CPU+FPGA加速器搭建的领域专用SoC平台同时具备灵活性和高性能的特点,采用这类平台运行神经网络算法是一个不错的选择。基于RISC-V指令集设计的开源SoC生成器Rocket Chip支持实现多种形态的SoC,这为课题研究提供了良好的平台。基于此,本文将面向稀疏神经网络算法的应用设计并实现RISC-V架构的领域专用SoC。为了使稀疏神经网络算法能够在SoC平台中高效运行,本文从稀疏神经网络的权重存储方法和稀疏神经网络加速单元的设计这两个方面展开研究。针对稀疏神经网络中数据访存效率低的问题,本文提出了动态ELL编码压缩存储稀疏权重的方法,并且根据神经网络的算法特点,基于动态ELL稀疏权重编码和直接存储方法提出了混合存储权重的策略。将采用这种混合存储权重的CNN运行在配置有通用神经网络协处理器的RISC-V SoC中,相比于将直接存储稀疏权重的CNN运行在目标平台上,系统整体性能有显着提升。并且随着CNN的稀疏度增加,将采用混合存储权重的CNN运行在目标平台上系统性能提升越多。针对稀疏神经网络解码复杂度高的问题,本文将设计能够筛选有效神经元的稀疏向量内积协处理器。并且在RISC-V SoC中,CPU调用此协处理器执行稀疏全连接层中的向量内积计算,相比于CPU调用通用的向量内积协处理器执行算法,采用稀疏向量内积协处理器有明显的加速效果。并且稀疏神经网络中全连接层的规模越大,稀疏度越高,稀疏向量内积协处理器对系统的整体性能提升越多。总的来说,本次课题研究在一定程度上解决了稀疏神经网络在硬件平台运行过程中存在的问题。课题中提到的稀疏神经网络应用方法,有助于将更大规模的神经网络算法部署到硬件平台。
邱俊豪[9](2020)在《高速高精度矩阵运算器的设计与实现》文中认为随着大数据时代的到来,人工智能、云计算等新兴技术被广泛使用,现代数字信号处理系统需要实时处理高维度、高精度以及高带宽的复杂信号。矩阵运算作为信号处理系统的重要基础运算,有着广泛的应用。其中矩阵求逆是最复杂也是应用最广的运算之一,受到国内外学者重点关注,提出了大量有效的矩阵求逆算法,并通过不同的硬件平台进行了验证与实现。矩阵求逆的运算量随矩阵规模的增大呈指数增大,而硬件实现的资源有限。故常见的矩阵求逆多以特殊矩阵或者小规模矩阵为对象,用于大规模任意矩阵求逆的方法及其硬件实现的研究较为少见。在当今时代背景下,大规模非奇异矩阵求逆是数字信号处理中极具挑战且不可避免的课题之一,具有重要的现实意义与工程价值。针对上述问题,本文对矩阵求逆算法以及其硬件架构设计进行了深入研究。主要内容如下:(1)分析研究矩阵求逆的各类算法,根据数值稳定性、运算复杂度以及硬件实现难度等因素,选定基于Givens-QR分解的矩阵求逆算法。然后,根据算法的运行特性,设计了基于原位替换的混合粒度并行Givens-QR分解算法和上三角矩阵求逆的分块递归算法,充分挖掘算法的运算并行度。(2)根据优化的求逆算法,设计了以矩阵求逆为核心的矩阵运算硬件加速器。论文在二维脉动阵列结构的基础上设计了一种一维线性流水结构,有效压缩运算资源。运算器可以直接加速2-32阶双精度浮点矩阵求逆,兼容了线性矩阵运算、矩阵阵乘以及矩阵转置操作。(3)完成矩阵运算器的全部前后端设计工作,并在Xilinx XC7V2000T型FPGA平台上搭建验证环境并完成验证。结果表明,本文设计的矩阵运算器在TSMC28nm工艺下,工作主频700MHz,芯片面积为2.25mm2,能够完成全部预定矩阵运算功能,其中32阶双精度浮点矩阵求逆耗时14910个周期内,计算精度达到10-15,其速度是NVIDIA RTX2070 GPU的140倍。
曹亚松[10](2020)在《面向稀疏矩阵向量乘的DMA设计与验证》文中指出稀疏矩阵向量乘法(SpMV)是求解稀疏线性方程组的计算核心,被广泛应用到经济学模型、信号处理等科学计算和实际应用中。在工程应用中,重复调用稀疏矩阵向量乘内核的次数常常会达到成千上万次。但是SpMV的浮点计算操作和存储访问操作比率却非常低,且存储访问复杂。因此,提升SpMV的计算性能成为提高工程效率的关键。目前对于提高SpMV计算性能方法的研究有稀疏矩阵数据压缩算法、稀疏矩阵数据存储格式预测算法、异构高性能硬件计算结构、Cache结构优化等,旨在提高数据运算速度和减少对内存的访问次数。然而,在SpMV的计算过程中存在Cache数据不命中和Cache容量的限制等问题,使得Cache数据不命中情况大量存在,由此产生的存储访问延迟降低了SpMV的计算性能。M处理器是国防科技大学课题组自主研发的高性能多核处理器,拥有多个DSP内核。每个内核计算资源丰富,支持单周期最多达50次并行乘加计算,拥有双向量Load/Store控制单元提供向量计算所需数据。其DMA部件有三条主机物理通道,可实现数据在核内与核外各存储部件之间的高速传输。本文根据项目对高性能共轭梯度算法(High Performace Conjugate Gradient)的计算性能的需求,结合处理器单元结构,提出了一种数据传输方式—SGDTM(Super Gather Data Transfer Mode),增强离散间接访存效率,从而提高存在访存瓶颈类算法的计算性能。在DMA部件中,参考通用主机物理通道的设计思想,设计了一条专用数据通道APip(Application Pipe)来实现SGDTM数据传输方式。本文的主要工作内容体现在以下几个方面:1、结合本课题中处理器结构和资源,提出了一种增强离散间接访存效率的传输方式——SGDTM。详细的介绍了此种传输方式的访存原理。2、为了在M处理器实现SGDTM传输方式,在原DMA部件中设计添加了一条面向SpMV计算的专用主机物理通道APip。详细介绍了该通道的主要结构的实现过程,主要包含状态机部分、读索引部分、读数据部分、异常检测部分以及传输结束部分。3、对增添了APip通道的DMA进行了模块级的验证。根据设计规范,确定了详细的验证计划,采用Verilog硬件描述语言搭建验证平台,详细的介绍了各组件的设计方案。分析覆盖率文件,增加测试激励,对DMA进行全面的验证。除去部分可以解释未覆盖原因的代码,覆盖率达到100%。4、在某厂家40nm工艺条件下,使用DC综合工具对DMA模块进行了逻辑综合。综合结果满足项目对DMA的时序、面积、功耗等的需求。5、对SpMV计算性能进行了系统级评估。介绍了SpMV算法结构和应用程序的设计实现,以及性能测试原理。分析处理器中可能影响该算法性能的瓶颈,分别从软件程序层面和硬件结构层面进行优化。优化后,SpMV性能有比较明显的提升,其双精度浮点操作达14.62 GFLOPS,带宽利用率为12.31%。
二、矩阵的存储及存储地址研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、矩阵的存储及存储地址研究(论文提纲范文)
(1)一种用于SAR成像的数据存储系统设计方法(论文提纲范文)
1 DDR+QDR存储系统 |
2 DDR转置访问高效算法 |
2.1 分块子矩阵数据访问方法 |
2.2 跨BANK数据访问方法 |
3 原位转置 |
3.1 传统片内转置方法 |
3.2 原位转置方法 |
4 矩阵原位转置模式实现结构 |
5 实验测试结果 |
6 结论 |
(2)LDPC码的多路并行编码器实现(论文提纲范文)
0 引 言 |
1 CCSDS标准下LDPC码编码方案 |
2 LDPC码编码器硬件实现 |
2.1 LDPC码的单路编码器架构 |
2.2 LDPC码的多路并行编码架构 |
3 硬件实现结果及分析 |
4 结 论 |
(3)基于RISC-V的神经网络加速器设计(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 论文研究背景 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文主要内容及结构 |
2 RISC-V及卷积神经网络介绍 |
2.1 CPU工作原理 |
2.1.1 RISC-V CPU的基本组成 |
2.1.2 CPU的五级流水线 |
2.1.3 RISC-V指令扩展 |
2.2 卷积神经网络 |
2.2.1 卷积层 |
2.2.2 池化层 |
2.2.3 激活函数 |
2.2.4 反向传播 |
2.2.5 多层神经网络的作用 |
2.3 本章小结 |
3 基于RISC-V的神经网络加速器设计 |
3.1 系统整体架构 |
3.2 E203 内核 |
3.3 NICE可扩展指令模块 |
3.3.1 NICE接口 |
3.3.2 NICE指令扩展 |
3.4 协处理器的设计 |
3.4.1 乘累加单元的设计 |
3.4.2 缓冲器设计 |
3.4.3 池化与激活模块的设计 |
3.4.4 并行结构的设计 |
3.4.5 数据复用的设计 |
3.4.6 控制单元的设计 |
3.4.7 协处理器整体架构 |
3.5 本章小结 |
4 电路仿真与验证 |
4.1 仿真平台介绍 |
4.2 系统功能仿真 |
4.2.1 乒乓缓冲模块仿真 |
4.2.2 脉动阵列模块仿真 |
4.2.3 池化与激活模块仿真 |
4.2.4 系统仿真 |
4.3 实验和资源分析 |
4.4 本章小结 |
结论 |
参考文献 |
致谢 |
(4)基于FPGA的长码私钥放大算法及其应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
1.4 本文结构安排 |
第二章 私钥放大基础知识 |
2.1 私钥放大算法原理 |
2.2 私钥放大的有限码长效应 |
2.3 实现私钥放大算法的关键技术 |
2.3.1 哈希函数 |
2.3.2 私钥放大运算 |
2.3.3 线性反馈移位寄存器 |
2.4 几种不同的私钥放大算法方案 |
2.4.1 基于LFSR实现的私钥放大算法 |
2.4.2 基于平行四边形分块实现的私钥放大算法 |
2.4.3 基于改进FFT运算实现的私钥放大算法 |
2.5 本章小结 |
第三章 私钥放大算法的FPGA实现 |
3.1 总体方案设计 |
3.2 子模块方案设计 |
3.2.1 矩阵构造模块 |
3.2.2 矩阵数据提取模块 |
3.2.3 私钥放大运算模块 |
3.2.4 高速数据接收模块 |
3.2.5 同步控制模块 |
3.3 本章小结 |
第四章 实验结果与分析 |
4.1 子模块实验测试结果 |
4.1.1 LFSR计算模块 |
4.1.2 矩阵数据提取模块 |
4.1.3 私钥放大计算模块 |
4.1.4 高速数据接收模块 |
4.2 总体方案实验测试结果 |
4.3 算法性能分析 |
4.4 本章小结 |
第五章 总结与展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(5)基于DDR3的星载动态载荷缓存调度及管理技术研究(论文提纲范文)
摘要 |
abstract |
1.绪论 |
1.1 课题研究背景及意义 |
1.2 国内外现状分析 |
1.2.1 调度算法现状分析 |
1.2.2 星上路由及存储系统现状分析 |
1.3 课题研究内容 |
1.4 论文结构 |
2.星载高速缓存需求分析及系统方案设计 |
2.1 高速缓存需求分析 |
2.2 缓存芯片选择和需求计算 |
2.3 DDR3 SDRAM阵列硬件设计 |
2.4 系统硬件架构设计 |
2.5 模块划分及功能介绍 |
2.6 本章小结 |
3.动态调度算法及缓存管理研究 |
3.1 动态数据调度问题分析及方案设计 |
3.2 调度算法研究 |
3.2.1 加权轮询算法WRR简介 |
3.2.2 改进型加权轮询算法原理 |
3.2.3 路由调度工作原理 |
3.3 改进型WRR调度算法实现 |
3.3.1 码率检测模块设计 |
3.3.2 WRR调度控制器设计 |
3.3.3 缓存请求模块设计 |
3.4 路由调度单元实现 |
3.4.1 路由调度控制器设计 |
3.4.2 数据流量控制模块设计 |
3.5 缓存空间管理方案 |
3.5.1 BAT表设计 |
3.5.2 缓存管理模块设计 |
3.6 本章小结 |
4.DDR3 SDRAM驱动实现及接口设计 |
4.1 DDR3 SDRAM驱动模块设计 |
4.1.1 DDR3 SDRAM功能描述 |
4.1.2 DDR3 SDRAM工作状态及命令 |
4.1.3 DDR3 SDRAM IP core用户端口 |
4.1.4 DDR3 SDRAM读写模式设计 |
4.2 载荷传输接口设计 |
4.2.1 SRIO传输协议及时序 |
4.2.2 上层用户逻辑设计 |
4.3 LVDS接口设计 |
4.4 CCSDS空间数据协议 |
4.5 本章小结 |
5.实验验证和分析 |
5.1 验证方法 |
5.2 各模块验证 |
5.2.1 GTH接口传输测试验证 |
5.2.2 AOS组帧编码模块测试验证 |
5.2.3 WRR队列调度单元测试验证 |
5.2.4 DDR3 SDRAM驱动测试验证 |
5.2.5 BAT表读取和更新测试验证 |
5.3 系统级测试验证 |
5.4 本章小结 |
6. 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及所取得的研究成果 |
致谢 |
(6)基于算法-硬件协同设计的高性能人工智能计算(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.1.1 课题的背景:算力的需求和供应差距 |
1.1.2 高性能人工智能计算的目的和意义 |
1.2 国内外研究现状 |
1.2.1 通用处理器和领域专用架构 |
1.2.2 人工智能芯片 |
1.2.3 深度神经网络模型压缩与加速 |
1.2.4 现有研究中存在的不足 |
1.3 本文的主要研究内容 |
第2章 算法-硬件协同设计 |
2.1 引言 |
2.2 算法设计和硬件设计矛盾 |
2.3 高性能人工智能计算的算法-硬件协同设计方法 |
2.3.1 协同设计流程 |
2.3.2 算法优化方法 |
2.3.3 硬件定制方法 |
2.3.4 细粒度协同设计空间探索 |
2.4 本章小结 |
第3章 基于FPGA的搜索引擎选取服务加速 |
3.1 引言 |
3.2 背景和相关工作 |
3.2.1 选取服务 |
3.2.2 选取服务性能瓶颈分析 |
3.3 FlexSaaS异构加速器系统 |
3.3.1 系统概述 |
3.3.2 匹配算法-匹配处理器协同设计 |
3.3.3 索引流读取微结构定制 |
3.3.4 统一存储访问 |
3.3.5 系统灵活性和可扩展性支持 |
3.4 实验与分析 |
3.4.1 FlexSaaS系统实现 |
3.4.2 FPGA资源利用 |
3.4.3 加速分析 |
3.4.4 系统整体性能 |
3.5 本章小结 |
第4章 基于组平衡稀疏的模型压缩与加速 |
4.1 引言 |
4.2 背景和相关工作 |
4.2.1 非结构化稀疏与结构化稀疏 |
4.2.2 权值稀疏模型有效性和硬件高效性的权衡 |
4.3 组平衡稀疏神经网络 |
4.3.1 组平衡稀疏:硬件友好型稀疏模式 |
4.3.2 深度神经网络的组平衡剪枝(稀疏化)算法 |
4.3.3 组平衡稀疏矩阵乘法的GPU实现 |
4.4 实验与分析 |
4.4.1 组平衡剪枝分析 |
4.4.2 GPU矩阵乘法基准测试 |
4.4.3 不同任务和模型的实验结果 |
4.4.4 组大小分析 |
4.5 本章小结 |
第5章 基于FPGA的组平衡稀疏LSTM网络加速 |
5.1 引言 |
5.2 背景和相关工作 |
5.2.1 LSTM网络 |
5.2.2 稀疏神经网络硬件加速 |
5.3 基于FPGA的组平衡稀疏矩阵计算和存储 |
5.3.1 高并行稀疏矩阵向量乘法设计 |
5.3.2 无需解码的稀疏矩阵存储格式 |
5.4 基于FPGA的组平衡稀疏LSTM加速器 |
5.4.1 系统概述 |
5.4.2 稀疏矩阵向量乘法单元 |
5.4.3 向量按位操作单元 |
5.4.4 控制器 |
5.5 实验与分析 |
5.5.1 实验设置 |
5.5.2 量化组平衡稀疏模型 |
5.5.3 组平衡稀疏LSTM的FPGA加速器高效性 |
5.5.4 讨论:英伟达细粒度结构化稀疏和稀疏张量核 |
5.6 本章小结 |
第6章 基于数值量化预测特征稀疏的CNN加速 |
6.1 引言 |
6.2 背景和相关工作 |
6.2.1 卷积神经网络中的特征稀疏 |
6.2.2 模型稀疏化与数值量化相关工作 |
6.3 SeerNet设计与实现 |
6.3.1 基于数值量化预测特征稀疏 |
6.3.2 基于特征稀疏剪枝卷积计算 |
6.4 实验与分析 |
6.4.1 数据集和模型 |
6.4.2 模型整体准确率 |
6.4.3 推理加速 |
6.4.4 量化预测分析 |
6.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(7)高速高精度矩阵求逆器的设计与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 课题来源 |
1.4 主要工作内容 |
1.5 论文结构 |
第二章 矩阵求逆介绍 |
2.1 矩阵求逆运算 |
2.1.1 矩阵求逆方法介绍 |
2.1.2 矩阵求逆方法对比 |
2.1.3 三角矩阵求逆方法 |
2.2 矩阵求逆算法优化 |
2.2.1 基于CGR(Column-wise Givens Rotation)翻转的QR算法 |
2.2.2 上三角矩阵求逆算法优化 |
2.2.3 矩阵乘优化 |
2.2.4 优化分析 |
2.3 线性矩阵求逆分析 |
2.3.1 线性矩阵分析 |
2.4 本章小结 |
第三章 高速高精度矩阵求逆器的硬件实现 |
3.1 矩阵求逆器硬件实现介绍 |
3.2 矩阵求逆器的硬件架构和工作流程 |
3.2.1 硬件架构 |
3.2.2 矩阵求逆器的工作流程 |
3.3 控制逻辑单元设计 |
3.4 不可逆矩阵判断单元设计 |
3.4.1 线性矩阵判断 |
3.5 CGR分解单元设计 |
3.5.1 细粒度并行结构介绍 |
3.5.2 基于Givens-QRD算法的二维脉动阵列分解结构介绍 |
3.5.3 基于CGR-RD算法的一维分解结构介绍 |
3.6 矩阵乘和三角矩阵求逆设计 |
3.7 存储单元及存储规则设计 |
3.8 地址生成单元及地址规则设计 |
3.8.1 源矩阵存储地址规则 |
3.8.2 CGR-QR分解地址规则 |
3.8.3 上三角矩阵求逆地址规则 |
3.8.4 矩阵阵乘地址规则 |
3.9 交叉开关设计 |
第四章 矩阵求逆器的验证与性能分析 |
4.1 验证方案 |
4.2 MATLAB算法验证 |
4.3 UVM验证 |
4.3.1 UVM简介 |
4.3.2 验证平台框架 |
4.3.3 验证平台搭建 |
4.3.4 代码覆盖率收集 |
4.4 硬件验证 |
4.4.1 ASIC验证版图 |
4.4.2 硬件资源分析 |
4.4.3 不可逆矩阵测试 |
4.4.4 误差分析 |
4.4.5 运算周期分析 |
4.5 性能分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(8)面向稀疏神经网络的片上系统设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 稀疏神经网络应用方法的研究历史与现状 |
1.2.1 剪枝策略 |
1.2.2 稀疏数据的编码方式 |
1.2.3 稀疏神经网络加速器 |
1.3 本文的主要贡献与创新 |
1.4 本论文的结构安排 |
第二章 稀疏神经网络和片上系统设计与实现的基础 |
2.1 稀疏神经网络的原理 |
2.1.1 卷积神经网络 |
2.1.2 低精度计算 |
2.1.3 剪枝技术 |
2.1.4 稀疏矩阵存储方式 |
2.2 片上系统的设计基础 |
2.2.1 片上系统的硬件结构 |
2.2.2 片上系统的软件结构 |
2.3 片上系统软硬件的有机结合 |
2.4 本章小结 |
第三章 稀疏神经网络的权重存储方法研究 |
3.1 目标平台 |
3.2 稀疏权重编码 |
3.2.1 传统稀疏权重编码的特点分析 |
3.2.2 动态ELL稀疏权重编码的设计 |
3.3 面向目标平台的稀疏权重存储策略研究 |
3.3.1 应用实例分析 |
3.3.2 稀疏卷积神经网络权重的存储分布 |
3.4 本章小结 |
第四章 稀疏神经网络推断加速器设计 |
4.1 RISC-V扩展指令 |
4.2 协处理器接口 |
4.3 协处理器指令设计 |
4.3.1 访存指令集 |
4.3.2 稀疏向量内积指令集 |
4.4 加速器硬件架构的设计与实现 |
4.4.1 加速器总体设计 |
4.4.2 并行性分析 |
4.4.3 稀疏向量内积加速器设计 |
4.5 数据调度设计 |
4.6 本章小结 |
第五章 实验及结果分析 |
5.1 实验设计 |
5.2 实验方法 |
5.2.1 测试基准 |
5.2.2 动态ELL稀疏权重编码的存储效率验证 |
5.2.3 动态ELL稀疏权重编码的加速效果验证 |
5.2.4 稀疏向量内积加速器的加速效果验证 |
5.3 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(9)高速高精度矩阵运算器的设计与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 主要工作内容 |
1.4 课题来源 |
1.5 论文结构 |
第二章 矩阵运算介绍 |
2.1 矩阵运算算法分析 |
2.2 矩阵求逆运算 |
2.2.1 矩阵求逆方法介绍 |
2.2.2 矩阵分解算法分析 |
2.2.3 三角矩阵求逆 |
2.3 非求逆矩阵运算 |
2.3.1 线性矩阵运算 |
2.3.2 矩阵阵乘 |
2.3.3 矩阵转置 |
2.4 矩阵运算算法优化 |
2.4.1 基于原位存储的混合粒度并行Givens-QR分解算法 |
2.4.2 三角矩阵的分块递推求逆 |
2.4.3 其余矩阵运算优化 |
2.4.4 优化算法分析 |
2.5 本章小结 |
第三章 矩阵运算器的硬件设计与实现 |
3.1 矩阵运算器硬件实现设计 |
3.2 矩阵运算器的硬件架构与工作流程 |
3.2.1 矩阵运算器的硬件架构 |
3.2.2 矩阵运算器的工作流程 |
3.3 控制逻辑单元设计 |
3.4 可重构运算单元设计 |
3.4.1 Givens-QR分解运算单元设计 |
3.4.2 三角矩阵求逆及矩阵阵乘运算单元设计 |
3.4.3 其余矩阵运算计算单元设计 |
3.5 存储单元及存储规则设计 |
3.6 地址生成单元及寻址规则设计 |
3.6.1 源矩阵存储地址跳变规则 |
3.6.2 Givens-QR分解地址跳变规则 |
3.6.3 上三角矩阵求逆地址跳变规则 |
3.6.4 矩阵阵乘地址跳变规则 |
3.6.5 其余矩阵运算地址规则 |
3.7 交叉开关设计 |
3.8 外部接口设计 |
3.8.1 AXI接口设计 |
3.8.2 AXI配置信息 |
3.9 本章小结 |
第四章 矩阵运算加速器的验证与性能分析 |
4.1 验证方案 |
4.2 Matlab模型验证 |
4.3 硬件验证 |
4.3.1 验证流程以及ASIC版图 |
4.3.2 资源占用分析 |
4.3.3 运算误差分析 |
4.3.4 运算周期分析 |
4.4 性能分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(10)面向稀疏矩阵向量乘的DMA设计与验证(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景 |
1.1.1 HPCG基准测试程序概述 |
1.1.2 DMA概述 |
1.2 国内外研究现状 |
1.3 课题背景及意义 |
1.4 本文研究内容 |
1.5 论文组织结构 |
第二章 面向SpMV的专用DMA通道设计 |
2.1 稀疏矩阵及其存储格式 |
2.2 SpMV算法分析 |
2.3 SuperGather数据传输模式 |
2.4 DMA结构和功能 |
2.5 APip通道结构设计实现 |
2.5.1 状态机部分设计 |
2.5.2 读索引部分的设计 |
2.5.3 读数据部分的设计 |
2.5.4 异常部分的设计 |
2.5.5 其他部分设计 |
2.6 本章小结 |
第三章 DMA模块的仿真验证与逻辑综合 |
3.1 DMA模块级仿真验证 |
3.1.1 功能验证点文档 |
3.1.2 搭建验证平台 |
3.1.3 代码覆盖率分析 |
3.2 DMA逻辑综合 |
3.3 本章小结 |
第四章 面向M处理器的SpMV算法实现与性能评估 |
4.1 SpMV的算法实现 |
4.1.1 SpMV算法结构 |
4.1.2 SpMV程序设计 |
4.2 M处理器的SpMV性能测试与优化 |
4.2.1 SpMV性能计算原理 |
4.2.2 软件优化 |
4.2.3 硬件优化 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 论文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
作者简介 |
四、矩阵的存储及存储地址研究(论文参考文献)
- [1]一种用于SAR成像的数据存储系统设计方法[J]. 王威,曹越,喻忠军. 太赫兹科学与电子信息学报, 2021(05)
- [2]LDPC码的多路并行编码器实现[J]. 石硕,王瑞雪,李慧,韩昌彩. 电子测量与仪器学报, 2021(07)
- [3]基于RISC-V的神经网络加速器设计[D]. 崔庆勋. 大连理工大学, 2021(01)
- [4]基于FPGA的长码私钥放大算法及其应用研究[D]. 费照轩. 北京邮电大学, 2021(01)
- [5]基于DDR3的星载动态载荷缓存调度及管理技术研究[D]. 薛栋. 中北大学, 2021(09)
- [6]基于算法-硬件协同设计的高性能人工智能计算[D]. 曹士杰. 哈尔滨工业大学, 2021(02)
- [7]高速高精度矩阵求逆器的设计与实现[D]. 陈文杰. 合肥工业大学, 2021(02)
- [8]面向稀疏神经网络的片上系统设计与实现[D]. 明小满. 电子科技大学, 2021(01)
- [9]高速高精度矩阵运算器的设计与实现[D]. 邱俊豪. 合肥工业大学, 2020
- [10]面向稀疏矩阵向量乘的DMA设计与验证[D]. 曹亚松. 西安电子科技大学, 2020(05)