一、Enhanced 3DNow!vs.SSE(论文文献综述)
邹涛[1](2020)在《基于多核处理器的极化码编解码技术研究》文中认为极化码作为目前唯一能被理论证明可达信道容量编码方案,一经出现就成为了学术热点并在众多研究人员的努力下成为了5G控制信道的编码方案。本文从极化码的基本编译码算法入手,对极化码的快速解码算法、码率兼容和混合自动重传方法、非系统极化码的乘积码编译码算法和极化码软件解码器的设计和应用等方面进行研究。论文主要介绍了极化码的编解码算法,为后续关于极化码的深入研究和应用奠定了理论基础。首先给出了极化码的基本编码方式并详细阐述了信道极化的原理。在此基础上列举了几种常见的极化码构造方式,如巴氏参数法、蒙特卡罗法、转移概率矩阵法、高斯近似法和5G标准中的构造,并给出具体的实现方式。然后详细讨论了二叉树形式的SC解码算法,介绍了SCL解码算法原理,说明了CA-SCL解码算法的工作原理并给出了算法工作的具体流程。最后,根据高斯信道下程序仿真比较了各类解码算法的性能并讨论了不同算法优缺点。论文重点研究了极化码的快速解码算法及SIMD实现。首先介绍了SIMD指令的工作原理和处理方式,研究了极化码的SSC解码算法和基于SSC算法的Fast-SSC算法,讨论了快速算法简化的原理,同时统计了在不同码率下各类节点的分布情况。我们利用多线程和SIMD等并行工具实现了帧间并行的极化码软件译码器,着重介绍了主线程框架和子线程各模块间的工作原理,并给出了各模块的的SIMD实现步骤。论文讨论了程序实现在服务器上实测的情况,给出了不同简化算法的性能和实际吞吐量和时延,同时也分析了不同量化比特对解码器性能的影响。论文进一步研究了极化码的HARQ方案及其SIMD实现。首先简单的介绍了极化码的两种码率兼容技术打孔和缩短,并分析了两种不同的技术在不同码率情况的性能的优劣。在此基础上着重介绍了极化码的HARQ方案原理,包括追踪合并重传、递增冻结重传和递增码长重传等。程序仿真比较了不同重传技术性能的优劣并分析其原因,讨论了不同重传技术在实际应用中的优缺点。我们结合递增码长重传的工作原理提出了重传帧的独立解码方案,介绍了实现的原理和具体的操作流程,并结合程序验证了独立解码的性能也是该码率下最优的。我们实现了极化码的递增码长重传软件系统,并在服务器平台上实测吞吐量,结合数据结进行了分析。基于极化码的编解码研究,我们还关注了极化码的乘积码迭代译码及SIMD实现。首先简单介绍了经典乘积码的构造原理,着重介绍了非系统极化码作为分量码构造的乘积码,讨论了极化码乘积码的构造和编码原理,研究了包括分步解码和SISO解码在内的不同乘积码解码原理。为了降低复杂度,我们将固定翻转的SC算法与Fast-SSC算法相结合设计了一种快速固定翻转SC算法,并将该算法作为乘积码分量码解码器实现了高速乘积码SISO迭代软件译码器,重要的关键步骤给出了具体的SIMD指令集算法,结合程序仿真讨论了不同乘积码解码器性能,根据实测的吞吐量分析了乘积码的SISO译码的加速效果。
高明飞[2](2018)在《用于嵌入式车载安全预警的交通标志检测若干关键技术研究与验证》文中进行了进一步梳理车载安全预警系统可及时为驾驶员提供必要的行车安全预警信息以提高驾驶安全性,其包含若干子系统,如交通标志识别、超速预警等,而交通标志检测则是支撑诸多子系统的重要基础技术之一;本文就针对交通标志检测中基于颜色分割的定位算法及多线程任务调度策略这两项关键技术进行了研究,提出了适用于性能有限嵌入式系统的混合颜色分割策略及混合切换任务调度策略,并通过搭建嵌入式原型样机在实际道路环境中验证了方法的有效性。此外为更好的验证及评估交通标志检测算法的效果,本文建立了中国道路交通标志视频数据集,并将此数据集公开发布以供其他研究人员使用,这也是此领域目前唯一的中国公开数据集。目前主流成熟的交通标志检测定位方法基本均是基于颜色及几何形状局部特征的,本文在此框架下对用于车载安全预警的交通标志检测中最为重要的红色及黄色分割方法展开了深入研究,针对已有主流颜色分割方法的不足提出了混合颜色分割策略,此策略通过若干线性分类器的组合实现了对红色及黄色准确高效的分割,分割效果优于目前常用的各方法且其算法执行速度与最简单的RGB阈值法相似,可保证安全预警算法在性能有限的小型嵌入式车载设备上依然有较好的实时性;在颜色分割基础上本文采用经典的Hough变换实现了对红色圆形交通标志的检测定位并在数据集上评估了算法的效果。本文通过对交通标志检测识别问题进行建模分析提出可用采样间隔时间作为定量衡量此类系统实时性的指标,进而针对目前广泛使用的多核CPU提出了理论最优的理想多线程任务调度算法,此算法可显着降低采样间隔时间以提高系统实时性;不过理想任务调度算法实际无法实现,因此本文进一步提出了实际可实现的混合切换任务调度策略及动态更新参数估计策略;通过控制系统模型数值仿真及实际嵌入式原型样机上的测试验证均表明本文提出的方法可有效优化采样间隔时间分布以此提高系统实时性。本文同时开发了基于Qt的算法验证平台软件及基于Intel Joule模块的嵌入式原型样机,并在其上验证了上述各方法的有效性,最后在校园环境及城市道路上分别进行了静态及动态系统集成测试;测试结果表明本文提出的方法可在小型嵌入式设备上满足系统实时性要求,在天气光照条件较好时检出率也相对较高,不过算法鲁棒性依然需要加强。
袁通[3](2016)在《基于多核处理器的内存数据库查询执行优化研究》文中研究说明随着信息技术的快速发展,各类数据呈爆炸式的增长,数据库系统成为近年来计算机领域的热点研究方向。目前对于数据库系统的研究主要包括:查询执行、查询优化以及数据存储。查询执行是数据库系统的核心部分,包含各种数据库的基本操作,有重要的研究意义。随着半导体技术的发展,单核处理器的性能提升空间十分有限,多核处理器的快速发展,已经成为处理器市场的主流。除此之外,存储器的容量也越来越大,价格越来越便宜,数据库系统中全部数据或者大部分数据放入内存已成为可能。内存数据库的兴起,使研究人员将研究的重点放到了提升数据库算法的运算效率以及提升内存存取效率上,而不再关注硬盘的存取效率。尽管近年来在多核内存数据库查询执行优化技术领域的研究不断取得新的进展,但在利用多核处理器并行资源对一些数据库基本操作进行优化方面,存在有待提高和完善之处。结合目前数据库查询执行领域的研究成果,针对一些数据库基本操作存在的不足,本文利用多核处理器的并行资源对内存数据库中哈希划分算法、自适应索引算法、哈希连接算法进行了优化,其主要工作概括如下:(1)本文总结了多核处理器中解决线程之间冲突的常用方法,这些方法包括:加锁策略、独立空间策略、两次遍历策略,以及并行缓存策略,并分析了这些方法各自的优缺点。在此基础上,针对目前并行哈希划分算法存在的问题,应用和提出了多种改进方法。其中,软件合并写优化先将数据放入较小的缓存区中,当缓存区放满后再放入最终划分结果中,这样可以有效地降低TLB miss数量;绕过缓存优化通过non-temporal writing操作将短期内不再使用的数据直接写入相应的内存地址中,避免通过缓存,提高写操作效率;改进的哈希表支持内存动态分配,保证能够使用软件合并写优化和绕过缓存优化的同时,提高了存取效率,降低了初始化开销;负载均衡优化使得该算法能够适应有倾斜的输入数据。通过实验分析,本文使用的优化方法能够有效地提高并行哈希算法的效率,并使之适应有倾斜的数据样式。(2)本文总结了现有的各种自适应索引算法,并分析其优缺点。在此基础上提出了一种自适应选择优化策略的方法,该方法可以通过划分位置、查询选择率来自动选择优化策略,提升自适应索引算法的效率。除此之外,该方法能根据数据块的查询次数,动态地调整Buffered-swapping Cracking算法中堆结构的大小,提升该算法效率。其次,在原有Adaptive Merging算法的基础上,提出了多核并行Adaptive Merging算法。该方法通过并行排序算法实现了索引结构的初始化,利用线程级并行和基数排序的方法实现了查询语句的执行和索引结构的优化。然后,又研究了多核并行自适应索引算法的优化技术,将加锁并行方法与改进的PartitionMerge算法相结合,在索引中数据块较少时,使用改进的Partition Merge算法,降低线程之间冲突的概率,减少线程等待时间,提高线程利用率;当索引中数据块较多时,使用加锁并行方法,充分利用了多核处理器的并行资源,且提高了算法的鲁棒性。最后,通过实验验证了本文提出的自适应选择优化策略方法、并行Adaptive Merging算法和多核并行自适应索引优化算法的可行性和有效性。(3)本文利用线程级并行和数据级并行优化哈希连接算法。首先提出了基于多核MapReduce模型的并行哈希连接算法,包括非划分哈希连接和划分哈希连接。其次,本文为并行哈希连接算法提出了一种改进的Cuckoo哈希表,该表由传统的Cuckoo哈希表和链式哈希表组成,通过提升哈希表的读写性能来提升并行哈希连接算法的性能。基于上述成果,本文又提出了几种优化方法,包括:利用SIMD指令优化、多步划分优化、负载平衡优化。最后,通过实验验证了本文提出的优化方法可行有效,实验表明:(1)基于多核MapReduce模型的并行哈希连接算法与前期算法相比,取得较好的效果;(2)在多核处理器环境下,划分哈希连接大部分情况下都优于非划分哈希连接,且当线程数量较大时内存存取成为性能瓶颈;(3)影响哈希连接算法性能的因素包括:哈希表的结构、划分数量、划分次数、线程数量、数据集等。
陈航[4](2016)在《低复杂度低功耗AVS高清编码器研究》文中指出多媒体技术的不断发展提升了人们对于视频资源的需求,给视频存储和传输技术带来了很大的挑战。经过多年发展,国际上通用的视频编解码标准也经历了数代的演进,在编码效率方面不断提升,极大促进了视频产业的发展。然而国际视频编码标准的昂贵专利费用给我国视频产业的发展造成了巨大阻碍。为了解决国际音视频编解码标准垄断问题,我国建立了自己的标准制定团队数字音视频编解码技术标准工作组工作组(AVS Workgroup of China),并且于2003年提出了第一代视频编码标准AVS,实现了与H.264/AVC相当的编码效率。经过多年的发展,AVS已经成为一项国际音视频编解码标准。随着对高清、超高清、3D视频需求的增加,第二代视频编码标准AVS2被提出并且刚刚完成,集合了大量最新视频编码技术,极大提升了编码效率。AVS系列标准在我国有着广阔的发展前景与产业基础,然而在实际应用中其复杂度仍然是产业化应用过程中的一个严峻问题,尤其是低功耗多媒体平台上的应用更是有待发掘。本文从实际需求出发,对这一问题进行了研究探索,深入挖掘AVS系列标准从算法到平台多层次的优化潜能,并针对性地改进了在低功耗平台上的高清视频编码效率。本文首先简要回顾了国内外视频编码标准的发展历史,并结合视频产业实际发展需求挖掘了我国AVS系列标准产业化过程中面临的关键问题。在多媒体设备不断发展的背景下,从发展迅速并且产业化潜力巨大的低功耗平台入手对AVS系列标准进行相关优化,研究我国AVS视频标准在高清视频与低功耗应用场景等需求下的复杂度难题。在对AVS与AVS2视频编码标准的对比与分析基础上,本文详细介绍了两种标准的主要模块与关键技术并结合当前研究现状与应用需求对AVS系列标准从不同层次角度进行了优化分析,并进行了相应的研究。对视频编码器的优化主要分为算法优化和平台优化两个方面,本文基于低功耗平台应用的要求,从实际应用出发,对AVS视频编码过程进行了复杂度控制,深入研究了AVS编码器复杂度相关参数与编码视频序列特性之间的关系,建立了基于视频纹理特性的复杂度优化编码参数模式,实现了低功耗平台上在不同编码场景下的高质量快速编码。结合平台特性,本文更从不同角度对AVS编码器进行了指令并行与线程并行两种优化,充分利用单指令多数据指令集与编码器线程并行接口对AVS编码器实现了并行优化,在低功耗平台上实现了数十倍的速度提升,编码功率小于30W,满足了快速编码与低功耗运行的需求。本文更进一步地针对我国最新视频编码研究成果AVS2标准从算法角度进行了研究与优化,针对其高复杂度的帧内编码模块提出了基于纹理信息的帧内快速模式选择与编码单元划分算法,选用梯度信息对视频序列进行纹理分析,从而对帧内预测模式选择进行预判与筛选,大幅度减少了模式选择过程中的计算复杂度,并针对AVS2编码器的编码单元递归划分过程采用了由下而上的划分模式,引入纹理变量对编码单元进行分类,大大缩短了单元划分过程的非必要计算。通过实验证明本文算法能够在PSNR降低小于0.05dB的情况下节省近50%的编码时间,大幅提升了AVS2编码器的编码效率。综上,AVS编码器在我国有着良好的发展基础与广阔的发展前景,对AVS及AVS2编码器的优化对我国视频编解码进展有着重要的研究和应用价值。
夏睿杰[5](2015)在《基于FT-Matrix2的自动向量化关键技术研究与实现》文中认为FT-Matrix2 DSP是国防科技大学微电子所自主研发的一款面向图像处理、视频和无线通信的高性能DSP。其采用向量和多发射超长指令字体系结构。其中,SIMD指令在FT-Matrix2指令集中的数量占比达到了近50%,而这些指令是芯片整体性能得到提升的关键。因此,FT-Matrix2编译器中SIMD向量化能力直接影响着芯片的运行效率。本文基于GCC平台研究并实现了FT-Matrix2编译器的自动向量化技术。本文根据FT-Matrix2体系结构特征,通过添加FT-Matrix2向量后端支持以及在自动向量化过程中增加DMA自动传输实现向量访存等技术,使得FT-Matrix2编译器能够尽量挖掘用户C程序的自动向量化部分,从而提高芯片的运行效率。本文的主要工作包括以下几个方面:(1)对GCC的编译结构、自动向量化框架进行了深入的分析。首先熟悉了GCC的结构框架,然后定位了自动向量化优化在GCC内部的位置,最后分析了自动向量化的的结构框架。通过对上述问题的深入分析,确定了基于GCC平台实现FT-Matrix2的向量化方法和步骤。(2)基于FT-Matrix2体系结构和指令集,在GCC中实现了SIMD指令自动向量化映射。其主要工作包括:添加向量寄存器描述,向量数据机器模式,向量指令描述,汇编输出等。(3)基于FT-Matrix2的自动向量化访存实现。基于FT-Matrix2体系结构向量访存的特点,在GCC中实现了基于DMA的自动数据传输功能,使得编译器能够根据向量程序要求自动生成向量数据搬移代码,实现了FT-Matrix2自动向量化的向量访存。(4)基于本文的研究工作,对DSP常用算法FFT进行了自动向量化实现,测试结果表明:基于FT-Matrix2 Compiler的自动向量化较-O2级优化非向量化性能有明显的提高,而较intrinsic方式向量化性能较低。
高伟,赵荣彩,韩林,庞建民,丁锐[6](2015)在《SIMD自动向量化编译优化概述》文中研究指明SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
徐颖[7](2014)在《编译指导的自动向量化关键技术研究》文中指出主流通用微处理器都已支持SIMD体系结构,面向SIMD的自动向量化是提高程序性能的重要手段。而在程序中手工加入指导命令,辅助编译器提升自动向量化能力的编译优化技术也已成为一个重要的发展趋势。本文研究编译指导的自动向量化技术。最新的OpenMP 4.0规范加入了面向SIMD体系结构的编译指导,目的在于直接指导循环的自动向量化。GCC作为广泛使用的开源编译器,适合研究各类编译优化技术的具体实现,2014年4月发布的GCC 4.9.0正式版已能识别OpenMP 4.0规范中定义的SIMD编译指导。本文首先研究OpenMP的SIMD编译指导。OpenMP应用编程接口是面向共享主存多处理机系统进行并行程序设计的事实标准,用户通过在程序中手工加入OpenMP编译指导,能实现程序的多线程并行。本文分析了SIMD编译指导的设计和使用方法,以及它在GCC 4.9.0中的实现情况,并分别测试了SIMD编译指导在ICC编译器和GCC编译器下对循环性能的影响。然后,本文研究紧嵌套循环与OpenMP规范中的collapse从句结合后的自动向量化效果。主要剖析了collapse从句如何影响紧嵌套循环在中间表示层的变化,之后对OpenMP三种结构下的collapse从句对紧嵌套循环自动向量化效果的影响做实验测试,分析了其在GCC现有实现中的不足。最后,基于GCC编译器,重新设计了loop结构下collapse从句在OpenMP扩展遍中的实现。实验结果表明对GCC编译器的改进能使collapse从句下的循环成功向量化,并有性能提高。
李荣春[8](2014)在《基于GPU的软件无线电并行算法与系统结构关键技术研究》文中认为随着信息化发展和科技进步,宽带无线通信正在改变着人们的生活方式,人们可以随时随地享受着无线通信带来的生活便利。但是通信协议的日新月异,需要移动终端需要支持多种通信模式,例如个域网、局域网、城域网、广域网。软件无线电可以实现在不改变硬件结构的情况下,可以支持多种通信模式和通信协议。在这些无线通信协议中,MIMO技术的信道容量与发射端和接收端的最小天线数成线性关系,这使得MIMO技术成为无线通信应用最广泛的技术之一。同时,OFDM技术由于较高的频谱利用率、能有效对抗无线信道多径衰落和易于实现的特点,也成为最不可或缺的无线通信技术。目前较为先进的无线通信协议都融入了MIMO技术和OFDM技术,形成MIMO-OFDM无线通信。无线通信由于实际需要,要求具备高速率、高保真、低延迟、多用户的特点,这就需要无线通信系统不仅仅具有较高吞吐率和处理能力,同时需要有较低的误码率。MIMO-OFDM无线通信物理层主要有三类算法:信道纠错编译码算法、OFDM算法、MIMO检测算法。本文在GPU平台上提出了细粒度软件无线电通信算法,并创造性地利用GPU构建了软件无线电实时通信系统。具体的讲,主要进行了如下研究:1)提出了以CPU为控制器、GPU为基带处理器的异构软件无线电平台Cu Sora。该平台将Sora无线电平台和GPU处理器相结合,利用Sora平台无线电前端和系统整体框架收发无线信号、完成MAC层的处理,同时利用GPU处理器对系统物理层进行处理,使得吞吐率和误码性能满足无线通信协议的要求。Cu Sora平台同时设计了MAC层控制器,可以完成多模式多标准协议通信的相互切换。2)提出了基于GPU的细粒度并行编译码算法和GPU加速器结构。本文针对目前较为常见的卷积码、Turbo码和LDPC码,分析了三种纠错码计算特性,针对GPU平台选择了合适的改进算法,分别提出了基于GPU的细粒度并行算法,在取得良好并行性的同时,利用有效的误码性能保护机制,降低并行算法对误码率的影响。本文利用Fermi架构的GPU处理器实现了三种纠错码的高吞吐率高误码性能编码器和译码器。相对于通用处理器实现,三种GPU译码器可以获得两个到三个数量级的性能提升,同时都优于目前其他同类的译码器。3)提出了基于GPU的细粒度并行OFDM算法和GPU加速器结构。本文针对目前较为常见的OFDM调制解调、同步、信道估计等常见OFDM算法,分析了三类算法的计算特性,分别提出了基于GPU的细粒度并行算法。并行算法在取得良好并行性的基础上,有效地保证了各个子载波携带样本信息的正确性和子载波之间样本信息的重组和交换。本文利用Fermi架构的GPU处理器实现了三类OFDM并行算法的加速器,采用了多种加速优化方法,相对于无线协议的实时吞吐率,GPU加速器最终吞吐率可以获得一到两个数量级的性能提升。4)提出了基于GPU的细粒度并行MIMO检测算法和GPU加速器结构。本文针对PIC MIMO检测算法,分析了该类算法的计算特性,提出了基于GPU的细粒度并行算法。算法在取得良好并行性的基础上,有效地还原了各个接收向量的复数样本信息。最后利用Fermi架构的GPU处理器实现了PIC检测并行算法的加速器。相对于通用处理器,GPU加速器可以获得两个数量级的吞吐率提升,同时优于目前其他MIMO检测器。5)提出并实现了基于GPU的软件无线电原型系统。本文针对目前通用的Wi Fi(802.11a)、Wi MAX(802.16d)无线通信协议,分析两种无线通信协议物理层的算法模块链路,提出了基于GPU的OFDM无线通信参数化软件无线电系统结构。本文利用上述基于GPU的物理层中典型编译码并行算法、OFDM并行算法和MIMO检测并行算法,组合实现两种通信协议的物理层;以Cu Sora平台为基础,设计并实现了基于GPU的软件无线电原型系统,实现实时无线传输。相对于Sora软件无线电系统,本文实现的软件无线电原型系统传输速率可取得10%到30%的提升。各个算法模块的吞吐率都普遍优于Sora无线电系统实现。同时,本文基于Cu Sora的无线电系统中各个模块性能优于目前其他CPU、DSP、FPGA平台实现的同类模块性能。
黄娟娟[9](2013)在《多线程多SIMD自动向量化技术研究》文中认为当前,主流通用微处理器都已经实现了多核并行以及处理器核内的SIMD并行。多线程并行且每个线程尽可能地利用SIMD并行是充分开发此类微处理器性能的必然选择。多核多SIMD体系结构的发展需要与之相适应的编程模型和编译优化技术。本文研究多线程多SIMD并行下的自动向量化技术。OpenMP编程接口和编译实现是广泛使用的多线程并行机制,典型编译器都可以在支持OpenMP并行的同时实现面向SIMD的自动向量化,但是效果还不是很理想。本文首先介绍了面向SIMD并行的自动向量化技术,基于GCC编译器剖析了自动向量化编译框架,并详细分析了自动向量化的实现过程。其次,通过对典型并行循环的测试分析,发现GCC目前已支持多种多线程并行下的自动向量化,但是对于一些赋值类循环,编译结果显示不能进行自动向量化。之后,针对GCC编译器的OpenMP编译实现和自动向量化编译实现,本文分析了OpenMP编译实现过程,着重分析了GCC编译器的自动向量化代价模型。自动向量化代价模型抽象出了自动向量化所要考虑的诸多因素。通过分析,发现GCC中自动向量化及代价模型对多线程程序的数据对齐属性判断不准确,导致自动向量化代价模型对多线程程序的代价计算不够准确,影响了一些赋值类循环在多线程下的自动向量化。最后,实现了基于数据对齐属性指导的GCC自动向量化优化。扩展了OpenMP指导命令,添加了指导数据对齐属性的子句(aligned)。通过修改OpenMP编译的前端和中端,将数据对齐属性传递到编译器的自动向量化阶段,使自动向量化代价计算更加准确,针对一些循环实现了多线并行的同时也能自动向量化。实验表明,本文的工作针对嵌套赋值循环有比较好的加速效果。
房骥[10](2013)在《基于多核CPU的软件无线电平台研发及应用技术研究》文中指出随着移动通信的飞速发展,传统基于专用硬件实现的通信设备由于功能单一且固定,造成各通信标准和系统之间不能互相兼容,而且升级困难。而软件无线电技术可以很好地解决这些问题,它可以将不同无线电系统整合在同一通用硬件平台上,利用软件实现无线通信协议,充分发挥软件的灵活性。目前,很多软件无线电平台都是基于可编程硬件实现,如现场可编程门阵列或嵌入式数字信号处理器。这样的硬件平台虽然能满足现代高速无线通信协议对数字信号处理能力及时间的要求,但是编程相对困难。相比之下,基于通用处理器架构(如:普通PC)的软件无线电平台在性能与开发难易度方面提供了新的权衡,程序员在一个熟悉的架构与开发环境中,使用相对便宜的射频板卡就可以实现新的无线通信协议。但是,由于PC的硬件和软件并不是专为无线信号处理而设计,现有基通用处理器的软件无线电平台只能实现有限的性能。针对基于通用处理器的软件无线电平台所带来的挑战与机遇,本文以交叉学科思想,结合计算机与通信学科,介绍了基于多核CPU的软件无线电平台-SORA;针对无线通信中信号处理的特点设计并实现了一个高效、模块化的软件编程模型-CORA;基于SORA软件软件无线电平台及CORA编程模型实现了IEEE802.11n2x2MIMO系统;利用软件无线电天然跨层特性,对目前无线局域网中MAC协议效率低下的问题进行分析,并提出跨层解决方案-FICA。论文的主要工作和创新点可以归纳为以下几个方面:1.基于多核CPU实现了软件无线电平台-SORA。通过分析无线通信协议中物理层与MAC层的特性,提出基于通用处理器的软件无线电平台所需具备的条件,并基于多核CPU实现了软件无线电平台-SORA,并通过实验验证了系统的高性能性。SORA利用现代处理器中多核心及高容量、低延迟缓存结构,通过查找表、SIMD并行指令、多核流水线处理及独占CPU核心等技术,加速无线信号处理的速度,满足了系统对无线通信协议中延迟及定时的需求。同时,基于SORA平台,实现了一个实时802.11a/b/g无线通信系统,该系统可以实时处理物理层编/译码以及MAC层协议,可以与商业802.11设备无缝地相互通信,在各调制速率下,达到与商业802.11设备相似的性能。2.设计并实现了一个灵活、模块化的信号处理编程模型-CORA。SORA展示了当代通用处理器的计算能力可以满足高速无线通信协议中数字信号处理的需求,但是在实际中使用软件实现高速信号处理仍然是一项具有挑战性的任务。程序员需要具备大量的优化经验,甚至使用底层汇编指令,通过这样的方式实现的程序往往结构凌乱,难以实现代码复用,程序难以并行化,因此需要建立一个高效、模块化的数字信号编程模型。本文在SORA软件架构的基础上,针对无线通信中数字信号处理的特点,利用现代处理器结构中多核心并行处理的特点,结合现代编译器的优化能力,提出了一个灵活、模块化的编程模型-CORA,具有灵活、高效、低延时、高代码复用性等特点,可以极大地提高编程效率。利用CORA编程模型及辅助开发库,程序员可快速、灵活地实现不同通信协议物理层,并具有高效的执行效率。3.基于SORA实现了802.11n2×2MIMO系统。以802.11n2×2MIMO为例,介绍了物理层编/译码过程及算法,对系统实现所面临的实际问题做了介绍并给出了解决方法。基于CORA编程模型实现了物理层编/译码过程,对各部分算法针对多核CPU结构做了特定的优化,提高算法运行速度。基于SORA软件无线电平台中实现了原型通信系统,通过实验验证了物理层编/译码吞吐率可以满足实时计算的要求,并在实际物理信道中评估了物理层译码性能。该系统的开发和实验进一步展示了SORA软件无线电平台的高性能及灵活性,又进一步验证了CORA模型的易用性和有效性。4.细粒度信道接入媒体访问控制技术-FICA。SORA软件无线电平台的灵活性促使了无线新系统的研究。本文针对目前无线局域网中随着物理层数据速率提高而MAC层效率低下的问题,提出基于OFDM的细粒度信道随机接入方案-FICA,将整个宽带信道分为宽度相等的子信道,多个终端可以根据各自需求同时使用子信道,从而提高总体效率。在SORA软件无线电平台中实现了FICA的物理层,在实际信道中验证了物理层设计的合理性与可行性。基于NS-3的仿真进一步验证了在大规模网络中,FICA的网络效率比802.11有了极大地提高(10%-600%)。
二、Enhanced 3DNow!vs.SSE(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Enhanced 3DNow!vs.SSE(论文提纲范文)
(1)基于多核处理器的极化码编解码技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 极化码简介 |
1.2 并行处理技术 |
1.3 极化码软件译码器 |
1.4 论文的主要工作与篇章结构 |
第二章 极化码的编解码算法 |
2.1 极化码的编码 |
2.1.1 极化码的生成矩阵 |
2.1.2 极化码的构造方式 |
2.2 极化码的解码 |
2.2.1 SC解码 |
2.2.2 SCL解码 |
2.2.3 CA-SCL解码 |
2.3 极化码的性能 |
2.3.1 不同解码方式性能差异 |
2.3.2 不同构造方式性能差异 |
2.4 本章小结 |
第三章 极化码的快速解码算法及SIMD实现 |
3.1 矢量化的SIMD指令集介绍 |
3.2 极化码的Fast-SSC快速解码算法 |
3.2.1 极化码的SSC解码算法 |
3.2.2 基于SSC的Fast-SSC解码算法 |
3.3 极化码的高速编解码SIMD实现 |
3.3.1 编码器的SIMD实现 |
3.3.2 量化器的SIMD实现 |
3.3.3 Fast-SSC解码器的SIMD实现 |
3.4 本章小结 |
第四章 极化码的HARQ方案及SIMD实现 |
4.1 极化码的码率兼容方案 |
4.1.1 极化码的打孔方案 |
4.1.2 极化码的缩短方案 |
4.1.3 码率兼容性能 |
4.2 极化码的追踪合并重传 |
4.3 极化码的递增冻结重传 |
4.4 极化码的递增码长重传 |
4.4.1 码字扩展原理 |
4.4.2 奇偶校验选取 |
4.4.3 四次重传的HARQ-IL构造 |
4.5 极化码的重传性能分析 |
4.6 极化码递增码长重传中的独立解码 |
4.6.1 解码序列修正 |
4.6.2 独立解码性能 |
4.7 递增码长重传系统的SIMD实现 |
4.8 本章小结 |
第五章 极化码的乘积码迭代译码及SIMD实现 |
5.1 经典构造的乘积码 |
5.1.1 乘积码简介 |
5.1.2 二维乘积码构造 |
5.1.3 多维乘积码构造 |
5.2 非系统的极化码乘积码 |
5.2.1 非系统的极化码乘积码构造 |
5.2.2 分步的解码方式 |
5.2.3 软输入软输出的迭代解码方式 |
5.3 极化码乘积码快速编译码SIMD实现 |
5.3.1 固定翻转的快速SC分量码解码器 |
5.3.2 快速编译码算法SIMD实现 |
5.3.3 性能和吞吐量分析 |
5.4 本章小结 |
第六章 全文总结与展望 |
6.1 论文内容总结 |
6.2 工作展望 |
参考文献 |
作者攻读硕士学位期间的研究成果 |
致谢 |
(2)用于嵌入式车载安全预警的交通标志检测若干关键技术研究与验证(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 引言 |
1.2 研究背景及意义 |
1.3 课题研究目标 |
1.4 国内外研究现状 |
1.4.1 交通标志检测识别系统研究综述 |
1.4.2 颜色分割及交通标志定位算法研究综述 |
1.4.3 并行化及线程调度策略研究综述 |
1.5 主要研究内容与课题创新点 |
1.6 论文结构安排 |
2 基于颜色分割的交通标志定位算法 |
2.1 中国道路交通标志公开视频数据集的建立 |
2.1.1 视频数据采集设备及覆盖范围 |
2.1.2 数据集视频片段统计分析 |
2.2 交通标志定位中红色及黄色分割方法比较研究 |
2.2.1 颜色成像原理简述 |
2.2.2 基于RGB空间的颜色分割方法 |
2.2.2.1 基本RGB颜色空间 |
2.2.2.2 RGB阈值分割方法 |
2.2.3 基于HSI空间的颜色分割方法 |
2.2.3.1 HSI颜色空间 |
2.2.3.2 HSI阈值分割方法 |
2.2.4 SVF分割方法 |
2.3 混合颜色分割策略 |
2.3.1 红色混合分割策略 |
2.3.2 黄色混合分割策略 |
2.3.3 算法执行时间对比 |
2.4 基于Hough变换的圆形交通标志定位算法 |
2.4.1 形态学闭运算预处理 |
2.4.2 Hough检测算法定位圆形交通标志 |
2.5 算法在数据集上测试验证 |
2.6 本章小结 |
3 混合切换多线程任务调度策略 |
3.1 系统实时性要求分析 |
3.2 基本任务调度问题建模 |
3.3 任务调度策略设计 |
3.3.1 理想任务调度算法 |
3.3.2 控制系统建模 |
3.3.3 任务调度器设计 |
3.3.3.1 下界限幅调度策略 |
3.3.3.2 虚拟采样调度策略 |
3.3.3.3 混合切换调度策略 |
3.3.3.4 不同调度策略性能比较 |
3.3.4 参数估计器设计 |
3.4 任务调度策略程序框架的实现及测试验证 |
3.4.1 POSIX标准下程序框架的实现 |
3.4.2 嵌入式原型样机上测试验证及性能评估 |
3.5 本章小结 |
4 仿真验证平台及嵌入式原型的搭建与系统集成测试 |
4.1 平台介绍及核心元件的选取 |
4.1.1 算法验证平台及性能测试平台介绍 |
4.1.2 原型样机平台选型 |
4.1.2.1 主流嵌入式平台选型比较 |
4.1.2.2 Intel Joule平台介绍 |
4.1.3 摄像头的选取及介绍 |
4.2 系统软硬件开发核心技术介绍 |
4.2.1 算法验证平台软件开发技术 |
4.2.2 原型样机硬件结构设计 |
4.2.3 原型样机软件开发技术 |
4.2.4 摄像头最佳输出分辨率分析优化 |
4.3 真实道路环境系统集成测试 |
4.3.1 原型样机优化配置条件 |
4.3.2 校园环境静态测试 |
4.3.3 城市道路动态测试 |
4.4 本章小结 |
5 总结与展望 |
5.1 研究工作总结 |
5.2 后续研究展望 |
参考文献 |
作者简介 |
(3)基于多核处理器的内存数据库查询执行优化研究(论文提纲范文)
摘要 |
ABSTRACT |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 多核处理器的背景和发展前景 |
1.1.2 内存数据库的背景 |
1.2 本文研究思路 |
1.3 相关研究现状 |
1.3.1 划分技术的研究现状 |
1.3.2 并行排序技术的研究现状 |
1.3.3 索引技术的研究现状 |
1.3.4 哈希连接技术的研究现状 |
1.4 主要工作和章节安排 |
1.4.1 论文主要工作 |
1.4.2 论文章节安排 |
第二章 基础理论和相关技术 |
2.1 多核处理器的相关理论 |
2.2 并行计算相关理论 |
第三章 多核处理器中并行哈希划分算法优化研究 |
3.1 解决线程之间冲突的方法 |
3.2 并行哈希划分算法优化 |
3.2.1 软件合并写优化 |
3.2.2 绕过缓存优化 |
3.2.3 存储结构优化 |
3.2.4 多步划分与负载均衡优化 |
3.3 实验结果与分析 |
3.3.1 实验平台与数据集 |
3.3.2 单步划分实验与分析 |
3.3.3 软件合并写优化实验结果与分析 |
3.3.4 绕过缓存优化实验结果与分析 |
3.3.5 多步划分实验结果与分析 |
3.3.6 数据倾斜实验结果与分析 |
3.4 本章小结 |
第四章 多核处理器中自适应索引算法优化研究 |
4.1 自适应索引算法 |
4.1.1 Database Cracking算法 |
4.1.2 提升算法收敛速度的优化 |
4.1.3 提升算法鲁棒性的优化 |
4.1.4 本章实验平台与数据集 |
4.2 一种自适应选择优化策略的方法 |
4.2.1 划分位置的影响 |
4.2.2 选择率的影响 |
4.2.3 根据数据块查询次数改进Buffered-swapping Cracking算法 |
4.2.4 实验结果与分析 |
4.3 多核并行Adaptive Merging算法 |
4.3.1 索引初始化 |
4.3.2 查询语句执行 |
4.3.3 实验结果与分析 |
4.4 多核处理器中并行自适应索引算法优化研究 |
4.4.1 多核并行Database Cracking算法 |
4.4.2 改进的Partition Merge算法 |
4.4.3 改进的多核并行自适应索引算法 |
4.4.4 实验结果与分析 |
4.5 本章小结 |
第五章 基于多核MapReduce模型的并行哈希连接优化 |
5.1 多核MapReduce计算模型 |
5.1.1 MapReduce计算模型 |
5.1.2 基于共享内存的多核MapReduce模型 |
5.2 基于多核MapReduce模型的并行哈希连接 |
5.2.1 哈希连接 |
5.2.2 基于多核MapReduce模型的非划分哈希连接 |
5.2.3 基于多核MapReduce模型的划分哈希连接 |
5.3 一种改进的Cuckoo哈希表 |
5.3.1 Cuckoo哈希表 |
5.3.2 改进的Cuckoo哈希表 |
5.3.3 并发控制 |
5.3.4 优化策略 |
5.3.5 实验结果与分析 |
5.4 哈希连接的相关优化 |
5.4.1 SIMD指令的使用 |
5.4.2 利用MapReduce模型优化多步划分 |
5.4.3 负载均衡优化 |
5.5 实验结果与分析 |
5.5.1 实验数据集 |
5.5.2 非划分哈希连接实验结果及分析 |
5.5.3 划分哈希连接实验结果及分析 |
5.5.4 划分数量的影响及分析 |
5.5.5 不同数据集的影响及分析 |
5.5.6 不同倾斜度的影响及分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 未来研究展望 |
参考文献 |
致谢 |
作者简介 |
(4)低复杂度低功耗AVS高清编码器研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 视频编码历史与现状 |
1.3 课题内容与意义 |
1.4 文章内容安排 |
第二章 AVS系列标准概述 |
2.1 引言 |
2.2 AVS& AVS2 对比分析 |
2.2.1 编码单元划分 |
2.2.2 帧内预测 |
2.2.3 帧间预测 |
2.2.4 变换编码 |
2.2.5 熵编码 |
2.3 AVS现状与研究分析 |
2.3.1 AVS编码器研究现状 |
2.3.2 AVS编码器研究方向 |
2.4 AVS2 研究现状与分析 |
2.4.1 AVS2 编码器研究现状 |
2.4.2 AVS2 编码器研究方向 |
2.5 本章小结 |
第三章 AVS编码器复杂度控制与并行优化 |
3.1 引言 |
3.2 AVS复杂度优化 |
3.2.1 AVS复杂度控制 |
3.2.2 SI/TI介绍与分析 |
3.2.3 AVS参数分析 |
3.2.4 实验结果 |
3.3 并行优化 |
3.3.1 指令并行优化 |
3.3.2 线程并行优化 |
3.4 AVS编码器优化实验结果 |
3.5 本章小结 |
第四章 基于纹理信息的AVS2 帧内编码优化 |
4.1 引言 |
4.2 纹理信息提取 |
4.3 帧内编码优化 |
4.3.1 快速预测模式选择 |
4.3.2 快速编码单元划分 |
4.4 实验结果及分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文工作总结 |
5.2 研究展望 |
参考文献 |
附录1 英文缩略语表 |
致谢 |
攻读硕士学位期间的主要研究成果 |
(5)基于FT-Matrix2的自动向量化关键技术研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 自动向量化简介及研究现状 |
1.3 开发平台选择 |
1.4 论文的主要工作 |
1.5 论文结构和组织 |
第二章 GCC自动向量化框架分析 |
2.1 GCC编译结构分析 |
2.2 自动向量化的的框架分析 |
2.2.1 循环的向量化可行性分析 |
2.2.2 循环的向量化转换 |
2.3 本章小结 |
第三章 基于FT-Matrix2的自动向量化实现 |
3.1 FT-Matrix2体系结构 |
3.1.1 FT-Matrix2内核结构 |
3.1.2 FT-Matrix2指令集 |
3.2 FT-Matrix2向量后端移植 |
3.2.1 向量寄存器描述 |
3.2.2 向量数据机器模式 |
3.3 FT-Matrix2向量指令实现 |
3.3.1 指令映射分析 |
3.3.2 指令映射实现 |
3.4 本章小结 |
第四章 基于FT-Matrix2的向量访存实现 |
4.1 FT-Matrix2向量访存介绍与分析 |
4.2 自动向量化的向量访存实现过程 |
4.3 基于DMA自动传输的向量访存实现 |
4.4 基于SVR传输的向量访存实现 |
4.5 本章小结 |
第五章 基于FT-Matrix2的FFT算法的自动向量化实现 |
5.1 FFT算法介绍及分析 |
5.1.1 FFT算法介绍 |
5.1.2 FFT算法的自动向量化实现分析 |
5.2 实验结果及性能分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(7)编译指导的自动向量化关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 相关背景 |
1.1.1 SIMD体系结构 |
1.1.2 自动向量化技术 |
1.1.3 GCC编译系统 |
1.1.4 OpenMP并行编程模型 |
1.2 国内外研究现状 |
1.2.1 编译指导的自动向量化 |
1.2.2 外层循环的向量化 |
1.3 研究内容及意义 |
1.3.1 研究内容 |
1.3.2 研究意义 |
1.4 论文结构 |
第二章 SIMD编译指导及GCC编译器的支持 |
2.1 SIMD编译指导简介 |
2.1.1 simd结构(simd construct) |
2.1.2 loop SIMD结构(loop SIMD construct) |
2.1.3 declare simd结构(declare simd construct) |
2.2 SIMD编译指导在编译器中的实现 |
2.2.1 相关数据结构 |
2.2.2 SIMD编译指导的识别 |
2.2.3 SIMD编译指导的下降和扩展 |
2.2.4 pass_omp_simd_clone |
2.2.5 自动向量化阶段对SIMD编译指导的处理 |
2.3 aligned从句在GCC中的实现 |
2.3.1 从前端识别到OpenMP的下降与扩展 |
2.3.2 aligned从句信息到自动向量化阶段的传递 |
2.4 SIMD编译指导自动向量化效果测试 |
2.4.1 SIMD循环的识别 |
2.4.2 SIMD编译指导的自动向量化 |
2.5 本章小结 |
第三章 GCC中紧嵌套循环坍缩向量化的实现现状 |
3.1 collapse从句简介 |
3.1.1 loop结构下的collapse从句 |
3.1.2 simd结构下的collapse从句 |
3.1.3 loop SIMD结构下的collapse从句 |
3.2 collapse从句在编译器中的实现 |
3.2.1 collapse从句的识别与解析 |
3.2.2 OpenMP编译中对collapse从句的处理 |
3.3 collapse从句的自动向量化测试与分析 |
3.3.1 collapse从句的自动向量化测试 |
3.3.2 for-col向量化失败原因分析 |
3.3.3 simd-col和for-simd-col向量化失败原因分析 |
3.4 本章小结 |
第四章 collapse从句下循环自动向量化实现方案改进 |
4.1 实验环境 |
4.1.1 硬件环境 |
4.1.2 软件环境 |
4.1.3 平台的SIMD体系结构 |
4.2 loop结构下collapse从句实现的改进 |
4.3 实验结果与分析 |
4.4 本章小结 |
第五章 结束语 |
5.1 工作总结 |
5.2 工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(8)基于GPU的软件无线电并行算法与系统结构关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
符号列表 |
第一章 绪论 |
1.1 研究背景 |
1.1.1 无线通信的发展及分类 |
1.1.2 软件无线电 |
1.1.3 软件无线电平台研究现状及挑战 |
1.1.4 MIMO-OFDM无线通信 |
1.2 主要研究内容及贡献 |
1.3 论文结构 |
第二章 基于GPU的软件无线电平台Cu Sora |
2.1 通用软件无线电平台研究现状 |
2.2 Sora软件无线电平台 |
2.2.1 硬件结构 |
2.2.2 软件框架 |
2.2.3 Sora的不足之处 |
2.3 GPU体系结构与CUDA |
2.3.1 CUDA |
2.3.2 GPU程序执行方式 |
2.4 Cu Sora软件无线电平台 |
2.4.1 硬件结构 |
2.4.2 软件框架 |
2.4.3 MAC层设计 |
2.4.4 物理层设计 |
2.4.5 Cu Sora物理层GPU加速设计流程 |
2.5 本章小结 |
第三章 基于GPU的细粒度并行编译码算法 |
3.1 信道纠错码 |
3.2 基于GPU的细粒度并行卷积编码算法 |
3.2.1 卷积编码 |
3.2.2 并行性分析 |
3.2.3 基于GPU细粒度并行算法 |
3.2.4 实现结果 |
3.3 基于GPU的细粒度并行Viterbi译码算法 |
3.3.1 Viterbi译码器研究现状 |
3.3.2 并行性分析 |
3.3.3 基于GPU的细粒度并行算法 |
3.3.4 GPU优化策略 |
3.3.5 实现结果 |
3.4 基于GPU的细粒度并行Turbo译码算法 |
3.4.1 Turbo码及译码算法 |
3.4.2 并行性分析 |
3.4.3 误码保护机制 |
3.4.4 基于GPU的细粒度并行算法 |
3.4.5 实现结果 |
3.5 基于GPU的细粒度并行LDPC译码算法 |
3.5.1 LDPC码及译码算法 |
3.5.2 LDPC译码器研究现状 |
3.5.3 并行性分析与基于GPU的细粒度并行算法 |
3.5.4 实现结果 |
3.6 本章小结 |
第四章 基于GPU的细粒度并行OFDM算法 |
4.1 研究背景 |
4.1.1 OFDM技术 |
4.1.2 OFDM的算法与结构 |
4.2 基于GPU的细粒度并行OFDM星座映射算法 |
4.2.1 OFDM星座映射 |
4.2.2 并行性分析 |
4.2.3 基于GPU的细粒度并行算法 |
4.2.4 实现结果 |
4.3 基于GPU的细粒度并行OFDM帧同步算法 |
4.3.1 帧同步算法 |
4.3.2 并行性分析 |
4.3.3 基于GPU的细粒度并行算法 |
4.3.4 实现结果 |
4.4 基于GPU的细粒度并行OFDM信道估计算法 |
4.4.1 信道估计算法 |
4.4.2 并行性分析 |
4.4.3 基于GPU的细粒度并行算法 |
4.4.4 实现结果 |
4.5 本章小结 |
第五章 基于GPU的细粒度并行MIMO检测算法 |
5.1 研究背景 |
5.1.1 无线MIMO技术 |
5.1.2 无线MIMO系统模型 |
5.1.3 无线MIMO检测算法 |
5.2 基于GPU的细粒度并行PIC检测算法 |
5.2.1 PIC检测算法 |
5.2.2 并行性分析 |
5.2.3 基于GPU的细粒度并行算法 |
5.2.4 实现结果 |
5.3 本章小结 |
第六章 基于GPU的软件无线电原型系统 |
6.1 研究背景 |
6.1.1 MIMO-OFDM无线通信协议 |
6.1.2 典型MIMO-OFDM通信协议 |
6.2 原型系统设计和实现 |
6.2.1 协议复杂度分析 |
6.2.2 基于GPU的参数化实现 |
6.3 实验性能分析 |
6.3.1 实验设置 |
6.3.2 吞吐率 |
6.3.3 误码性能 |
6.3.4 宏测试集吞吐率 |
6.4 性能比较 |
6.4.1 与CPU实现相比 |
6.4.2 与Sora实现相比 |
6.4.3 与其他GPU实现相比 |
6.4.4 与DSP实现相比 |
6.4.5 与FPGA实现相比 |
6.5 本章小结 |
第七章 结论与展望 |
7.1 结论 |
7.2 展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(9)多线程多SIMD自动向量化技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 多核多SIMD体系结构 |
1.1.1 多核体系结构 |
1.1.2 SIMD体系结构 |
1.1.3 多核多SIMD体系结构 |
1.2 多线程多SIMD编程模型和编译优化技术 |
1.2.1 并行编程模型 |
1.2.2 自动向量化技术 |
1.3 国内外研究现状 |
1.4 研究内容及意义 |
1.4.1 研究内容 |
1.4.2 研究意义 |
1.5 论文结构 |
第二章 自动向量化技术 |
2.1 自动向量化 |
2.1.1 基于循环的自动向量化 |
2.1.2 基于基本块的自动向量化 |
2.2 GCC的编译结构 |
2.2.1 GCC的中间表示 |
2.2.2 Tree-SSA优化框架 |
2.3 GCC的自动向量化 |
2.3.1 循环分析 |
2.3.2 循环变换 |
2.4 本章小节 |
第三章 多线程多SIMD自动向量化 |
3.1 多线程多SIMD自动向量化 |
3.2 GOMP |
3.3 GCC的自动向量化代价模型 |
3.3.1 最小有收益迭代数 |
3.3.2 语句表达式的开销 |
3.3.3 向量化因子 |
3.3.4 向量迭代的内部开销 |
3.3.5 向量循环的外部开销 |
3.3.6 剥离的迭代数 |
3.3.7 标量迭代的内部开销 |
3.3.8 标量循环的外部开销 |
3.4 GCC的自动向量化局限性 |
3.5 本章小节 |
第四章 基于数据对齐属性指导的GCC自动向量化优化 |
4.1 数据对齐属性指导子句的设计 |
4.2 数据对齐属性指导子句的实现 |
4.2.1 前端分析 |
4.2.2 GENERIC表示转换为GIMPLE表示 |
4.2.3 OpenMP结构降低 |
4.2.4 OpenMP代码扩展 |
4.2.5 基于数据对齐属性指导的代价计算 |
4.3 本章小节 |
第五章 实验与分析 |
5.1 实验环境 |
5.2 实验验证 |
5.2.1 中间表示的转换 |
5.2.2 实验结果 |
5.3 实验效果及分析 |
5.4 本章小节 |
第六章 结束语 |
6.1 工作总结 |
6.2 工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)基于多核CPU的软件无线电平台研发及应用技术研究(论文提纲范文)
致谢 |
中文摘要 |
ABSTRACT |
插图索引 |
表格索引 |
缩略语 |
1 绪论 |
1.1 研究背景 |
1.2 软件无线电概述 |
1.3 软件无线电发展历史 |
1.4 软件无线电关键技术 |
1.4.1 宽带/多频段天线 |
1.4.2 高速ADC与DAC |
1.4.3 高速数字信号处理器 |
1.5 软件无线电研究现状 |
1.5.1 基于可控制硬件的软件无线电平台 |
1.5.2 基于可编程硬件的软件无线电平台 |
1.5.3 基于通用处理器的软件无线电平台 |
1.6 软件无线电应用动态 |
1.7 本文主要工作及创新 |
1.8 论文组织结构 |
2 基于多核CPU的软件无线电平台 |
2.1 SORA简介 |
2.2 软件无线电系统需求分析 |
2.2.1 物理层需求分析 |
2.2.2 MAC层需求分析 |
2.2.3 软件无线电平台系统要求 |
2.3 SORA架构 |
2.3.1 SORA硬件架构 |
2.3.2 SORA软件架构 |
2.4 SORA软件无线电处理技术 |
2.4.1 数字信号处理技术 |
2.4.2 多核流水线处理技术 |
2.4.3 实时性的支持 |
2.5 SORA系统实现 |
2.5.1 硬件结构 |
2.5.2 软件结构 |
2.5.3 性能评估 |
2.6 基于SORA的应用:SoftWiFi |
2.7 SoftWiFi系统性能评估 |
2.7.1 实验环境设置 |
2.7.2 吞吐量测试 |
2.7.3 CPU利用率 |
2.7.4 接收过程各模块CPU利用率 |
2.8 SORA扩展应用 |
2.8.1 巨型帧扩展 |
2.8.2 TDMA扩展 |
2.9 本章小结 |
3 基于多核CPU的数字信号编程模型研究 |
3.1 CORA架构 |
3.1.1 模块 |
3.1.2 链接(CHANNEL) |
3.1.3 数据流图 |
3.1.4 控制流 |
3.1.5 内存模型 |
3.2 CORA实现 |
3.2.1 模块的实现 |
3.2.2 链接(CHANNEL)的实现 |
3.2.3 数据流调度实现 |
3.2.4 并行计算实现 |
3.3 CORA性能测试 |
3.3.1 并行处理延迟 |
3.3.2 处理性能比较 |
3.4 基于CORA的并行算法 |
3.4.1 FIR滤波器 |
3.4.2 FFT |
3.5 本章小结 |
4 基于SORA实现MIMO系统 |
4.1 IEEE 802.11n物理层帧格式 |
4.1.1 L_STF域 |
4.1.2 L_LTF域 |
4.1.3 L_SIG域 |
4.1.4 HT_SIG域 |
4.1.5 HT_LTF域 |
4.1.6 服务字段(SERVICE) |
4.1.7 尾比特字段(TAIL) |
4.1.8 填充比特(PAD) |
4.2 物理层数据发送过程 |
4.2.1 卷积编码器 |
4.2.2 加扰器 |
4.2.3 数据流分割 |
4.2.4 数据交织 |
4.2.5 导频子载波 |
4.2.6 QAM调制 |
4.2.7 循环移位 |
4.3 物理层数据接收过程 |
4.3.1 帧检测 |
4.3.2 符号同步 |
4.3.3 载波频偏 |
4.3.4 采样时钟频偏 |
4.3.5 频偏追踪 |
4.3.6 频偏补偿 |
4.3.7 MISO信道估计 |
4.3.8 噪声估计 |
4.3.9 MISO信道补偿 |
4.3.10 MIMO信道估计 |
4.3.11 MIMO信道补偿 |
4.3.12 数据解交织 |
4.3.13 解调器 |
4.3.14 数据流合并 |
4.3.15 解扰器 |
4.3.16 Viterbi译码 |
4.3.17 CRC32帧校验 |
4.4 物理层各模块实现细节 |
4.4.1 卷积编码:查找表结构 |
4.4.2 扰码器/解扰器:查找表结构 |
4.4.3 交织/解交织器:查找表结构 |
4.4.4 QAM调制/解调:查找表结构 |
4.4.5 导频载波:查找表结构 |
4.4.6 Viterbi译码器 |
4.5 物理层发送过程实现 |
4.5.1 物理层发送数据流图 |
4.5.2 能量归一化 |
4.5.3 数据流图执行方式 |
4.6 物理层接收过程实现 |
4.6.1 物理层接收数据流图 |
4.6.2 数据流图执行方式 |
4.7 物理层性能评估 |
4.7.1 发送过程性能评估 |
4.7.2 接收过程性能评估 |
4.7.3 并行Viterbi译码器性能评估 |
4.8 本章小结 |
5 WLAN中细粒度信道接入媒体访问控制技术 |
5.1 背景与挑战 |
5.2 FICA设计 |
5.2.1 符号定时误差的影响 |
5.2.2 FICA物理层结构 |
5.2.3 基于频域竞争信道 |
5.2.4 多AP节点与双向数据传输 |
5.2.5 多竞争域与隐藏/暴露节点问题 |
5.2.6 性能分析 |
5.3 FICA系统仿真 |
5.3.1 禁用数据帧聚合 |
5.3.2 启用数据帧聚合 |
5.3.3 混合网络流量 |
5.3.4 隐藏终端 |
5.4 FICA系统实现 |
5.4.1 频偏校准 |
5.4.2 帧检测与同步 |
5.4.3 信道估计与跟踪 |
5.4.4 载波侦听 |
5.4.5 BAM阈值设定 |
5.5 FICA性能评估 |
5.5.1 符号定时误差 |
5.5.2 物理层信号的可靠性 |
5.5.3 物理层译码性能 |
5.6 本章小结 |
6 总结与展望 |
6.1 全文总结 |
6.2 问题与展望 |
参考文献 |
作者简历 |
学位论文数据集 |
四、Enhanced 3DNow!vs.SSE(论文参考文献)
- [1]基于多核处理器的极化码编解码技术研究[D]. 邹涛. 东南大学, 2020(01)
- [2]用于嵌入式车载安全预警的交通标志检测若干关键技术研究与验证[D]. 高明飞. 浙江大学, 2018(08)
- [3]基于多核处理器的内存数据库查询执行优化研究[D]. 袁通. 西安电子科技大学, 2016(12)
- [4]低复杂度低功耗AVS高清编码器研究[D]. 陈航. 上海交通大学, 2016(01)
- [5]基于FT-Matrix2的自动向量化关键技术研究与实现[D]. 夏睿杰. 国防科学技术大学, 2015(03)
- [6]SIMD自动向量化编译优化概述[J]. 高伟,赵荣彩,韩林,庞建民,丁锐. 软件学报, 2015(06)
- [7]编译指导的自动向量化关键技术研究[D]. 徐颖. 国防科学技术大学, 2014(03)
- [8]基于GPU的软件无线电并行算法与系统结构关键技术研究[D]. 李荣春. 国防科学技术大学, 2014(11)
- [9]多线程多SIMD自动向量化技术研究[D]. 黄娟娟. 国防科学技术大学, 2013(03)
- [10]基于多核CPU的软件无线电平台研发及应用技术研究[D]. 房骥. 北京交通大学, 2013(01)