一、基于多交易项目子集的并集的关联规则更新采掘(论文文献综述)
崔小慧[1](2021)在《基于多尺度的频繁项集增量挖掘及并行化》文中提出在信息化时代,社会各领域中的数据都在急剧增长,数据挖掘成为了从数据海洋中挖取有价值数据的有效手段,关联规则作为数据挖掘领域的一个主要研究方法,能在大量的数据中找到事务之间的联系、相关性等。频繁项集生成作为关联规则挖掘的关键步骤,具有较高的时空复杂性。实际环境中数据集往往是动态变化的,为了适应其快速更新,需要通过高效的动态挖掘即增量挖掘对挖掘结果进行维护。多尺度理论可以揭示数据对象的结构和层次特征,从不同角度和层次反映它们的本质,结合多尺度特性可以有效加快频繁项集增量更新过程。在面对大规模数据时,单机下的频繁项集挖掘存在着严重的计算瓶颈,使之难以适应大数据分析的需求,因此,必须依靠高性能计算平台和技术,目前流行的分布式通用计算框架Spark提供的弹性分布式数据集RDD可以使用内存计算加快计算速度。本文通过对相关算法研究,主要贡献如下:1.结合多尺度理论,基于多尺度的频繁项集增量挖掘算法被提出,称为FPMSIM。该算法能利用不同尺度之间的相关关系实现数据的间接挖掘,从而避免数据集的重新扫描和树结构的不断调整,加快了频繁项集的更新。2.基于高性能的计算技术Spark,提出了并行FPMSIM算法。Spark是为处理海量数据而设计的通用计算引擎。利用Spark技术能加速大规模数据的处理,且依据概念分层理论将不同基准尺度数据集分到不同节点可以减少分组策略带来的开销。3.并行FPMSIM算法实现过程中,考虑到内存资源不足的问题,本文设计了低代价二次执行缓存策略(LCDERP),该策略充分利用第一次执行获取的信息对RDD缓存进行优化。4.在不同数据集上将FPMSIM算法和一些算法比较。实验结果表明,在处理增量数据时,FPMSIM算法时间效率更高且并行FPMSIM算法是有效的。
王梅嘉[2](2020)在《基于整子多智能体的社会化搜索引擎模型及关键技术》文中指出Web 2.0时代的到来,在线社交网络应用迅速普及,大量用户涌入在线社交网络平台发表见解、分享生活,产生了大量用户生成内容。这些数据对于提高搜索服务的质量与体验具有重要意义。在此背景下,旨在利用社交网络数据优化搜索结果,提升搜索服务用户满意度的社会化搜索引擎应运而生。然而,已有社会化搜索引擎研究仍然存在4个问题:(1)检索资源大都集中于特定的在线社交网络平台,导致信息检索查全率不高;(2)被动响应用户搜索请求,仅通过用户兴趣、亲密度等知识,研究具体结果排序算法的分析设计,个性化程度并不能令用户满意;(3)忽略了社交网络数据实时变化的特点,无法保证社交网络知识的新鲜度;(4)研究内容局限于算法分析与社会化搜索模式、机理的探讨,缺乏系统模型的设计。因此,针对社会化搜索引擎面临的“检索范围局限、知识应用不足、缺乏社交网络知识的主动更新机制,以及研究碎片化、缺乏模型设计”问题,本文提出了一个面向全网检索资源、支持任务自适应调度、基于整子多智能体的社会化搜索引擎模型,能够利用多种在线社交网络知识优化全网搜索引擎的检索结果,向用户提供个性化的检索结果列表,主动推荐感兴趣的多样化信息。本文的创新性成果主要包含4个方面:(1)提出了一个支持任务自适应调度、面向全网检索资源、基于整子多智能体的社会化搜索引擎模型。本文从任务角度出发,设计了整子多智能体系统符号化模型,在设计Holon结构、建模任务相关信息的基础上,探讨了系统的自适应机制以及任务分配方法。实验结果表明,本文提出的自适应机制能通过对执行单元的竞争力调整以及结构调整,帮助系统适应新的环境需求。该方法尤其适用于解决因部分计算节点失效引起的环境异常,通过调用处于空闲状态或正常状态的执行单元,以协助异常执行单元完成任务,保证任务执行的成功率,提高系统的鲁棒性。(2)设计了一种社交网络数据变化主动感知策略以及社交网络知识主动更新机制。通过分析用户在社交网络平台的行为习惯,设计相应感知规则,主动感知用户社交网络数据变化,考虑到用户行为存在不稳定性,提出的社交网络数据变化感知策略,能够根据用户行为不断学习新的感知规则。在此基础上,为了降低不必要的知识更新引起的系统开销,采用基于阈值的方法判断社交网络数据的变化是否引起知识变化,适时更新相关知识,以保证社交网络知识的新鲜度。实验结果表明,本文提出的方法对于社交网络数据变化的更新率达到了92.6%,社交网络知识的更新率达到了72.5%,能够满足用户的个性化搜索需求。(3)提出了一种基于查询分类的多特征融合结果排序方法。该方法将用户提交的查询词分类处理,针对非导航类查询词,融合用户与网页文档之间的主题相似度,用户兴趣关键词与网页关键词相似度,文档在搜索引擎中返回的位置,成员搜索引擎返回结果的数量等多个特征,为用户提供个性化的检索结果列表。扩展查询词时,在考虑了成员搜索引擎对于文档相关度评分的基础上,融合用户兴趣社团成员的点击记录,以及社团成员在用户兴趣领域的影响力,确定查询伪相关文档,扩展用户提交的查询词,帮助用户更好的表达查询意图。实验结果表明,提出的结果排序方法对于信息类查询词的NDCG均值达到了0.677,对于事务类查询词的NDCG均值带到了0.706,与参照方法相比,具有较高的查准率。(4)提出了一种基于社交网络知识的多样化信息推荐机制。通过为用户提供个性化的结果推荐、热点推荐以及用户推荐服务,建立知识与知识之间的连接,以及知识与人之间的连接。结果推荐方法通过用户的兴趣社团、交互社团、社交社团成员的查询记录,以及社团成员与当前用户的最短路径,为当前用户推荐可能感兴趣的网页文档。热点推荐方法根据用户兴趣的主题分布、用户的兴趣社团成员以及交互社团成员的点击记录向当前用户推荐可能感兴趣的热点。除此之外,提出的信息推荐机制,能够根据用户提交查询的所属领域,帮助用户找到该领域内影响力用户以及非领域用户。实验结果表明,本文提出的结果推荐方法关于信息类查询的MAP值达到了0.743,事务类查询的MAP值达到了0.731;提出的用户推荐方法的相关性分值达到了0.709;提出的热点推荐方法,MAP值达到了0.750。与参照方法相比,本文提出的推荐机制准确率更高,能够主动帮助用户发现所需资源。本文围绕现有社会化搜索引擎存在问题,开展了社会化搜索引擎模型的整体设计及算法、机制、策略等关键技术的研究。所提出的面向全网社会化搜索引擎模型,社交网络知识的主动感知与更新机制,以及基于社交网络知识的结果排序方法与多样化信息推荐机制,能在一定程度上提高社会化搜索引擎的查准率。
刘海涛[3](2020)在《面向企业多源运营数据的管理知识挖掘方法研究》文中研究说明随着通信与数据采集技术的快速发展和智能移动终端的广泛应用,企业的生产与经营活动时时面对着源自于自身及外部的大量数据,称之为“企业运营数据”。数据已成为各个行业的核心资产和创新驱动力。现代企业的管理模式与决策方式正在从“业务经验驱动”向“数据量化驱动”转变。但是,由于在网络时代背景下,企业运营数据具有来源的多样性、高维、海量、更新不及时、类别不平衡以及多标记等多种特殊性质,使得企业管理工作者普遍面临着“数据充足而知识匮乏”的问题。因而,针对企业运营数据的特殊属性,研究面向企业多源运营数据的处理与管理知识挖掘方法,不仅仅是对数据挖掘技术研究的深化,更是为推动企业管理从“经验驱动”向“数据驱动”的范式转变提供有力的信息处理工具。为解决企业运营数据特征给管理者带来的“数据充足而知识匮乏”的问题,重点从数据的缩减和管理知识的挖掘两个方面开展研究,主要工作如下:(1)结合因素空间理论,从数据降维和降体量两个角度研究企业运营数据的缩减方法。一是提出基于因素决定度的企业数据降维算法RCF,RCF可以有效地约简数据中的冗余因素、降低条件因素间的耦合性,提高后期分析与挖掘方法的效果;二是在降低数据体量问题中,分别提出基于因素背景基理论的企业数据降体量算法CMBPC与动态更新算法UABP。尤其是以约简后的数据构成的背景基,作为企业的核心数据,并利用UABP进行动态更新,可以降低企业的存储与维护成本、加速管理知识的更新。(2)针对现有数据分析方法在管理知识挖掘方面的“黑箱”特性,建立基于企业运营数据的管理知识归纳与推理方法CIDFS,CIDFS由管理规则与知识的归纳算法、推理算法及连续型企业数据的离散化算法三者构成;同时,为提升CIDFS的挖掘性能,建立以CIDFS为基分类器的集成方法RF-CIDFS;针对企业运营数据中的“多标记”问题,对CIDFS进行多标记扩展,提出基于多标记数据的管理知识归纳与推理方法ML-CIDFS及其集成方法RF-ML-CIDFS。(3)应用上述企业运营数据缩减方法与管理知识挖掘方法,分别对以“半导体企业产品质量分析与预测”为代表的企业内部数据、以“基于在线评论信息的商家分类评价”为代表的企业外部数据进行分析,挖掘出相应的管理规则与知识。针对半导体企业产品质量的分析与预测需求,挖掘出工序的5个层次、建立由51条管理规则构成的质量预测模型,给出每条规则的重要度及其排序,得到工序监测顺序。针对基于在线评论信息的商家分类评价需求,建立由16条管理规则构成分类评价模型,给出每条规则的重要度及排名、不同主题对评价结果的重要度及其排名,并给予管理者相应建议。理论分析与实验结果表明:论文提出的基于因素空间理论的企业运营数据缩减方法在降低运营数据体量、提升数据质量、增强管理规则与知识的可用性及可解释性等方面具备有效性;其次,基于企业运营数据的管理知识归纳与推理方法CIDFS,可以挖掘出运营数据中蕴含的因果规则及规则与因素的重要度等管理知识,为企业的管理与决策提供技术方法及知识支撑。RF-CIDFS可以在保持甚至提高CIDFS效率的同时,明显地改善其知识挖掘性能。最后,与经典多标记分类方法相比,RF-ML-CIDFS的分类效果较为突出,且分类效率是分类效果最优的方法中排名最高的,可以有效地应对企业运营数据中,具备多标记特点的大体量数据的分析与管理知识挖掘工作。该论文有图32幅,表59个,参考文献182篇。
杨平乐[4](2020)在《社会网络中节点影响最大化问题建模及社区发现方法研究》文中进行了进一步梳理社会网络是研究现实世界的一种分析视角,影响最大化和社区发现的研究已经成为当前研究的热点和关键问题,大量的社会应用使得这些问题的研究变得非常迫切。这些研究有助于成功地发布电子商务产品的广告,优化有限营销预算资源的使用,协助对疫情免疫、舆情监控、突发事件和群体事件网络传播的预测与干预等。本文基于复杂网络理论、多属性决策理论、多目标优化理论和数据挖掘技术等,对社会网络中节点影响最大化和社区发现进行研究,主要工作和创新成果包括四个方面:(1)建立了基于多指标的社会网络节点影响力综合评估模型本文基于局部、全局、位置、传播动力学这四个视角选择中心性测度,将之视作决策准则属性,构建基于多指标的节点影响力综合评估模型。以模型为基础,本文提出了一种新的动态加权多属性排序方法。方法中给出了一种基于灰色关联分析理论和易感-感染-恢复传染病模型的属性动态加权策略,根据节点属性序列与真实传播能力序列之间的变化趋势相似性来确定权重。最后,进行复杂性分析和实验验证分析,证明方法的有效性和实用性。(2)建立了基于启发式聚类的top-k节点集影响最大化问题模型本文构建了基于启发式聚类的top-k节点集影响最大化问题模型,提出了一种兼具效率和效果的自适应启发式聚类算法。本文主要工作体现在两个方面,一是给出了基于扩展邻域核和最小距离的初始中心选择策略,以加快聚类迭代速度和避免陷入局部最优;二是设计了一种基于路径的动态局部相似性指标,在给定网络的平均最短路径不同的情况下,能够动态自适应调整至最佳模式,实现更高的相似性度量精度。最后,进行复杂性分析和实验验证分析,证明方法的有效性。(3)构建了基于NSGA-II遗传策略的限定预算下影响最大化模型本文结合企业追求营销成本效益的具体应用场景开展影响最大化问题研究,构建了以影响力最大化和营销成本最小化为目标的多目标优化模型。以模型为基础,提出了一种基于NSGA-II的限定预算下影响最大化种子节点集识别算法。算法中给出了种子集寻优范围缩减策略,在确保寻优效果的前提下有效降低计算复杂度。在真实的社交网络上进行实验验证本文模型算法的有效性,并将本文模型与经典的影响力算法进行了对比。(4)提出了基于多目标遗传优化策略的社区发现方法本文基于多目标遗传优化策略的社区发现方法研究,提出了一种基于分类和拓扑信息的多目标遗传优化社区发现算法。算法首先给出了以节点相似性为基础的初始种群随机概率生成方式;接着提出了基于分类的染色体交叉策略,分别加强较优个体的局部探索和较差个体的全局交互;最后设计了一种基于拓扑信息的社区修正策略。本文在GN基准网络、LFR基准网络、以及现实社会网络数据集上,与几种典型社区发现算法开展对比性实验,验证该算法的有效性。
王佳秋[5](2020)在《基于多源异构个人服务数据的服务预测与推荐方法》文中研究表明云计算的普适化以及互联网服务的本地化、移动化和社会化促进了互联网上可用服务的极大繁荣。使用这些服务的“个人”可分为服务供需关系中的“客户”和众包服务中参与众包服务任务的“服务提供者”两种身份。满足“客户”需求的核心问题在于如何根据客户个性化需求规划有效的服务方案,并在移动端应用和云服务地密切配合下加以执行;满足“服务提供者”需求的核心问题在于如何推荐给服务提供者恰当的众包服务任务。为了满足客户和服务提供者个性化和差异化需求,对当前以中介为核心的服务预测与推荐方法提出了机遇和挑战:(1)以中介为核心的服务预测与推荐方法在深度个性化方面遇到瓶颈;(2)以中介为核心的数据组织模式因多源异构个人服务数据的分散而难以支持基于个人服务数据相关性的服务预测与推荐;(3)未考虑服务提供者参与众包服务任务的社会偏好导致推荐众包服务任务的准确性遇到瓶颈。针对上述问题,本文以用户使用服务过程中产生的大量多源异构个人服务数据为线索,研究基于多源异构个人服务数据的服务预测、服务推荐和众包服务任务推荐方法。具体研究工作包括以下几个方面:(1)面向服务预测与推荐的个人行为与服务数据集成建模。由于当前个人服务数据的分散存储使得具有相关性的个人服务数据被隔离开,导致无法基于个人服务数据的相关性来追溯用户使用服务的相关性,因此需要先恢复不同个人服务数据间的相关性。研究基于时间感知与多源异构的个人行为与服务数据集成模型,该模型能够聚合用户分散在不同服务中的个人服务数据,恢复个人服务数据间原本存在的相关性,打破个人服务数据间的隔离;而且该模型能关注和表示个人服务数据随时间发生的变化。该模型的目的是使得服务预测与推荐方法能够在“以用户为中心的数据管理模式”下,利用个人服务数据间的相关性来追溯用户使用服务的相关性,进而制定个性化的服务预测与推荐方案。(2)基于个人服务数据变化模式与服务行为的服务预测方法。为服务供需关系中的“客户”预测未来可能使用的服务。传统服务预测方法仅关注单一服务行为或者未能足够考虑个人服务数据变化触发相关服务执行的情况,而本文考虑个人服务数据的变化对客户后续使用服务的影响。研究基于个人服务数据变化模式与服务行为的服务预测方法,该方法考虑了个人服务数据变化触发服务行为的模式。当客户产生了新的个人服务数据后,服务预测方法根据个人服务数据变化模式匹配到最可能使用的服务。为了评价该方法的有效性,采集了真实世界用户使用服务产生的历史个人服务数据,并在数据集上运行基于个人服务数据变化模式的服务预测方法和未能足够考虑个人服务数据变化的服务预测方法,实验结果表明所研究的方法比其它方法能够更准确的预测服务。(3)基于服务行为与个人关联数据的服务推荐方法。为服务供需关系中的“客户”推荐丰富的服务。相关工作中可用于服务推荐的方法对不同个人服务数据之间的相关性考虑不够充分。研究基于服务行为与个人关联数据(具有相互联系的个人服务数据)的深度循环神经网络模型,该神经网络模型融合了个人服务数据之间的相关性和服务行为序列的时间特征,打破用户使用服务的习惯,为用户推荐多种多样的服务。为了评价该服务推荐模型的有效性,采集了真实世界用户使用服务产生的历史个人关联数据,数据集分成训练集和测试集。在训练集中的个人关联数据用于训练神经网络模型,在测试集中采用训练好的神经网络模型和未考虑个人关联数据的方法推荐服务,并对比推荐服务的准确性。实验结果表明基于服务行为与个人关联数据的服务推荐方法比其它方法推荐服务的准确率更高。(4)基于个人社会偏好的众包服务任务推荐方法。指为众包服务中参与众包的个人推荐最恰当的众包服务任务,其中个人是作为众包服务任务的“服务提供者”身份。传统的众包服务任务推荐方法仅关注个人独自完成众包服务任务的偏好。然而,在个人参与多人协作的众包服务开发场景中,对个人的社会偏好考虑不够充分。研究基于个人社会偏好的众包服务任务推荐方法,用于推荐最恰当的众包服务任务给服务提供者。该推荐方法结合了个人参与众包服务任务的社会偏好。研究个人社会偏好建模方法,将个人社会偏好模型运用在众包服务任务推荐方法中,从而提高推荐准确率。为了评价该方法的有效性,采集了真实世界服务提供者参与众包服务任务的历史数据,实验将基于个人社会偏好的众包服务任务推荐方法和未考虑个人社会偏好的推荐方法运行在该数据集上,验证推荐众包服务任务的准确性。实验结果表明基于个人社会偏好的众包服务任务推荐方法比其它方法更准确。(5)服务预测与推荐原型系统。根据前面研究的面向服务预测与推荐的个人行为与服务数据集成建模、服务预测、服务推荐以及众包服务任务推荐方法,结合开源软件开发服务应用场景中真实的个人服务数据设计并研发了服务预测与推荐原型系统。
马俊杰[6](2019)在《基于时间戳和垂直格式的关联规则算法研究》文中提出随着计算机技术的发展和互联网的普及,在生活、社会生产、科学研究上,数据的作用越来越重要。从海量数据中获取有效信息可以帮助我们做出正确的决定,数据挖掘的任务便是挖掘数据中的有效信息。本文研究的是数据挖掘中热门的关联规则算法,其目的是挖掘数据之间隐藏的联系。本文改进的算法是一种用来挖掘后上市商品的关联规则的算法(SLMCM),这个后上市商品可以引申为后加入数据库的项,是数据库中项的更新。这种算法由于考虑到了数据更新,更适应实际应用。SLMCM算法的关键是加入了时间戳,所以在这也称为基于时间戳的关联规则算法。SLMCM算法运行效率极低,非常不适合现在的大数据背景。针对此问题,本论文提出了以下改进:(1)提出改进算法E-SLMCM算法,采用垂直结构,仅需一次遍历数据库。由于在将数据库转化为垂直格式时,可以根据项首次出现的时间直接记录时间戳,不再需要按原来的算法将每条事务的各项按时间戳进行排序,节省了时间。另外提出了新的求项集时间戳的方法,在求项集的时间戳时不用遍历整个数据库。另外,算法采用了集合枚举树升序方法,在原来基础上效率又提高一倍之多。(2)为提高在密集数据库上的运行效率,在E-SLMCM算法的基础上采用差集思想提出了DE-SLMCM算法。采用了集合枚举树降序方法,提高了算法效率。(3)为了适应大数据挖掘,本文将提出的E-SLMCM算法和DE-SLMCM算法进行了并行化处理,并结合流行的Spark分布式框架提出SPE-SLMCM算法和SPDE-SLMCM算法。由于算法采用的是垂直结构,在生成候选项集时,前缀不同的项集的组合是分开的,互不影响,所以可以方便地利用多线程对算法进行分布式处理,这样更加适用于大数据背景。
郭洋[7](2019)在《面向智能交通大数据的特征提取和流量预测算法优化与改进研究》文中指出智能交通系统作为未来交通系统的发展方向,近年来获得了快速深入发展,并已具备大数据特征。而大数据环境下的海量多源异构且实时性强的数据,增加了数据挖掘的复杂度和难度。特征提取和流量预测是目前该领域中广泛应用的两类数据挖掘方法。其中,特征提取方法又涵盖了关联特征与事件特征两种使用频繁的代表性提取算法。随着智能交通数据环境的不断演变,关联特征提取、事件特征提取和交通流量预测的传统模型与算法逐渐表现出准确率下降、性能缓慢、效率低下等问题,成为目前各类高可靠性、高效率、高精度系统应用的瓶颈所在。因此,研究如何优化改进这三种算法以适应时代的发展和满足更高标准的数据需求具有非常重要的现实意义。本论文旨在基于交通关联特征提取、事件特征提取和流量预测的现有算法基础上,进一步研究大数据挖掘并行化和特征选择的特点,提炼机器学习应用于交通数据的特有特性,分析现有工作的不足,通过与相关的实验进行有机结合,提出三种新的优化算法,改进算法的准确度和效率,提高算法在智能交通系统中的应用效果。论文的主要研究内容如下:(1)面向交通领域的关联特征提取算法的核心是进行关联规则挖掘。但该挖掘算法的每次迭代计算过程中的大量磁盘I/O操作会使运行平台效率低下,同时一成不变的算法迭代策略产生了大量中间候选集,造成空间和时间成本高。针对这一问题,提出一个基于分布式并行计算和自适应策略的关联特征提取算法。该算法利用Spark的内存存储特性并使用一种改进的方法去除传统Apriori算法中间候选集的生成步骤,提出基于数据集性质的自适应策略来寻找具有更高精度和效率的频繁模式,实现了最小化的时间和空间复杂度。(2)在面对交通领域的海量和多属性的数据挖掘过程中,存在大量噪声和冗余,导致训练数据不清晰,直接使用人工神经网络会使网络模型规模巨大而复杂。而过于复杂的网络结构将导致超长的学习时间以及局部最小化和过拟合问题,挖掘效率低。针对这一问题,通过研究模糊集、粗糙集理论和神经网络各自具有的优势以及存在的问题,提出一种基于新定义的模糊粗糙集概念的粒度神经网络,以依赖因子的形式提取数据的领域知识。该方法使用粒化结构来定义网络的输入向量和目标值,指定依赖因子作为粒度神经网络的初始连接权重,然后在无监督的情况下,使用新提出的特征评估指数最小化方式对其进行训练。在训练完成之后,从隐藏层和输出层之间的权重更新来获得各个特征的重要性。(3)交通流量预测是交通建模和管理中的一个基本问题,许多交通流量预测系统和模型大都使用浅层模型,且对不同道路采取分散独立学习和预测的模式。已有的一些深层架构模型如深度置信网络由于反向传播方法的先天性缺陷,例如慢收敛和局部最优,使得基于这些模型的方法未能提供最有利的预测结果。为了解决这些问题,提出了一种基于多层神经网络架构和多任务学习的交通流量预测优化算法。该算法的模型结构是由两部分组成的多层网络结构,包括底层的DBN和顶层的多任务回归层。DBN以无监督的方式进行特征学习,在DBN之上创建多任务回归层,嵌入回声状态学习机制而不是传统的反向传播方法,用于监督预测。该模型结合了DBN和回声状态网络的优点,并通过多任务学习机制综合考虑了多条道路的互相影响,以提高预测准确率。论文进一步研究了不同的任务分组策略对预测效果的影响,同构和异构多任务学习在交通流量预测中的应用并提出了一种基于顶层权重的分组方法,使多任务学习更加有效。
孙明瑞[8](2019)在《基于特征关联的特征识别与推荐算法研究》文中指出随着物联网的发展和大数据时代的到来,数据爆炸式增长导致信息过载等问题,使传统的推荐系统逐渐转型为个性化推荐系统。个性化推荐算法通过构建用户画像和预测用户行为来提供信息过滤和推荐服务。在以大数据为背景下的推荐系统中,领域推荐技术的数据构成日趋复杂,呈现出海量异构数据、数据特征缺失、数据特征异常和数据特征关联等新特征。这些特征从问题规模、特征缺失程度、异常特征状态和关联关系等方面对推荐算法提出了新的需求和挑战。为此,本文开展基于特征关联的特征识别、预测与推荐算法研究。主要包含以下几个方面:(1)特征关系的分类关联规则启发式挖掘算法与特征匹配算法。基于海量数据隐藏的关联关系,重点研究面向推荐算法的数据本身隐式的分类关联规则。引入分类及连续的数据特征属性并离散化,扩展数据特征的二元表示,确保数据特征属性的多样性。为了挖掘数据中某些关联特征,研究基于最小支持度的启发式特征挖掘方法,发现关联特征的频繁性及构建最优特征子集。基于数据特征频繁项,研究基于最小置信度的启发式分类关联规则挖掘算法,为不同情景模式下,进行基于分类关联规则的特征匹配。利用机器学习库中健康医疗情景实验数据进行实验验证与分析,验证了提出算法的有效性。(2)隐式反馈特征识别与预测算法。针对应用领域数据特征稀疏性和缺失性问题,系统地研究领域中数据缺失特征的识别与预测分类问题。在系统地分析领域数据特征缺失基础上,研究基于加权用户的协同过滤特征识别方法。通过有监督学习向无监督学习的转变,研究推荐系统特征属性间隐式关联关系的特征识别方法。研究基于隐式特征提取的隐式反馈协同过滤特征识别与预测算法,通过随机创建的数据特征缺失程度模拟真实环境数据特征缺失情况,实验验证算法的有效性。利用机器学习库中健康医疗情景实验数据进行实验验证与分析,验证了提出算法的有效性和预测准确率。(3)数据异常特征识别与预测算法。针对只关注于离散数据特征的局限性,研究基于连续属性时间序列数据相互依赖关联的特征识别算法,以此进行异常特征识别与预测。研究基于深度学习网络模型的连续时间序列数据的特征识别方法,通过复杂的图模式进行数据降维,以及时频序列数据分析,形成深层次的数据时序关联关系与异常特征识别模型,以此改善预测结果的有效性。利用脑电图健康医疗情景实验数据进行实验验证与分析,验证了提出算法的有效性和预测准确率。(4)面向领域的级联加权混合个性化推荐方法。针对特定领域推荐需求,研究不同情境模式下的混合推荐方法,面向领域的研究问题抽象成为本体推荐项目的个性化推荐过程。构建用户特征信息模型画像,采用分类树和内容相似度的相似用户发现算法发现相似用户,并基于关联规则的特征匹配算法加权计算得到推荐方案。针对推荐算法冷启动问题,研究基于领域知识分类树的相似用户发现算法,采用离线计算方法提高效率。基于多用户的层次分析决策推荐形式化方法进行决策推荐,改善用户的满意度和推荐效果。中风患者实际健康医疗实验数据进行实验验证与算法比较,验证了本文混合推荐算法的有效性。
王成伟[9](2019)在《基于复合关系粗糙集的汽车零部件供应商评价方法研究》文中研究说明在全面开放新格局的推动下,建立标准的、规范的、信息化的汽车物流供应链管理体系,将进一步激发国内汽车企业的活力。随着国外优秀投资企业进入中国市场,对国内本土行业尤其是汽车行业带来了巨大冲击,企业将面临更大机遇与挑战。由于我国汽车行业供应链管理发展相对较晚,体系不够完善,导致汽车行业标准认证通过率较低,市场竞争力和认可度不足。本文以汽车零部件供应商为研究对象,将物流管理/物流评审体系等行业标准作为参考依据建立供应商评价指标体系,运用数据挖掘方法获取供应商评审认证的决策规则,对汽车零部件供应商进行评价分类。首先,依据汽车行业物流供应链管理认证体系涵盖的供应链要素和考核流程,运用评审工具对汽车零部件供应商进行物流审核。为保证评价分类方法的全面性和准确性,以物流运作评审体系的考核要素建立汽车零部件供应商评价方法的指标体系。其次,在可变精度粗糙集模型的基础上改进方法,构建复合关系的粗糙集模型。该模型能够兼顾优势关系、等价关系、调节近似集合分类精度和对研究对象动态更新。评价方法对物流评审信息进行属性约简,能够降低数据维度;再通过变精度参数提高模型的抗干扰能力,并通过实例验证了本文方法处理信息不一致性的可行性;将近似集合作为决策提取算法的输入,获取供应商分类的依据。依据保留的近似集合计算过程,对研究对象进行动态更新,并设计实例验证了更新方法的有效性。最后,由汽车零部件供应商评价分类方法设计了供应商分类评价系统。针对现行的物流供应链管理认证的评审数据,挖掘评价指标与认证结果之间的决策规则,通过分类规则找出现供应商所处阶段和瓶颈,并对照行业最佳实践持续改进物流能力。该评价方法为企业进行供应链管理和提高国内汽车行业的标准认证通过率提供了技术支持。
冯扬文[10](2018)在《大数据视角下的国际集装箱海运运价预测研究》文中提出自2008年金融危机以来,中国对世界经济增长的贡献率一直保持在30%左右,早在2010年中国就成为世界第二大经济体,2013年成为世界第一大货物贸易国①,2017年我国进出口贸易总额为27.79万亿元。国际航运服务于国际贸易,而国际贸易中90%的物流由国际海运来完成。20世纪70年代开始流行的集装箱技术让洲际运输成本进一步大幅度降低,为全球贸易提供了更加便利的条件②,近年来国际集装箱航运市场运价波动剧烈,不可预见性增强,而国际集装箱海运业是一个需要巨大投入的资本密集型行业,运价的剧烈波动给航运企业,贸易商以及行业整体带来了巨大的风险,运价波动趋势研究和运价预测一直是国际集装箱航运业关注的热点,国际集装箱海运运价预测的研究在提高行业成本管理水平、降低行业违约率、提高国际海运运输组织的执行效率以及政府决策量化参考等方面有着积极的作用。本文从情报预测是情报学重要的应用领域为起始,以研究国际集装箱海运运价预测的理论和方法为目标,概括出“国际集装箱海运运价预测研究”这一命题,在情报学知识发现框架指导下,沿着情报学对于信息的“源”、“流”、“用”的研究思路,结合当前的“大数据时代”,在概要阐述研究意义、国内外研究现状的基础上,构建了研究内容的框架体系;研究内容包括国际集装箱海运运价预测总体框架、国际集装箱海运运价信息集成模型和方法、国际集装箱海运运价数据特征处理方法、国际集装箱海运运价预测模型以及在大数据环境下进行国际集装箱海运运价预测实证分析等内容。国际集装箱海运运价预测总体框架部分,讨论了大数据视角下的国际集装箱海运运价预测的总体流程和框架。认为总体流程主要分为运价信息收集、运价信息处理和集成、探索性数据分析和运价数据特征处理、运价预测模型提出、运价预测模型运算和评估、运价预测模型的使用六个部分,其中运价预测模型的提出、模型的运算、模型的评估是整个研究的难点和重点,而运价信息的处理和集成、运价数据特征处理是运价预测实际操作中具体工作量较大的一个部分。国际集装箱运价信息集成模型和方法部分,主要解决异源异构运价数据的集成问题。认为随着互联网、电子商务和信息技术的发展,国际集装箱海运运价信息越来越呈现出数字化、集中化和实时性强等特点,这为使用数据挖掘技术进行运价预测提供了现实基础,但需要研究信息集成方法来解决运价信息的异构问题;探讨运价预测的要求及运价信息现状后,提出了基于数据仓库的运价信息集成模型、Web运价信息及增量信息获取和集成方法,设计知识库和规则库,运用信息集成模型对异源异构运价信息进行了集成。运价数据特征处理含数据处理和维度衍生两个部分,讨论的技术和方法是为了保证运价数据符合数据挖掘算法的要求和提高运价预测的准确程度。数据处理主要包括对于异常和无效、历史拉链断链等运价数据处理的流程和方法,关键信息与原始运价数据整合方法、特殊特征属性转换方法等的研究;围绕基本运价数据的维度衍生策略主要包括横向、纵向、历史变化、指数日期等维度衍生的方法,以及预测目标维度的衍生策略。基于数据挖掘方法的运价预测模型部分探讨了国际集装箱海运运价预测的总体框架,针对预测运价即期走势(分类问题)和涨跌幅(回归问题)这两个目标讨论了预测模型和结果评价指标体系。并尝试对传统的数据挖掘算法进行优化,讨论了自适应网格搜索策略,以优化算法的超参数调优方法;针对国际集装箱海运运价数据具有明显的时间序列特征,探索了基于时间序列的留出法(THO),以优化预测结果评价策略,降低泛化误差;讨论基于梯度提升决策树(GBDT)算法的并行计算及预排序后的损失函数迭代运算优化策略,提高GBDT算法在大数据环境下的运算效率。运价预测实证研究部分,面对海量的国际集装箱海运真实运价数据,结合运价预测模型未来的大数据应用环境,按照本文讨论的流程、方法、模型和优化策略,设计和构建基于大数据技术的信息化平台,进行国际集装箱海运运价的即期走势和涨跌幅预测。数据来源有三个渠道,一为某市国际集装箱海运订舱电子商务平台(物贸汇)的历史运价数据,二为某大型国际货运代理企业业务系统的运价数据,三为采集自国内较为知名的国际集装箱海运订舱业务网站(叁陆伍网络等)的Web运价数据,数据总量约为960万条。实证研究表明,本文探索的国际集装箱海运运价预测的流程、模型和方法等内容,成功地探索出从运价信息采集、分析和集成、运价信息处理到运价预测的实现路径,且预测效果明显优于传统时间序列方法的预测结果。文章的最后总结了本文的研究与不足,并对下一步的研究进行了展望。
二、基于多交易项目子集的并集的关联规则更新采掘(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于多交易项目子集的并集的关联规则更新采掘(论文提纲范文)
(1)基于多尺度的频繁项集增量挖掘及并行化(论文提纲范文)
中文摘要 |
abstract |
第一章 绪论 |
1.1 选题的背景与意义 |
1.2 国内外研究现状 |
1.2.1 关联规则增量挖掘 |
1.2.2 多尺度关联规则挖掘 |
1.2.3 关联规则并行增量挖掘 |
1.3 研究目标与研究内容 |
1.4 本文结构 |
第二章 相关理论和技术基础 |
2.1 数据挖掘概述 |
2.2 关联规则与多尺度理论 |
2.2.1 关联规则基本概念 |
2.2.2 关联规则经典算法 |
2.2.3 增量关联规则挖掘 |
2.2.4 多尺度理论 |
2.3 并行计算技术 |
2.3.1 并行计算概述 |
2.3.2 MapReduce计算模型 |
2.3.3 Spark计算模型 |
2.4 本章小结 |
第三章 基于多尺度的增量频繁项集挖掘 |
3.1 引言 |
3.2 基于多尺度的频繁项集增量挖掘算法 |
3.2.1 基本定义 |
3.2.2 FPMSIM的基本思想 |
3.2.3 FPMSIM算法步骤 |
3.2.4 FPMSIM算法实例 |
3.2.5 FPMSIM算法伪代码 |
3.3 实验设置 |
3.3.1 实验环境 |
3.3.2 实验准确性评价标准 |
3.4 实验结果和分析 |
3.4.1 支持阈值的影响 |
3.4.2 增量数据集的影响 |
3.4.3 基准尺度数据集大小的影响 |
3.5 本章小结 |
第四章 基于Spark的多尺度增量频繁项集挖掘 |
4.1 引言 |
4.2 FPMSIM并行算法描述 |
4.2.1 FPMSIM并行算法思想 |
4.2.2 FPMSIM并行算法伪代码 |
4.3 FPMSIM并行算法RDD转化过程 |
4.4 低代价二次执行缓存策略LCDERP |
4.4.1 LCDERP基本思想 |
4.4.2 LCDERP算法伪代码 |
4.5 FPMSIM并行算法实验与评价 |
4.5.1 实验设置 |
4.5.2 实验结果和分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
附录 |
攻读学位期间发表的学术论文目录 |
(2)基于整子多智能体的社会化搜索引擎模型及关键技术(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 现有研究存在问题分析 |
1.3 研究内容与研究目标 |
1.3.1 研究内容 |
1.3.2 研究目标 |
1.4 论文结构 |
第二章 相关工作 |
2.1 社会化搜索引擎 |
2.1.1 社会化搜索引擎概念与特点 |
2.1.2 社会化搜索引擎研究现状 |
2.2 整子多智能体系统 |
2.2.1 整子多智能体系统概念与特点 |
2.2.2 整子多智能体系统研究现状 |
2.3 Agent在社会化搜索、社会化推荐中的应用 |
2.4 本章小结 |
第三章 基于HMAS的社会化搜索引擎模型 |
3.1 基于任务角度的HMAS组织结构模型 |
3.2 HMAS自适应机制 |
3.2.1 竞争力调整机制 |
3.2.2 结构调整机制 |
3.3 基于竞争力的任务分配策略 |
3.4 基于HMAS的社会化搜索引擎体系结构 |
3.5 本章小结 |
第四章 数据获取与感知策略 |
4.1 在线社交网络数据获取方法 |
4.2 搜索数据获取方法 |
4.2.1 搜索引擎数据获取方法 |
4.2.2 结果处理方法 |
4.2.3 查询记录获取方法 |
4.3 数据主动感知策略 |
4.4 本章小结 |
第五章 在线社交网络知识获取与更新机制 |
5.1 社交网络知识获取方法 |
5.1.1 用户兴趣知识获取 |
5.1.2 用户影响力知识获取 |
5.1.3 用户社团知识获取 |
5.2 社交网络知识更新机制 |
5.2.1 知识感知方法 |
5.2.2 知识更新机制 |
5.3 本章小结 |
第六章 基于社交网络知识的搜索优化策略 |
6.1 结果排序机制 |
6.1.1 查询扩展方法 |
6.1.2 结果排序方法 |
6.2 信息推荐机制 |
6.2.1 结果推荐方法 |
6.2.2 热点推荐方法 |
6.2.3 用户推荐方法 |
6.3 本章小结 |
第七章 实验设计与结果分析 |
7.1 结果排序机制 |
7.2 查询扩展方法 |
7.3 信息推荐机制 |
7.3.1 结果推荐方法 |
7.3.2 用户推荐方法 |
7.3.3 热点推荐方法 |
7.4 社交网络知识的主动更新机制 |
7.5 自适应机制 |
7.5.1 竞争力调整机制 |
7.5.2 结构调整机制 |
7.6 系统性能 |
7.7 参数选择 |
7.7.1 结果排序参数α设置 |
7.7.2 社交社团划分参数θ的确定 |
7.7.3 结果推荐参数μ_1、μ_2的确定 |
7.7.4 知识感知方法阈值T_1、T_2、T_3、T_4的确定 |
7.8 本章小结 |
第八章 总结与展望 |
8.1 研究工作总结 |
8.2 下一步工作 |
参考文献 |
致谢 |
作者简介 |
(3)面向企业多源运营数据的管理知识挖掘方法研究(论文提纲范文)
致谢 |
摘要 |
abstract |
变量注释表 |
1 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.4 研究内容与技术路线 |
1.5 小结 |
2 相关基础理论 |
2.1 因素空间与背景关系 |
2.2 数据缩减方法 |
2.3 数据分类分析方法 |
2.4 多标记分类方法 |
2.5 小结 |
3 企业运营数据的特征与数据分析任务 |
3.1 企业运营数据的内涵、作用与发展趋势 |
3.2 网络时代企业运营数据的特征 |
3.3 企业运营数据分析的主要困难与研究任务 |
3.4 小结 |
4 基于因素空间理论的企业运营数据缩减方法研究 |
4.1 基于因素决定度的企业数据降维算法研究 |
4.2 企业数据降体量与动态更新的因素背景基算法研究 |
4.3 小结 |
5 基于企业运营数据的管理知识归纳与推理方法研究 |
5.1 管理规则与知识的归纳算法 |
5.2 管理规则与知识的推理算法 |
5.3 连续型企业数据的离散化算法 |
5.4 CIDFS的集成方法 |
5.5 基于多标记数据的管理知识归纳与推理方法 |
5.6 小结 |
6 基于企业产品质量与在线评论数据的知识挖掘案例研究 |
6.1 半导体企业产品质量分析与预测研究 |
6.2 基于在线评论信息的商家分类评价研究 |
6.3 小结 |
7 结论与创新点 |
7.1 结论 |
7.2 创新点 |
7.3 展望 |
参考文献 |
查新结论 |
作者简历 |
学位论文数据集 |
(4)社会网络中节点影响最大化问题建模及社区发现方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 社会网络节点影响力评价研究概况 |
1.2.2 社会网络影响最大化问题研究概况 |
1.2.3 社会网络中基于进化策略的社区发现研究概况 |
1.3 研究内容与研究思路 |
1.3.1 研究内容 |
1.3.2 本文研究思路 |
1.4 主要创新点 |
第二章 基础理论 |
2.1 复杂网络研究概述 |
2.1.1 复杂网络概述 |
2.1.2 常见的节点中心性指标 |
2.2 多属性决策理论 |
2.2.1 多属性决策理论概述 |
2.2.2 常用的多属性决策方法 |
2.3 聚类分析的基本概念和方法 |
2.3.1 聚类分析的概念 |
2.3.2 典型的聚类要求 |
2.3.3 几种典型的聚类分析方法 |
第三章 基于多指标的社会网络节点影响力综合评估模型 |
3.1 问题分析 |
3.2 相关理论基础 |
3.2.1 灰色关联分析 |
3.2.2 易感-感染-恢复传染病模型 |
3.3 基于多指标的社会网络节点影响力综合评估模型构建 |
3.4 基于GRA和动态加权TOPSIS的节点影响力综合评估方法 |
3.4.1 GSW-TOPSIS方法实现 |
3.4.2 应用示例 |
3.4.3 数值实验及结果分析 |
3.5 基于GSW-TOPSIS的节点影响力评估改进算法 |
3.5.1 一种新的局部中心性度量 |
3.5.2 数值实验及结果分析 |
3.5.3 i GSW-TOPSIS方法复杂性分析 |
3.6 本章小结 |
第四章 基于启发式聚类的top-k节点集影响最大化问题建模 |
4.1 问题分析 |
4.2 相关理论基础 |
4.2.1 K-Shell |
4.2.2 扩展邻域核 |
4.2.3 最小距离 |
4.2.4 Katz相似性指标 |
4.2.5 LP相似性指标 |
4.3 基于启发式聚类的top-k节点集影响最大化问题模型构建 |
4.4 自适应启发式聚类的top-k种子节点集识别算法 |
4.4.1 一种新的动态局部相似性指标 |
4.4.2 基于DLS的自适应启发式聚类top-k种子节点集识别算法 |
4.4.3 数值实验及结果分析 |
4.5 本章小结 |
第五章 基于NSGA-Ⅱ遗传策略的限定预算下影响最大化建模 |
5.1 问题分析 |
5.2 相关理论 |
5.2.1 进化算法 |
5.2.2 单目标优化进化算法 |
5.2.3 多目标优化进化算法 |
5.3 基于NSGA-Ⅱ的限定预算下影响最大化问题求解算法 |
5.3.1 问题数学模型 |
5.3.2 基于NSGA-Ⅱ的模型优化 |
5.4 数值实验及结果分析 |
5.4.1 实验数据集 |
5.4.2 IMULB算法有效性分析 |
5.5 本章小结 |
第六章 基于多目标遗传进化策略的社区发现算法 |
6.1 问题分析 |
6.2 相关理论基础 |
6.2.1 常用的社区结构测评指标 |
6.2.2 常用的社区结构表示编码 |
6.2.3 基于单目标优化的社区发现 |
6.2.4 基于多目标优化的社区发现 |
6.3 基于分类和拓扑信息的多目标遗传优化社区发现算法 |
6.3.1 基于节点性相似性的种群随机概率初始化 |
6.3.2 遗传算子 |
6.3.3 基于历史信息的GA选择 |
6.3.4 基于邻域拓扑的随机概率社区划分修正策略 |
6.4 数值实验及结果分析 |
6.4.1 人工计算机生成网络实验结果与分析 |
6.4.2 现实社会网络实验及结果分析 |
6.5 本章小结 |
第七章 结论与展望 |
7.1 本文工作总结 |
7.2 研究展望 |
参考文献 |
作者在攻读博士学位期间公开发表的论文 |
作者在攻读博士学位期间所作的项目 |
致谢 |
(5)基于多源异构个人服务数据的服务预测与推荐方法(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 相关问题研究现状 |
1.2.1 个人服务数据管理与个人服务数据语义模型 |
1.2.2 服务预测方法 |
1.2.3 服务推荐方法 |
1.2.4 众包服务任务推荐方法 |
1.3 课题来源及主要研究内容 |
1.4 论文章节安排 |
第2章 面向服务预测与推荐的个人行为与服务数据集成建模 |
2.1 引言 |
2.2 个人服务数据采集方法 |
2.3 个人服务数据的隐私保护策略 |
2.4 个人行为与服务数据集成模型的元模型 |
2.5 多源异构个人服务数据映射的建模方法 |
2.6 个人服务数据变化的时间感知建模方法 |
2.7 个人行为与服务数据集成模型的基本操作 |
2.8 实验验证与结果分析 |
2.8.1 实验设置和评价指标 |
2.8.2 实验结果与分析 |
2.9 本章小结 |
第3章 基于个人服务数据变化模式与服务行为的服务预测方法 |
3.1 引言 |
3.2 基于个人服务数据变化模式的服务预测方法 |
3.2.1 问题的形式化描述 |
3.2.2 基于个人服务数据变化模式的服务预测方法 |
3.2.3 实验验证与结果分析 |
3.3 基于服务行为的服务预测方法 |
3.3.1 数据预处理和标准化 |
3.3.2 数据集统计分析 |
3.3.3 基于融合上下文情境数据的服务行为模式 |
3.3.4 基于融合上下文情境数据的服务行为模式挖掘与预测方法 |
3.3.5 实验验证与结果分析 |
3.4 本章小结 |
第4章 基于服务行为与个人关联数据的服务推荐方法 |
4.1 引言 |
4.2 问题的形式化描述 |
4.3 基于服务行为与个人关联数据的服务推荐模型 |
4.3.1 个人关联数据与服务行为序列建模 |
4.3.2 基于服务行为与个人关联数据的服务推荐模型训练 |
4.4 实验验证与结果分析 |
4.4.1 实验设置和评价指标 |
4.4.2 数据集描述 |
4.4.3 对照方法 |
4.4.4 实验结果与分析 |
4.5 本章小结 |
第5章 基于个人社会偏好的众包服务任务推荐方法 |
5.1 引言 |
5.2 概念定义和问题的形式化描述 |
5.3 个人社会偏好建模 |
5.4 基于个人社会偏好的众包服务任务推荐方法 |
5.4.1 个人社会偏好抽取 |
5.4.2 众包服务任务推荐方法 |
5.5 实验验证与结果分析 |
5.5.1 数据集描述 |
5.5.2 实验设置和实验环境 |
5.5.3 实验结果与分析 |
5.5.4 参数分析和性能分析 |
5.6 本章小结 |
第6章 服务预测与推荐原型系统 |
6.1 开源软件开发服务应用场景分析 |
6.2 个人服务数据管理系统 |
6.2.1 个人服务数据管理系统的设计 |
6.2.2 个人服务数据管理系统的实现 |
6.3 服务预测与推荐原型系统的设计和构建 |
6.3.1 服务预测与推荐原型系统测试数据 |
6.3.2 服务预测与推荐原型系统设计与实现 |
6.4 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(6)基于时间戳和垂直格式的关联规则算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景 |
1.2 研究的现状 |
1.3 本文研究主要内容 |
1.4 本文的组织结构 |
第2章 相关知识介绍 |
2.1 关联规则 |
2.2 几种相关的经典关联规则算法 |
2.2.1 Apriori算法 |
2.2.2 Eclat算法 |
2.2.3 Declat算法 |
第3章 E-SLMCM算法和DE-SLMCM算法 |
3.1 SLMCM算法 |
3.2 E-SLMCM算法 |
3.2.1 垂直格式挖掘 |
3.2.2 集合枚举树升序策略 |
3.2.3 改进的求时间戳方法 |
3.2.4 算法步骤与实现 |
3.3 DE-SLMCM算法 |
3.4 时间复杂度分析 |
3.4.1 SLMCM算法时间复杂度 |
3.4.2 E-SLMCM算法的时间复杂度 |
3.4.3 DE-SLMCM算法的时间复杂度 |
3.4.4 三种算法的时间复杂度比较 |
3.5 仿真实验与分析 |
3.5.1 实验目的与方法 |
3.5.2 实验环境 |
3.5.3 实验数据 |
3.5.4 实验与分析 |
第4章 SPE-SLMCM算法和SPDESLMCM算法 |
4.1 关联规则并行化的意义 |
4.2 Spark框架 |
4.3 并行关联规则算法现状 |
4.3.1 并行apriori算法 |
4.3.2 并行FP-growth |
4.3.3 并行Eclat算法 |
4.4 基于Spark的 SPE-SLMCM算法和SPDE-SLMCM算法 |
4.5 实验与分析 |
第5章 总结与展望 |
5.1 研究成果 |
5.2 进一步工作 |
参考文献 |
攻读硕士学位期间发表的学术论文及科研工作 |
致谢 |
(7)面向智能交通大数据的特征提取和流量预测算法优化与改进研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 关联特征提取算法向分布式并行化发展 |
1.1.2 结合粗糙集理论与神经网络进行特征提取 |
1.1.3 深度学习在交通流量预测中的应用 |
1.2 国内外研究现状与相关工作 |
1.2.1 基于并行计算的关联特征提取方法 |
1.2.2 基于粗糙神经网络的特征提取方法 |
1.2.3 基于深度学习的交通流量预测方法 |
1.2.4 相关研究工作总结 |
1.3 研究目的和研究内容 |
1.4 论文结构 |
1.5 本章小结 |
第二章 特征提取方法与深度预测模型简介 |
2.1 关联特征提取方法 |
2.1.1 Apriori挖掘算法 |
2.1.2 基于Map Reduce的 Apriori挖掘算法 |
2.2 模糊集、粗糙集与机器学习方法 |
2.2.1 模糊集与粗糙集 |
2.2.2 模糊粗糙集模型 |
2.2.3 模糊粗糙集与机器学习 |
2.3 基于深度学习的预测模型 |
2.3.1 堆叠自动编码机 |
2.3.2 深度置信网络 |
2.3.3 卷积神经网络 |
2.3.4 递归神经网络 |
2.4 本章小结 |
第三章 基于分布式并行计算与自适应策略的交通关联特征提取优化算法 |
3.1 引言 |
3.2 关联规则提取与MAPREDUCE |
3.3 基于SPARK的自适应分布式关联规则挖掘优化算法 |
3.3.1 算法阶段I—生成频繁单项 |
3.3.2 算法阶段II—频繁项集生成 |
3.4 实验与分析 |
3.4.1 实验设置 |
3.4.2 算法扩展性实验结果与分析 |
3.4.3 算法性能实验结果与分析 |
3.5 本章小结 |
第四章 基于模糊粗糙神经网络的交通事件特征提取优化算法 |
4.1 引言 |
4.2 模糊集、粗糙集和模糊粗糙集中的粒度与近似 |
4.3 改进的模糊粗糙集:粒化与近似 |
4.3.1 使用模糊集定义决策类 |
4.3.2 下近似与上近似边界 |
4.4 基于模糊粗糙粒度的神经网络生成方法 |
4.4.1 数据归一化 |
4.4.2 基于α-切割的粒化结构构建 |
4.4.3 确定粒化神经网络的输入向量和目标值 |
4.4.4 基于模糊粗糙集的粒度神经网络的构建和训练算法 |
4.5 实验与分析 |
4.5.1 实验过程 |
4.5.2 top-k特征对分类精度的影响 |
4.5.3 不同特征选择方法下的分类实验结果 |
4.5.4 特征选择方法评估 |
4.6 本章小结 |
第五章 基于多层神经网络架构和多任务学习的交通流量预测优化算法 |
5.1 引言 |
5.2 多层神经网络架构与交通流量预测方法 |
5.2.1 交通流量预测 |
5.2.2 DBN |
5.2.3 DBN-DNN |
5.2.4 回声状态网络 |
5.3 基于多任务学习深度置信回声状态网络的交通流量预测方法 |
5.3.1 基于深度置信回声状态网络的交通流量预测架构 |
5.3.2 底部DBN独立学习 |
5.3.3 回归层局部权重调整 |
5.3.4 遗传算法优化ESN |
5.3.5 多任务学习机制融入 |
5.3.6 多任务分组策略 |
5.4 实验与分析 |
5.4.1 实验设置 |
5.4.2 多层神经网络结构选择实验 |
5.4.3 多层网络预测模型实验结果分析 |
5.4.4 多任务学习实验结果分析 |
5.5 本章小结 |
结论与展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
附件 |
(8)基于特征关联的特征识别与推荐算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 相关问题研究现状 |
1.2.1 关联规则挖掘算法 |
1.2.2 特征识别与推荐算法 |
1.2.3 推荐算法的评价指标 |
1.2.4 有待深入研究的问题 |
1.3 课题来源及主要研究内容 |
1.4 论文章节安排 |
第2章 基于特征关系的关联规则挖掘与特征匹配算法 |
2.1 引言 |
2.1.1 现有研究存在的问题 |
2.1.2 本文的解决思路 |
2.2 问题与定义 |
2.3 贝叶斯网络特征关系马尔科夫独立性推理分析 |
2.4 基于改进蚁群算法的分类关联规则挖掘算法 |
2.4.1 基于改进蚁群算法的频繁特征项集挖掘 |
2.4.2 基于改进蚁群算法的分类关联规则挖掘算法 |
2.5 基于分类关联规则的特征匹配算法 |
2.6 实验验证与分析 |
2.6.1 实验数据的预处理 |
2.6.2 频繁特征项集及分类关联规则挖掘 |
2.6.3 分类关联规则挖掘算法有效性验证 |
2.6.4 特征匹配算法比较分析 |
2.7 本章小结 |
第3章 基于隐式反馈的特征识别与预测算法 |
3.1 引言 |
3.1.1 现有研究存在的问题 |
3.1.2 本文的解决思路 |
3.2 问题与定义 |
3.3 面向预测的特征关联识别理论分析 |
3.3.1 面向预测的显式特征关联分析 |
3.3.2 面向预测的隐式特征关联分析 |
3.3.3 无向概率图特征关系马尔科夫独立性推理分析 |
3.3.4 面向预测的特征属性模型可表征理论 |
3.4 基于隐式反馈的特征识别与预测算法 |
3.4.1 DB-PRBM隐式反馈特征识别方法 |
3.4.2 DB-PDRBM隐式反馈特征识别方法 |
3.4.3 基于隐式反馈的协同过滤预测算法 |
3.5 实验验证与分析 |
3.5.1 实验数据预处理 |
3.5.2 加权用户协同过滤特征识别方法与分析 |
3.5.3 DB-PRBM特征识别结果与分析 |
3.5.4 DB-PDRBM特征识别结果与分析 |
3.5.5 相关特征识别与预测算法比较分析 |
3.6 本章小结 |
第4章 基于卷积神经网络的异常特征识别与预测算法 |
4.1 引言 |
4.1.1 现有研究存在的问题 |
4.1.2 本文的解决思路 |
4.2 问题与定义 |
4.3 基于深度学习的异常特征识别模型 |
4.3.1 基于递归神经网络的异常特征识别模型 |
4.3.2 基于卷积神经网络的异常特征识别模型 |
4.4 基于异常特征识别模型的预测算法 |
4.5 实验验证与分析 |
4.5.1 实验数据预处理 |
4.5.2 基于线性基准模型的异常特征识别结果分析 |
4.5.3 基于递归神经网络的异常特征识别结果分析 |
4.5.4 基于卷积神经网络的异常特征识别结果分析 |
4.5.5 相关特征识别算法预测结果比较分析 |
4.6 本章小结 |
第5章 基于级联加权的混合个性化推荐算法 |
5.1 引言 |
5.1.1 现有研究存在的问题 |
5.1.2 本文的解决思路 |
5.2 问题与定义 |
5.3 相似用户发现算法 |
5.3.1 基于知识分类树的相似用户发现算法 |
5.3.2 基于内容相似度的相似用户发现算法 |
5.3.3 基于关联规则的特征匹配算法 |
5.4 面向领域的个性化特征建模方法 |
5.4.1 用户画像个性化特征建模方法 |
5.4.2 基于分类树的领域知识建模方法 |
5.5 基于级联加权的混合个性化推荐算法 |
5.6 基于多用户的层次分析推荐形式化方法 |
5.7 实验验证与分析 |
5.7.1 决策推荐与协同服务评价体系 |
5.7.2 相似用户发现与决策方案推荐结果 |
5.7.3 相关推荐算法比较分析 |
5.8 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(9)基于复合关系粗糙集的汽车零部件供应商评价方法研究(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 国内外研究综述 |
1.3.1 供应商评价方法研究综述 |
1.3.2 物流管理/物流评审体系研究综述 |
1.3.3 粗糙集理论综述 |
1.4 研究思路 |
1.5 研究内容 |
第二章 物料管理/物流评审体系 |
2.1 物料管理/物流评审体系目的及目标 |
2.1.1 物料管理/物流评审体系目的 |
2.1.2 物料管理/物流评审体系目标 |
2.2 物流管理/物流评审内容与工具 |
2.2.1 物料管理/物流评审内容 |
2.2.2 物料管理/物流评审工具 |
2.3 供应商评价指标构建 |
2.4 本章小结 |
第三章 粗糙集理论及扩展模型概述 |
3.1 经典粗糙集理论 |
3.2 优势关系粗糙集模型 |
3.2.1 优势关系粗糙集理论 |
3.2.2 几种拓展优势关系粗糙集 |
3.2.3 优势关系粗糙集决策规则 |
3.3 变精度粗糙集模型 |
3.4 本章小结 |
第四章 基于复合关系粗糙集的评价方法 |
4.1 复合关系粗糙集模型 |
4.2 属性约简 |
4.3 分类方法 |
4.3.1 决策规则获取 |
4.3.2 分类精度分析 |
4.4 近似集动态更新方法 |
4.4.1 对象增加的近似集更新 |
4.4.2 对象删除的近似集更新 |
4.4.3 近似集更新增量算法模型 |
4.5 本章小结 |
第五章 汽车零部件供应商评价系统 |
5.1 汽车供应商评价系统流程 |
5.2 汽车供应商评价系统结构 |
5.2.1 供应商评价系统硬件结构 |
5.2.2 供应商评价系统软件结构 |
5.2.3 数据库设计 |
5.3 系统实现 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(10)大数据视角下的国际集装箱海运运价预测研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究的背景及意义 |
1.1.1 命题提出 |
1.1.2 研究意义 |
1.2 国内外研究现状综述 |
1.2.1 信息集成 |
1.2.2 数据挖掘 |
1.2.3 大数据 |
1.2.4 海运运价预测 |
1.3 研究的目标和关键问题 |
1.3.1 研究目标 |
1.3.2 拟解决的关键问题 |
1.4 研究的思路和方法 |
1.4.1 研究思路 |
1.4.2 研究方法 |
1.5 研究的内容和创新点 |
1.5.1 研究内容 |
1.5.2 本文的特色与创新之处 |
2 相关概念和理论 |
2.1 信息集成 |
2.1.1 联邦数据库 |
2.1.2 数据仓库 |
2.1.3 Wrapper-Mediator |
2.2 数据处理 |
2.2.1 数据质量分析 |
2.2.2 归一化处理 |
2.2.3 相关性分析 |
2.3 数据挖掘 |
2.3.1 评估方法 |
2.3.2 数据挖掘方法 |
2.3.3 超参数调优方法 |
2.3.4 评价指标 |
2.4 大数据技术 |
2.4.1 MPI |
2.4.2 Hadoop体系 |
2.4.3 Spak |
2.5 本章小结 |
3 国际集装箱海运运价预测总体框架 |
3.1 总体流程 |
3.1.1 运价信息处理和集成 |
3.1.2 运价数据特征处理和EDA |
3.1.3 运价预测模型提出 |
3.1.4 运价预测模型计算和评估 |
3.1.5 运价预测模型使用 |
3.2 总体架构 |
3.2.1 信息集成 |
3.2.2 存储管理 |
3.2.3 数据挖掘 |
3.3 本章小结 |
4 国际集装箱海运运价信息集成模型和方法 |
4.1 运价数据来源分析 |
4.1.1 国际海运电商平台 |
4.1.2 业务操作系统 |
4.1.3 常用办公软件 |
4.1.4 政府或职能部门的系统 |
4.2 运价数据特征分析 |
4.2.1 海量、实时和真实 |
4.2.2 易于存储、传输和处理 |
4.2.3 普遍存在异构性 |
4.3 运价数据集成目标研究 |
4.4 基于数据仓库的运价信息集成模型 |
4.5 实现运价信息集成的关键技术 |
4.5.1 定义数据仓库模型 |
4.5.2 集成异构信息 |
4.5.3 处理增量信息 |
4.5.4 设计基于语义的知识库和规则库 |
4.6 运价信息初步集成方法 |
4.6.1 运价基本数据初步处理方法 |
4.6.2 异源异构运价数据集成方法 |
4.7 运价信息合并 |
4.7.1 相关性分析 |
4.7.2 数据整合并去重 |
4.8 本章小结 |
5 运价数据特征处理方法 |
5.1 有效运价信息生成方法 |
5.1.1 运价信息筛选方法 |
5.1.2 无效数据处理逻辑和方法 |
5.1.3 异常值处理的逻辑和方法 |
5.2 异源运价值处理 |
5.3 历史拉链断链数据处理 |
5.4 关键特征属性补充 |
5.4.1 港口基本属性分析 |
5.4.2 离散型特征值处理方法 |
5.4.3 关键信息替换方法 |
5.4.4 基于基础信息的关键属性拓展 |
5.4.5 预测目标选择方法 |
5.5 运价信息的维度衍生 |
5.5.1 横向同期指标 |
5.5.2 纵向历史指标 |
5.5.3 历史变化指标 |
5.5.4 运价预测总体目标维度衍生 |
5.5.5 重要特征属性衍生策略 |
5.5.6 补充属性设计 |
5.6 特征转换 |
5.6.1 One-Hot Encoding |
5.6.2 归一化处理 |
5.7 本章小结 |
6 基于数据挖掘方法的运价预测模型 |
6.1 运价预测模型的基本框架 |
6.2 运价预测模型设计 |
6.2.1 模型的输入和输出 |
6.2.2 运价数据特征属性分析 |
6.2.3 数据挖掘方法选取分析 |
6.2.4 运价预测结果评价指标研究 |
6.3 实现运价预测的算法和评价策略优化 |
6.3.1 自适应网格搜索策略设计 |
6.3.2 基于时间序列的留出法(THO)设计 |
6.3.3 基于GBDT的算法优化策略设计 |
6.4 本章小结 |
7 运价预测系统设计及实验 |
7.1 运价数据准备 |
7.2 数据集成和数据特征处理 |
7.2.1 预测目标选择 |
7.2.2 关键信息补全 |
7.3 运价数据EDA分析 |
7.3.1 运价数据分布性分析 |
7.3.2 运价波动趋势统计 |
7.4 运价预测系统设计及实现 |
7.4.1 运价预测系统方案设计 |
7.4.2 基于大数据技术的系统架构 |
7.4.3 运价信息集成结果 |
7.4.4 运价预测结果 |
7.5 本章小结 |
8 总结和展望 |
8.1 研究总结 |
8.2 研究展望 |
参考文献 |
科研及发表论文情况 |
致谢 |
四、基于多交易项目子集的并集的关联规则更新采掘(论文参考文献)
- [1]基于多尺度的频繁项集增量挖掘及并行化[D]. 崔小慧. 太原科技大学, 2021
- [2]基于整子多智能体的社会化搜索引擎模型及关键技术[D]. 王梅嘉. 西安电子科技大学, 2020(02)
- [3]面向企业多源运营数据的管理知识挖掘方法研究[D]. 刘海涛. 辽宁工程技术大学, 2020
- [4]社会网络中节点影响最大化问题建模及社区发现方法研究[D]. 杨平乐. 上海大学, 2020(02)
- [5]基于多源异构个人服务数据的服务预测与推荐方法[D]. 王佳秋. 哈尔滨工业大学, 2020(01)
- [6]基于时间戳和垂直格式的关联规则算法研究[D]. 马俊杰. 青岛理工大学, 2019(02)
- [7]面向智能交通大数据的特征提取和流量预测算法优化与改进研究[D]. 郭洋. 华南理工大学, 2019(01)
- [8]基于特征关联的特征识别与推荐算法研究[D]. 孙明瑞. 哈尔滨工业大学, 2019
- [9]基于复合关系粗糙集的汽车零部件供应商评价方法研究[D]. 王成伟. 合肥工业大学, 2019(01)
- [10]大数据视角下的国际集装箱海运运价预测研究[D]. 冯扬文. 华中师范大学, 2018(05)