一、一种文本分类数据挖掘的技术(论文文献综述)
高昀[1](2021)在《基于社交电商平台的用户行为分析与研究》文中研究说明近几年来,随着互联网经济和社交平台的持续兴起和发展,社交电商越发活跃在大众的眼前,在中国的经济社会中占有越来越重要的位置;对社交电商该新兴群体进行用户行为分析与研究,有利于促进社交电商经济模式的不断发展,对于经济社会的发展来说具有重要意义。本文借助大数据挖掘技术,基于前人在用户行为分析方面的研究,针对社交电商的不同行为进行分析与研究。本文的主要工作包括以下几点:(1)基于用户偏好行为的聚类算法的改进。针对社交电商的偏好行为数据,研究现有的优秀的聚类算法,并对其缺点和优点对其进行整合与改进,提出一种结合密度Canopy算法的改进的K-means聚类算法,对社交电商进行群体划分。(2)提出基于用户社交行为的分类算法模型。针对社交电商发布社交文本的行为,总结了社交文本的特点,研究已有的文本分类算法,构建了基于BERT+TF-IDF+全连接层的复合网络模型。将BERT语言框架应用于社交文本的分类中,采用多头注意力机制,能够综合考虑上下文的相关性,使用TF-IDF技术来结合词频统计特征,最后通过全连接层,进一步提取语义特征,进行文本分类。(3)提出基于社交电商平台的用户行为分析流程,采用统计分析、聚类和分类等不同方法从多个角度对社交电商数据进行大数据挖掘分析,并将结果以图形和表格的方式直观表现出来。针对结果进行延展分析,揭示社交电商的特点和规律,为促进社交电商经济发展提供建设性意见。本文的主要内容是针对社交电商不同种类的行为采取不同的研究方法,通过改进聚类算法和构建文本分类模型从而对社交电商的行为进行深入挖掘和分析,形成基于社交电商平台的用户行为分析的流程与框架。
佘昊[2](2021)在《基于数据挖掘的生鲜电商仓配策略研究》文中研究说明随着国民消费升级,生鲜万亿市场的潜力越发显现,被称为电商的最后一片蓝海。然而,相比于美好的市场前景,我国的生鲜电商行业还处于探索阶段,各种生鲜仓配策略仍不成熟,导致大多数电商企业亏损收场,错失市场风口。基于此现状,本文利用数据挖掘技术,构建了一套基于生鲜电商负面资讯的仓配策略问题挖掘方案,用于研究生鲜电商行业中各仓配策略的短板与缺陷,让生鲜电商充分认知自身不足,规避劣势,改良策略,健康发展。本文以文档集知识密集化为核心,对海量文本中反映仓配策略问题的相关知识进行浓缩提取,并基于数据挖掘结果对各仓配策略的问题进行分析,主要经历以下几个步骤:1)数据发现流程。通过数据清洗、文本特征生成、文本特征选择等步骤,极大削减文档集中无信息含量、重要程度低的冗余数据,提炼文本特征,形成易于进行知识挖掘的文本特征集。2)问题挖掘流程。通过计算特征集TF-IDF,对每个特征的重要性进行评估,筛选出可代表问题热点讨论主题的关键词集合;通过基于机器学习的文本分类模型与评估指标来验证主题关键词对文档集问题的代表性;通过计算关键词集合与特征集的修正相关系数,筛选出关键词的高相关性词汇,组成问题描述性核心短语,反映每个热点讨论主题下的具体问题状况。3)仓配策略问题分析。根据问题核心短语,对文本反映问题进行归类,得到3种大类问题、16种细化问题,并从各仓配策略的特有问题类别和高关注度问题类别展开问题深入分析。经系统性分析,本文发现各仓配策略问题的核心在于过度注重模式运营、注重创新概念,但缺乏配套的技术方案与供应链管理能力,倾向于用大量的资本输入掩盖问题短板,不实际解决问题,进行恶性竞争,导致了生鲜电商市场整体盈利水平低下、发展水平较低。只有改变发展思路,根据自身仓配策略的特点,着力于完善各种生鲜零售场景下的落地方案,才能使行业健康发展。
张达[3](2021)在《基于Bert-BiGRU的信访数据研究与应用》文中研究说明随着纪检监察系统“三转”工作的不断深入,信访工作强度大、头绪多、时效性强,信访干部人员不足、能力有待提升等诸多问题已成为当前制约信访工作发展的主要瓶颈,亟待解决。为适应当前工作需要,保质保量地完成信访相关工作,借助信息化的手段处理信访事务已成为迫切需要。信访数据管理系统以省纪委信访数据为基础,运用数据挖掘、机器学习和文本分类等信息处理技术建立经验模型,生成数据可视化的信访统计报告,为纪检工作者和决策者提供服务。本文的主要工作有两个方面:(1)建立信访数据分析经验模型。本文基于信访数据的特点提出了一种Bert-BiGRU网络模型,利用TF-IDF算法完成了信访数据的文本分类和关键词提取。首先将预处理的信访数据输入Bert预训练模型得到格式化文本向量;之后通过BiGRU提取文本特征,采用Attention自注意力机制对BiGRU输出的每个时序向量进行加权求和,优化特征向量;最后采用TF-IDF算法完成文本分类和关键词提取。(2)科学统计信访数据,设计实现了信访数据管理系统。将文本分类和关键词提取结果通过Softmax层挖掘出信访数据中有价值的信息,生成信访统计报告。使用Springboot与React技术搭建B/S网络平台,信访统计报告通过Echarts图表插件实时动态展现,供信访工作者和决策者使用。将信访数据输入Bert-BiGRU模型,分类结果可视化显示,该模型无论在效率还是准确率上都优于传统的循环神经网络模型。本文构建的信访数据管理系统提高了纪检委信访工作的核心竞争力与业务创新水平。
詹盛涛[4](2021)在《基于大数据的行业短信分析系统的设计与实现》文中提出行业短信覆盖各大行业,内容包括产品推广、活动通知等多种形式,已成为企业进行商业活动的重要方式之一。短信服务商通过接口向企业客户提供短信收发服务,所有经由平台发送的短信会被存储记录下来,每月的数据量可以达到百万级别。对于短信服务提供商,历史累积短信会占用大量存储空间,但数据资产利用率低,公司缺乏快速、有效、深入的分析手段,无法掌握业务情况。此外,对于诈骗类、涉政类、反动类等具有一定风险的短信,公司缺乏有效的风险排查手段。另外,业务人员需要频繁从历史累积短信中,通过查询、统计、号码匹配方式,提取数据用于制作业务报表。最后,利用数据挖掘技术可从短信数据中提取大量用户相关信息,通过建立用户画像,开展例如精准营销、内容推荐、有偿信息咨询等新业务,实现数据的二次利用。因此,对于短信公司,一个能处理大量数据的行业短信分析系统就显得十分重要。本文首先对行业短信分析系统的研究背景进行介绍。之后对数据挖掘技术在文本分析领域的应用以及大数据技术在国内外企业中的使用现状进行介绍。然后,详细介绍了本系统所用到的文本聚类、文本分类、分布式存储、并行计算等技术。具体包括文本预处理工具Jieba 和 TF-IDF、DBSCAN 算法、集成学习 XGBoost 算法、Hadoop 和Spark大数据处理框架。其次,本文根据短信公司业务背景,分析用户需求,将需求转化成功能描述,确定用户角色和非功能需求。之后,根据需求分析结果,对系统进行整体设计,确定技术实现方案,并对每个功能实现流程进行梳理,完成核心功能的详细设计。最后,根据设计方案开发实现行业短信分析系统,并对系统进行功能和性能测试,确保符合系统需求。本系统利用文本聚类、文本分类等技术和大数据处理技术,实现对大量历史累积的行业短信进行快速、有效、深入地分析,满足了业务人员频繁、复杂的数据分析需求。本系统具有多个创新点和优势:支持多种分析手段、可建立标签丰富的用户画像、支持多行业类别、采用多分类器集成、分布式存储和并行处理。支持多种分析手段指,包括聚类分析、行业分类、风险分类、数据查询、数据统计、号码匹配。此外,通过数据挖掘可对每个短信用户建立多标签的用户画像,方便公司掌握业务状况,也可基于此与广告公司合作,进行精准营销,发挥短信数据的二次价值。在行业类别方面,本系统支持多达59种行业类别划分,从传统行业到近年来新兴行业均有覆盖。由于分类标签众多且每条短信可能属于多个行业类别,故在分类器方面,采用能处理多输出问题且兼顾分类性能的集成学习XGBoost算法,分类性能提升明显。此外,基于Hadoop和Spark的框架,使得系统相较于传统数据存储方案,具有高容错、高吞吐、处理速度快等优势。
陈萌[5](2021)在《基于文本数据挖掘的核心专利识别方法研究》文中研究表明核心专利一般是指某个技术领域的某种产品的关键核心技术所对应的专利[1],对某行业的核心专利进行识别是挖掘该行业关键核心技术信息的有效途径,进而可以为行业企业提供技术研发指导。为了更全面的对核心专利进行识别,本文提出了一种基于文本数据挖掘的核心专利识别方法,该方法首先通过文本挖掘相关智能算法对专利进行领域细分,然后在细分领域的基础上使用改进型PageRank算法对专利进行评分以识别该领域下的核心专利。本文的核心专利识别任务中包含三个子任务:分类子任务、聚类子任务和核心专利识别子任务,本文主要对三个子任务中使用的智能算法进行了深入研究,并使用本文方法对电力系统与设备领域的专利进行了实例分析。主要研究内容如下:(1)提出了一种基于BERT-A-BiLSTM的多特征专利文本分类算法专利分类子任务中,为了依据专利所属技术领域对其进行划分,本文提出了一种基于BERT-A-BiLSTM的多特征专利文本分类算法。目前专利文本分类算法大都采用静态预训练技术生成的词向量进行文本向量化表示,无法解决词语一词多义的问题。基于此,本文使用动态预训练模型BERT模型产生的可以根据语境变化的动态词向量进行专利文本向量化表示。并通过Attention机制对BiLSTM算法提取的专利文本语义特征进行加权,以增加对分类结果起决定性作用特征的权重。专利摘要文本的专业领域相关词汇多,BERT模型难以获取其准确的语义,基于此,本文使用改进型TF-IDF算法提取文本统计特征并和神经网络提取的语义特征进行拼接作为最终的文本特征输入到Softmax分类器中得到分类结果。最后通过实验证明,本文所提出的基于BERT-A-BiLSTM的多特征专利文本分类算法在各项评价指标中均有着较好表现。(2)提出了一种基于改进K-means的专利文本聚类方法专利聚类子任务中,为了对分类后的专利依据其技术主题进行进一步划分,本文提出了一种基于改进K-means的专利文本聚类方法。目前大多数专利文本聚类分析使用的是原始K-means聚类算法,原始K-means聚类算法初始簇中心的随机选取会影响聚类效果[2]。为了降低随机选取初始簇中心所造成的聚类结果不稳定性,本文提出了一种结合距离和密度的初始簇中心选取方法,根据数据点邻域内的密度和数据点距已确定初始聚类中心的距离对初始簇中心建立初始中心适合度函数,依据适合度函数值对数据点一一进行选取作为初始簇中心,并在Iris、Wine和Cancer数据集上进行实验,验证了该方法的有效性,该方法在一定程度上减少了随机性选取初始中心导致聚类结果局部最优的影响。同时使用汽车制造领域的专利文本数据对本文所提出专利文本聚类方法进行实证分析以验证本文专利文本聚类方法的可行性。(3)提出了一种基于改进PageRank的核心专利识别算法核心专利识别算法是本文核心专利识别方法中的关键,近年来,相关学者在使用PageRank算法或其相关改进算法进行核心专利识别时忽略了专利文献引用网络中固有的集中性等特性和时间因素对入度的影响。基于此,本文对PageRank算法进行相应的改进,提出了引文网络中心性分析和专利年龄相结合的PR值权重分配方法,并基于文献老化率从影响专利评价结果的时间因素方面对算法进行优化,通过对Markov概率转移矩阵进行分析证明了本文改进的PageRank算法的收敛性。经实验验证,本文改进的PageRank算法综合分析了网络度中心性和专利年龄因素对专利的影响,更有利于识别出公布时间短、质量高的专利,使得核心专利的识别更加精准。
张云[6](2021)在《基于知识发现的中药方剂核心药物识别研究》文中认为中药方剂是中医药治疗疾病的主要手段,自记载以来,众多方剂记录于中医医书和文献。方剂由中药根据配伍原则组合而成,方中君药和臣药作为方剂核心药物,扮演治疗疾病关键角色,用于病人主要证候,缓解主要症状。因此,明确治疗疾病的核心药物有利于揭示方剂配伍规律,发现疾病治疗关键药物,辅助医生合理方剂配伍。本文通过设计知识发现模型,基于社区检测分析结构化方剂数据,基于中文词向量分析非结构化文献数据,开展中药方剂核心药物识别研究。主要研究工作如下:1)社区检测能挖掘网络中相似属性的节点集合并发现重要节点。中药方剂核心药物可视为具有相同或相似功效的药物集合的重要药物。通过将中药关系构建为药物网络,检测药物社区和重要药物,实现中药方剂核心药物识别。针对社区检测问题,提出社区检测算法:基于鲸群优化的社区检测算法(Whale Optimization based Community Detection Algorithm,WOCDA)和基于多节点能力的标签传播社区检测算法(Node Ability based Label Propagation Algorithm,NALPA),为结构化方剂数据分析奠定方法基础。WOCDA算法中,通过模仿座头鲸捕猎行为,设计新初始化策略和收缩包围、螺旋更新、随机搜索三种操作,优化模块密度,实现社区检测;NALPA算法中,受人类社会启发设计节点传播能力、吸引能力、发射能力和接收能力衡量节点重要性和影响范围,受雷达传输启发设计标签重要性衡量标签传播到其它节点时的权重变化,设计新标签传播流程处理现有标签传播算法不稳定的问题。实验结果表明,所提社区检测算法在合成网络和真实网络上检测的社区质量高于对比算法。2)针对结构化方剂数据的核心药物识别,提出面向结构化方剂数据的中药方剂核心药物识别模型:基于标签权重社区检测的方剂核心药物识别模型(Core Drug Identification model based on community detection with Label Weight,CDILW)和基于图布局社区检测的方剂核心药物识别模型(Core Drug Identification model based on community detection with Graph Layout,CDIGL)。通过分析中药关系,将药物建模为节点,如果药物治疗相同的证候症状,则在两个药物间建立边关系,构建药物网络。面向结构化方剂数据的中药方剂核心药物识别模型,包括两个阶段:药物社区检测和核心药物识别。药物社区检测阶段,在药物网络上检测不同证候的药物社区。在CDILW模型药物社区检测阶段,基于力导引图布局设计节点吸引力代表中药相似性,结合节点吸引力和节点重要性定义标签重要性代表中药不同功效的重要性,标签传播过程中考虑标签权重更新,提高药物社区稳定性。在CDIGL模型药物社区检测阶段,基于(a,r)能量模型首先将网络布局为紧凑布局,提出位置节点标签初始化策略,然后将网络布局为均衡布局,基于均衡布局的吸引力,设计动态节点重要性和标签重要性代表药物重要性和不同功效的重要性,融合图布局和社区检测,提高药物社区检测稳定性。核心药物识别阶段,将药物社区中度数较大的药物节点视为核心药物,实现中药方剂核心药物识别。实验结果表明,所提模型可检测不同证候的核心药物,表明识别结构化方剂数据核心药物的有效性。3)中药方剂和药物描述主要记录于文献,中文词向量模型基于上下文语境分析词语语义,可理解中药药性、功效和主治等含义,生成药物语义嵌入向量计算药物相似度,构建药物语义网络,识别药物社区和核心药物。针对药物语义分析问题,提出基于汉字笔画、结构和拼音特征子串的中文词向量模型(stroke,structure and pinyin feature substrings based Chinese word embedding model,ssp2vec)和融合句法、共现和相似关系的中文词向量模型(Syntax,Word cO-occuRrence and Inner-character Similarity based Chinese word embedding model,SWORIS)。ssp2vec 模型中,设计特征子串融合词语笔画、结构和拼音特征,预测词语上下文以实现中文词语语义表征;SWORIS模型中,设计对称卷积自动编码机提取汉字笔画和结构潜在特征,度量词语相似关系,构建图网络保存句法、共现和相似上下文关系,基于概率随机游走采样策略生成图上下文,基于目标词语预测图上下文词语实现中文词语语义表征。实验结果表明,所提词向量模型优于对比模型。4)针对非结构化文献数据的核心药物识别,提出面向非结构化文献数据的中药方剂核心药物识别模型:基于集成特征中文词向量的方剂核心药物识别模型(Core Drug Identification model based on Chinese word embedding with Ensemble Feature,CDIEF)和基于特征概率中文词向量的方剂核心药物识别模型(Core Drug Identification model based on Chinese word embedding with Feature Probability,CDIFP)。检索中医治疗目标疾病相关文献,预处理建立疾病语料库。面向非结构化文献数据的中药方剂核心药物识别模型,包含四个阶段:药物嵌入向量学习、药物语义网络构建、语义网络社区检测和核心药物识别。药物嵌入向量学习阶段,利用疾病语料库潜在中医领域知识学习中药语义嵌入向量。在CDIEF模型的药物嵌入向量学习阶段,集成中药词语笔画n-gram、结构和拼音特征,基于词语集成特征预测上下文词语,分析药物语义将其表征为嵌入向量;在CDIFP模型的药物嵌入向量学习阶段,针对中文多义词问题,将中文词语表征为多个高斯分布,结合特征子串提出中文词语特征概率表示,捕捉中文词语多维含义,分析药物治疗不同证候的含义,优化基于相似度的目标函数实现中文词语语义表征。药物语义网络构建阶段,将中药视为节点,在高相似度的中药间构建边以建立药物语义网络;语义网络社区检测阶段,基于社区检测发现不同证候的药物社区;核心药物识别阶段,将药物社区中度数较大的药物节点视为核心药物,实现中药方剂核心药物识别。实验结果表明,所提模型可检测不同证候的核心药物,表明识别非结构化文献数据核心药物的有效性。
姜慧敏[7](2020)在《糖尿病大数据隐私保护技术研究》文中指出近年来随着医疗信息化的普及以及医疗健康大数据研究应用的推广,医疗领域数据存储方式也转向电子化,对医疗大数据研究的热度也就此上升。糖尿病作为威胁人类健康的三大疾病之一,引起了众多对于糖尿病数据挖掘或者数据分析的研究。糖尿病资源库中存储的数据类型复杂,包括了结构化、半结构化和非结构化数据,在涉及隐私问题上,缺乏对糖尿病数据进行敏感性的区分;此外,在众多糖尿病诊断预测的研究中,对用于预测分析的结构化糖尿病研究数据存在未匿名化处理或匿名化处理过度的情况,一方面未经匿名化处理的数据直接用于研究,可能会导致糖尿病数据在分析预测过程中或数据发布过程中发生敏感信息泄露的问题;另一方面,对于糖尿病数据表的过度匿名化会影响糖尿病分析研究的效果。因此,平衡糖尿病数据挖掘、预测分析中的数据高可用性和隐私安全是隐私保护研究中的重点问题,需要针对不同结构的糖尿病数据,从敏感性分类、敏感度分级以及进一步的匿名化实现对糖尿病大数据的隐私保护技术研究。针对半结构化、非结构化的文本类糖尿病数据,提出一种基于LSI-TF-IDF算法的文本分类技术实现对糖尿病文本数据的敏感性自动分类。在对于半结构化、非结构化的文本类型的糖尿病数据的敏感性分类过程中,根据糖尿病敏感数据的机密性、完整性和可用性定义糖尿病数据敏感信息的特征。通过改进TF-IDF算法,提升特征选择过程的准确性,结合朴素贝叶斯、K近邻和支持向量机三种分类方法,将改进后的特征选择算法与传统的特征选择算法进行了实验比较。实验结果显示,改进后的LSI-TF-IDF算法对糖尿病文本数据的敏感性自动分类具有更好的结果。针对结构化糖尿病数据,提出量化数据表中属性的敏感度值,制定敏感度分级策略。在此基础上,提出一种基于敏感度分级聚类的(k,t)-closeness匿名算法。对结构化的糖尿病数据表,通过计算记录的敏感度阈值,对准标识符属性的敏感性进行判断,设计糖尿病数据表的敏感度分级规则。通过对糖尿病数据表的敏感度分级,改进t-closeness匿名算法,以保证数据挖掘、分析预测研究中数据损失度尽可能小。实验结果表明,基于敏感度分级聚类的(k,t)-closeness匿名算法对于糖尿病数据表的匿名具有更小的信息损失。
徐雨楠[8](2020)在《面向电力文本领域的数据挖掘探索研究》文中认为以智能化工具作为代表的信息技术近年来迅速发展,不仅加速了工业化与信息化的融合,带动了国民经济的增长,同时这些也正深刻地改变着人们的生活和生产方式。而由于具体领域的不同,信息文本的表达也具有明显的领域性特征。这就给相关信息的描述和利用查询工具识别出信息的所属领域,并同时能够精确的表达专业词汇要传达的语义信息带来了很大的困难。随着智能电网控制的进一步发展,电力相关的企业积累了大量电力领域所产生的文本数据,同时网络上关于电力领域的论文和报道也是逐渐变多。而现有的文本数据挖掘研究多是针对情感相关的分类,对于工业和电力领域的文本挖掘的研究却鲜有报道,如何有效的利用这些文本数据成为当下研究的热点,而对于专业领域的文本挖掘工作一直以来都是信息届的难点问题,研究者不但要具有扎实的互联网基础,同时也要对相关领域的知识有着充分的理解,这就更给诸如电力和工业领域的文本挖掘处理工作带来了困难。为了解决上述提到的电力文本数据的难处理问题,本文从提取电力文本领域关键词,电网投诉文本的分类,电力文本的语料库和词典构造三个方面进行研究。1.本文详细介绍了现有的电力领域的文本类别,针对电力领域关键词的提取问题,利用电力领域的相关数据集和从网上爬取到的有关电力行业的数据为基础,对电力领域的文本进行了新词发现和关键词提取的工作,得到了可观的电力领域相关的特征词汇。尝试利用这些词汇作为电力领域文本分词的词典,通过分词的实验表明:相对于传统的中文通用词典,本文所建立的词典可以显着的提高电力文本的分词效果。2.本文针对电网公司的一些投诉文本进行了分类实验,利用了传统机器学习中的朴素贝叶斯分类器、SVM(支持向量机)分类器以及逻辑回归分类器等对这些数据进行了分类实验。同时本文探索了这些机器学习算法处理电力领域文本的分类效果,对比了电力投诉文本在不同算法下的分类效果。3.针对缺少公开的电力语料库和电力领域词典的问题,本文使用从网上爬取的相关电力领域的文本和电力领域的数据集设计了电力领域的语料库,将其分为电力网络文本语料库和电力专业术语库,并且编纂和设计了电力文本的领域词典,给出了电力文本领域词典的构造方法,编纂了上万词的电力领域词典。
孟鑫淼[9](2020)在《基于大数据挖掘技术的文本分类研究》文中研究指明文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准确识别和分类,文本分类精度超过95%,明显高于当前其他文本分类方法,并且所提方法的文本分类时间显着减少,具有更好的文本分类效果。
邓东现[10](2020)在《基于深度神经网络的数据挖掘算法及其应用研究》文中提出在当今的大数据和人工智能时代,数据、算法和算力尤为重要。从海量数据中设计算法挖掘出“数据关联”后的知识,可视化其价值,这是数据挖掘研究的核心。在数据挖掘算法中,神经网络在分析处理文本、图像、音频等数字信息中,是一种行之有效的数据分析、处理方法。基于此,本论文主要研究基于深度神经网络的数据挖掘算法以及数据挖掘算法在特定领域下的工程应用。主要工作概括如下:(1)神经网络的可解释性研究论文重点关注神经网络理论中的可解释性,主要分析了可解释性的主流研究方法和模型。基于文本分类任务,以fastText模型为基础,设计了具有结构可解释性质的拓展网络NNF。通过对比fastText和NNF在相同任务上的表现,发现NNF在各方面表现良好,具有一定的应用价值。(2)基于深度神经网络的数据挖掘算法研究论文主要研究了TextCNN文本分类算法、FP-Growth关联规则算法和LDA聚类算法。论文从TextCNN模型结构的角度分析,得出了其处理分类任务时的特点。并通过在特定数据集上训练并测试TextCNN,有效证明了TextCNN的应用效果。同时,通过在相同数据集下对比分析fastText、NNF和TextCNN模型的各项指标,确定了TextCNN在工程上更具有应用价值。(3)大数据分析平台的设计与实现基于神经网络理论,应用数据挖掘算法实现一个西藏大数据分析平台,并按照软件工程思想,进行了需求分析、概要及详细设计、代码实现和测试。通过可视化平台数据的结果,挖掘出了有价值的“政治”、“文化”和“社会”主题方面的知识。
二、一种文本分类数据挖掘的技术(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种文本分类数据挖掘的技术(论文提纲范文)
(1)基于社交电商平台的用户行为分析与研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 用户行为分析研究现状 |
1.2.2 文本分类算法研究现状 |
1.3 论文主要内容 |
1.4 论文整体结构 |
第二章 相关理论知识 |
2.1 大数据分析技术 |
2.1.1 数据预处理 |
2.1.2 数据挖掘分析 |
2.1.3 模型效果评估 |
2.2 聚类算法 |
2.2.1 聚类分析 |
2.2.2 聚类算法分类 |
2.3 BERT模型关键技术 |
2.3.1 BERT模型结构 |
2.3.2 BERT模型的用法 |
2.4 本章小结 |
第三章 基于用户偏好行为的聚类算法研究与改进 |
3.1 日志采集和数据解析 |
3.1.1 日志采集 |
3.1.2 数据解析 |
3.2 数据预处理 |
3.3 用户特征提取 |
3.4 用户特征聚类 |
3.4.1 K-means和Canopy聚类算法优缺点比较 |
3.4.2 两阶段聚类算法流程 |
3.4.3 聚类结果实验数据对比 |
3.5 本章小结 |
第四章 基于用户社交行为的分类算法研究与改进 |
4.1 社交文本内容介绍 |
4.1.1 数据获得 |
4.1.2 社交文本内容分类 |
4.1.3 社交文本特点 |
4.2 模型构建 |
4.2.1 BERT的输入表征 |
4.2.2 BERT模型注意力计算 |
4.2.3 TF-IDF词频特征统计 |
4.2.4 文本分类预测 |
4.3 社交文本分类模型效果 |
4.3.1 实验环境 |
4.3.2 实验数据 |
4.3.3 实验指标 |
4.3.4 实验结果 |
4.4 本章小结 |
第五章 社交电商平台的用户行为分析结果 |
5.1 实验平台和实验流程的总体设计 |
5.1.1 实验设计概述 |
5.1.2 实验环境 |
5.2 统计分析 |
5.2.1 日活跃度分析 |
5.2.2 周活跃度分析 |
5.3 社交电商行为的聚类结果分析 |
5.4 社交文本的分类结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 工作展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(2)基于数据挖掘的生鲜电商仓配策略研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 文本挖掘国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究内容与方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.4 研究创新点 |
第二章 基础理论和相关技术 |
2.1 网络爬虫技术 |
2.2 数据挖掘技术 |
2.2.1 数据挖掘原理与流程 |
2.2.2 机器学习理论 |
2.3 文本挖掘技术 |
2.3.1 文本挖掘原理与流程 |
2.3.2 文本分类 |
第三章 生鲜电商负面资讯预处理和可视化分析 |
3.1 研究对象与数据获取 |
3.1.1 研究对象 |
3.1.2 数据获取 |
3.2 数据预处理 |
3.2.1 文本分析工具 |
3.2.2 数据清洗 |
3.2.3 文本特征选择 |
3.3 数据可视化分析 |
3.3.1 文本特征生成 |
3.3.2 文本分布分析 |
3.3.3 词云可视化分析 |
3.4 本章小结 |
第四章 生鲜电商仓配策略问题挖掘 |
4.1 主题关键词提取与分析 |
4.1.1 基于TF-IDF的主题关键词提取 |
4.1.2 基于文本分类的主题关键词验证 |
4.1.3 基于主题关键词的文档问题分析 |
4.2 问题核心短语匹配与分析 |
4.2.1 主题关键词相关系数计算 |
4.2.2 相关特征提取与匹配 |
4.3 本章小结 |
第五章 生鲜电商仓配策略问题分析 |
5.1 问题核心短语问题归类统计分析 |
5.1.1 大类问题归类统计分析 |
5.1.2 细化问题归类统计分析 |
5.2 仓配策略问题总结分析 |
5.2.1 前置仓模式问题总结分析 |
5.2.2 新零售模式问题总结分析 |
5.2.3 社区团购模式问题总结分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 研究展望 |
参考文献 |
附录 |
致谢 |
攻读学位期间取得的研究成果 |
(3)基于Bert-BiGRU的信访数据研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究的背景及意义 |
1.2 国内外研究现状 |
1.2.1 数据挖掘技术 |
1.2.2 文本分类技术 |
1.2.3 信访智能化 |
1.3 主要研究内容 |
1.4 论文的组织结构 |
第二章 相关理论及技术 |
2.1 数据采集技术 |
2.1.1 光学字符识别 |
2.1.2 自动语音识别 |
2.2 文本向量化 |
2.2.1 NNLM神经网络语言模型 |
2.2.2 Word2vec模型 |
2.2.3 Bert预训练模型 |
2.3 本章小结 |
第三章 信访数据获取及向量化 |
3.1 信访数据获取 |
3.1.1 信访数据采集 |
3.1.2 信访数据清洗 |
3.2 信访数据向量化 |
3.3 本章小结 |
第四章 基于信访数据的Bert-BiGRU模型设计 |
4.1 Bert-BiGRU模型总体设计框架 |
4.2 基于BiGRU的特征提取 |
4.3 基于Atteneion的特征优化 |
4.4 基于TF-IDF的文本分类算法 |
4.5 实验分析 |
4.5.1 评价指标 |
4.5.2 实验结果及分析 |
4.5.3 对比实验 |
4.6 本章小结 |
第五章 系统设计与实现 |
5.1 系统总体设计 |
5.1.1 总体结构设计 |
5.1.2 实现架构设计 |
5.2 系统需求分析 |
5.3 功能模块设计 |
5.3.1 身份认证 |
5.3.2 数据输入 |
5.3.3 数据处理 |
5.3.4 结果呈现 |
5.4 系统测试 |
5.4.1 测试环境配置 |
5.4.2 测试结果及分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
攻读硕士期间发表的论文及所取得的研究成果 |
致谢 |
(4)基于大数据的行业短信分析系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 引言 |
1.1 课题背景 |
1.1.1 系统设计背景 |
1.1.2 国内外研究现状 |
1.2 课题任务 |
1.2.1 课题内容 |
1.2.2 本人承担任务 |
1.3 论文结构 |
第二章 相关技术介绍 |
2.1 数据挖掘技术 |
2.1.1 文本预处理工具Jieba和TF-IDF |
2.1.2 聚类分析DBSCAN算法 |
2.1.3 集成学习XGBoost算法 |
2.2 大数据技术 |
2.2.1 Hadoop |
2.2.2 Spark |
2.3 Spring |
2.4 Vue框架和Element组件库 |
2.5 本章小结 |
第三章 系统的需求分析 |
3.1 系统用户角色分析 |
3.1.1 数据挖掘管理员 |
3.1.2 训练数据管理员 |
3.1.3 短信分析管理员 |
3.1.4 系统管理员 |
3.2 系统功能需求分析 |
3.2.1 聚类分析功能 |
3.2.2 模型训练功能 |
3.2.3 行业分类功能 |
3.2.4 风险分类功能 |
3.2.5 数据查询功能 |
3.2.6 数据统计功能 |
3.2.7 号码匹配功能 |
3.2.8 用户管理功能 |
3.3 系统的非功能需求分析 |
3.3.1 性能需求 |
3.3.2 可靠性 |
3.3.3 易用性 |
3.4 本章小结 |
第四章 系统的总体设计 |
4.1 系统软件层次架构设计 |
4.1.1 表现层 |
4.1.2 业务逻辑层 |
4.1.3 服务层 |
4.1.4 数据层 |
4.2 系统功能模块设计 |
4.2.1 数据挖掘模块 |
4.2.2 短信分析模块 |
4.2.3 系统管理模块 |
4.3 系统的数据库设计 |
4.3.1 E-R图设计 |
4.3.2 数据库表设计 |
4.3.3 数据库选择 |
4.4 本章小结 |
第五章 系统核心功能的详细设计与实现 |
5.1 聚类分析功能的详细设计与实现 |
5.1.1 聚类分析功能的类图设计 |
5.1.2 聚类分析功能的时序图设计 |
5.1.3 聚类分析功能的实现效果 |
5.2 模型训练功能的详细设计与实现 |
5.2.1 模型训练功能的类图设计 |
5.2.2 模型训练功能的时序图设计 |
5.2.3 模型训练功能的实现效果 |
5.3 行业分类和风险分类功能的详细设计与实现 |
5.3.1 行业分类功能的类图设计 |
5.3.2 行业分类功能的时序图设计 |
5.3.3 行业分类功能的实现效果 |
5.4 数据查询功能的详细设计与实现 |
5.4.1 数据查询功能的类图设计 |
5.4.2 查询功能的时序图设计 |
5.4.3 查询功能的实现效果 |
5.5 数据统计功能的详细设计与实现 |
5.5.1 数据统计功能的类图设计 |
5.5.2 数据统计功能的时序图设计 |
5.5.3 数据统计功能的实现效果 |
5.6 号码匹配功能的详细设计与实现 |
5.6.1 号码匹配功能的类图设计 |
5.6.2 号码匹配功能的时序图设计 |
5.6.3 号码匹配功能的实现效果 |
5.7 本章小结 |
第六章 系统侧试 |
6.1 测试环境 |
6.2 功能测试 |
6.2.1 测试用例设计 |
6.2.2 功能测试结果分析 |
6.3 性能测试 |
6.3.1 测试脚本编写 |
6.3.2 执行测试及结果分析 |
6.4 本章小结 |
第七章 结束语 |
7.1 论文工作总结 |
7.1.1 论文取得成果 |
7.1.2 个人完成工作 |
7.2 问题和展望 |
参考文献 |
附录 |
致谢 |
(5)基于文本数据挖掘的核心专利识别方法研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 背景及意义 |
1.2 国内外研究现状 |
1.2.1 基于评价指标的核心专利识别方法研究现状 |
1.2.2 基于引用的核心专利识别方法研究现状 |
1.3 主要研究内容 |
1.4 论文结构安排 |
2 相关研究思路及基础 |
2.1 研究思路 |
2.2 核心专利概述 |
2.3 文本分类研究基础 |
2.3.1 BERT模型 |
2.3.2 双向长短时记忆神经网络 |
2.4 文本聚类研究基础 |
2.4.1 Word2vec模型 |
2.4.2 K-means算法基本原理 |
2.5 引文网络及其节点重要性排序技术概述 |
2.5.1 引文网络及其度中心性 |
2.5.2 PageRank算法 |
3 基于BERT-A-BiLSTM的多特征专利文本分类算法研究 |
3.1 专利文本分类相关研究及分析 |
3.2 算法设计与实现 |
3.2.1 文本向量化表示层 |
3.2.2 文本特征提取层 |
3.2.3 输出层 |
3.3 实验设计与对比分析 |
3.3.1 实验环境 |
3.3.2 实验数据 |
3.3.3 实验参数 |
3.3.4 对比实验 |
3.3.5 评价指标 |
3.3.6 实验结果与分析 |
3.4 本章小结 |
4 基于改进型K-means算法的专利文本聚类方法研究 |
4.1 专利文本聚类处理流程 |
4.2 文本向量化表示 |
4.3 基于初始中心点优化的K-means改进算法 |
4.3.1 改进的K-means算法设计 |
4.3.2 实验分析 |
4.4 实证分析 |
4.5 本章小结 |
5 基于改进型PageRank算法的核心专利识别方法研究 |
5.1 PageRank及其改进算法在核心专利识别方面的不足 |
5.2 基于权重分配优化的PageRank改进算法 |
5.2.1 算法设计 |
5.2.2 改进算法的收敛性分析 |
5.3 实验设计与对比分析 |
5.3.1 实验环境配置 |
5.3.2 数据采集与处理 |
5.3.3 实验结果及对比分析 |
5.4 本章小结 |
6 核心专利识别实例分析 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
作者简历 |
致谢 |
(6)基于知识发现的中药方剂核心药物识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外相关研究进展 |
1.2.1 中药方剂配伍规律挖掘 |
1.2.2 中药方剂核心药物识别 |
1.3 本文的主要贡献与创新 |
1.4 本文的结构安排 |
第二章 相关基础知识 |
2.1 中药方剂 |
2.1.1 方证相应 |
2.1.2 组方原则 |
2.1.3 核心药物 |
2.2 知识发现 |
2.2.1 社区检测算法 |
2.2.2 词向量模型 |
2.3 本章小结 |
第三章 基于鲸群优化和标签传播的社区检测算法 |
3.1 基于鲸群优化的社区检测算法 |
3.1.1 个体表示和初始化 |
3.1.2 鲸群优化操作 |
3.1.3 适应度函数 |
3.1.4 实验设置 |
3.1.5 实验结果与分析 |
3.2 基于多节点能力的标签传播社区检测算法 |
3.2.1 多节点能力 |
3.2.2 标签重要性 |
3.2.3 NALPA算法设计 |
3.2.4 实验设置 |
3.2.5 实验结果与分析 |
3.3 本章小结 |
第四章 基于社区检测的中药方剂核心药物识别 |
4.1 药物网络构建 |
4.2 基于标签权重社区检测的方剂核心药物识别 |
4.2.1 药物社区检测CDILW_(cd) |
4.2.2 核心药物识别CDILW_(di) |
4.3 基于图布局社区检测的方剂核心药物识别 |
4.3.1 药物社区检测CDIGL_(cd) |
4.3.2 核心药物识别CDIGL_(di) |
4.4 本章小结 |
第五章 基于特征子串和关系融合的中文词向量模型 |
5.1 基于汉字笔画、结构和拼音特征子串的中文词向量模型 |
5.1.1 汉字内部特征 |
5.1.2 特征子串 |
5.1.3 ssp2vec模型设计 |
5.1.4 实验设置 |
5.1.5 实验结果与分析 |
5.2 融合句法、共现和相似关系的中文词向量模型 |
5.2.1 句法关系 |
5.2.2 共现关系 |
5.2.3 相似关系 |
5.2.4 SWORIS融合框架 |
5.2.5 实验设置 |
5.2.6 实验结果与分析 |
5.3 本章小结 |
第六章 基于中文词向量的中药方剂核心药物识别 |
6.1 疾病语料库生成 |
6.2 基于集成特征中文词向量的方剂核心药物识别 |
6.2.1 药物嵌入向量学习CDIEF_(cwe) |
6.2.2 药物语义网络构建CDIEF_(snc) |
6.2.3 语义网络社区检测CDIEF_(cd) |
6.2.4 核心药物识别CDIEF_(di) |
6.3 基于特征概率中文词向量的方剂核心药物识别 |
6.3.1 药物嵌入向量学习CDIFP_(cwe) |
6.3.2 药物语义网络构建CDIFP_(snc) |
6.3.3 语义网络社区检测CDIFP_(cd) |
6.3.4 核心药物识别CDIFP_(di) |
6.4 本章小结 |
第七章 全文总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(7)糖尿病大数据隐私保护技术研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 课题研究背景 |
1.1.2 糖尿病大数据的研究 |
1.1.3 课题研究的意义 |
1.2 国内外研究现状 |
1.2.1 敏感性分类 |
1.2.2 匿名化隐私保护 |
1.3 课题的研究内容及创新点 |
1.3.1 研究内容 |
1.3.2 课题的创新点 |
1.4 论文的结构组织 |
第二章 分类相关技术 |
2.1 文本分类技术 |
2.1.1 文本分类技术的定义 |
2.1.2 文本分类的过程 |
2.1.3 文本分类的评价标准 |
2.2 文本预处理 |
2.2.1 文本预处理技术 |
2.2.2 词袋模型 |
2.2.3 N-Gram模型 |
2.2.4 预处理模型比较 |
2.3 特征选择 |
2.3.1 LSI算法 |
2.3.2 TF-IDF算法 |
2.3.3 特征选择算法的比较 |
2.4 分类方法 |
2.4.1 朴素贝叶斯分类 |
2.4.2 KNN分类 |
2.4.3 SVM分类 |
2.4.4 分类方法的比较 |
2.5 本章小结 |
第三章 匿名相关技术 |
3.1 攻击类型 |
3.2 匿名化隐私保护模型 |
3.2.1 k-匿名 |
3.2.2 l-多样性 |
3.2.3 t-相近性 |
3.2.4 匿名模型比较 |
3.3 匿名化方法 |
3.3.1 泛化 |
3.3.2 抑制 |
3.3.3 聚类 |
3.3.4 数据扰乱 |
3.3.5 匿名化方法比较 |
3.4 隐私保护算法的衡量标准 |
3.5 本章小结 |
第四章 糖尿病大数据的敏感性分类 |
4.1 设计背景 |
4.2 相关工作 |
4.3 LSI-TF-IDF两阶段特征选择算法 |
4.3.1 算法的改进流程 |
4.3.2 算法的实现 |
4.3.3 改进后算法的性能分析 |
4.4 实验及分析 |
4.4.1 实验环境 |
4.4.2 实验数据选取 |
4.4.3 性能评估标准 |
4.4.4 实验结果与分析 |
4.5 本章小结 |
第五章 糖尿病大数据的敏感度分级与匿名 |
5.1 设计背景 |
5.2 相关工作 |
5.3 基于敏感数据分级聚类的(k,t)-closeness匿名算法 |
5.3.1 算法改进流程 |
5.3.2 算法的实现 |
5.3.3 改进算法后的性能分析 |
5.4 实验及分析 |
5.4.1 实验环境 |
5.4.2 实验数据选取 |
5.4.3 实验度量依据 |
5.4.4 实验结果与分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 研究工作总结 |
6.2 研究工作展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间撰写的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(8)面向电力文本领域的数据挖掘探索研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 数据挖掘在电网和传统领域的研究现状 |
1.2.1 文本挖掘在传统领域的研究 |
1.2.2 文本挖掘在电力领域的研究 |
1.3 面向电力文本领域的数据挖掘研究的特点与难点 |
1.4 本文的主要工作 |
第二章 相关背景知识介绍 |
2.1 电力文本的类别 |
2.2 相关算法理论与技术概述 |
2.2.1 数据采集技术 |
2.2.2 新词发现算法 |
2.3 本章小结 |
第三章 基于word2vec算法的无监督电力领域文本挖掘 |
3.1 引言 |
3.2 Word2vec模型介绍 |
3.3 基于新词发现和word2vec算法的电力文本挖掘 |
3.3.1 数据预处理 |
3.3.2 基于凝合度和最小信息熵的新词发现 |
3.3.3 基于聚类和Word2vec算法的特征词提取 |
3.4 实验结果与分析 |
3.5 本章小结 |
第四章 基于机器学习的电网投诉文本分类研究 |
4.1 引言 |
4.2 国内外研究现状 |
4.3 基于机器学习对电网投诉文本的分类 |
4.3.1 基于tf-idf的特征选择 |
4.3.2 基于朴素贝叶斯的电网投诉文本分类算法 |
4.4 实验结果与分析 |
4.5 本章小结 |
第五章 电力文本语料库及词典 |
5.1 引言 |
5.2 现有语料库及词典介绍 |
5.3 电力文本语料库的设计 |
5.3.1 电力网络文本库 |
5.3.2 电力专业术语库 |
5.4 电力文本领域词典 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(9)基于大数据挖掘技术的文本分类研究(论文提纲范文)
0 引言 |
1 文本分类的基本原理 |
2 大数据挖掘技术的文本分类方法具体设计 |
2.1 文本预处理 |
2.2 提取文本分类特征 |
2.3 选择文本分类特征 |
2.4 文本分类算法 |
2.5 大数据挖掘技术的文本分类步骤 |
3 仿真测试 |
3.1 测试环境设置 |
3.2 文本分类精度对比 |
3.3 文本分类的训练和测试时间对比 |
4 结语 |
(10)基于深度神经网络的数据挖掘算法及其应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与选题依据 |
1.2 课题价值与研究意义 |
1.3 研究现状与发展态势 |
1.4 研究内容与章节安排 |
第二章 基本理论与算法 |
2.1 深度神经网络 |
2.1.1 深度神经网络的分类 |
2.1.2 深度神经网络的特点 |
2.1.3 深度神经网络的局限 |
2.2 数据挖掘算法 |
2.2.1 数据挖掘功能 |
2.2.2 数据挖掘的特点 |
2.2.3 数据挖掘的主要问题 |
2.3 基于深度神经网络的数据挖掘 |
2.4 本章小结 |
第三章 神经网络及其可解释性 |
3.1 神经网络的可解释性 |
3.1.1 主要研究方法 |
3.1.2 不同神经网络的可解释性研究 |
3.2 可解释性模型 |
3.2.1 前导知识 |
3.2.2 fastText架构及原理 |
3.2.3 拓展模型NNF |
3.2.4 实验结果及分析 |
3.3 本章小结 |
第四章 基于深度神经网络的数据挖掘算法设计 |
4.1 TextCNN |
4.1.1 网络结构及原理 |
4.1.2 实验结果及分析 |
4.2 FP-Growth算法 |
4.3 LDA聚类算法 |
4.4 本章小结 |
第五章 大数据分析平台的设计与实现 |
5.1 需求分析 |
5.2 概要及详细设计 |
5.2.1 平台概要设计 |
5.2.2 平台详细设计 |
5.2.2.1 平台界面设计 |
5.2.2.2 平台功能模块设计 |
5.2.2.3 平台数据库设计 |
5.3 平台实现 |
5.3.1 TextCNN文本分类 |
5.3.2 FP-Growth关联分析 |
5.3.3 LDA主题词聚类 |
5.4 测试及可视化 |
5.4.1 测试用例编写及调试 |
5.4.2 平台性能测试 |
5.4.3 平台运行及可视化 |
5.4.4 知识发现及结果分析 |
5.5 本章小结 |
第六章 全文总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
附录 |
四、一种文本分类数据挖掘的技术(论文参考文献)
- [1]基于社交电商平台的用户行为分析与研究[D]. 高昀. 北京邮电大学, 2021(01)
- [2]基于数据挖掘的生鲜电商仓配策略研究[D]. 佘昊. 北京邮电大学, 2021(01)
- [3]基于Bert-BiGRU的信访数据研究与应用[D]. 张达. 中北大学, 2021(09)
- [4]基于大数据的行业短信分析系统的设计与实现[D]. 詹盛涛. 北京邮电大学, 2021(01)
- [5]基于文本数据挖掘的核心专利识别方法研究[D]. 陈萌. 河北经贸大学, 2021(09)
- [6]基于知识发现的中药方剂核心药物识别研究[D]. 张云. 电子科技大学, 2021
- [7]糖尿病大数据隐私保护技术研究[D]. 姜慧敏. 南京邮电大学, 2020(02)
- [8]面向电力文本领域的数据挖掘探索研究[D]. 徐雨楠. 南京邮电大学, 2020(03)
- [9]基于大数据挖掘技术的文本分类研究[J]. 孟鑫淼. 现代电子技术, 2020(17)
- [10]基于深度神经网络的数据挖掘算法及其应用研究[D]. 邓东现. 电子科技大学, 2020(01)