试卷样本同质性对泛化理论评价准确性的影响

一、试卷样本同质性对概化理论测评精度的影响（论文文献综述）

高冬冬^[1]（2020）在《我国区县义务教育质量测评体系研究》文中研究指明义务教育是国家教育之根基,教育质量是教育的核心与生命线,义务教育质量则是国家教育之根本。近年来,世界各国均将基础教育质量的提高视作本国教育发展的主旨,积极促进基础教育质量提高已经成为各国教育发展的根本目标,提高和保障义务教育质量也成为我国教育发展的政策要求与现实诉求,推行素质教育也急切需要构建符合我国特色的义务教育质量测评体系。世界各国积极开展基础教育质量测评实践,以对本国义务教育质量状况进行全面把握,为基础教育改革与发展提供强有力的参考。目前,国内外义务教育质量测评研究取得了很大的进展,我国教育质量测评虽然起步较晚,但近年来,在借鉴国际及各发达国家先进的测评理念和测评方法的基础上,在全国范围内积极开展义务教育质量测评实践,为保障和提高我国义务教育质量、促进义务教育健康发展保驾护航。本论文尝试对我国区县义务教育质量测评体系做一个比较全面、系统的探讨,对我国现阶段区县义务教育质量测评现状以及存在的问题进行分析的同时,借鉴国际先进的基础教育质量测评理念、方法的基础上,提出符合我国实际的区县义务教育质量测评体系的构想,并对构想的体系框架进行实证研究,以期为我国区县义务教育质量测评体系的构建提供一定参考。本研究对义务教育质量的概念进行了分析和界定,以经典测量理论、项目反应理论、现代教育评价理论以及教育目标分类学作为研究的理论依据,为本研究测评框架及内容的构建、测评工具和方法的应用提供理论指导。本研究通过分析我国目前几个具有代表性的区县义务教育质量测评:北京市东城区、海淀区、西城区义务教育质量监控与评价,全国首个“区域义务教育质量监测试点单位”的杭州市下城区义务教育质量监测,武汉市武昌区、江岸区以及江夏区义务教育质量测评,孝感市区县义务教育质量测评等现状来对我国义务教育质量测评的现状及存在的问题进行分析。分析发现,目前我国义务教育质量测评的内容主要为包括学生学业成绩在内的德、智、体、美及影响因素的测评,测评工具一般由学科能力测评试卷和相关影响因素调查问卷两部分构成,通过学科测试卷了解学生达到各个学科教育教学目标的程度,通过相关影响因素调查问卷测查影响学生学业成就水平的相关因素,针对性地向教育相关部门、学校反馈测评结果,形成了一套较为完善的义务教育质量测评体系。通过分析与整理目前我国义务教育质量测评现状,发现我国目前的义务教育质量测评仍存在的一些现实问题,导致测评结果存在一定的局限性。本研究就目前世界上最具影响力、覆盖范围最广、最具代表性的国际学生测评项目——经济合作与发展组织开发的国际学生评估项目（PISA）、国际教育成就评价协会（IEA）发起的国际数学和科学成就趋势研究（TIMSS）及由IEA主持的国际阅读素养进步研究（PIRLS）进行分析。国际学生评估项目（PISA）主要从阅读素养、数学素养、科学素养及其影响因素方面在世界范围内对即将完成义务教育的15岁学生进行测评,关注学生能在多大程度上运用已经学到的知识和技能,分析、推理并进行有效的沟通,以解释和解决各种不同的具体情境中的问题,为未来生活做准备,它将学生的素养作为测评的核心。国际数学和科学成就趋势研究（TIMSS）和国际阅读素养进步研究（PIRLS）将课程作为测评的出发点和落脚点,对学生数学、科学、阅读方面的相关能力进行测评。分析并探寻国际基础教育质量测评对构建我国区县义务教育质量测评体系的启示。基于以上对国、内外义务教育质量测评现状的整理和分析,本研究提出了由专业教育测评机构负责实施,教育相关职能部门、大学及科研机构、区县中小学协同并监督的区县义务教育质量测评体系的构想。并在湖北省咸宁市咸安区辖的3个街道、9个镇、1个乡88所小学（包括农村完小和初小）的四年级学生和20所的八年级学生展开语文阅读、数学、英语、科学、品德与社会、体育学科测评,并测查学业性非智力因素及其影响因素,以对我国区县义务教育质量测评体系的构想加以实际的考证。

徐雷^[2]（2018）在《大学生爱国情感的测评研究》文中提出爱国情感是对国家忠诚和热爱的情感,热爱国家是学校德育教育中的重要方面,虽然我们一再强调要加强大学生的爱国教育,却缺少科学评定和考察学生爱国情感的客观测评依据,并缺少一把相对稳定的衡量爱国情感的测评工具。本文具有双重的研究目的:心理内容上的目的在于探索大学生爱国情感的心理结构;从情境判断测验的视角编制爱国情感量表,为大学生爱国情感的教育培养和心理研究提供了有效的测评工具。方法学上的目的在于进一步完善量表编制的程序、探索量表设计时如何减少社会赞许效应的方法、尝试采用经典测量理论与现代测量理论等多种心理测量理论和技术相整合的方法,进行量表的分析与筛选、检验与评价、实践中应用。围绕研究目的,开展四个方面的实证研究。第一部分实证的研究主要围绕大学生爱国情感心理结构探讨、量表项目编写。在测评指标构建方面,运用词汇学的研究方法进行相关资料的质性分析;并通过调查、访谈等实证的方式进行爱国情感结构的探索。在测评工具编制方面,采用情境判断测验的方法,依次完成量表项目题干内容、反应选项、反应指导语、反应有效、计分标准等方面的工作。第二部分的实证内容主要围绕大学生爱国情感量表的分析与筛选。为了降低被试的社会赞许效应,分别从反应指导语的类型、人称、内容等三个方面进行探讨;为了确保量表项目的高质量,采用经典测量理论、结构方程模型、项目功能差异分析等多种心理测量理论和技术相整合的方法,进行量表项目的筛选分析。第三部分的实证内容主要围绕大学生爱国情感量表的检验与评价。为了查看编制的量表是否等同?测试是否具有普适性,对爱国情感量表进行一阶和二阶因素模型的测量等同性检验;为了评定量表的精度如何,以及是否具有社会效益,又进行了一元概化与多元概化的探究。第四部分的实证内容主要围绕大学生爱国情感量表的实践中应用。运用大学生爱国情感量表开展现状调查,为教育实践提供依据。研究结果概述如下:1.大学生爱国情感心理结构主要由国家归属、国家自豪、国家尊严、国家责任等4个典型的测评指标组成。2.大学生爱国情感量表项目适合用第二人称的行为型指导语,初步形成43个情境项目。3.经典测量理论的研究结果:删除相关低、区分度小等11个项目,以及探索删除3个项目后,量表保留29个项目。4.项目功能差异分析的结果:删除存在性别、地域差异的7个项目,形成4维度22个项目构成的大学生爱国情感量表。5.信效度的检验结果表明:22个项目组成的大学生爱国情感量表信度较高、效度较好,可以用作大学生爱国情感的有效测评。6.验证性因素的结果表明:大学生爱国情感是一个多维的结构,它是一个二阶单因素、一阶4因素的结构模型。即一阶的国家归属、国家自豪、国家尊严和国家责任4个维度又共同解释了二阶的爱国情感。7.测量等价性检验结果表明:大学生爱国情感量表具有跨性别、跨区域的一阶因素模型、二阶因素模型完全严等价。这也就是说,大学生被试在观察变量上的分数的差异完全是由总体爱国情感及其四个维度上的分数差异决定的,与其所属性别、区域无关,则表明大学生爱国情感量表测量等同。8.概化理论研究结果表明:量表取4个维度是比较合适的,既能保证较高的测量精度,又有较好的测量效益;大学生爱国情感各维度的题目数量设定比较合理,由4维度22个题目组成的大学生爱国情感量表测量精度较高,既可以用作常模参照测验,也适用于标准参照测验。9.调查结果显示:新时代大学生的爱国情感得分较高,四个维度的得分由低到高依次为:国家责任、国家归属、国家尊严、国家自豪。

田霖,韦小满,王桥影,赵晓茫^[3]（2013）在《基于概化理论构建自学考试信度分析框架》文中研究表明概化理论（GT）提出了新的测量信度观并逐渐应用于大规模考试领域。本文将概化理论思想与方法引入自学考试信度分析研究与实践,提出了自学考试信度分析的概化理论研究框架。本框架对自学考试信度分析的基本任务与流程进行了梳理与总结,对一元概化理论（UGT）模型与多元概化理论（MGT）模型的应用进行了整合,选择了更为合理的自学考试信度指标并探讨了及格线决策信度的考察思路,为自学考试研究者进行概化理论研究提供一定程度的参考。

齐宇歆^[4]（2013）在《基于PISA的学习素养评价系统设计》文中进行了进一步梳理当今,社会日益信息化,知识总量每五年左右翻一番,知识的更新周期越来越短,学习已经成为了人们日常生活中的一个基本组成部分。如何使每一个未来公民都能热爱学习,善于学习,切实贯彻素质教育和终身学习的理念,已成为时代的呼唤。学习评价既是对于学习者过去的学习过程、学习状态、学习业绩的总结与鉴定,更是针对学习目标、学习策略以及学习资源的充分运用所作的、着眼于未来的合理调节与再优化,其根本目的在于为学习者的终身发展服务。成立于1961年的国际着名政策研究与分析机构--经济合作与发展组织（OECD）一直以促进各成员国的持续经济增长、就业以及生活水平的提高为己任,于2000年首次举行了国际学生评估计划（PISA）,以考察即将完成义务教育的15岁学生是否已经掌握了在未来参与社会所需要的知识和技能情况,其评估内容不再局限于课堂书本知识,突显了学习者运用所学知识去灵活解决日常生活、工作中问题的能力,采用了基于项目反应理论（IRT）的书面测试和学习背景信息问卷调查的评测方法,其评价理念具有前瞻性,评价手段先进,评估过程严密,得到了世界上越来越多的国家和地区的认同和参与。上海是中国大陆第一个参与PISA的地区,先后参与了2009和2012的两次PISA评估,并已取得了举世公认的业绩,同时也暴露出某些严重不足,对一直徘徊在十字路口的我国以三维目标评价体系为核心的基础教育学习评价带来了巨大的冲击。如何借鉴、消化PISA评价中的教育评价理念和先进测评手段为我国素质教育和学习者终身发展服务,为此,笔者提出了学习素养的评价问题。全文分为两个基本部分：理论研究部分和实证分析部分。在理论研究部分主要探讨了三个主要问题：学习的行为机制、评价以及测量考试。实证分析部分则包括PISA评价系统分析、学习素养的评价模式设计及其在初中数学中的具体运用。具体工作如下：1.首先,围绕跨学科视野下的学习机制在宏观层面上是如何形成的做了一番考察。具体研究了作为学习物质基础的神经元及其生化活动特征,重点考察了突触可塑性在记忆痕迹形成中的作用、记忆过程及其特性,然后,对学习中的狭义知识、狭义技能、专业策略和一般策略的信息表征方式及其习得特点进行了分析；此后,对学习中的“问题”、“问题解决”做了界定与分类,讨论了问题解决的一般过程及其常规策略、专业策略是如何形成的、创造性及其在问题解决中的表现等问题,并对生活中的复杂问题解决（CPS）做了简要分析；再接下来就针对如何在陌生环境中灵活地运用其所学的问题,探索了形式训练说、相同要素学等五种早期迁移学说以及奥苏贝尔的认知结构迁移、产生式迁移、元认知迁移等当代迁移理论,并探讨了迁移的本质及其习得的有利条件；在情境学习与社会建构这一部分则从社会文化的角度讨论了生态系统理论与多元文化教育的问题,并分析了学习中人际互动问题；最后,在比较、分析了人本主义等四种主流学习动机观的基础上重点研究了人性中的情感、情绪、兴趣、态度问题,对凯勒的ARCS的学习动机统合模型以及个体与环境之间的交互情况也做了一些介绍与探索。作为对上述六因素是如何影响学习形成的,笔者还提出了一个学习各机制的制约关系图。2.对“评价”常用几个英文词汇进行词源学考察的基础上,分析了“评价”的经典性定义,分析了知识的内涵和两种不同知识观对评价的影响,考察了评价的四个不同时代特征,探讨了当今评价模式的重构问题。由于评价离不开测量与考试,因此,接下来还讨论了评价中的定量化形式--测量,以及与此相关联的测量目标、测量数据、测量规则、量表、考试及其度量指标问题,并总结了评价与测量、考试的相互关系。3.鉴于在当今的标准化考试中比较常见的学习测量理论仍然是经典测试理论（CTT）,因此,在本章节的研究中先分析了CTT的基本假设、数学模型、信度及其计算问题。作为比较,同时也讨论了上个世纪90年代先后出现的另外两种学习测量理论,即概化理论和项目反应理论。在GT中,首先说明其基本原理、相关概念,然后讨论了双侧面随机设计等几种常见设计方法,也指出了这一理论的应用情境和相对不足；在IRT中,先是考察了IRT的主要特征,接着分析了它的四个主要假设,最后讨论了项目反应理论模型与参数等问题。4.在PISA评价模式及其分析这一部分,首先分析的是PISA理念及其评估模型,接着对‘"literacy"进行了多学科的诠释,并指出：“literacy"是一个与认知水平、学习策略、学习参与度等因素相关联的综合体,它突出了学习者的情境问题解决能力和终身学习能力。为了对PISA有一个全面而透彻的了解,笔者接着依次分析了PISA的基本评估框架、阅读素养、数学素养、科学素养和问题解决能力等领域的评价目标、内容、过程、技术标准中所涉及数据规范性和类比性问题,随后分析了精熟度及其所使用量表、书面测试和用于背景信息收集的调查问卷的设计问题。最后,从整体上思考了PISA评价模式的优势及其可移植性问题。5.在学习素养评价系统设计这一部分,首先,基于笔者对PISA的感知与分析、判断并结合我国素质教育中的“素质”理念,提出了“学习素养”的概念,分析了学习素养应该具有的基本特征和组成要素；随后,参考马扎诺的学习行为控制模型提出了学习者个体的准自主学习单循环流程图和学习素养形成模型以进一步说明各要素之间的基本关系。根据上述分析,笔者紧接着提出了学习素养的评测内容框架与评测指标;最后,设计、开发了基于项目反应理论测试与试题库的一般流程与要点,并阐述了在调查问卷中应如何收集学习者背景信息的问题。6.在学习素养评价案例分析一章中,首先分析了初中生的认知特征和数学学科的基本特征,依据教材和教育部最新颁发的义务教育数学课程标准进行了学科内容—目标分析,并针对初三上学期的教学内容进行了基于项目反应理论试题库的开发尝试；然后从试题库中抽取试题并随机选择某个班级进行了正式测试,同时调查了学习者的学习背景信息；最后,在对该测试班级的本学期最近两次考试进行了信度检验的基础上,运用SPSS统计软件进行了原始数据的集中量、差异量计算和Pearson相关分析、Spearman相关分析、偏相关分析、多元线性回归分析和因子分析,得到了如下主要结论：（1）经信度检验后发现：该测试成绩在0.05的显着性水平上能够接受；（2）在所考察的九种相关学习行为表现中,学生的记忆策略、交流合作、学习调控策略表现最好,而精致策略、知识迁移与学习资源利用则表现最差。班级的学习成绩的标准差最大,具有较为明显的两极分化现象,但是不论成绩还坏,学生在记忆策略的使用上的差别并不大,且使用较多；（3）与素养相关的九个因素可以分为相对独立的三个公因子,即素养因子、成绩因子和资源利用因子。素养因子对学习素养形成的贡献率最大,超过了50%,而主要反应学习成绩高低的成绩因子与主要反应精致策略、知识迁移能力、反思与创新能力的素养因子之间没有很强的正关联；（4）交流合作、学习参与度和反思与创新三个因素对学生数学学科学习成绩的影响都达到了显着性水平；学习者的学习参与度、记忆策略、精致策略、学习调控策略、交流合作、反思与创新这6个因素都会显着地影响学习者的知识迁移水平；学生的学习参与度、记忆策略、精致策略、学习调控策略、交流合作以及知识迁移这6个因素则会较为显着地影响到学习者的反思与创新能力；（5）在记忆策略与精致策略这两种基本的学习策略中,学习者会更多地使用记忆策略,中等成绩的学生更多地使用了精致策略,而成绩优秀的学生则更多的使用记忆策略,两种学习策略均不使用的人数约为总人数的三分之一；（6）在学习成绩、学习参与度、知识迁移和反思与创新这四个学习热点话题中,学生的得分情况是：学习成绩>反思与创新>学习参与度>知识迁移,学生依然注重学习成绩,忽视知识迁移与反思创新,学习参与度普遍偏低。笔者认为：从唯分数的评价理念转变到重素养、重发展的评价理念,精心选择那些贴近学习者的实际生活却又蕴含有一定的基础知识、基本技能作为学科内容,在注重情境问题解决能力培养的同时加大纵向、横向知识的整合力度,探索新的考试办法等举措将是提高学习者素养的有效途径,这将有利于调动学习者的积极性、支持学习者的协调与持续发展。总之,在义务教育阶段,开展基于素养的课程学习评价无疑是切实贯彻素质教育理念的有效途径。

田霖,韦小满,王桥影^[5]（2013）在《多种测量信度观与自学考试信度分析》文中提出信度是衡量测量结果稳定性与可靠性的重要指标,反映了测量过程中对误差控制能力的大小。信度分析是自学考试试题评价的重要内容,包括测量分数信度分析与及格线决策信度分析。本文简要介绍了CTT信度观、GT信度观及IRT信度观的理论内容与信度分析方法,并对三种测量信度观进行比较。本文提出,自学考试的信度分析工作应结合具体课程的考试特点、试卷结构、考试作答数据类型等因素,同时考虑CTT、GT、IRT三种信度观的优势及信度估计方法的应用条件,根据具体研究目的选择最恰当的或综合运用不同的信度分析方法。

周群^[6]（2011）在《基于论证的我国高考开发质量评价模型研究 ——以2010年上海高考政治开发为例》文中指出经验命题是我国高考命题质量问题的根源。近几年,考试界倾向于以量化技术取代经验,题库建设也从理论研究走向实践,应和了这种发展趋势。本文认为,考试开发缺乏教育测量学理论指导,才是影响我国高考开发质量的最大症结。长期以来,高考开发中存在考试设计注重行政化程序、考试命题忽视学科认知结构、考试评价以学科为中心,考试开发以“命题”偏盖“开发”等问题,这些问题的产生并非由于开发中缺少试测环节、数据分析等质量控制技术手段,而是源于考试开发者过份依赖个人主观意志,缺少对教育测量学规律的把握。当前,对经验的褒贬取舍不是解决问题的关键,关键在于建立一支具有教育测量学经验的考试开发者队伍,建立基于教育测量学的考试开发标准化流程、教育考试行业标准和考试评价体系。本文旨在构建一种适合于我国高考实际的考试评价模型,设想以评价反思经验,改进考试开发质量,实现从经验命题向以教育测量学为基础的考试开发的转变。本文分绪论、正文和结语三个部分。绪论部分通过对国内外考试开发比较研究,将我国高考开发中存在的问题概括为四个方面,以此为缘起,提出考试质量评价模型应当符合完整性、统一性和反思性等要求。通过进一步的文献探究,发现Kane的基于论证效度检验（argument-based validation）理论与模型寻求的理论需求相契合。以上述内容为基础,形成研究方案,第一步,提出考试开发质量基于论证评价的理论框架；第二步,应用理论框架,以2010年上海高考政治开发为例,对考试开发进行效度评价,在评价过程中构建模型；第三步,确立我国高考开发质量基于论证的评价模型。正文第一章提出解释论证。解释论证主要阐释考试分数解释与预设解释相一致所需要的一系列推断、假设及其证据。首先围绕考试分数的意义,论证2010年上海高考政治考试分数预设解释,并勾勒解释论证思路。其次以为什么要收集这些证据为主题,根据考试开发的逻辑线索,论证考试设计、评分、概化、外延、内涵及解释论证合理性等六个推断成立所需要满足的13个假设以及30个证据。根据理论框架,解释论证有一个从提出论证、证明论证合理、修改论证,直至论证合理性得到证明的收敛过程。正文第二、三章论述效度论证。效度论证是收集证据的过程,主要回答如何收集证据?证据能否证明假设?根据理论框架,论证分两个阶段完成。第一阶段收集解释论证合理性证据；第二阶段收集解释论证成立证据。证据收集采用了定性和定量相结合的方法。定性分析方法有,专家咨询法、文本比较分析法、问卷调查法、资料分析法；定量分析方法有,选项功能分析法、主观题评分规则分数等级分析法、评分误差研究法、CTT、G理论和IRT信度和测量标准误差研究法、DIF和DBF探测法、相关分析法、因子分析法。运用的统计软件包括SPSS、Parscale、Winsteps、Multilog、mGENOVA、DIF PACK等。正文第四章形成评价结论,包括考试开发质量和反思两个方面。评价质量的结论是解释论证的逻辑结果,围绕证据最终证明了什么,对实际考试分数能否且何种程度上解释为预设解释,对考试分数的误差来源作出终结性和诊断性评价。证据表明,2010年上海高考政治解释论证成立,80%考试分数方差可以解释为考生学科认知结构水平,20%误差主要由偏难偏易试题、选择题选项质量、主观题分数等级设计、全卷试题布局等问题造成。总体上,低端水平考生的考试分数被高估。反思性评价结论是对误差来源的反思结果。本文从考试设计和考试命题两个方面进行反思：提出从属性关系描述学科认知结构内涵,强调学科认知结构的各内容领域认知结构有机组成对考试设计的影响；从试题情景、设问、选项、评分方法及其评分规则等角度,提出命题技术改进建议。正文第五章以模型的确立作为研究成果。评价过程表明,本文提出的考试开发质量基于论证评价的理论框架适合于我国高考实践,抓住了我国高考开发质量控制的主要环节及其影响因素,基本框架符合完整性、统一性和反思性要求。模型由解释论证、效度论证和评价结论三个模块组成,解释论证以考试开发过程为逻辑线索；解释论证和效度论证具有互动关系；推断之间、假设之间和证据之间具有递推关系；解释论证是评价结论的逻辑主干；评价结论具有质量评价和开发反思双重特性。结语部分围绕模型和学科认知结构概念,提出了未来研究的两个方向,即运用模型控制考试开发过程的质量；运用学科认知结构模型数学表达方法设计命题蓝图本文创新之处在于：（1）突破传统效度检验框架,构建基于论证的我国高考开发质量评价模型,并提供一部完整的实证研究文本；（2）突破Kane考试分数解释四个推断框架,根据我国高考实践,提出解释论证中阐述考试分数预设解释和增加考试设计推断的必要；（3）以教育测量学视角详细阐述考试分数解释中每个推断成立需要的假设及其证据,系统论证证据与考试分数解释的联系；（4）整合国内外考试效度研究的各种定性和定量研究方法,构建适合于我国高考评价的效度论证方法体系；（5）借鉴认知科学理论“领域特殊性认知结构”,提出学科认知结构概念,并注意到学科认知结构内涵的不同描述方法对考试开发和评价的影响。

郭磊^[7]（2011）在《稀疏数据矩阵条件下应用公式法估计方差分量的影响因素研究》文中进行了进一步梳理我国自古以来都是一个考试大国,各式各样的考试遍地开花。上岗就业需要考试,晋升官职需要考试,获得资格认证书等也要考试。其中最被人们关注的大规模考试当属全国高考,这是决定莘莘学子前途命运的门槛,考试的公平性和精确性值得我们去研究和控制。在众多方法中,概化理论能较好的对考试进行优化和预测。概化理论于1963年由Cronbach,Gleser和Rajaranam提出的,它是现代心理与教育三大测量理论之一,可以应用到测量的各个领域,包括对考试内容的分析,考试信度的分析,人才测评分析等。它和经典测量理论（CTT）一样,都是建立在随机抽样理论之上。但一个很大的不同点在于,CTT对于一次测试只能得出一个笼统的误差项,而概化理论可以将测试中的误差项进行分解,找到各种不同的误差来源并且可以算出各种误差项的大小（G研究）,这样做的好处不仅可以得到概化系数和可靠性系数,还可以根据研究的目的来改变最初的测量设计,对考试进行优化和预测。因此概化理论已经越来越受到人们的重视,特别适合运用到各种教育考试、人才测评中去。但是,现通行的概化数据分析软件GENOVA和mGENOVA不能直接处理含有缺失数据的稀疏数据。为此,作者根据布瑞南（2001）提出的公式法,推导出对p*r*i双侧面交叉设计下的稀疏数据矩阵进行方差分量估计的公式,并研究了影响该方差分量估计精度的各种因素。研究发现:1.所推导公式可以较好地用于估计稀疏数据矩阵的方差分量。2.稀疏结构（S）、考生数量（P）、题目数量（I）以及方差分量（VC）的主效应均达到统计显着性,P*S、I*S、I*VC、S*VC四个两次交互作用是统计显着的,I*S*VC三次交互作用是统计显着的。3.对估计精度影响最大的因素是题目数量。4.公式法有其适用范围限制。

潘海燕^[8]（2011）在《现代测量理论在慢性病患者生命质量测定量表体系共性模块研制中的应用》文中研究表明[背景]慢性病生命质量量表的开发研究是近年来健康相关生命质量研究领域的研究热点,是对慢性病患者进行生命质量评价的一项基础性和关键性的工作。目前,慢性病生命质量的量表虽已有多种,但在量表开发方面普遍存在以下问题：（1）量表研究各自为政,缺乏系统性；（2）国外专家开发的相关量表没有完全体现中国文化背景,急需开发具有中国特色的慢性病量表；（3）量表评价筛选多建立在经典测量理论基础上,现代测量理论鲜见应用于生命质量测定领域。鉴于此,本课题组从2003年即开始进行慢性病生命质量量表体系的研究,并申请了国家自然科学基金课题（30360092）,课题组在借鉴现有的慢性病量表基础上,以共性模块与特异性模块结合的量表开发方式,系统、独立地开发了我国慢性病患者生命质量测定量表体系（Quality of life instruments for chronic disease,QLICD）。该体系包括一个可以用于各种慢性病患者生命质量测定的共性模块（QLICD-GM）以及在此基础上开发的8种慢性病的特异测定量表。在量表的开发工作受到高度关注的同时,量表及其条目的筛选与评价方法研究成为基础性工作。以往研究慢性病生命质量量表评价与筛选方法多建立在传统的经典测量理论（Classical test theory,CTT）基础上,该方法简便易懂,比如对量表的信度、效度和反应度、克朗巴赫a系数等系列指标进行计算评价。CTT是一套完整的测量理论与统计分析方法,是占据测量学统治地位的测量理论。但是该理论存在样本依赖性、测验平行假设难以实现及难以保证测验结果拓广的有效性等明显不足之处,使该理论的深入发掘与应用受到一定限制。在CTT研究缺陷的基础上,研究者提出了用现代测量理论（Modern test theory）来指导量表的开发。项目反应理论（Item response theory,IRT）和概化理论（Generalization theory,GT）是两种重要的现代测量理论。IRT具有下列特点：深入微观领域,将被试特质水平与被试在项目上的行为关联起来并将其参数化、模型化,可以精确估计测量误差；对被试潜在特质的估计不依赖特定的测验题目；参数的估计独立于被试样本；测验信息函数的概念代替了CTT的信度理论等。上世纪70年代以后,IRT得到充分发展,解决了经典测量理论未能解决的许多问题。项目反应理论在生存质量研究中的应用开始于20世纪末期,Haley和McHorney等用IRT分别评价了SF-36躯体功能的一维性,Cella和Chin-hung讨论了IRT在健康状况评价中的应用,使IRT深入到生存质量中。2004年于香港召开的国际生存质量会议有多数议题是与IRT在生存质量中的应用有关系的。目前中山大学也在开展IRT在残疾人生存质量量表中的应用研究。虽然目前IRT在国外发展很快,也有专家应用于研究生命质量相关量表的评价研究,但是在国内用于生命质量的研究较少。GT运用了实验技术和方差分析的基本原理,将经典测量理论与方差分析结合起来。提出了相对误差、绝对误差、概化系数、可靠性指数等一系列新的指标,取代了经典测量理论的信度、效度等传统指标,在研究测量误差方面具有更大的优越性,更加侧重于测量评价误差与决策需要间直接的关系,能够从宏观领域,不同的侧面针对不同测量情境估计测量误差的多种来源,以提高测验质量。GT理论相关的研究在我国还处于起步阶段,目前在面试、考核等领域有一些应用,少见将其应用到慢性病生命质量研究领域的报道。采用项目反应理论和概化理论两种现代测量理论方法相结合来分析评价慢性病生命质量量表研究尚未见报道。考虑到两种现代测量理论的诸多优势,及其在生命质量量表开发研究中的应用潜力,本研究拟采用项目反应理论、概化理论相结合从微观和宏观两个层面对QLICD-GM （V1.0）进行分析评价并与经典测量理论进行研究比较。[目的]1.尝试用项目反应理论和概化理论两种现代测量理论方法分析评价慢性病患者生命质量测定量表体系共性模块（QLICD-GM V1.0）。对共性模块进行微观和宏观层面的评价,为进一步修订模块条目,改进模块的结构提出建议；2.将项目反应理论、概化理论和经典测量理论三种测量方法进行比较,指出各自在慢性病生命质量量表研究中的优势与不足,为进一步研究开发其他类型疾病共性和特异性量表提供科学的方法借鉴。[内容]1.用项目反应理论,对QLICD-GM （V1.0）条目进行逐一的分析刻画,拟合其难度参数、区分度参数及信息量函数,结合项目特征曲线图,筛选出信息量较高的条目,剔除信息量过低的条目；2.用概化理论分G研究和D研究两个阶段进行评价。在G阶段,从宏观（量表不同领域）分析,反映不同误差来源的变异对总变异的影响；在D阶段,计算不同数量的条目下体现不同侧面影响的概化系数、可靠性指数和各种误差,对模块的信度进行评价,对不同领域条目的数量提供参考性建议,为不同的决策提供理论的依据。3.总结对比项目反应理论、概化理论和经典测量理论三大测量理论在生命质量研究中各自的优缺点及提出应用注意事项。[方法]1.调查方法以昆明医学院附属医院和云南省人民医院为主要调查点,调查包括高血压、冠心病、慢性胃炎等8种疾病在内的慢性病患者。要求患者有一定的读写能力。调查者以医生的身份出现,对共性模块的量表进行简单的解释和说明后将QLICD （V1.0）发给患者填写,等其完成后收回量表并检查有无漏项。调查分两次,入院时进行一次,出院之前进行一次重复调查。2.项目反应理论用Semejima等级反应模型对慢性病生命质量测定量表体系第一版QLICD-GM （V1.0）的每一个条目进行分析刻画,首先进行单维性假设的检验,然后从微观层面分析每个条目的信息量、信息函数并计算条目的难度、区分度,绘制其概率函数曲线和项目特征曲线。3.概化理论从宏观层面分析评价QLICD （V1.0）共性模块的整体有效性和可信性,并从不同的侧面和领域进行分析。根据资料的特点和设计方案类型,选用随机双面交叉（嵌套）设计的G研究和随机双面面交叉（嵌套）设计D研究方法,以患者作为测量目标,以不同的共性模块条目作为一个测量侧面,运用实验设计和方差分析的基本原理进行评价。将G研究中测量的效应或者变异的来源分为七个部分,一部分是被调查的不同疾病的患者p,第二部分是三个不同领域的各个条目i,第三部分是不同的测量时间t,其他部分是患者和条目、时间的交互效应P×i、p×t、i×t、p×i×t。采用两因素析因设计的ANOVA程序进行处理。D研究阶段,分3个领域,分别计算生理、心理和社会功能领域各自的变异分量估计值的相对误差、绝对误差、概化系数和可靠性指数等指标。4.提出项目反应理论和概化理论在慢性病生命质量量表研究中的应用注意事项及优缺点,对比经典测量理论,为以后进行新的共性和特异性量表的研制和开发提供方法学借鉴。5.统计学方法用数据库软件Excel、Foxpro进行数据的录入管理,采用统计分析软件SPSS15.0、MULTILOG7.03等对资料进行统计分析。[结果]第一部分项目反应理论1.单维性本研究分别按生理功能、心理功能和社会功能三个领域进行IRT分析。结果：治疗前,生理功能：第一特征与第二特征值之比2.6,基本满足单维性；心理功能5.7,完全满足单维性；社会功能社会影响侧面2.3,社会功能社会支持侧面：3.0,满足单维性的要求。治疗后,生理功能：第一特征与第二特征值之比2.9,基本满足单维性；心理功能：6.0,完全满足单维性；社会功能社会影响侧面2.9,社会功能社会支持侧面3.26,满足单维性。两次调查的单维性检验结果说明本量表可以采用项目反应理论进行分析。2.难度与区分度共性模块30个条目,3个领域（躯体功能、心理功能和社会功能）进行分析。两次慢性病生命质量测定量表共性模块不同领域的难度和区分度结果显示,time1条目第一次测定难度在-2.88～2.27之间。time 2条目S04、S05的难度最小值小于-3.0,PH5条目的难度最大值大于3.0,除了这3个条目其他所有条目的难度范围均在-2.93～2.93之间。说明QLICD量表体系共性模块难度适中。另外,30个条目的区分度都在0.63-1.88之间,均大于0.3,每个条目从1-4级呈单向递增,说明慢性病生命质量测定量表共性模块30个条目的区分度均较好。每个条目呈单向递增,均不存在逆反阈值。3.条目信息量平均信息量范围为0.37-0.99,其中生理功能领域信息量平均为0.38,心理功能领域平均信息量是0.80,社会功能领域平均信息量为0.48。其中,生理功能领域的平均信息量最小,心理领域平均信息量均较高,社会功能领域的11个条目中,SO1、SO3、SO6的信息量偏低,不能直接入选。根据每个条目的信息量,结合条目特征,从30个条目中选出24个好的条目。其中,信息量为0.47以上的条目有17个,直接入选。为保证共性模块各领域的完整性,保留PH2、PH6、PH7、PH8、SO1、S09、SO11。4.项目特征曲线图形显示,生理功能领域PHI-PH8条目概率曲线的概率值比心理领域的均要小,峰值普遍偏低,有少数项目的峰值接近重合,说明不同选项的区分能力不是太强,对于第一版的共性模块生理领域条目的选项还需要进一步研究改进。心理领域PS1-PS11,峰值之间层次感强,峰值范围相对较大,说明选择的概率较大,而且信息量均在0.47以上,这11项可以直接纳入量表中。社会功能领域SO1-SO11的概率曲线中,SO1、S03和S06、S09的区分能力偏低,其余曲线峰值均相对较高。第二部分概化理论1.总量表概化全域总的概化全域中,G研究表明：研究对象的变异效应α2（p）最大,为4.82,在总方差中占的比重为68%,说明被试研究对象的贡献最大,与预期构想的结果较吻合,拟合结果较理想。条目因素所占的比重较小,说明不同的条目具有较高的一致性,时间因素t的变异α2（t）仅为0.01,比重占0.14%,说明两次调查的时间因素对总的结果并未产生很大的影响,患者对两次调查总的反应性比较好。总的概况全域D研究表明：当尝试总量选取不同条目数（20、25、30、35、40）时,被试者与题目之间的交互作用、被试与时间交互作用、被试与时间、条目之间的交互作用及相对误差σ2（δ）和绝对误差σ2（△）均小于1,并且被试样本观测分均值估计和被试总体全域分均值的误差变异都比较小,概化系数Eρ2和可靠性指数Φ均大于0.9,说明QLICD-GM（V1.0）的测量信度和效度比较高。同时当概化全域中的题目样本容量逐步增大的时候,除了被试者变异分量没有发生变化以外,其余各种效应的变异分量都逐渐减小,概化系数和可靠性指数都增大。即使题目的样本容量为20题时,概化系数也是0.9905>0.9,但是当样本量逐渐增加,从35到40例的时候,概化系数无明显变化,仅提高0.0001。因此,如果要达到较好的信度,实际工作中建议共性模块选用35个左右的条目就比较好。2.生理领域生理领域G研究结果表明：研究对象的变异效应最大,为14.61,在总方差中占的比重为81%,生理领域的8个条目的相对误差范围是0.2203～0.2698,绝对误差取值范围0.2313～0.2894,均小于0.3,概化系数和可靠性指数均大于0.98,说明拟合效果较理想,生理领域各个条目的信度均较好,该结果与基于经典测量理论的重测信度、分半信度、克朗巴赫α系数结果是一致的。3.心理领域心理领域G研究结果显示,研究对象、条目和测量时间之间交叉作用的变异效应最大,占到48.96%的比例,而研究对象的效应仅占40%,与生理领域的结果有所不同。D研究结果显示,随着条目数的增加,概化系数和可靠性逐渐增大,当条目数达到11时,概化系数达到0.9886,条目数从11增加到13条时,概化系数增加到0.9897,13条之后调高的幅度较小,说明心理领域,条目数11-13较好,可以适当增加条目,使量表的信度更高。可靠性指数均大于0.95,说明心理领域各条目信度比较好。4.社会功能领域社会功能领域,患者与条目之间的交叉作用变异效应最大,占37.14%,其次为患者、条目和时间的交叉效应,占33.9%,再次患者效应为27.10%。条目拟合效果尚可,但是不同患者与条目的交叉作用太大,社会领域共性模块的部分条目需要进一步修订,使不同疾病类型的患者能够对条目保持较高的一致性的反应。[结论]1.项目反应理论和概化理论分析均可以较好地拟合应用于慢性病生命质量量表体系的开发研究。能够综合评价生命质量量表共性模块,具有较大的开发潜力和较好的应用前景；2.经典测量理论分析表明,QLICD-GM（V1.0）,总的信度、效度和反应度均较好,难度和区分度适中；3.项目反应理论和概化理论结果表明,在慢性病共性模块3个领域中,项目分析生理功能领域的条目拟合结果相对信息量偏差,概率曲线偏低,说明条目不能够直接进入下一步新版本的研究中,需要进行适当的修订,但是该领域的概化系数和可靠性指数均较大；心理功能领域条目信度、效度、信息量、概化系数和可靠性指数等均较大,相对和绝对误差均较小,11个条目建议可以直接入选到下一个版本,社会功能领域项目拟合结果尚可,部分条目的信息量偏低需要调整。4.项目反应理论和概化理论两种方法相较于经典测量理论各自有其优点和不足之处,可以与经典测量理论方法相结合开发共性模块和特异性量表新的版本。

刘全^[9]（2011）在《基于概化理论的现代问卷设计技术研究》文中认为文章基于概化理论,以问卷设计的可靠性为主线,结合"中国公众统计素养现状调查",系统探讨了概化理论在问卷设计应用中的基本原理,研究了问卷设计中问卷维度选择、维度信度计算、整体信度评价、各维度条目容量的选择及优化处理等问卷设计的关键技术和方法,并就GT在现代问卷设计技术中的进一步应用进行了讨论。

郑显亮^[10]（2010）在《大学生网络利他行为：量表编制与多层线性分析》文中进行了进一步梳理网络利他行为是指人们在网络环境中表现出来的有利于他人和社会、且不期望得到任何回报的自觉自愿行为。大学生是网络使用最为集中的群体,网络已成为大学生学习和生活不可缺少的工具。大学生的网络利他行为非常普遍,但学者对大学生网络利他行为的研究非常少,更缺乏大学生网络利他行为的测评工具。因此,研究大学生网络利他行为,关注网络给大学生带来的积极影响,既丰富了网络心理学的研究内容,又有利于网络健康文明氛围的营造和大学生人际关系的和谐发展,并为大学生的网络道德教育提供参考。本文在构建大学生网络利他行为的理论框架、探讨大学生网络利他行为的心理结构模型的基础上,编制了较高质量的大学生网络利他行为量表,并以此量表为工具对大学生网络利他行为的影响因素进行了实证研究。因此,本文主要有两大研究任务。一个任务是编制大学生网络利他行为量表。为确保量表的高质量,本文采用了经典测量理论（CTT）、概化理论（GT）、项目功能差异分析（DIF）、结构方程模型（SEM）等多种心理测量理论和技术相整合的方法。另一任务是探讨影响大学生网络利他行为的个体变量、班级变量和学校变量因素。由于数据存在嵌套关系,本文采用了多层线性分析技术,分别探讨了班级变量和学校变量对大学生网络利他行为及其与网络行为偏好间关系的影响。具体研究结果概述如下：（1）经典测量理论的研究结果表明：大学生网络利他行为量表（IABSU）包含30个项目,共有4个因子,分别将其命名为网络支持、网络指导、网络分享和网络提醒。（2）项目功能差异分析结果表明：IABSU不存在性别DIF,但有4个项目存在地域DIF,删除这4个项目后,量表保留26个项目。（3）概化理论分析结果表明：IABSU取4个维度是较合适的,既能保证较高的测量精度,又有较好的测量效益；IABSU各维度项目数量的设定比较合适；IABSU的4个维度及其整体的测量精度都很高,既可用于常模参照测验,也可用于标准参照测验。（4）信效度的检验结果表明：IABSU的信度、效度很好,可以作为大学生网络利他行为的有效测评工具。（5）验证性因素分析和交互效度检验结果表明：大学生网络利他行为是一个多层次多维度的结构,它是一个二阶单因素一阶4因素的结构模型。（6）班级变量对大学生网络利他行为影响的多层线性分析结果表明：游戏偏好对网络利他行为总分、网络支持和网络分享的影响、交往偏好对网络支持的影响、信息偏好对网络提醒的影响均存在显着的班级差异；班级女生率和班级平均自尊水平对网络支持的班级均值差异有显着的预测作用,女生率或平均自尊水平越高的班级,网络支持的班级平均分数就越高。班级平均每周上网时间和班级平均自尊水平对交往偏好与网络支持间的关系具有显着的调节作用,平均每周上网时间越多或平均自尊水平越高的班级,交往偏好对网络支持的正向预测作用越强。（7）学校变量对大学生网络利他行为影响的多层线性分析结果表明：信息偏好对网络利他行为总分和网络提醒的影响、游戏偏好对网络分享的影响均存在显着的学校差异；学校性质显着削弱了游戏偏好与网络分享间的正向关联,即与211大学相比,非211大学的学生游戏偏好与网络分享的正向关联程度更强。本文的创新之处在于：（1）提出了大学生网络利他行为的心理结构模型；（2）采用多种心理测量理论和技术整合的方法编制高质量的大学生网络利他行为量表；（3）用MACS模型对量表进行DIF检测；（4）一元概化理论和多元概化理论同时运用于量表编制中；（5）采用多层线性模型对大学生网络利他行为进行实证研究。

二、试卷样本同质性对概化理论测评精度的影响（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、试卷样本同质性对概化理论测评精度的影响（论文提纲范文）

（1）我国区县义务教育质量测评体系研究（论文提纲范文）

论文创新点

摘要

ABSTRACT

1 导论

1.1 选题背景

1.1.1 提高基础教育质量是世界教育发展的主旨

1.1.2 区县义务教育质量测评是全面提高我国义务教育质量的政策要求

1.1.3 区县义务教育质量测评体系的构建是全面推行素质教育的迫切需求

1.2 选题意义

1.2.1 理论意义

1.2.2 实践意义

1.3 文献综述

1.3.1 国外研究现状

1.3.2 国内研究现状

1.3.3 文献述评

1.4 核心概念界定

1.4.1 义务教育质量

1.4.2 区县义务教育质量测评

1.4.3 区县义务教育质量测评体系

1.5 研究的思路和方法

1.5.1 研究的思路

1.5.2 研究的方法

1.6 研究的重点、难点与创新点

1.6.1 研究的重点

1.6.2 研究的难点

1.6.3 研究的创新点

2 研究的理论基础

2.1 经典测量理论

2.2 项目反应理论(IRT)

2.3 现代教育评价理论

2.4 教育目标分类理论

3 我国区县义务教育质量测评现状及分析

3.1 北京市区县义务教育质量测评现状

3.1.1 东城区义务教育质量测评现状

3.1.2 海淀区义务教育质量测评现状

3.1.3 西城区义务教育质量测评现状

3.2 杭州市下城区义务教育质量测评现状

3.2.1 组织模式

3.2.2 测评内容及工具

3.2.3 测评结果反馈与应用

3.3 武汉市区县义务教育质量测评现状

3.3.1 武昌区义务教育质量测评现状

3.3.2 江岸区义务教育质量测评现状

3.3.3 江夏区义务教育质量测评现状

3.4 孝感市区县义务教育质量测评现状

3.4.1 组织模式

3.4.2 测评内容及工具

3.4.3 测评结果反馈与应用

3.5 我国区县义务教育质量测评现状分析

3.5.1 组织模式单一,缺乏社会参与

3.5.2 测评内容不全,忽视学生全面发展

3.5.3 数据分析缺乏科学性,结果应用存在局限性

4 国际基础教育质量测评现状及对我国的启示

4.1 国际学生评估项目测评现状

4.1.1 组织模式

4.1.2 阅读素养

4.1.3 数学素养

4.1.4 科学素养

4.2 国际数学和科学成就趋势研究测评现状

4.2.1 组织模式

4.2.2 测评内容及工具

4.2.3 测评结果描述

4.3 国际阅读素养进步研究测评现状

4.3.1 组织模式

4.3.2 测评内容及工具

4.3.3 测评结果描述

4.4 国际基础教育质量测评项目对我国的启示

4.4.1 测评内容重情境与应用

4.4.2 测评工具多样化

4.4.3 测评结果重能力描述

5 我国区县义务教育质量测评体系构想

5.1 区县义务教育质量测评组织框架

5.2 区县义务教育质量测评内容及指标

5.2.1 学业性非智力因素及其影响因素测评

5.2.2 学业成就水平测评

5.3 测评结果反馈与应用

5.4 测评的元评价

6 区县义务教育质量测评体系的实施

6.1 湖北省咸宁市咸安区义务教育质量测评组织框架

6.2 湖北省咸宁市咸安区中小学生学业性非智力因素状况及影响因素测评及分析

6.2.1 测评对象

6.2.2 测评内容

6.2.3 测评工具

6.2.4 测评结果分析

6.3 语文阅读测评

6.3.1 测评基本情况

6.3.2 测评结果分析

6.3.3 建议

6.4 数学学科测评

6.4.1 测评基本情况

6.4.2 测评结果分析

6.4.3 建议

6.5 英语学科测评

6.5.1 测评基本情况

6.5.2 测评结果分析

6.5.3 建议

6.6 科学学科测评

6.6.1 测评基本情况

6.6.2 测评结果分析

6.6.3 建议

6.7 品德与社会学科测评

6.7.1 测评基本情况

6.7.2 测评结果分析

6.7.3 建议

6.8 体育学科测评

6.8.1 测评结果分析

6.8.2 建议

6.9 测评体系修正

7 结论与展望

7.1 研究的结论

7.2 研究的不足

7.3 研究展望

参考文献

科研成果

附录

致谢

（2）大学生爱国情感的测评研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究问题的提出

1.2 研究重点与难点

1.3 研究意义与价值

第二章研究概述

2.1 爱国中的情感

2.1.1 爱

2.1.2 爱国

2.1.3 爱国主义

2.1.4 爱国主义情感

2.2 情感里的爱国

2.2.1 情感

2.2.2 道德情感

2.2.3 爱国情感

2.3 爱国情感简述

2.3.1 爱国情感的起源与发展

2.3.2 爱国情感的定义与结构

2.3.3 爱国情感的特点与作用

2.3.4 爱国情感的方法及运用

2.4 测评方法简介

2.4.1 情境测验判断

2.4.2 项目功能差异

2.4.3 测量等价检验

2.4.4 概化理论分析

小结

第三章大学生爱国情感结构测评指标的初步构建

3.1 大学生群体特征及所处的时代特征分析

3.2 大学生爱国情感结构的理论来源与依据

3.3 大学生爱国情感结构的调查数据与分析

3.3.1 从资料中查找有关词汇

3.3.2 从调查中收集相关词汇

3.3.2.1 设计调查项目表

3.3.2.2 实施调查与访谈

3.3.2.3 调查结果与分析

3.3.2.4 小结

第四章大学生爱国情感测评量表项目的初步编制

4.1 引言

4.2 研究方法

4.2.1 编写依据与方法

4.2.2 编写思想与原则

4.2.3 编写设计及说明

4.2.4 研究被试

4.3 结果分析

4.3.1 情景的选取

4.3.2 题干内容的编写

4.3.3 反应选项的收集

4.3.4 反应指导语

4.3.5 反应有效性评定

4.3.6 计分方法与标准

4.4 讨论

4.4.1 典型情境

4.4.2 题干内容

4.4.3 反应选项

4.4.4 反应指导语

4.4.5 反应有效性

4.4.6 计分方法

4.5 小结

第五章大学生爱国情感测评量表项目的初步分析

5.1 引言

5.2 研究方法

5.3 结果与分析

5.3.1 描述性统计分析

5.3.2 项目的筛选分析

5.3.3 探索性因素分析

5.4 讨论

5.4.1 缺失值处理办法

5.4.2 项目删除的标准

5.5 小结

第六章大学生爱国情感量表的项目功能差异分析

6.1 引言

6.2 研究方法

6.3 结果分析

6.3.1 量表各维度的性别项目功能差异分析

6.3.2 量表各维度的区域项目功能差异分析

6.4 讨论

6.4.1 四维度在两组别上的原因分析

6.4.2 两组别在四维度上的结果探讨

6.5 小结

第七章大学生爱国情感测评量表的信度效度分析

7.1 引言

7.2 大学生爱国情感量表的信度分析

7.2.1 重测信度

7.2.2 同质信度

7.3 大学生爱国情感量表的效度检验

7.3.1 内容效度

7.3.2 构想效度

7.3.3 效标效度

7.4 讨论

7.5 小结

第八章大学生爱国情感量表的测量等价性检验

8.1 引言

8.2 研究方法

8.3 结果分析

8.3.1 大学生爱国情感量表跨区域测量等价性检验

8.3.1.1 跨区域数据的探索性因素分析

8.3.1.2 一阶因素模型跨区域的测量等价性检验

8.3.1.3 二阶因素模型跨区域的测量等价性检验

8.3.2 大学生爱国情感量表跨性别测量等价性检验

8.3.2.1 跨性别数据的探索性因素分析

8.3.2.2 一阶因素模型跨性别的测量等价性检验

8.3.2.3 二阶因素模型跨性别的测量等价性检验

8.4 讨论

8.4.1 测量等价的判断指标

8.4.2 二阶因素模型的特点

8.5 小结

第九章大学生爱国情感测评量表概化理论分析

9.1 引言

9.2 大学生爱国情感量表的一元概化理论研究

9.2.1 大学生爱国情感量表维度数量的一元概化分析

9.2.2 爱国情感量表各维度题目数量的一元概化分析

9.3 大学生爱国情感量表的多元概化理论研究

9.3.1 研究设计

9.3.2 结果讨论

9.3.2.1 爱国情感量表多元概化G研究

9.3.2.2 爱国情感量表多元概化D研究

9.3.2.2.1 全域总分的测量精度研究

9.3.2.2.2 各因子对全域总分方差的比值为权重的D研究

9.3.2.2.3 各因子对总方差贡献比例的研究

9.3.2.2.4 各因子样本容量对测量精度的影响研究

9.4 小结

第十章大学生爱国情感的现状调查研究

10.1 引言

10.2 研究方法

10.3 结果分析

10.3.1 大学生爱国情感的描述性统计

10.3.2 大学生爱国情感的人口统计学差异分析

10.4 讨论

10.4.1 大学生爱国情感总体发展尚好,仍有待提高

10.4.2 大学生爱国情感在人口学变量的分析与思考

10.5 小结

第十一章总结与展望

11.1 本文的主要结论

11.2 本文的创新之处

11.2.1 提出大学生爱国情感的心理结构模型

11.2.2 从情境视角进行爱国情感量表的编制

11.2.3 尝试探索出降低社会称许效应的方法

11.2.4 编制了高质量的大学生爱国情感量表

11.2.5 经典测量理论与现代测量理论的结合

11.3 未来研究之展望

11.3.1 开展纵向研究,拓展和深化大学生爱国情感研究

11.3.2 形成大、中、小三位一体化的爱国情感培养模式

11.3.3 从情境化的视角加强和改进学生爱国情感的研究

11.3.4 运用项目反应理论的方法进行爱国情感微观研究

11.3.5 把多层线性模型的统计学技术运用到因素分析中

11.3.6 采用网上测试的方法或用视频的方式来呈现情境

11.3.7 运用实验研究方法进行爱国情感内在机制的揭示

参考文献

附录

攻读学位期间取得的研究成果

致谢

（4）基于PISA的学习素养评价系统设计（论文提纲范文）

摘要

ABSTRACT

图目录

表目录

第1章绪论

1.1 研究背景

1.2 问题的定位

1.3 研究意义

1.4 研究方法

第2章研究的相关理论基础

2.1 跨学科视域下的学习行为整合观

2.1.1 物质基础：神经元及其生化活动

2.1.2 心理过程：知识的表征与习得

2.1.3 学习主线：问题解决

2.1.4 拓展过程：知识迁移

2.1.5 社会建构：情境学习理论

2.1.6 力量源泉：人性中的学习动机

2.1.7 本节小结

2.2 评价及其相关问题

2.2.1 “评价”的词源学分析及其定义

2.2.2 评价与知识、知识观

2.2.3 传统评价理论的历史回顾

2.2.4 当代评价模式的重构

2.2.5 评价与测量、考试

2.2.6 本节小结

2.3 学习测量理论分析

2.3.1 经典测试理论(CTT)及其缺陷分析

2.3.2 概化理论(GT)的特征分析

2.3.3 项目反应理论(IRT)的特征分析

2.3.4 本节小结

第3章 PISA评价模式及其分析

3.1 PISA评价理念的历史解析

3.1.1 PISA理念的背景分析

3.1.2 对“literacy”多学科解读

3.1.3 本节小结

3.2 PISA评估框架分析

3.2.1 阅读素养的界定及其测评

3.2.2 数学素养的界定及其测评

3.2.3 科学素养的界定及其测评

3.2.4 问题解决能力的界定与测评

3.3 PISA评估技术标准解析

3.4 PISA测评体系中的思考

第4章学习素养评价系统的构建

4.1 学习素养的提出

4.1.1 “literacy”中的素养意识

4.1.2 “学习素养”的内涵与特征

4.1.3 学习素养与能力、知识的关系

4.2 学习素养的形成模型

4.2.1 学习活动组织层次

4.2.2 学习结果应用层次

4.2.3 过程与价值的整合层次

4.3 学习素养的测评

4.3.1 学习素养的评估框架

4.3.2 基于项目反应理论的纸笔测试

4.3.3 学习者背景信息的收集：问卷调查

4.4 基于IRT的试题库开发过程

4.4.1 双向细目表的设计

4.4.2 试题库的开发过程

4.4.3 自动组卷功能的实现

第5章评价案例分析：以数学学科为例

5.1 初中生学习特性分析

5.2 初中数学学科特性分析

5.2.1 数学学科的基本特征

5.2.2 初中数学内容-目标分析

5.3 双向细目表的设计

5.4 数据收集过程

5.4.1 基于IRT的测试

5.4.2 学习者背景信息调查

5.5 相关数据的SPSS分析

5.5.1 测试信度计算

5.5.2 指标的分布特征与比较

5.5.3 对数学学习成绩的影响分析

5.5.4 对知识迁移能力的影响分析

5.5.5 对反思创新能力的影响分析

5.5.6 数学学习素养的因子分析

5.6 数据分析结果

第6章思考与展望

6.1 基本结论

6.2 不足与创新之处

6.3 研究展望

附录

附录1：数学七年级(上册)与PISA相关评测内容的对比

附录2：数学七年级(下册)与PISA相关评测内容的对比

附录3：数学八年级(上册)与PISA相关评测内容的对比

附录4：数学八年级(下册)与PISA相关评测内容的对比

附录5：数学九年级(下册)与PISA相关评测内容的对比

附录6：IRT模型假设检验与参数估计所用试卷A

附录7：IRT模型假设检验与参数估计所用试卷B

附录8：学习素养背景信息调查问卷

附录9：评估初中数学学习素养成绩正式施测试卷

附录10：三次测试的分数汇总及其五级计分变换

参考文献

一、英文部分

二、中文部分

三、网络资源

读博期间的主要科研成果

后记

（6）基于论证的我国高考开发质量评价模型研究 ——以2010年上海高考政治开发为例（论文提纲范文）

摘要

Abstract

绪论

第一节研究缘起与研究价值

一我国高考开发中存在的问题

二构建基于论证的我国高考开发质量评价模型

第二节文献综述

一文献检索说明

二效度检验评价模式综述

三一致性检验评价模式综述

第三节概念界定

一 "我国高考"的概念界定

二 "考试开发"的概念界定

三 "学科认知结构"的概念界定

四 "基于论证的评价的理论框架"的概念界定

第四节研究方案

一研究目的

二研究对象

三研究过程及方法

第一章解释论证

第一节考试分数的预设解释

一预设考试分数解释的必要性

二 2010年上海高考政治考试分数的预设解释

第二节解释论证逻辑过程

一从考试开发过程架构解释论证

二 2010年上海高考政治开发质量评价解释论证逻辑过程

第三节 2010年上海高考政治开发质量评价解释论证

一设计推断的解释论证

二评分推断的解释论证

三概化推断的解释论证

四外延推断的解释论证

五内涵推断的解释论证

六解释论证合理性推断的解释论证

第二章效度论证(上)

第一节解释论证合理性的效度论证

一解释论证合理性的假设证明说明

二解释论证合理性的假设证明

第二节设计推断的效度论证

一考试大纲学科认知结构内涵与高考依据标准基本一致的假设证明

二考试大纲目标领域与课程标准一致的假设证明

第三节评分推断的效度论证

一试题答案、评分方法及其评分规则适切的假设证明

二评分者准确一致地运用试题答案、评分规则的假设证明

第三章效度论证(下)

第四节概化推断的效度论证

一试题是样本有效单元的假设证明

二试卷样本足够大且测量误差控制能满足招生录取要求的假设证明

第五节外延推断的效度论证

一概化全域足够大且是目标领域合适样本的假设证明

二考试没有明显系统误差的假设证明

第六节内涵推断的效度论证

一考生应答表现没有受到无关心理特质影响的假设证明

二考试分数数据结构能证实学科认知结构内涵的假设证明

第四章评价结论

第一节考试开发质量评价结论

一终结性评价结论

二诊断性评价结论

第二节考试开发质量的反思性评价

一考试设计的反思

二考试命题的反思

第五章基于论证的我国高考开发质量评价模型

第一节模型的模块构成

一解释论证模块

二效度论证模块

三评价结论模块

第二节模型应用的流程

一解释论证的流程

二效度论证的流程

三获得评价结论的流程

结语:未来研究方向

一运用模型控制考试开发过程的质量

二运用学科认知结构模型矩阵表达设计命题蓝图

附录A:2010年上海高考政治开发质量评价解释论证合理性调查问卷

附录B:2010年上海高考政治考试手册(节选)

附录C:2010年上海高考政治试题属性与试题构成要素一致性调查问卷

附录D:2010年上海高考政治试题属性与试题构成要素一致性问卷调查统计结果

附录E:2010年上海高考政治基于局域网阅卷参数

附录F:2010年上海高考政治试题属性及评分规则

附录G:2010年上海高考政治命题双向细目表

参考文献

后记

（7）稀疏数据矩阵条件下应用公式法估计方差分量的影响因素研究（论文提纲范文）

摘要

Abstract

引言

1. 文献综述

1.1 概化理论及其相关研究

1.1.1 概化理论的基本概念

1.1.2 CTT 的不足与缺陷

1.1.3 概化理论的提出与发展

1.1.4 国内概化理论的相关研究

1.2 非平衡设计的相关研究

2. 问题的提出

3. 研究设计

3.1 研究目的

3.2 研究假设

3.3 研究工具

3.4 实验设计

3.4.1 研究的自变量

3.4.2 研究的因变量

3.5 研究方法

3.6 公式的推导

3.6.1 T ( α) 值的推导

3.6.2 两组公式中σ2( α) 系数的推导

3.6.3 ET ( α) 值的推导

3.6.4 非平衡双侧面交叉原则下形成的稀疏数据的方差分量估计公式组

3.6.5 非平衡双侧面嵌套原则下形成的稀疏数据的方差分量估计公式组

3.7 具体模拟的实现

3.8 估计精度的判断标准

4. 实验结果

4.1 实验一的实验结果

4.1.1 当题目数为3 时，不同考生数量、评分者数量对方差分量估计值的影响

4.1.2 当题目数为5 时，不同考生数量、评分者数量对方差分量估计值的影响

4.1.3 当题目数为9 时，不同考生数量、评分者数量对方差分量估计值的影响

4.1.4 不同题目数量对方差分量估计值的影响

4.2 实验二的实验结果

4.2.1 当题目数为3 时，不同考生数量、评分者数量对方差分量估计值的影响

4.2.2 当题目数为5 时，不同考生数量、评分者数量对方差分量估计值的影响

4.2.3 当题目数为9 时，不同考生数量、评分者数量对方差分量估计值的影响

4.2.4 不同题目数量对方差分量估计值的影响

4.3 四因素完全随机设计方差分析结果

5. 讨论

5.1 测量目标及测量侧面对估计值的影响

5.2 估计效率的比较

5.3 公式的局限性

6. 研究结论

7. 研究展望

参考文献

致谢

在读期间公开发表论文(着)及科研情况

（8）现代测量理论在慢性病患者生命质量测定量表体系共性模块研制中的应用（论文提纲范文）

摘要

ABSTRACT

第1章前言

1.1 研究背景

1.2 研究目的

1.3 研究内容

1.4 研究思路

第2章研究对象与研究方法

2.1 调查对象与诊断标准

2.2 慢性病患者生命质量测评量表体系共性模块QLICD-GM(V1.0)的制定

2.3 调查方式

2.4 质量控制

第3章资料的描述性统计分析与共性模块考评

3.1 资料预处理

3.2 资料的描述性统计分析

3.3 基于经典测量理论的信度、效度和反应度评价

第4章基于项目反应理论的慢性病患者生命质量测评量表体系共性模块研究

4.1 基本原理

4.2 几个基本概念

4.3 基本模型与假设

4.4 参数估计与模型拟合

4.5 项目反应理论的拟合结果

4.6 基于经典测量理论的难度与区分度分析

4.7 小结与讨论

第5章基于概化理论的慢性病患者生命质量测评量表体系共性模块研究

5.1 基本原理

5.2 几个基本概念

5.3 基本模式与结构

5.4 概化理论的基本步骤

5.5 概化理论的基本算法

5.6 概化理论结果

5.7 小结与讨论

5.8 项目反应理论、概化理论和经典测量理论的总结比较

第6章总结

6.1 本研究的主要结果

6.2 本研究的主要特色

6.3 尚待进一步解决的问题

参考文献

综述

参考文献

英文缩略词

附录

在读博士期间发表的学术论文及获奖情况

致谢

统计学证明

（9）基于概化理论的现代问卷设计技术研究（论文提纲范文）

1 问题提出

2 基于概化理论的问卷设计技术原理

2.1 GT基本概念

2.2 基于GT的问卷设计原理

2.3 GT误差概念及“类信度”指标

3 基于概化理论的问卷设计技术

3.1 问卷维度选择技术

3.2 维度信度的评价技术

3.3 问卷整体信度评价技术

3.4 问卷各维度条目容量的选择及优化处理技术

4 结论及讨论

4.1 样本同质性对“类信度”指标的影响

4.2“类信度”指标的进一步讨论

4.3 现代问卷设计技术的进一步讨论

（10）大学生网络利他行为：量表编制与多层线性分析（论文提纲范文）

摘要

Abstract

第一章绪论

1 研究问题的提出

2 研究目的

3 研究内容

4 研究意义

4.1 理论意义

4.2 实际意义

第二章研究的理论基础与文献综述

1 利他行为的研究

1.1 利他行为的界定

1.2 利他行为的理论

1.3 利他行为的影响因素

2 网络利他行为的研究

2.1 网络利他行为的概念

2.2 网络利他行为的特征

2.3 网络利他行为的表现形式

2.4 网络利他行为的影响因素

2.5 网络利他行为的实证研究

2.6 网络利他行为的测量工具

第三章大学生网络利他行为量表的初步编制

1 引言

2 研究方法

2.1 大学生网络利他行为的界定

2.2 初始项目的形成

2.3 被试

2.4 数据分析

3 结果与分析

3.1 描述性统计分析

3.2 项目分析

3.3 探索性因素分析

4 讨论

5 小结

第四章大学生网络利他行为量表的项目功能差异分析

1 引言

2 研究方法

2.1 被试

2.2 研究工具

2.3 DIF检测方法

3 结果与分析

3.1 各组别被试的基本统计量

3.2 IABSU的性别DIF分析

3.3 IABSU的地域DIF分析

4 讨论

4.1 均数与协方差结构(MACS)模型

4.2 IABSU的DIF分析

4.3 DIF项目的取舍

5 小结

第五章大学生网络利他行为量表的概化理论研究

1 引言

2 IABSU的一元概化理论(UGT)研究

2.1 IABSU维度数目的一元概化分析

2.2 IABSU各维度的一元概化分析

3 IABSU的多元概化理论(MGT)研究

3.1 研究设计

3.2 结果与讨论

4 结论

第六章大学生网络利他行为量表的信效度研究

1 引言

2 IABSU的信度研究

2.1 重测信度

2.2 同质信度

3 IABSU的效度研究

3.1 内容效度

3.2 效标效度

3.3 构想效度

4 讨论

4.1 大学生网络利他行为量表编制的过程

4.2 大学生网络利他行为的心理结构

4.3 IABSU的信度

4.4 IABSU的效度

5 结论

第七章班级变量对大学生网络利他行为影响的多层线性分析

1 引言

2 研究方法

2.1 被试

2.2 测量

2.3 分析方法

3 结果与分析

3.1 描述性统计量

3.2 零模型估计结果

3.3 大学生网络利他行为和网络行为偏好的关系

3.4 班级变量对大学生网络利他行为及其与网络行为偏好间关系的影响

3.5 班级变量对大学生网络利他行为及其与网络行为偏好间关系变异的解释

4 讨论

4.1 大学生网络利他行为和网络行为偏好的关系

4.2 班级变量对大学生网络利他行为及其与网络行为偏好间关系的影响

5 小结

第八章学校变量对大学生网络利他行为影响的多层线性分析

1 引言

2 研究方法

2.1 被试

2.2 测量

2.3 分析方法

3 结果与分析

3.1 描述性统计量

3.2 零模型估计结果

3.3 大学生网络利他行为和网络行为偏好的关系

3.4 学校变量对大学生网络利他行为及其与网络行为偏好间关系的影响

3.5 学校变量对大学生网络利他行为及其与网络行为偏好间关系变异的解释

4 讨论

5 小结

第九章总结与展望

1 本文的主要结论

2 本文的创新之处

2.1 提出了大学生网络利他行为的心理结构模型

2.2 采用多种心理测量理论和技术整合的方法编制高质量的大学生网络利他行为量表

2.3 用MACS模型对量表进行DIF检测

2.4 一元概化理论和多元概化理论同时运用于量表编制中

2.5 采用多层线性模型对大学生网络利他行为进行实证研究

3 未来研究展望

3.1 拓展和深化网络利他行为的研究

3.2 对网络利他行为进行纵向研究和在线调查

3.3 加强青少年网络利他行为的研究

3.4 加强DIF检测多种方法之间的比较研究

3.5 进一步加强多层线性模型的研究

3.6 把项目反应理论应用于量表编制

参考文献

附录

附录1:大学生网络利他行为量表的初始项目

附录2:大学生网络利他行为量表初稿

附录3:大学生网络利他行为量表二稿

附录4:大学生网络利他行为量表三稿(正式稿)

附录5:用MACS模型对IABSU进行DIF分析的语法

致谢

攻读博士学位期间的科研成果

四、试卷样本同质性对概化理论测评精度的影响（论文参考文献）

[1]我国区县义务教育质量测评体系研究[D]. 高冬冬. 武汉大学, 2020(03)
[2]大学生爱国情感的测评研究[D]. 徐雷. 上海师范大学, 2018(01)
[3]基于概化理论构建自学考试信度分析框架[J]. 田霖,韦小满,王桥影,赵晓茫. 考试研究, 2013(05)
[4]基于PISA的学习素养评价系统设计[D]. 齐宇歆. 华东师范大学, 2013(11)
[5]多种测量信度观与自学考试信度分析[J]. 田霖,韦小满,王桥影. 教育与考试, 2013(02)
[6]基于论证的我国高考开发质量评价模型研究 ——以2010年上海高考政治开发为例[D]. 周群. 华东师范大学, 2011(06)
[7]稀疏数据矩阵条件下应用公式法估计方差分量的影响因素研究[D]. 郭磊. 江西师范大学, 2011(06)
[8]现代测量理论在慢性病患者生命质量测定量表体系共性模块研制中的应用[D]. 潘海燕. 南方医科大学, 2011(05)
[9]基于概化理论的现代问卷设计技术研究[J]. 刘全. 统计与决策, 2011(02)
[10]大学生网络利他行为：量表编制与多层线性分析[D]. 郑显亮. 上海师范大学, 2010(09)

标签：项目反应理论论文; 样本容量论文; 项目分析论文; 测量理论论文; 社会因素论文;

试卷样本同质性对泛化理论评价准确性的影响

一、试卷样本同质性对概化理论测评精度的影响（论文文献综述）

二、试卷样本同质性对概化理论测评精度的影响（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、试卷样本同质性对概化理论测评精度的影响（论文提纲范文）

（1）我国区县义务教育质量测评体系研究（论文提纲范文）

（2）大学生爱国情感的测评研究（论文提纲范文）

（4）基于PISA的学习素养评价系统设计（论文提纲范文）

（6）基于论证的我国高考开发质量评价模型研究 ——以2010年上海高考政治开发为例（论文提纲范文）

（7）稀疏数据矩阵条件下应用公式法估计方差分量的影响因素研究（论文提纲范文）

（8）现代测量理论在慢性病患者生命质量测定量表体系共性模块研制中的应用（论文提纲范文）

（9）基于概化理论的现代问卷设计技术研究（论文提纲范文）

（10）大学生网络利他行为：量表编制与多层线性分析（论文提纲范文）

四、试卷样本同质性对概化理论测评精度的影响（论文参考文献）

猜你喜欢