整理最新的 KT 论文,从中找到自己的小论文开题方向,确定模型的改进之处和论文的创新点。
一、试题嵌入
Bert or HetGNN
二、学生能力 or 学习速率
1.1 Convolutional Knowledge Tracing:Modeling Individualization in Student Learning Process
研究背景 or 问题
随着在线教育系统的发展,越来越多的研究工作聚焦于知识追踪(KT),它旨在评估学生不断变化的知识状态,帮助他们更有效地学习知识概念。然而,现有的 KT 方法大多只给出学生的学习互动,而忽略了学生的个性化,即学生之间的先验知识和学习率是不同的。
为了更好地说明学生的个性化,我们在图 1 中给出了一个例子,其中 3 个学生回答了与 3 个不同知识概念相关的 7 个练习。如图 1 所示,学生 s2 在较少的错误后就能快速掌握概念 k1 和 k2,表明 s2 的学习速度比学生 s1 和 s3 快。同时,学生 S3 第一次能够正确回答练习 E7,表明 S3 可能已经掌握了概念 K3。不幸的是,不同学生的个性化先验知识和学习率没有事先给出,这给测量他们带来了很大的挑战。
研究目的 or 解决方案
针对学生个性化建模面临的挑战,本文提出了一种新的卷积知识追踪(CKT)方法来进行个性化建模(从学生的学习交互序列中测量学生个性化的先验知识和学习率)。具体地说,对于个性化的先验知识,我们从学生的历史学习互动中进行测量。对于个性化的学习率,我们设计了分层卷积层,通过在一个滑动窗口内同时处理多个连续的学习交互来提取学习速率特征。大量实验表明,CKT 通过对学习过程中的个性化建模,可以获得更好的知识追踪结果。此外,CKT 可以自动学习有意义的练习嵌入。
本文贡献 or 创新点
- 针对学生个性化建模面临的挑战,本文提出了一种新的卷积知识追踪(CKT)方法来进行个性化建模(从学生的学习交互序列中测量学生个性化的先验知识和学习率)。
- 在五个公开的数据集上进行了大量的实验来评估 CKT 的性能,结果表明 CKT 可以通过对学生学习过程中的个性化建模来获得更好的知识追踪结果。
提出模型
Embedding
随机初始化作为练习
的嵌入,因此所有练习可转化为嵌入矩阵
,该练习嵌入矩阵将在在训练过程中自动学习。因其中 N 为习题数,K 是嵌入维度。考虑到答题正确与否对模型预测的准确性影响,将
表示为为与
维度相同的零向量,并用公式 1 表示学习交互
的嵌入。
Individualized Prior Knowledge
(1)历史相关成绩(HRP):HRP 更详细地反映了学生对特定概念的知识掌握情况。它侧重于测量与要回答的练习相关的学生历史成绩。为了评估当前回答练习和先前回答的练习
之间的相关性,通过使用
和
之间的掩码点积的 Softmax 激活来计算相关系数
:
然后,利用对所有历史学习交互进行加权和从而测量
,即:
概念正确率(CPC):而 CPC 则粗略地反映了学生对所有知识概念的总体知识掌握情况。CPC 由学生对每个知识概念的正确百分比组成。我们通过计算学生得分率来计算:
其中表示相关练习的知识概念 m,概念数为 M,
是回答练习的次数,
是正确回答该练习的次数。
然后,将学习交互序列(learning interaction sequence,LIS)与相关习题历史答题情况 HRP,学生对于所有知识点掌握程度 CPC 三个向量拼接到一起组成向量 H,再经过门控线性单元(GLU)得到 Q。如公式(5)所示:
其中,为模型要学习的参数。
Individualized Learning rate
CKT 利用分层卷积层在滑动窗口内同时处理多个连续的学习交互(矩阵 Q)来提取学习率特征。
分层卷积层的输出矩阵代表学生的知识状态。CKT 利用当前学生知识状态和下一练习嵌入的点积来预测学生的表现:
Objective Function
CKT 选择预测答案与实际答案之间的交叉熵对数损失作为模型的目标函数,该目标函数在小批量上使用 ADAM 优化器最小化 loss 值:
实验结果(datasets、baselines)
Datasets Description
Comparison methods
Experimental Results
总结
本文提出了一种称为卷积知识追踪(CKT)的新模型来模拟学生在 KT 任务中的个性化。具体地说,CKT 从学生的历史学习互动(即 HRP 和 CPC)中测量了个性化的先验知识。然后,设计了分层卷积层来提取连续学习交互中的个性化学习率。大量实验结果表明,CKT 通过对学生学习过程进行个性化建模,可以获得更好的知识追踪效果。
1.2 LANA:Towards Personalized Deep Knowledge Tracing Through Distinguishable Interactive Sequences
研究背景 or 问题
在教育应用中,知识追踪(KT)是通过总结学生的知识状态来准确预测学生对未来问题的反应的问题,由于它被认为是适应性在线学习的一项基本任务,因此已被广泛研究了数十年。在所有已提出的 KT 方法中,深度知识追踪(DKT)及其变种由于神经网络的高度灵活性是迄今为止最有效的方法。然而,DKT 往往忽略了学生之间的内在差异(例如记忆技能、推理技能等),平均了所有学生的表现,导致缺乏个性化,因此被认为不足以进行适应性学习。
研究目的 or 解决方案
为了缓解这一问题,本文提出了分层注意力知识跟踪( Leveled Attentive Knowledge Tracing, LANA),它首先使用了一种新颖的学生相关特征提取器(Student-Related Features Extractor, SRFE)来从学生各自的交互序列中提取学生独特的固有属性。其次,利用枢轴模块(pivot module),根据提取的特征动态重构神经网络的解码器,成功地区分了不同学生随时间的表现。此外,受项目反应理论(IRT)的启发,可解释的 Rasch 模型被用来根据学生的能力水平对学生进行分类,从而利用分层学习将不同的编码器分配给不同的学生群体。通过 Pivot 模块重构了针对单个学生的解码器和分级学习定制化了针对群体的编码器,实现了个性化的 DKT。在两个真实的大规模数据集上进行的大量实验表明,我们提出的 LANA 将 AUC 值提高了至少 1.00 个百分点(即 EDNET ↑ 1.46%和 RAIEd2020 ↑ 1.00%),大大超过了其他最先进的 KT 方法。
更具体地说,可转换性是使用枢轴 Pivot 模块和分层学习来完成的,其中,前者是一个极其依赖 SRFE 的模型组件(Pivot 模块重构了针对单个学生的解码器),而后者是专门针对具有可解释的 Rasch 模型定义能力水平的群体的编码器的训练机制(分级学习定制了针对群体的编码器)。从形式上讲,LANA 可以由以下几个方面代表:
其中指的是学生
在时间 t 的知识状态,
指的是学生
在时间 t 之前的练习互动序列,最后
(解码器)、
(编码器)和
(SRFE)是 LANA 模型要学习的三个主要模块。
本文贡献 or 创新点
- LANA 是第一个提出了通过一种新颖的 Student-Related Features Extractor (SRFE)从学生各自的交互序列中来提取学生相关特征,极大地降低了实现个性化 KT 的难度。
- LANA 通过提取出独特的学生特征,利用新颖的 Pivot 模块和分层学习,使整个模型可以针对不同阶段的不同学生进行变换,对 DKT 领域具有较强的适应性。
- 在两个真实世界的大型 KT 数据集上进行了广泛的实验,并与其他最先进的 KT 方法进行了比较。结果表明,LANA 的性能明显优于其他 KT 方法。消融研究也被用于研究 LANA 中不同关键成分的影响。源代码和实验的超参数是开源的,以保证可重复性。
- 中间特征的可视化显示了 LANA 的额外影响,如学习阶段迁移和学习路径推荐。
提出模型
Overview
LANA 方法由一个 LANA 模型和一个训练机制组成。编码器的目的是从模型的输入嵌入中检索任何有用的信息,然后 SRFE 进一步提取这些信息以获得与学生相关的特征(假设 1)。最后,解码器利用从 SRFE 和编码器收集到的信息进行预测。LANA 模型和 SAINT+一样,是基于 Transformer 的 KT 模型。但与 SAINT+不同的是,LANA 模型主要有 3 点改进:一、LANA 模型考虑了 KT 的特性,因此对基本的变压器模型进行了修改,如直接将位置嵌入馈入到注意模块。二、LANA 模型利用一种新颖的 SRFE 从输入序列中提取必要的与学生相关的特征。三、LANA 模型利用 Pivot 模块,提取与学生相关的特征,针对不同的学生动态构造不同的解码器。利用重构的解码器、检索到的知识状态和其他上下文信息,对未来的练习进行相应的个性化反应预测。
尽管 Pivot 模块可以帮助 LANA 模型根据学生的固有属性对解码器进行变换、重构,但另一方面,编码器在训练后对所有学生而言是固定的。考虑到在 DKT 领域中,为了降低计算要求,输入序列只是学生整个交互序列的一部分,从输入序列中提取特征的难度增加,因此 LANA 模型区分不同阶段学生的能力需要大大增强。为此,本文提出了一种分层学习机制来解决这一问题,即针对不同的学生群体专门设置不同的编码器和 SRFEs,并采用可解释的 Rasch 模型定义学生的能力水平。分层学习的工作流程如图 3 所示。
Base Modifications
在 LANA 模型中主要对 Transformer 进行了两处基本修改。首先,在 LANA 模型中,位置信息(如位置编码、位置嵌入等)直接输入到带有私有线性投影的注意力模块中,而不是添加到输入嵌入中与输入层的其他特征共享同一个线性投影矩阵;虽然[31]中的实验表明,将输入嵌入与位置信息混合是有效的,但最近[27]中的一些研究争论说,当模型变得更深入时,它倾向于“忘记”输入到第一层的位置信息。另外[13]的研究认为,在输入嵌入中加入位置信息并将其提供给注意力模块,本质上是让它们共享同一个线性投影矩阵,这是不合理的,因为输入嵌入和位置信息的影响是明显不同的。由于完全相同的原因,在 LANA 模型中,多个输入嵌入(即问题 ID 嵌入、学生 ID 嵌入等)采用拼接而不是 Add 相加,导致了第二处基本修改。具体来说,假设总共有 m 个输入嵌入,每个都有一个维度。然后拼接后,输入嵌入的总维数为
。因此,使用
线性投影层将拼接后维度为
的输入嵌入映射到维度
上。
Student-Related Features Extractor (SRFE)
学生相关特征提取器(SRFE)从交互序列中总结了学生的固有属性,针对 Pivot 模块的假设 1 用来个性化解码器的参数。具体来说,SRFE 包含一个注意层和几个线性层,其中注意层被用来从编码器提供的信息中提取与学生相关的特征,线性层被用来细化和重塑这些特征。值得注意的是,在 LANA 模型中,主要有两个 SRFEs:memory-SRFE 和 performance-SRFE,前者用于推导用于 PMA 模块的学生记忆相关特征(稍后介绍),后者致力于提取用于 PC-FFN 模块的学生的表现特征(即逻辑思维能力、推理能力、整合能力等)(稍后介绍)。为了更好地说明这一重塑过程,我们绘制了图 4,其中和
分别表示模型的批处理大小、注意头的数量[31]、输入序列的长度和成绩相关特征的维度。与记忆相关的特征有第二个维度
的直觉来自于每个注意力头只关注特征的一个角度的理论。因此,每个学生对于不同的注意力头有不同的记忆技能(例如不同的概念)是合理的。
Pivot Module
给定输入 x、学生相关特征 p 并预测目标输出 y,Pivot 模块将学习如何基于 p 将 x 投影到 y,而不是简单地学习将 x 投影到 y,如公式 5 所示。
其中 f(·)是 Pivot 模块学会学习的函数(解码器)。也就是说,x 的投影矩阵是适应于 p 的,而不是固定的。为了实现该动态映射,x 的权重和偏置需要是来自 p 的投影。假设和
,公式 5 可以在公式 6 中正式表示:
其中和
.。因为
和
是从 p 推导出的,所以可以在公式 7 中显示详细的转换,图 5 中也描述了该公式,以便更好地说明。
通过简化,公式可以定义为公式 8,被命名为。
其中和
。
在 LANA 模型中,主要有两个模块与 Pivot 模块相关:Pivot Memory Attention (PMA)模块和 Pivot Classification Feed Forward Network (PC-FFN) 模块。在许多方法[7,20]中,Vanilla Memory Attention (VMA)模块被用来考虑学生的“遗忘”行为,这在 KT 的语境中是至关重要的,因为学生很可能做过与他要做的练习相似的练习,如果学生能记住之前类似练习的答案,他正确回答未来相关练习的可能性将大大增加。受艾宾浩斯遗忘曲线[17]和前人工作[20,7]的启发,学生的“遗忘”行为被定义为在时间线上对应交互的权重呈指数衰减。具体而言,在最初注意力模块中,项目 j 在项目 k 上的权重,即,由项目 j 与项目 k 的相似度的 Sigmoid 结果确定:
其中是通过点积来计算项目 i 和项目 j 之间相似度的函数。为了将“遗忘”行为考虑到
中(例如,离 j 越远,权重
将越低),我们将公式 9 替换为公式 10:
其中 m 是在 Memory-sRFE 中提取的学生的记忆相关特征,θ 是描述所有学生在 PMA 模块中的平均记忆技能的私有可学习常量,计算项目 j 和项目 k 之间的时间距离(例如,项目 j 在项目 k 完成后 dis(j,k)分钟完成)。用两个可学习参数表示记忆技能的原因是为了降低模型收敛的难度,因为与 θ 相比,m 具有更长的反向传播路径。当引入 θ 来拟合所有学生的平均记忆技能时,m 的分布变为高斯分布,这使得模型更容易学习。
另一方面,PC-FFN 用于根据与成绩相关的特征来进行最终预测,其体系结构如图 6 所示。该模块的想法来自于大量研究,即深度神经网络的早期层通常用作特征提取器,而后几层通常用作决策制定器,以确定哪些特征对模型的输出有用。因此,这些研究指出,许多模型实际上具有相似的早期层,正是后者使这些模型在使用上与众不同。因此,该模型中的 PC-FFN 被用作个性化的决策器,根据学生独特的内在属性自适应地做出最终预测:
其中 p 是在 Performance-SRFE 中提取的与学生成绩相关的特征。
Leveled Learning
虽然 Pivot 模块使解码器可以针对不同的学生进行转换,但是为 Pivot 模块提供必要信息的 LANA 模型的编码器和 SRFE 对于所有学生来说都是相同的。如果输入序列的长度足够大,这不是问题,因为假设 1 确保长序列总是可区分的,除非它们都属于同一时间段的同一学生。然而,DKT,尤其是基于变压器的 DKT,由于内存大小有限且计算复杂度高,一次只能输入最新的 n 次(通常 n=100)次交互。因此,编码器和 SRFE 可能会为两个不同的学生输出类似的结果,从而导致解码器无法适应。为了缓解这个问题,自然会想到给不同的学生分配不同的编码器和 SRFE,这些编码器和 SRFE 对所分配的学生的模式高度专门化、定制化(敏感)。然而,在实践中,考虑到有限的训练时间和有限的训练数据,为每个学生训练一个唯一的编码器是不可行的。因此,一种新的分层学习方法被提出来解决这个问题,该方法最初的灵感来自于迁移学习中的微调机制[28],在该机制中,我们将每个学生视为一个独特的任务,我们希望将一个适合所有学生的模型有效地转移到一个学生身上。
分层学习的观点是,模型的早期层对于类似的任务是相似的。因此,为了节省训练时间和扩大训练集,我们考虑将能力水平相似的学生分组在一起,共享他们的私人训练数据,拥有相同的编码器和 SRFE,而不是用每个学生的私人训练数据来训练每个学生一个独有的编码器和 SRFE。因此,LANA 首先利用可解释的 Rasch 模型分析每个学生的能力水平
,然后将学生分组到不同的独立层
。假设所有学生的能力分布和
能力水平学生的能力分布分别为高斯分布
和
,则有公式 12:
在 LANA 中,为简便起见,我们考虑所有层的方差相同,连续层之间的平均
差为常数
。因此,
和
由:
其中为层数。将每一层
的
和
都提取出来,给定一个学生的能力常数
,我们现在可以通过公式 14 计算
被分组到不同层的概率:
其中是指学生
被分组到
层的概率。由式 14 可以看出,能力水平高的学生并不一定被分为能力期望水平高的层次。相反,这些能力高的学生只是比能力低的学生更有可能被归为能力高的层次,这符合现实的规律(例如,能力高的学生也可能来自师范学校)。
然后,将在所有学生数据上预先训练好的 LANA 模型复制 L 次,将每个克隆的模型分配给一个层
,通过加权反向传播,利用
的私有训练数据专门、定制化地进行微调:
其中为模型
的预测。
虽然分层学习的训练阶段似乎很有希望,但它的推断阶段却存在问题。第一个问题是如何使用多个专门化模型进行预测。在 LANA 中,采用 top - k 模型融合的方法进行预测。具体来说,当需要预测学生 si 的未来反应时,LANA 首先计算 pi,然后将 si 的交互序列输入所有满足的模型 mi,其中 k 需要手动设置来控制预测时间。然后,这些模型的输出将乘以
,形成最终的预测。分层学习推理步骤的工作流程如公式 16 所示:
其中 ri 为分层学习的最终预测,x 为模型的输入。这个工作流似乎类似于将多个模型合并以生成最终答案的集成。尽管如此,LANA 中模型的权重是来自可解释的 Rasch 模型的概率,因此很清楚哪个模型对 x 是主导的。此外,不像在集成中每个模型的作用是模棱两可的,在 LANA 中,每个模型都有其可解释的效果(例如,致力于高能力学生,因此
大的学生表明他一定与
中的高能力学生相似),这表明分层学习在可解释性方面明显优于集成。具体比较见表 1。
另一方面,分层学习的第二个问题是如何计算 LANA 在训练中从未遇到的学生的值,即“冷启动”问题[34]。在 vanilla KT 环境中,我们只能将新来的学生的能力水平提升到所有学生的平均能力水平。然而,在实践中,我们可以通过让他们做几个样本练习或使用学校排名来更准确地估计他们的能力水平。
实验结果
Datasets
Baselines
Experimental Results
总结
个人理解:
- Workflow:LANA 方法由一个 LANA 模型(Transformer+SRFE+Pivot(PMA+PC-FFN))和一个训练机制(分层学习,定制化了针对群体的编码器从而实现了微调在整个数据集上预训练好的 LANA 模型)组成。编码器的目的是从模型的输入嵌入中检索任何有用的信息,然后 SRFE 进一步提取这些信息以获得与学生相关的特征(memory-SRFE 和 performance-SRFE)(假设 1)。最后,通过 Pivot 模块重构了针对单个学生的解码器(使用了从分层学习后的 SRFE 和编码器中收集到的信息)以及检索到的知识状态和其他上下文信息,对未来的练习进行相应的个性化反应预测,实现了个性化的 DKT。
- Base Modifications of Transformer:LANA 模型是一个基于 Transformer 的 DKT 模型,在 Transformer 架构中做了两处修改:1、位置信息(如位置编码、位置嵌入等)直接输入到带有私有线性投影的注意力模块中,而不是添加到输入嵌入中与输入层的其他特征共享同一个线性投影矩阵;2、在 LANA 模型中,多个输入嵌入(即问题 ID 嵌入、学生 ID 嵌入等)采用拼接而不是 Add 相加。
- SRFE:提出了一种新颖的学生相关特征提取器(Student-Related Features Extractor, SRFE),由 memory-SRFE 和 performance-SRFE 两组件组成,来从学生各自的交互序列中提取学生独特的固有属性。memory-SRFE 用于推导用于 PMA 模块的学生记忆相关特征,performance-SRFE 致力于提取用于 PC-FFN 模块的学生的表现特征(即逻辑思维能力、推理能力、整合能力等。
- Pivot Module:利用枢轴模块(Pivot Module,PMA+PC-FFN),根据提取的特征动态重构神经网络的解码器(针对个体学生的个性化解码器),成功地区分了不同学生随时间的表现。
- Leveled Learning(训练机制):尽管 Pivot 模块可以帮助 LANA 模型根据学生的固有属性对解码器进行变换、重构,但另一方面,1、编码器在训练后对所有学生而言是固定的。2、而为了降低计算要求,输入序列只是学生整个交互序列的一部分,从输入序列中提取特征的难度增加,因此 LANA 模型区分不同阶段学生的能力需要大大增强。为此,本文提出了一种分层学习机制来解决这一问题,即针对不同的学生群体专门设置不同的编码器和 SRFEs。此外,受项目反应理论(IRT)的启发,可解释的 Rasch 模型被用来根据学生的能力水平对学生进行分类,从而利用分层学习将不同的编码器分配给不同的学生群体。
本文提出了一种新的分层注意力知识追踪(LANA)方法,致力于将适应性带回 DKT。具体地说,受 BKT 和 IRT 的启发,LANA 旨在通过为不同阶段的不同学生提供不同的模型参数来实现适应性。然而,为每个学生单独训练大量独特的模型显然不是一个实用的解决方案,因此,LANA 不是直接学习不同学生的模型参数,而是通过一种新颖的 SRFE 从他们各自的交互序列中提取学生的固有属性,并学习到使用这些提取的学生相关特征重新参数化模型的函数。因此,提出了一种创新的 Pivot 模块来产生自适应解码器。此外,为了减少输入序列的模糊性,捕捉学生个体的长期特征,引入了一种新的分层学习训练机制,通过可解释的 Rasch 模型定义能力水平对学生进行聚类,不仅使编码器专门化,从而增强了学生潜在特征的重要性,而且节省了大量的训练时间。在教育领域最大的两个公共基准数据集上进行的广泛实验有力地评估了提议的 LANA 的可行性和有效性。特征可视化还暗示了 LANA 的额外影响,无论是学习阶段转移还是学习路径推荐。
然而,LANA 也有一些缺点:首先,分层学习中的方差配置需要大量的人力,这需要有一个自动的工作流程来设置这些参数。其次,虽然图 7 特征可视化说明了提议的 SRFE 模块的有效性,但还需要想出一种更系统的方法来量化学生的特征。因此,解决这些问题将是我们下一步的工作。
1.3 Dynamic Key-Value Memory Networks With Rich Features for Knowledge Tracing
三、遗忘因素
2.1 Augmenting Knowledge Tracing by Considering Forgetting
2.2 AKT:Context-Aware Attentive Knowledge Tracing
2.3 RKT:Relation-Aware Self-Attention for Knowledge Tracing
2.4 Learning or Forgetting? A Dynamic Approach for Trackingthe Knowledge Proficiency of Students
2.5 KPT:Tracking Knowledge Proficiency of Students with Educational Priors
研究背景 or 问题
诊断学生的知识水平,即练习中某一特定知识点的掌握程度,对于许多教育应用,如有针对性的知识培训和练习推荐,都是一个至关重要的问题。教育理论一致认为,学生一次次地学习知识,但又会随时间忘记知识。因此,有必要跟踪他们随着时间的推移对知识的掌握情况。然而,传统的诊断方法要么忽视了诊断结果对知识点的解释力,要么依赖于静态假设。
这类系统中的一个关键问题是学生的知识熟练程度诊断(KPD),即发现学生在每个知识点上的潜在掌握程度[32]。图 1 显示了此 KPD 任务的示例。从图中可以看出,2016 年 3 月至 5 月,有两名学生(u1 和 u2)在做不同的数学练习。每个练习包含不同的知识点,可以用教育专家提供的 Q 矩阵来表示[8]。具体地说,Q 矩阵中的数字 1 表示对应的练习包含知识点,否则表示 0。如图所示,练习 e1 包含知识点函数,练习 e9 涉及知识点函数和不等式。教育领域的 KPD 任务问:给定学生的历史练习记录和提供的 Q 矩阵,如何诊断学生对知识点(即图 1 中的函数和不等式)的掌握程度?事实上,由于这些诊断结果对许多应用是有益的,例如有针对性的知识培训[12]和个性化的练习推荐[26],因此已经为这项 KPD 任务付出了很多努力。一方面,教育心理学领域的认知诊断模型通常用潜在的特质值[11]或二元技能掌握向量[8]来表征学生的知识水平。另一方面,通过将 KPD 任务视为数据挖掘问题(即,学生成绩预测),矩阵分解技术将每个学生投影到描述学生的隐性知识状态的潜在空间[16]。综上所述,这两个研究方向通常模拟用户的历史记录,没有任何时间信息,因此它们善于从静态的角度预测学生的水平。
研究目的 or 解决方案
为此,本文提出了一种解释性概率知识熟练度追踪(KPT)模型,通过利用教育先验来跟踪学生随着时间的推移的知识熟练程度。具体地说,我们首先通过利用教育先验(即 Q 矩阵)将每个练习与一个知识向量相关联,其中每个元素表示一个明确的知识点。相应地,每个学生在同一知识空间中的每个时刻都被表示为知识向量。其次,在给定学生随时间变化的知识向量的情况下,我们借用了两个经典的教育理论(即学习曲线和遗忘曲线)作为先验,以捕捉每个学生的熟练程度随时间的变化。然后,我们设计了一个结合学生先验和习题先验的概率矩阵因式分解框架来跟踪学生的知识水平。在三个真实数据集上的大量实验证明了我们提出的模型的有效性和解释力。
本文贡献 or 创新点
1、无论是因子分解模型的潜在向量,还是神经网络的隐含层,都不能对应于任何显式的知识点。相反,我们的模型通过利用教育先验(即 Q-矩阵、学习曲线和遗忘曲线)改进了传统的矩阵分解,保证了模型的解释力。据我们所知,这是首次将三种教育先验(Q-矩阵、学习曲线和遗忘曲线)纳入概率矩阵因式分解框架,以同时具有精确和解释能力来跟踪 KPD 任务。
2、目前广泛使用的 KPD 方法可以分为两个方面:一维模型(IRT)和多维模型(Deterministic Inputs, Noisy-And gate model, FuzzyCDM)。然而,据我们所知,对于 KPD 任务,这些方法都依赖于静态假设,而忽略了时间因素。在这项工作中,我们关注学生的动态学习过程,捕捉每个学生的知识水平随时间的变化。
3、基于大多数学生每个练习只做一次的学习情景,本文旨在利用基本理论(即 Q 矩阵、学习曲线和遗忘曲线)跟踪和解释学生在多个知识点上的知识熟练程度。
提出模型
如图 2 所示,我们的解决方案是一个两阶段框架,包括建模阶段和预测阶段:1)在建模阶段,给定学生的练习响应日志(表 1)和专家标注的 Q 矩阵,首先利用教育专家提供的 Q 矩阵将每个学生的潜在向量投影到知识空间。然后,我们提出 KPT 通过整合学习曲线和遗忘曲线理论来解决学生随时间的 KPD 问题。之后,我们可以得到学生在不同时间的知识熟练度 U 和每个练习的知识向量 V。2)在预测阶段,KPT 预测学生未来的反应和知识水平。
Probabilistic Modeling with Priors
对于每个学生和每个练习,KPT 将响应张量 R 建模为:
其中是均值为 µ,方差为 σ2 的高斯分布。I 是指示张量,如果学生 i 在时间窗口 t 内做练习 j,则等于 1,反之为 0。是学生 i 在时间窗 t 内的知识水平,表示习题与知识点之间的关系。是练习 j 的难度偏差,在 KPT 任务建模中被广泛采用[11]。
给出这个似然函数,在下面,我们将详细说明如何在建模过程中结合教育先验。我们首先解释如何将 Q 矩阵的知识嵌入到 V 模型中。具体地说,我们在将每个练习与一个知识向量相关联之前加入 Q 矩阵,其中每个元素代表一个明确的知识点。然后结合两种教育理论(遗忘和学习)建立 U 模型,作为先验来跟踪学生的动态学习过程。
**Modeling V with the Q-matrix prior.**传统的概率矩阵分解模型存在解释问题,因为学习到的潜在维数是无法解释的。相比之下,教育界利用基于 Q-矩阵的先验知识来构建解释模型已经做了很多努力。然而,这种传统的 Q-矩阵有两个缺点:1)人工标注不可避免的误差或主观偏差[18];2)二进制项的稀疏性,不能很好地适应概率建模。为了缓解这些存在的问题,我们改进并利用基于 Q 矩阵的偏序[23]来减少专家的主观影响,并将每个练习与知识点集合相关联。至于练习 j,偏序可以定义为:
具体地说,对于练习 j,如果知识点 q 被标记为 1,则我们假设 q 与练习 j 比具有标记 0 的所有其他知识点更相关。请注意,我们不能推断具有相同分数的知识点的可比性。然后,我们可以将原始 Q 矩阵变换成一组具有可比性的:
因此,DT 不像 Q-矩阵那样稀疏,能够更准确地捕捉到基于练习 j 的两个知识点(q,p)之间的成对关系,并且具有良好的解释力。我们通过合并这个先验偏序来学习潜在训练矩阵。找到所有知识点对(q,p)的正确偏序的贝叶斯公式变为最大化以下后验概率:
所有的练习都被认为是由教育专家独立批改的。我们还假设针对特定练习的每对知识点(q,p)的排序与其他每对知识点(q,p)的排序无关。因此,似然函数可以如下给出:
为了得到 V 上正确的偏序关系,我们将习题 j 与知识点 q 比知识点 p 更相关的概率定义为:
此外,在传统的贝叶斯处理之后,我们还假设 V 服从零均值高斯先验。结合公式。(4)、(5)和(6),我们可以将对应于 V 的 上的对数后验分布表示为:
**Modeling U with two dynamic learning theories. **现在我们具体说明学生的潜在张量 U 的建模。如前所述,在学生的动态学习过程中,教育心理学中有两个广为接受的理论可以在建模过程中指导我们:1)学习曲线。[2]描述了我们所学的知识可以通过几个练习来增强。2)艾宾豪斯遗忘曲线[28]假设我们学到的知识会随着时间的推移逐渐被遗忘。
结合这两种理论,我们假设学生目前的知识水平主要受两个潜在原因的影响:1)练习越多,相关知识水平越高。2)时间过得越久,她忘记的知识就越多。形式上,我们将每个学生在时间窗口 t=2,3,…,T 的知识熟练程度的两个影响建模为:
其中,,即学生 i 在时间窗口 t 中的知识熟练程度,服从具有均值 Ut i 和方差 σ2 UI 的高斯分布。是学生 i 在 t 时刻在知识点 k 上的知识熟练程度,lt()是学习因子,表示经过多次练习后在 t 时刻学到的知识,ft()是遗忘因子,表示在 t 时刻剩余的知识,α 平衡了这两个因子,以反映学生的学习特点。直觉上,如果学生 i 有一个大的 αi,她可能会很勤奋。因此,lt()而不是 ft()对她未来的知识熟练程度影响更大,反之亦然。下面,我们正式定义 lt()和 ft()。
通过练习捕捉知识的增长:
其中表示在时间窗口 t 中检测的知识点 k 的频率,r 和 D 是两个超参数,它们分别控制增长的幅度和倍数。
描述了知识随着时间的推移而下降的情况:
其中 ∆t 是时间窗 t−1 和时间窗 t 之间的时间间隔,S 是表示记忆强度的超参数。
在初始时间 t=1,我们不知道每个学生的初始水平。因此,我们假设当时学生的知识水平服从零均值高斯分布。然后,我们将用户潜在张量上的先验总结为:
Model Learning and Prediction
我们总结了图 3 中提出的潜在模型的图形表示,其中阴影变量和未阴影变量表示观察变量和潜在变量。给定学生的响应张量 R 和基于 Q 矩阵的偏序,我们的目标是学习参数。具体地说,结合方程。(1)、(4)和(11),Φ 上的后验分布为:
最大化上述方程的后验对数相当于最小化以下目标:
其中和。其中,是响应预测损失和偏序损失之间的折衷系数,λU 是衡量学生知识水平随时间变化的系数。λU1 和 λV 是学生在时间 1 的知识熟练程度和练习-知识相关矩阵的正则化参数。
具体地说,每个参数的导数为:
这里,是一个指示器函数,如果 x 为真,则该函数等于 1。
我们可以使用随机梯度下降(SGD)方法直接更新 U、V 和 b[4]。在 αi 的边界约束下,可以通过投影梯度(PG)方法找到局部最小值[17]。具体地说,对于每个 αi∈[0,1],PG 方法按照以下规则将第 k 次迭代中的当前解更新为:
根据学生的知识熟练程度 U1,U2,…,UT 和相关参数,可以预测学生在时间 T+1 的反应和知识熟练程度为:
在获得时刻的)和后,我们可以为学生 i 推荐高概率错误反应或遗忘的相关练习。综上所述,我们给出了算法 1 中的 KPT 的训练算法。
**Time Complexity. **KPT 的大部分时间都花在计算每个学生的知识熟练程度和平衡参数上。假设响应张量 R 中有 r 个非空条目,则每个学生在每个时间窗内的平均响应记录为。在每次迭代中,U 的时间复杂度为,V 的时间复杂度为,平衡参数的时间复杂度为。因此,每次迭代参数学习的总复杂度为,它与记录和时间窗呈线性关系。
实验结果
Experimental Setup
我们首先介绍了 lt()和 ft()的参数设置,即学习曲线和 Ebbinghaus 遗忘曲线。具体地说,对于 lt(),我们设置 D=2 来控制增长乘数和所有知识点在 Math1、Math2、Assist 中的平均频率 r 分别为 4、9、6;对于 ft(),我们将 ∆t 设置为 1,对于时间窗口 t−1 和 t 之间的所有时间间隔,将记忆强度 S 设置为 5 以拟合遗忘曲线。然后,对于 KPT 模型中的几个正则化参数,我们设定了 λU1=λV=0.0 1。在 Math1、Math2 和 Assist 中,λU 分别设置为 3、1 和 2,在 Math1、Math2 和 Assist 中,λP 分别设置为 1.5、1 和 2(我们将在下一小节讨论参数的敏感度)。
Experimental Results
**Students’ Responses Prediction.**图 5 显示了所有模型在学生成绩预测任务中的总体结果。有几个观察结果:首先,我们提出的模型 KPT 在所有三个数据集上执行得最好。第二,QMIRT 和 QPMF 优于传统的 IRT 和 PMF,表明了引入偏序 Q 矩阵先验的有效性。第三,KPT 和 LFA 作为动态模型比静态假设(IRT,DINA,PMF)的表现更好,这表明从演化的角度来诊断学生的知识水平更有效。然而,BKT 在这项任务上表现不佳。我们猜测一个可能的原因是 BKT 关注的是学生们一直在做同样的练习的情景。但在我们的数据中,大多数学生只做了一次特定的练习,因此学生的练习序列长度不足以满足 BKT 的要求。综上所述,这些证据证明了三个先验(即 Q-矩阵、学习曲线和遗忘曲线)的合理性。
**Knowledge Proficiency Diagnosis.**直观地说,如果学生 A 在时间 T+1 的特定知识点上比学生 B 掌握得更好(由公式 19 计算),在 T+1 时刻,她获得相关练习正确答案的概率比学生 b 高。我们采用契合度(DOA)[13,19]度量来评估这一排名表现。具体地,对于特定的知识 k,关于 k 的 DOA 结果被定义为:
**Sensitivity of Parameters. **在我们的知识传授模型中,有四个参数起着至关重要的作用:λU1、λV、λu 和 λP。其中,λU1 和 λV1 分别是学生在时间 T=1 时的知识熟练程度向量的正则化参数和与练习相关的知识向量的正则化参数。由于 λU1 和 λV 具有与 PMF 模型相似的形式,因此我们将它们调到 PMF 上,并将它们设置在 PMF 上的最佳性能设置下。在下文中,我们报告了上述两个任务的设置参数 λu 和 λp 以及评估指标 Rmse 和 DOA-Avg。
总结
在本文中,我们设计了一个解释概率 KPT 模型,用于解决学生在一段时间内的 KPD 任务,并利用教育先验。具体地说,我们将每个练习与一个具有 Q 矩阵先验的知识向量相关联。在同一知识空间中,每个学生在每个时刻也被表示为一个知识向量。然后,我们嵌入经典的教育理论(即学习曲线和遗忘曲线)作为先验,以捕捉每个学生的熟练程度随时间的变化。在此基础上,将学生先验知识和习题先验知识相结合,设计了一个概率矩阵因式分解框架。在三个真实数据集上的广泛实验清楚地证明了我们提出的模型的有效性和解释力。
并对今后的研究方向进行了展望。首先,我们将考虑为 KPD 任务组合更多类型的用户行为(例如,阅读记录)。第二,由于学生可能会在一些基本知识点(例如集合)之后学习困难的知识点(例如函数),因此在 KPD 任务中考虑这种知识关系是很有趣的。
四、试题困难度
Rasch 模型(1PL IRT)
- 本文作者: YuT
- 本文链接: https://ytno1.github.io/archives/1a8b97ec.html
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!