语言能够预测小学生的羞怯特质

长沙7喜 2021-05-04

展开全文

　Keywords　

羞怯 (shyness)

在线写作 (online writing)

心理词典 (psychological dictionary)

文本挖掘 (text mining)

语言风格模型 (language style model)

羞怯是一种典型的人格特质，会表现在行为、认知、情绪等多个维度。小学阶段是羞怯特质形成的关键时期，持续且较高水平的羞怯对学生的社会交往、人格发展、身心健康等方面均具有消极影响。因此，对早期羞怯的测量尤为重要。

羞怯的主流测量方法是自陈量表、生理指标法和行为观察法，但这些方法均存在不同方面的问题：自陈量表能全面捕捉羞怯在各个维度上的表现，但难以实现对羞怯特质的重复测量和持续监测；而生理指标法和行为观察法均无法全面测量羞怯的各个维度。

人格与语言有密切的关系，对自然语言的分析能够揭示，该语言背景下个体的语言特征与心理特质之间的关系，进而通过语言模式预测心理特质。小学生的作文及日记是学生在自然状态下的自我表达，文本的内容包含着其日常学习、生活的真实经历，羞怯相关事件及体验也能够被充分记录在内。因此，本研究将基于小学生的在线作文、日记和评论，拟采用自然语言处理以及机器学习技术，对羞怯三个维度的语言风格和词汇使用特点分别进行特征提取和模型构建，并据此建立羞怯特质的自动预测模型，为实时监测学生的羞怯状况并进行干预提供可能。

研究过程及材料

本研究采用文本分析方法来训练小学生(共1306名)羞怯的分类模型。具体过程如下：

（1）首先，由小学生作答羞怯量表，该量表包括羞怯行为、羞怯认知、羞怯情绪三个维度。基于量表分数将被试分为“羞怯群体”和“普通群体”，这个过程通常被叫做“标签”，即对被试群体进行分类。

（2）其次，收集被试的在线写作文本，采用基于心理词典提取文本特征的方法，将每名学生的全部文本表征为一系列词频特征。然后，采用卡方算法来筛选重要特征。

（3）再次，采用机器学习算法，基于筛选后的特征构建小学生羞怯的预测模型。

（4）最后，综合比较各模型(该研究共构建了6个模型)的预测结果，选择最优模型进行交叉验证。模型评估指标为：准确率、召回率及F1值。

①准确率表示被模型分到某类别的个体中，实际属于该类的比例。例如，模型在羞怯群体上的准确率表示被分类为羞怯的学生中，实际也为羞怯(标签1)的比例，公式为TP/(TP+FP)；模型在普通群体上的准确率表示被分类为普通的学生中，实际也为普通(标签为0)的比例，公式为TN/(FN+TN); 两个准确率的均值代表总准确率。

②召回率表示实际属于某类别的个体中，被模型正确分到该类的比例。例如，模型在羞怯群体上的召回率表示实际为羞怯的学生中，被正确分类为羞怯的比例，这一指标也被称为“敏感度”，体现出该工具将“阳性”个体检测出来的有效性，公式为TP/(TP+FN); 模型在普通群体上的召回率表示实际为普通的学生中，被正确分类为普通的比例，这一指标也被称为“特异度”，体现出工具将“非阳性”个体拒绝掉的有效性，公式为TN/(FP+TN); 两个召回率的均值代表总召回率。

③F1值为准确率与召回率的调和平均数，是模型的综合指标，羞怯群体的F1值为羞怯群体的准确率和召回率的调和平均数，普通群体的F1值为普通群体的准确率和召回率的调和平均数，总F1 值为总准确率和总召回率的调和平均数。

表1 模型分类结果及数据的实际分布

注：TP：True Positive(正确的阳性)，TN：True Negative(正确的阴性)，FP：False Positive(假阳性)，FN：False Negative(假阴性)

模型预测结果

基于筛选后的特征，分别对羞怯行为、羞怯认知、羞怯情绪建立预测模型(见表2)。比较不同模型的预测效果发现，对于普通群体的准确率，各模型间差异不大，均在0.8 左右；对于羞怯群体的准确率，随机森林和逻辑斯蒂克回归的表现相对较好(0.15~0.50); 对于普通群体的召回率(即特异度)，逻辑斯蒂克回归和K近邻的表现相对较好(大于0.9); 对于羞怯群体的召回率(即敏感度)，随机森林和支持向量机的表现较好(0.15~0.44，其中情绪维度较高，行为和认知维度较低); 对于总F1值，随机森林的结果表现最好(0.55~0.57)。

表2 模型预测结果