基于语音信号的抑郁症识别研究

抑郁症是一种常见的心理疾病,它会使人长期处于情绪低落、精力下降的状态,部分患者存在自伤、幻觉等精神病性症状,严重情况下会导致患者自杀。它不仅影响个体的生活质量和幸福感,还会对家庭、工作和社会产生消极影响。传统的诊断方法主要依赖于临床医生对患者进行面谈或使用自查问卷,但这种方法存在着一定的局限性,如主观性较强、缺乏客观的诊断指标,导致诊断不准确。因此,寻找客观的辅助诊断方法是抑郁症诊断研究的重要内容。语音信号作为人类表达信息的重要形式,包含了丰富的生理和心理信息。临床研究发现,抑郁症患者的语速与常人相比更慢、语调低沉,说话时犹豫不决、停顿较多。近年来随着语音识别技术的发展,研究人员可以收集语音信号并对上述语音特征进行提取,同时人工智能技术的发展,可以对语音的上下文信息进行分析和理解。这使得本文将语音识别技术用于识别诊断抑郁症成为可能。本论文基于语音信号进行抑郁症识别,主要工作如下:(1)采集抑郁症患者语料。本文所涉及的实验共纳入了157名中国受试者(76名病例组和81名对照组),设计了使受试者情绪发生迅速变化的词汇朗读实验。词语由正性、中性和负性三部分组成,每名受试者采集一段语音。由此构建用于识别研究抑郁症的语音数据库。(2)对语音低维特征进行相关性分析。为了研究抑郁症患者和正常群体在朗读不同词性的词语过程中语音特征变化的差异,本文从采集的语音中提取词汇朗读实验语音的384个低维特此网站征,通过低维特征对受试者的汉密尔顿抑郁量表(HAMD)分数进行Pearson和Spearman相关性分析,结果发现抑郁症严重程度的不同主要体现在梅尔频率倒谱系数、声音强度和过零率这三个特征值的变化上。(3)基于语音特征的抑郁症识别模型。首先对数据进行预处理,包括语音的补齐,数据的标准化。其次构建基于注意力全局感知门控的架构进行抑郁症语音识别,先利用卷积神经网络Ethnoveterinary medicine提取信号的深度谱特征,然后通过多个并行的g MLP门控模块(本文称为Multi-mlp)将局部语音特征进行连接融合,每个门控模块中包含一个全局连接单元(Global Connection Unit,GCU),通过此单元中的点乘BMS-907351体外运算增强跨通道维度的特征融合,增强局部语音特征之间的感知通信,最后通过注意力层,以此获取全局中重要的情绪信息。相比于传统的抑郁症语音识别方法,本文提出的模型获得了最高的准确率和F1分数,验证了模型的有效性。