机器学习工具可以在一秒钟内预测声音中的情绪

2024-03-25 09:32:52深情的哈密瓜

言语对于表达自己很重要。然而,我们不说的话可能更有助于传达情感。人类通常可以通过声音中的非语言暗示来判断周围人的感受。

机器学习工具可以在一秒钟内预测声音中的情绪

现在,德国的研究人员想了解技术工具是否也能准确预测录音片段中的情绪底蕴。为此,他们比较了三种机器学习模型识别音频中不同情绪的准确性。他们的研究结果发表在《心理学前沿》上。

“在这里,我们展示了机器学习可以用来识别短至1.5秒的音频片段中的情绪,”该文章的第一作者、马克斯·普朗克人类发展研究所寿命心理学中心的研究员HannesDiemerling说。“在对演员说出的带有情感色彩的无意义句子进行分类时,我们的模型达到了与人类相似的准确性。”

聆听我们的感受

研究人员从两个数据集中(一个加拿大数据集,一个德国数据集)提取了无意义的句子,这使他们能够调查ML模型是否能够准确识别情感,而不受语言、文化差异和语义内容的影响。每个片段的长度被缩短为1.5秒,因为这是人类识别言语中的情感所需的时间。这也是可以避免情感重叠的尽可能短的音频长度。研究中包含的情绪包括快乐、愤怒、悲伤、恐惧、厌恶和中性。

根据训练数据,研究人员生成了ML模型,该模型可以通过以下三种方式之一工作:深度神经网络(DNN)就像复杂的滤波器,可以分析频率或音调等声音成分(例如,当说话者生气时声音更大时)识别潜在的情绪。卷积神经网络(CNN)扫描音轨视觉表示中的模式,就像根据声音的节奏和纹理识别情绪一样。混合模型(C-DNN)融合了这两种技术,使用音频及其视觉频谱图来预测情绪。然后在两个数据集上测试模型的有效性。

“我们发现DNN和C-DNN比仅在CNN中使用频谱图具有更好的准确性,”Diemerling说。“无论哪种模型,情绪分类正确的概率都高于通过猜测实现的概率,并且与人类的准确性相当。”

和任何人一样好

“我们希望在现实环境中设置我们的模型,并使用人类预测技能作为基准,”迪默林解释道。“如果模型的表现优于人类,则可能意味着可能存在我们无法识别的模式。”研究人员表示,未经训练的人类和模型表现相似的事实可能意味着两者都依赖于相似的识别模式。

目前的研究结果还表明,开发能够立即解释情绪线索的系统是可能的,以便在各种情况下提供即时和直观的反馈。这可能会在理解情感背景至关重要的各个领域(例如治疗和人际沟通技术)带来可扩展、经济高效的应用。

研究人员还指出了他们研究中的一些局限性,例如,演员所说的例句可能无法传达全部真实、自发的情感。他们还表示,未来的工作应该研究持续时间长于或短于1.5秒的音频片段,以找出最适合情绪识别的持续时间。

推荐阅读

阅读排行