实习生讲座 | 朱廷劭:我们想用技术挽救站在自杀边缘的人

2019-12-09 | 作者:微软亚洲研究院

编者按:在网络上表达自杀意念的人,也许不是说说而已,超过半数的人真的付诸行动。通过科技手段,希望能将他们留住。11 月 19 日,中国科学院心理研究所研究员朱廷劭应邀以“基于人工智能技术的心理识别与干预”为主题,为微软亚洲研究院实习生带来了精彩讲座。通过心理与信息科学的交叉研究,朱老师及其团队实现了对用户心理特征的有效识别,他们也正在通过人工智能手段,为更多站在自杀边缘的人提供心理援助。本文是对他报告的回顾。

本报告为微软亚洲研究院“明日之星”实习生 ACE 系列讲座第三期。通过邀请各领域的顶尖讲者前来分享,我们期待能帮助实习生们打开视野,助力他们的学业与职业发展与规划。ACE 代表着“advance 卓越”、“create 创造力”和“empower 赋能”。

中国科学院“百人计划”学者、中科院心理研究所研究员朱廷劭

先给大家举个例子,这是两个人逛商场的行为轨迹,大家觉得哪个是女性?

显然是右边。

大家虽然没有看到照片,也没有看到这两个人的身份证号,但却能够根据行为指标判断出性别。从心理学的角度来讲,心理其实是行为的动因。人们的举动则是心理活动的外显行为。

现在很多人喜欢通过星座测试,甚至随机的选择来判断自己的心理状况。这其实是不科学的,我们几年前就开始思考,有没有可能通过技术手段,利用行为数据来分析个体的真实心理活动。

利用技术预测心理特征是一个机器学习的过程,如果我们获取了用户的行为数据,同时拥有心理特征指标,可以通过建立相关模型,对新用户的行为和心理进行识别。

互联网的发展无疑为用户心理分析打开了新的窗口。微博平台拥有大于 10T 的活跃用户数据,我们从微博平台抓取了实验数据,利用人格量表对用户数据进行标注,总结微博特有的行为特征,并以此为依据进行数据的特征提取,最终利用标注的数据训练出了个体模型。同时,我们也通过用户在线填写量表收集问卷以进行分析。

基于高生态化的行为大数据,利用机器学习训练得到的预测模型,实现心理指标自动识别,即生态化识别(Ecological Recognition, ER),能够帮助我们开展很多以往比较难以开展的研究,大大拓展研究的范畴。对于微博的数据我们还要进行生态化识别,真实性较强的数据生态效能也就较高,我们可以利用生态效能高的数据来识别心理指标,来做更进一步的研究。

 

大数据让我们更好地关注家暴受害者、失独群体

下面我给大家介绍一下我们用这种方法进行的几个相关研究。

第一个是家庭暴力。2016 年我国开始施行《反家庭暴力法》,尽管法律会对施暴者予以惩罚,但家庭暴力对受害者的影响往往是终身的。由于个体遭受家庭暴力的时间点不同,传统走访调查的方法往往难以获取大规模数据。而通过网络,我们可以提取家庭暴力发生之前、之后的受害者微博数据,并得以比较家庭暴力前后其相关心理指标的差异,了解受害者人格由于暴力发生的改变。

 

举例来讲,发生家暴后受害者人格中神经质的指标会明显提升,这就意味着受害者情绪的不稳定性大大升高,这种对于人格的影响是长期的。

在家庭暴力事件中,还有一个不容忽视的作用方,那就是围观者。如果在童年时,你的身边有过家庭暴力发生,那么成年后你的抑郁概率会较高。在原生家庭中如果发生过家庭暴力,那么围观者的日后出现家庭暴力的概率也会提升,因为在潜意识中,他们会认为家庭暴力是解决家庭问题的可行方式。

第二是失独群体。通过数据可以了解一个人的心理指标,那么我们当然也可以对一个群体进行心理分析。我们对失独群体进行了长达两年的追踪,关注他们在网络上的话语表达。失独父母可能是中国对互联网使用最早、最成熟的一群老年人,网络为他们提供了表达的途径。我们进行了失独群体的词云分析和行为分析,发现他们对政府、媒体和维权者的关注远高于普通用户。此外,研究发现,尽管失独父母在失去孩子的两年间情绪逐渐得以恢复,但他们对悲伤词、死亡词的使用依旧保持不变——他们悲伤的情绪并未消散。

同时,我们利用模型对失独群体的心理指标进行了分析,预测了失独用户的社会态度。他们目前来看是集群行为比较积极的一类群体。失独群体对政府的态度呈现着如下特征:一方面,他们认为自己“失独”与政府不无关系;然而另一方面,他们因为自己的生活又离不开政府的支持又与政府保持着高度互动。

 

那些在网络上表达自杀意念的人,也许不是说说而已

个体心理特征的自动识别,可以帮助我们对自杀进行主动干预。自杀是一个很严重的社会问题,事实上,它已成为 15-29 岁人群的第二大死亡原因。但有关研究显示,在中国,仅有 7% 的自杀者在其生前曾寻求过,进行自杀干预存在着主动求助率低的困境。

互联网的发展为我们的自杀干预研究带来了新契机。青少年在互联网用户中占比很大,自杀又是他们死亡的重要原因。我们就考虑,有没有可能利用互联网,去做青少年自杀的干预工作。

有的人会认为在网上讲自杀,只是为了博取别人的关注而已,他可能并不会真的采取行为。我们研究发现事实上并不是这样,在网络上表达自杀意念的有一半以上的人真的会尝试自杀。

这提醒我们,我们在网络上看到的每一条跟自杀有关的表达,背后有可能就是一个真的自杀死亡案例。

大家都知道几年前有一个明星自杀,是因为抑郁症,但是他在官方微博上一直是很正常的表现。所以我们当时就想了解一下,这些自杀死亡的用户,他们在网上的表现和一般的用户到底有没有区别。

我们在网上找到了 31 名确认自杀死亡的用户。互联网让自杀用户的生前网络数据可以被长期保留,我们将自杀死亡用户的微博数据与普通用户的数据进行比较。

通过比较可以看出,自杀死亡用户的微博互动更少,更加关注自我,有很多负性消极的表达。同时在他们的表述中有很多跟死亡和宗教有关,但是和工作无关的。也就是说他们的表述内容和普通用户是有区别的。

接下来我们研究了不同自杀可能性的微博用户行为和语言表达的差异。我们发现,高自杀可能性用户与其他用户相比,社交活跃度更低,关注别人更少,使用更多表达否定、死亡的词语,使用更少指向未来的词语。他们往往在夜间更加活跃,自杀咨询热线确实在夜间12点之后的接听频次居多。

通过上面的分析可以看出,自杀用户和一般用户在语言表达方式和内容上都有区别。我们就想,有没有可能用计算机去自动找到这种区别?我们可以找到那些有自杀风险的人。

我们利用模型优化和自然语言处理技术,对不同自杀可能性的用户进行识别,但识别效率并没有达到我们的预期。在思考原因的时候我们发现,其实在个体的所有表述中,自杀意念的表述占比不大,这就影响了个体自杀可能性的识别。

因此我们开始进行单条微博自杀意念的识别。我们当时也做了一个不同的等级的区分:自杀意念、有计划、有实施。比如“我这种人怎么配活在这个世界上”,这是有自杀意念的表述。“哪天受不了了就跳下去了”,这个是有计划。更紧急一些的是已经开始实施了,比如说“17 号就见他最后一面,18 号选择离开”。

 

我们利用各种各样的机器学习方法去优化这个模型,做一些特征的提取,这使得我们预测模型的精度可以达到 80% 以上。

借力科技,我们希望将站在悬崖边的人拉回来

既然我们能够识别这些高自杀可能性的用户,接下来的工作就是想方设法为他们提供帮助了。

一种办法就是广而告之,向他的亲朋好友发信息,让大家赶紧关注他。英国学者在早期做过这样的工作,他们的想法是好的,但是显然没有征得用户自身的同意,结果因为侵犯隐私很快被停掉。我们当时觉得,这种方式可能会引发其他人对他的偏见,会完全磨灭他以后主动求助的可能性。

最后,我们选择了微博私信的方式。为了更进一步地了解到底什么样的方式能够帮助他们,我们开展了一个用户实验。在 2016 年 11 月份的 17、18 号,我们分两次向 4222 名有自杀意念的微博用户发送了私信。

这是当时发送的私信内容。我们一开始会说是从哪看到你的,然后表示共情和关切,同时直接提供帮助信息,最后我们会写一些鼓励的话语。另外我们邀请他们,希望他们参加这个实验,让我们更多了解他们的需求。

从反馈结果来看,当时发出了 4000 多个邀请,最后参加用户调查实验的是 700 多人,同时这 4000 多人中,有 300 多人直接给我们回复了私信。

我们也对这些用户做了一些统计分析,可以发现,现在自杀人群的低龄化倾向较为严重。在我们的样本里,高中生很多,也有初中生,甚至小学生。研究生及以上的比例较小,不过这并非因为其拥有自杀意念的人数较少,而是因为研究生及以上的微博用户较少。

另外我们也分析了一下,在遇到问题之后,会向哪些人求助。有一半的人从来没有求助过。在有求助过的这些人里边,其实家人不是在第一位的,甚至对家人的求助低于对陌生网友,就是说宁愿把问题向陌生人讲,也不愿意跟家人讲。

2017 年,我们的网站上线。为了提高识别的精度,避免可能出现的误报的情况,在机器预测之后,我们也增加了人工识别的环节。两年内,我们一直在推进这项工作。

与志愿者有过交流的人一共有 3733 名。他们与志愿者交流的内容,主要是想了解救助方法或说明自身情况。我们有效地激活了他们向外界求助的动机,这是非常重要的一步。当然,也有一部分用户对我们的提议表示拒绝,这也是在预料之中的。

有一个问题,我们一直很关注:到底是哪些原因导致了自杀的发生?国外的研究说自杀 90% 是长期精神疾病导致的,而国内一直都有质疑和争论,认为没有到这个比例。抑郁症和抑郁情绪不同,抑郁情绪可以很快地得到缓解,但是抑郁症,尤其是重度抑郁症是导致自杀的诱因之一。

从我们的结果来看,在所有有自杀意念甚至付诸行动的人群里,有半数人罹患精神疾病,然而还有接近一半人是精神健康的,他们面临的最主要问题是家庭问题,这是非常令人惊讶的结果。除此之外,还有一些因素也会导致自杀的可能性,比如工作、学习、婚恋,包括受欺凌、甚至是被性侵的经历。

此外,在网络上,有些意义模棱两可的文字有时难以辨别是否有自杀意向,比如“我永远二十岁”,在不同情境下可能表达的意思完全不同;而一些存在自杀意向的图像、视频也让我们识别自杀风险遇到了困难。

我们目前正在推进一系列心理干预的工作:利用虚拟现实系统,我们建立了心理健康自主干预系统;我们也通过网络聊天机器人,向普通人群提供心理健康服务。不过这种机器人存在很高的风险,因为进行自杀咨询的人往往心理较为敏感,一旦机器说错话,用户将会对我们丧失信心,后果会不堪设想。因此我们始终在让技术手段向人性化靠拢,进而构建自杀高危人群的社会支持系统,提高他们生还的希望。

 

透过书本,数据分析让我们换个角度解读人文

利用机器学习实现心理特征的识别,也可以开展数字人文方面的研究。我们目前展开了针对文学作品中人物个性的研究。我们可以利用人物在小说里的对白,以及书中对该人物的描述,来对其人格进行预测和构建。

我们研究了《平凡的世界》,这部小说描写了中国七八十年代农村的情况。书中四名主人公代表着中国社会当时的四个阶层,分别是农民企业家、农村知识分子、村二代和官二代。因此,我们可以从主人公的人格预测,看出社会阶层的差异,当然也能看出重大生活事件对人物的影响。

《平凡的世界》作者路遥本人的婚姻并不幸福,在写作中,作者的思想也在一定程度上得以体现。主人公经历结婚前后的人格发生了负向的改变——路遥认为婚姻会给人带来不幸。但是路遥对知识青年通过学业改变生活持支持态度,因此主人公孙少平高中毕业后,人格发生了积极的转向。

我们也通过对文言文的分析,来了解了时代变迁中的人物心理变化。在先秦时期,个体主义较为强盛,随着君权的发展,尤其到明清之后,个体主义受到压制。通过个体主义,以及孝和礼的变迁,我们可以看到每一个时代的特征。

我们现在正在构建文言 LIWC 词典,并分析历代帝王、文/武官员集团、后妃的心理特点及历史影响力,探究儒家文化的变迁和社会各阶层人员心理特点的历史演变。

 

网络社会之外,探索现实社会行为的心理分析

网络研究往往需要长时间的跟踪,线下研究的时间成本相对较低。我们可以通过现实社会的外显行为对个体进行心理分析,进而判断其性格特征。我们运用 Kinect 摄像头,将个体行为量化,用以预测行为指标,如社会支持程度、抑郁焦虑指标等等。以往我们都是通过问卷的形式进行心理调查,希望在不久的未来,只需要被试者走几步,我们就获得其心理指标。

此外,利用语音也能够实现抑郁症的辅助诊断。事实上,语音特征可以有效区分抑郁症和躯体疾病的患者。不过还需要注意协变量对于抑郁症识别的影响。所谓协变量,就是不为实验者操纵,但仍影响实验结果的变量。比如一个北京人和一个广东人,这名北京人得了抑郁症,而广东人是健康的。我们进行语音测量的话会发现识别精确度百分之百,但这一结果并不具有一般性,其所反应的是地域的区别——这就是协变量的影响。所以我们的研究需要尽可能排除协变量的干预。

 

很多医生诊断心理病患往往依靠主观判定,我们希望通过语音识别,用量化的方式去分析各项心理指标,辅助医生的工作。

尽管利用技术手段进行心理识别可以带来很多便利,但是隐私泄露的严重问题使得心理数据的使用也存在很大的隐患。商业公司一旦获取用户心理数据,就可以利用个体的心理特点,无所不用其极地谋取利益。因此如何恰当使用这类数据,更好地服务于大众,需要我们更加审慎的考量。

朱廷劭老师(右二)与活动主持谢幸博士(左二)、ACE讲座系列负责人孙丽君(右一)、窦安琪(左一)合影

标签