人皆孤独？他们用通义千问开发了一款心理大模型—新闻

作者：赵广立来源：中国科学报发布时间：2023/12/2 13:01:31

选择字号：小中大

人皆孤独？他们用通义千问开发了一款心理大模型

编者按：

12月1日，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此，通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现了“全尺寸、全模态”的开源。

基于开源的大语言模型，用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。

利用时髦的开源大模型，如何结合专业所学，做一件有意义的事？

颜鑫，华东理工大学“心动实验室”（X-D Lab）成员，一位刚刚毕业的本科生。他所在的团队，现在正专注于社会计算和心理情感领域的AI应用开发。基于开源的通义千问开源模型，他们开发了心理健康、医疗健康、教育及考试三款大模型，并希望实现产品化。

以下为颜鑫的讲述。

孤独是一种普遍的社会情绪

我是“00后”，就读于华东理工大学自动化专业，今年（2023年）刚刚本科毕业。

“心动实验室”此前的研究方向包括社会计算与社会智能、群体智能与隐私保护、公共卫生与舆情监测、工业智能与智能系统等，大模型出现后，我们聚焦AI情感计算领域，希望利用大语言模型、自然语言处理、机器学习、联邦学习等技术，开发一些好的应用，抚慰和治愈当代人的心灵。

我们做了三款垂直领域大模型：心理健康大模型MindChat（漫谈），主要提供心理抚慰、心理测评等服务；医疗健康大模型 Sunsimiao（孙思邈），主要提供一些用药和养生建议；教育/考试大模型 Gradchat（锦鲤），给学生提供就业、升学、出国留学等方面的指导。

MindChat是一款心理咨询工具, 像个AI心理咨询师，能在温暖、安全、及时、方便的对话环境下，为用户提供心理评估等服务。我们在Qwen基础上，结合心理学专业知识，训练与调试了该模型，大家可以通过阿里云魔搭社区体验。

打工人上班被老板骂了，心里不爽；学生写不出论文，影响毕业……遇到这些事情，都可以去跟MindChat聊聊，甚至可以语音输入。MindChat会共情用户，通过文字内容和语音语调，分析用户的情感和心理状态，给出相应的建议，包括是否需要真正的人类专家/心理专家介入。

现代社会，需要心理咨询或心理陪伴的人很多，中国人不习惯找心理医生，不是自己憋着，就是跟家人朋友倾诉。家人朋友的好处是，能给出实时的反馈。我们希望MindChat成为用户的朋友，能为人们提供安全的、实时反馈的沟通环境。

目前已有超过20万人次用过我们的大模型，我们累计提供了超过100万次的问答服务。大家问得最多的就是升学、考研、就业、职场之类的压力。我们的感觉是，现代人的心理状态都比较低落，有的人很丧，有的人戾气很重。

这个项目起源于我跟老师在饭桌上的一次对话。我的老师之前在德国发展，长居德国，三四年前为了照顾家里老人，回到了国内。我是一个人在外求学，留爷爷奶奶孤独在家，偶尔会打打电话。但这些都不够，家人还是缺少陪伴。

孤独可能是这个社会的普遍情绪，科技能不能带来一点帮助呢？用简单易用的界面提供服务，让孤独的人找到情绪出口，保持与社会的连接。所以我们决定开发心理大模型。

“为场景找技术”，而不是为技术找场景

大模型应用落地的驱动力，不应该是“为技术找场景”，而应该是“为场景找技术”。

心理服务就是这样的场景，它在整个社会有很大的需求空间，而整体供给又很匮乏，优质可靠的心理咨询服务在很多地方都是奢侈品。我们想用大模型技术把这类服务变得普惠。

我们做这件事最开始是很偶然的，整个小团队从模型微调开始，一点点摸索。但做着做着发现，在解决一些需求点的时候，我们又回归到主业上。比如联邦学习，这是一种针对分布式系统的机器学习技术，可以采用各种隐私技术（如加密技术等），确保参与联邦学习的各方做出有用的计算，同时保证用户数据不被泄露。我们在做模型微调时，就关注信息隐私保护和数据加密，采用分布式架构存储与分析训练数据，很好地保护了用户信息。这可能也是场景驱动带来的惊喜吧。

医疗、心理都是非常注重隐私的场景，很多客户都要求私有化部署，所以我们选择开源模型。我们一直在追踪开源领域大模型的发展，Qwen出现之前，我们试用了一些其他模型，比如ChatGLM、Baichuan、InternLM。

Qwen-7B和14B推出后，我们快速做了试验，用内部数据和自己的benchmark做了测评。在我们的场景中，通义千问是所有的开源模型里发挥最好的，是目前的最优解。尤其在复杂的逻辑推理方面，通义千问表现出很强的能力。在同样的对焦实验下，当我们用同样的方法、把同样规模的数据应用到各个开源模型，Qwen的效果比其他模型好得多。所以，我们的三款垂直领域大模型主要以Qwen为基座。

如何选择一款对的模型？

我们做模型选型，主要关注几个问题：

是否可持续。我们没有资源从头训练一个基座模型，从市场上选模型的第一个考量就是，它背后的机构能不能给模型很好的背书，能不能持续投入基座模型及其生态建设？为跟风、吃红利而生的大模型不可持续。阿里云是国内“大厂”里唯一开源大模型的组织，能把通义千问72B这么大尺寸的模型都开源出来，说明在开源上是有决心的、能持续投入的。

是否有生态。我们希望选择主流的、稳定的模型架构，它能最大限度发挥生态的力量，匹配上下游的环境。通义千问开源模型是符合要求的。

是否满足场景需求。心理领域需要温柔、知性、能共情的大模型，教育大模型要有丰富的知识、优秀的计算能力和调用外部工具的能力。不同厂家的模型性格各异，从知识结构来说，有的模型像文科生，千问像理科生。

从可持续性、生态和场景适配这三个维度判断，通义千问成了当下最优解。此前有一家企业找我们合作，我们只用20万tokens的数据微调了Qwen基座模型，就得到了比另一家用百万级数据微调的模型更好的效果。这证明了通义千问基座模型的能力，也证明了我们有很好的行业know-how。

至于模型大小，7B、14B等的模型各有适用场景。我们有些心理领域的客户需要私有化部署模型，也要控制算力消耗，这时我们推荐 7B。有些客户对模型性能要求更高，我们就优先推荐14B。总之，在性能和成本之间找到最佳平衡。我们也在探索模型的量化、压缩、推理加速等技术，希望未来能让大模型部署到手机等端侧场景。

我对72B的模型抱有非常大的期待，好奇72B在我们领域中的能力极限值。高校计算资源有限，我们可能不会用这么大参数的模型直接做推理服务，但可能基于Qwen-72B 做些学术探索，包括利用联邦学习算法处理数据。也希望72B的推理成本能得到很好的控制。

我们团队都是坚定的开源支持者，X-D Lab采取开闭源两条腿走路的策略，一部分模型对外开源，反哺开源社区；另一部分适用于真实场景的模型以闭源API的方式对外提供服务。也是根据场景需求来做匹配。