认识每一个“你”：微博中的用户模型

2015-11-09

社交媒体（Social Media）相对于传统互联网媒体的最大区别是通过建立人与人之间的联系，极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。

在社交媒体背景下，用户生产、传播和接收信息更加便捷，使得之前相对集中的用户兴趣和行为变得更加碎片化和离散，因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。

微博经历了6年的发展，已经成为了国内社交媒体的中坚力量。本文从微博的角度出发，对微博中用户模型的目的、维度和建模任务进行描述，并作为后续微博用户模型相关文章的总述。

1 构建用户模型的目的

刻画每个用户，是任何一家社交类型的服务都需要面对的问题。不同的公司针对各自业务会有不同的需求，构建用户模型的动机和目标也会存在一定差异。从微博自身的角度来讲，构建用户模型的目的包括：

(1) 完善及扩充微博用户信息

用户模型的首要动机就是了解用户，这样才能够提供更优质的服务。但是在微博中用户的信息提供得不尽完整，有些是因为平台的引导机制造成的（例如填写公司学校信息的时候，相应的机构名或者学校名并不在列表内），有时候又是用户不愿意或懒得提供（例如针对一些非必选项），而且对于用户自行输入的内容又很难进行规范化……此外，一些隐性或变化频繁的信息（例如用户的兴趣、商业偏好、地理位置的变化等等）也需要通过用户的行为挖掘出来。

(2) 分析微博生态

除了了解用户，还需要了解自己。在掌握用户信息的基础上，平台就可以对自身的状况进行分析，从相对宏观的基础上把握微博的生态环境，为后续的优化和发展提供方向性。例如通过对用户信息的聚类，能够对微博用户进行人群的划分，掌握不同人群的活跃程度，信息的传播和引爆方式，行为及兴趣偏好等等。

(3) 支撑微博业务

在微博中的各项业务都与用户模型有着直接与间接的关系，无论是基于兴趣的推荐提升用户价值，精准的广告投放提升商业价值，还是针对特定群体的内容运营，用户模型都是其必不可少的基础支撑。直接地，用户模型可以用于兴趣匹配、关系匹配的推荐和投放；间接地，可以基于用户模型中相似的兴趣、关系及行为模式去推动信息及账号的传播和成长。

2 微博用户模型的维度划分

一个用户可以从多个方面去刻画，也就是说用户模型可以从多个维度来考虑和构建。

作为社交媒体，微博用户在平台上通过某些行为（如发微博、点击图片、播放视频、浏览信息流……）生产或获取信息，也通过其它一些行为（如转发、评论、赞……）将信息传播出去，信息的传播是通过用户之间的社交关系所进行的，并且在生产、消费、传播信息的过程中对信息的选择和过滤体现了用户在兴趣方面的倾向性。由此，我们可以将微博用户模型按照图1所示的四个维度进行划分，即属性维度、兴趣维度、社交维度和行为维度。

图1 微博用户模型的维度划分

用户属性和用户兴趣是通常用户画像中包含的两个维度。前者刻画用户的静态属性特征，例如用户的身份信息（性别、年龄、受教育程度、学校、工作单位……），后者则用于刻画用户在信息筛选方面的倾向（例如用户的兴趣标签、能力标签等）。

社交维度是从社交关系及信息传播的角度来刻画用户的。在社交媒体中，用户不在仅仅是一个个体，用户以及用户之间的社交关系构成了一张网络，信息在这张网络中高速流动，但是这种流动并不是无差别的，信息的起始点，所经历的关键节点以及这些节点构成的关系圈都是影响信息流动的重要因素。社交维度就是要量化这些因素以及其影响程度。

行为维度是一个比较新的研究方向，目的是发现影响用户属性、信息变化的行为因素，分析典型用户群体的行为模式。一方面可以通过行为模式的复用来促进用户在微博平台的成长；另一方面也有利于平台认识用户，和发现新的或异常的用户行为。

3 用户建模的任务

3.1 属性和兴趣维度（用户画像）

属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴，即对用户的信息进行标签化。一方面，标签化是对用户信息进行结构化，方便计算机的识别和处理；另一方面，标签本身也具有准确性和非二义性，也有利于人工的整理、分析和统计。

用户属性指相对静态和稳定的人口属性，例如：性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等，在此基础上需要进行补充和交叉验证。

用户兴趣则是更加动态和易变化的特征，首先兴趣受到人群、环境、热点事件、行业……等方面的影响，一旦这些因素发生变化，用户的兴趣容易产生迁移；其次，用户的行为（特指在互联网上的行为）多样且碎片化，不同行为反映出来的兴趣差异较大，在用户兴趣分析的过程中，主要考虑如下几个方面：

(1) 标签来源：不是所有的词都适合充当用户标签，这些词本身应该具有区分性和非二义性；此外，还需要考虑来源的全面性，除了用户主动提供的兴趣标签外，用户在使用微博的过程中的行为，构建的用户关系等也能够反应用户的兴趣，因此也要将其考虑在内。

(2) 权重计算：得到了用户的兴趣标签，还需要针对用户给这些标签进行权重赋值，用来区分不同标签对于该用户的重要程度。

(3) 时效性：随着时间的变化，用户的兴趣会发生转移，有些兴趣会贯穿用户使用社交媒体的全过程，而有些兴趣则是受热点时间、环境因素等的影响。

(4) 兴趣和能力的区分：用户具有某方面的兴趣，只代表了他愿意接受这方面的信息，并不能代表他具有产生相关内容的能力。区分兴趣和能力，能有助于预测兴趣相关内容潜在的生产者和传播者。

3.2 社交维度

如果将微博中的用户视作节点，用户之间的关系视作节点之间的边，那么这些节点和边将构成一个社交的网络拓扑结构，或称作社交图谱。微博中的信息就是在这个图谱上进行传播。

从社交的维度建立用户模型，需要从不同的角度细致和全面地描述这个社交图谱的特征，反应影响信息传播的各层面上的因素，寻找节点之间的关联想，以及刻画图谱本身的结构特征。其中包括：

(1) 用户个体对信息传播的影响：不同用户在信息传播过程中的重要性不一样，影响大的用户对于信息的传播较影响小的用户更具有促进作用。

(2) 量化用户关系的远近：衡量存在直接关联（关注、被关注、互粉……）用户之间的关系远近，关系越近的用户之间越容易产生信息传播行为。

(3) 延伸用户之间的关系：通过用户之间的直接关系（关注、被关注、互粉……），让本身并不存在直接关系的用户产生关联。

(4) 寻找相似的用户：微博中非对等的关系本身可以认为是一种认证，用户基于兴趣、线下关系、或某种其它原因反应到线上的一种关联。那么在关系维度上的相似用户至少能反应他们在某种因素上的一致性。

(5) 识别关系圈：从关系图谱的本身的结构出发，从中发掘关联紧密的群体，有助于信息的精准投放和推广。

以上关于关系建模的任务可以看作是逐步深入的，从“个体”–>“关联”–>“相似”–>“群体”的逐渐深入。

3.3 行为维度

分析用户的行为，建立行为模式有两个任务：针对典型个体行为进行时序分片，分析用户成长的相关因素；针对典型群体的行为进行统计，构建其行为模型。

(1) 典型个体的行为时序分析

所谓典型个体是指某段时间内，成长比较突出的微博用户。例如从一个新用户从新注册到粉丝过百、过千需要有一个积累过程，有些用户积累较快，有些较慢，而这些积累较快的用户可以作为典型个体；或者某些用户在某一阶段传播力有限，但在某时刻传播力激增，无论是互动还是内容传播覆盖面都变化很大，这种也可以作为典型个体。

针对典型个体，需要挖掘与其用户成长相关的行为因素。基本方法是对时间进行分片，获取用户在不同时间片上的行为统计，以及在各个时间分片上的用户成长指标（粉丝数、互动率、传播力等），如图2所示。在此基础上针对用户行为的统计量的变化，利用关联性分析或回归来分析用户成长与哪些因素有关。

图2 时间分片上的用户行为统计

(2) 典型群体行为模式分析

针对典型个体，从用户的基本信息、人口信息、兴趣维度，可以将相似的典型用户划分为同一的群体，称作典型群体，针对典型群体中的用户按照成长程度进行划分，按不同的成长阶段统计用户行为，即建立了该典型群体的行为模型。

例如，对于“北京，年龄在20~30岁，女性，电商领域，普通账号”这样的典型群体，从粉丝数、传播力、互动率等维度将其划分到初创、成长、快速提升、成熟……等阶段，针对不同成长阶段内的行为组合进行统计，结果构成该群体的行为模式。

4 小结

构建用户模型是社交媒体中的基础工作，涉及到数据、统计、挖掘等各方面的技术和手段。本文针对微博的特点和业务需要，针对其中的用户模型构建的目标和任务进行了简述。全文并没有涉及具体的方法和原理，后续会有相应的技术文章进行介绍。

需要指出的是，不同于传统互联网媒体，微博作为社交媒体最大的优势在于引入了非对等的用户关系，这种关系不仅令传播更加高效，也令考虑关系因素成为了用户建模中（无论是在属性、兴趣、社交还是行为维度上）非常重要手段。