SMRSL

Self-Supervised Multiple Representation Space Learning for Click-Through Rate Prediction

概述

Title:基于自监督的多表征联合优化CTR预估模型

目标

  • 解决CTR任务中的数据稀疏性(Data Sparsity)与长尾现象(Long-tail Problem)
  • 多任务学习框架中多个专家学习到的表征可能相同
  • 多层次特征提取器中的样本表征存在纠缠

解决方案

Step1

首先利用一组子神经网络(a set of sub-networks)将一个单CTR任务转换成多CTR任务模型;

  1. 子神经网络(a set of sub-networks)目的在于学习一个潜在的语义空间,这样,那些比较稀疏、长尾分布中尾部的数据就会自动映射到某一个潜在的特征语义空间中。

Step2

设计两种自监督信号(self-supervision signals)去指导表征的学习。

  1. intra loss (intra-layer entanglement loss) :层内纠缠损失。(目的是为了鼓励每一个子神经网络去学习到不同的表示空间)
  2. inter loss (inter-layer structure loss) : 层间结构损失。(目的在于确保来自同一子神经网络的相邻编码网络的结构一致性)

方案

问题定义

给定有个样本的点击数据集 ,其中,(表示第个数据样本的用户侧的特征、表示第个数据样本的商品侧的特征、表示第个数据样本的上下文信息),表示用户是否点击。

一个CTR的模型目标是最小化损失函数,我们的损失函数大体上设计为,其中第一部分目的在于学习二元分类的区别表示,第二部分通过正则化的方案更好的解决稀疏和长尾性质的数据。

多表征空间的学习

inter loss

以极端情况为例,在同一Sub-Network中,同一数据批次的最近邻索引应在两个相邻编码器层之间保持一致。 其中,是针对同一个子神经网络的一批数目为B的样本第层以及第层的相似性矩阵。

其中代表正则化的特征矩阵,代表其对应的转置矩阵。

其中是距离计算函数,这里使用的是欧几里得距离。

考虑到数据样本的不平衡性,一种基于权重的损失优化可以表示为:

其中是一组可调节的参数,用来分别控制正负样本的重要性程度。 分层加权策略的提出(较低的层主要是发现共享的特征,而较高的层则是捕获高级语义信息),分层加权策略惩罚了同一sub-network中较深的网络层,促使它们捕捉到更多的高级语义信息。:

intra loss

其中是第个子神经网络在第层的输出与第个子神经网络在第层的输出。类似于

其中,用的是函数。 intra_loss自我监督信号监视由不同子网络学习到的表征信息,并在表示纠缠在一起时施加更高的惩罚。通过这种方式,每个子网络倾向于学习不同的表示空间,这缓解了所有子网络在表示空间中紧密崩溃的问题。