搜索
您的当前位置:首页Latent Structure Mining with Contrastive Modality Fusion for Multimedia Recommendation

Latent Structure Mining with Contrastive Modality Fusion for Multimedia Recommendation

来源:世旅网

背景:

基于协同过滤的方法通常会遭受冷启动等问题,如MMGCN和LightGCN等,此类方法的普遍思想是通过在用户-物品二部图上传递高阶协同信息来增强用户/物品表示。这种方法存在一个问题,如下图所示,用户1和衬衫、帽子、短裤发生过交互,用户2和帽子,短裤发生过交互。现在要给用户2推荐物品,若采用基于协同过滤的方法,GCN在信息传递时,被交互过的物品的信息会以协同信号的形式在二部图中进行传播,用户2也会聚合到物衬衫的特征,所以衬衫会很自然的推荐给用户2 。现在存在另外一个冷启动物品风衣(未与任何用户产生过交互),它和衬衫属于一类物品,并且二者可以十分相似,但它未和任何用户产生过交互。由于未和任何用户产生过交互,所以在GCN信息传递的时候自然无法聚合到任何信息(孤立的一个点),特征没有得到优化,所以被推荐的可能性也会很小。虽然此类未与任何用户发生直接交互,但和用户交互过的物品十分相似,不具有推荐价值吗??

主要贡献:

  • 将用户-物品二部图,拓展到了物品-物品二部图用来捕捉物品间的语意相似性
  • 采用对比学习的方式(各模态特征表示和融合后的特征表示对比),迫使融合后的特征表示自适的从多模态中提取共享信息。

基于假设:

模态间共享的物品关系对于学习更好的物品是重要的,这是基于假设:一种强大的表示法是对模态不变因素进行的建模。

方法:

1)模态感知潜在结构挖掘

在每个模态上,根据语意相似性,挑选出top-k物品用于之后的操作,目的是为了去噪。由此可构成一张物品-物品潜在结构相似图,图中物品i与j有边相连,代表物品j是物品i top-k相似中的物品之一。注意:此操作是在所有物品上进行的,并不是用户交互序列。          

本文分别使用原始特征经过提取后的特征来进行相似度计算,得到两张物品-物品潜在结构相似图。

原始特征下的物品-物品潜在结构相似图,如下:

 

(1)物品相似性计算(余弦相似性,取值范围为[-1,1],负数设为0)。

(2)模态m上的物品-物品潜在结构相似图(用矩阵表示),若j是物品i 在模态m上是物品k 最相似的top-k个物品之一,则将矩阵S第i,j为设置为

(3-4)归一化

特征提取后的物品-物品潜在结构相似图:

 (1)特征转化,

 (2) 同原始特征下的构图方式,构造特征提取后的物品-物品潜在结构相似图

  注:论文中没有直接使用特征提取后的物品-物品潜在结构图,而是采取了一种跳跃连接的方式(由于S和都是稀疏的,归一化的所以A也是稀疏的归一化的):

原因有两点:

  • 初始图中虽然有噪声,但仍然存在丰富的有用信息。
  • 物品-物品潜在结构图剧烈变化会导致训练不稳定。

(2)基于图卷积的物品亲密度学习

在物品-物品潜在结构图上进行图卷积操作,通过亲密度关系注入邻居信息,具体如下:

 为ID Embedding

注:这里的图卷积操作和以往的不太一样,是在由亲密度关系得到的图上,传递ID信息(协同信息)。

(3)对比辅助任务来促进多模态融合

多模态聚合

每个模态对于融合特征的贡献程度不一样,所以本文采用注意里的方式来进行特征特征融合

 :可训练的注意力向量

对比辅助任务

通过对比辅助任务来迫使融合后的特征自适应的从多个模态中提取共享信息。

 对于物品i来说:

                        正样本对:(, )物品 i 在模态m上的表示,物品 i 融合后的特征表示

                        负样本对: (,)物品 i 在模态m上的表示,物品 j 融合后的特征表示

                                           (,)物品 i 在模态m上的表示,物品 j 在模态m上的表示

通过上述操作可以得到更好的物品表示(注入了物品-物品亲密度关系),可用户下游模型。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top