Real-time Personalization using Embeddings for Search Ranking at Airbnb

HML

2022-06-22

PaperReading › Recommended System › Airbnb

Airbnb

Grbovic, Mihajlo, and Haibin Cheng. "Real-time personalization using embeddings for search ranking at airbnb." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.

Listing Embeddings

总体而言，针对于用户的点击序列建模还是采用了传统的Skip-gram方式，针对于业务所做的优化是：将两次点击行为之间相距超过30min的点击分割成为两个有效点击序列。

Skip-gram model for Listing Embeddings

其中：

: 正样本对集合

: 负样本对集合

: 样本对

: Skip-gram中滑动窗口C内的样本embedding

: Skip-gram中中心词l的embedding

Booked Listing as Global Context

这里主要将用户点击行为分为两种：

预定点击：用户最终进行了购买
浏览点击：用户最终没有进行购买

如果是预定点击，在Skip-gram的基础上，将购买的酒店的信息在每次的训练中加入到正样本对中，损失函数就变为：

表示购买的酒店

Adapting Training for Congregated Search

问题：

用户线上旅行的订购行为通常是基于一个比较小的样本空间范围，如：他们想要呆的地理位置区间内的样本空间范围。传统的Skip-gram中的采样得到的正样本对集合很大概率是来自同一个样本空间范围，但是传统的Skip-gram中的负样本采样是随记采样，这就不能保证采样的负样本对集合与正样本对集合不来自同一个样本空间范围。

解决策略

增加了一种与正样本对集合来自统一样本空间范围的负样本集合(文章中没有提到这种集合具体是怎么操作的来的)

:与正样本对集合来自统一样本空间范围的负样本集合

Cold Start Listing Embeddings

对于新的房源，会存在冷启动的问题，文章中解决冷启动问题的策略为：

使用元数据(地理位置、价格、类型等)获得一定距离范围内具有Embedding的房源(这些房源与新房源具有相同的价格区间、类型等等)
然后对这些附近的房源Embedding取mean作为新房源的Embedding

Examining Listing Embeddings

California Listing Embedding Clusters

可视化Listing Embedding获取到的信息

通过k-means算法进行聚类操作，可以发现地理位置相同的酒店被分配到了一个簇中(California Listing Embedding Clusters)。
同时还评估了洛杉矶不同类型房源Embedding之间的相似度(Cosine similarities between different Listing Types)
洛杉矶不同类型价格区间Embedding之间的相似度(Cosine similarities between different Price Ranges)
通过图片可视化Embedding表现不同房源的相似性(Similar Listing using Embeddings)

Cosine similarities between different Listing Types