嵌入式系统程序开发过程(嵌入方法在推荐系统中的应用)
嵌入式系统程序开发过程(嵌入方法在推荐系统中的应用)(4) 对于从淘宝来的新的盒马用户,我们先从上面的1000类中找到与该用户最近的类(该用户的嵌入向量与类中心距离最近);(3) 对于(2)中的每一类,将这一类用户在盒马上购买的topN热门商品计算出来作为推荐候选集;(2) 将 的用户根据在淘宝上的嵌入向量用kmeans聚类聚成1000类;
(
)。那么按照下面流程就可以为盒马的新用户做推荐了:
(1)采用第四节3的方案计算出淘宝平台上用户的嵌入向量;
(2) 将
的用户根据在淘宝上的嵌入向量用kmeans聚类聚成1000类;
(3) 对于(2)中的每一类,将这一类用户在盒马上购买的topN热门商品计算出来作为推荐候选集;
(4) 对于从淘宝来的新的盒马用户,我们先从上面的1000类中找到与该用户最近的类(该用户的嵌入向量与类中心距离最近);
(5) 将该新用户最近的类的topN热门商品推荐给该用户。
下面的图6可以更好地帮助大家理解上面的流程。通过这5步就可以为盒马的新用户做推荐了。当然如果一个用户是盒马的新用户但不是淘宝的用户或者也是淘宝的新用户,那么这个方法就无能为力了,但是这种情况毕竟是很少的(因为淘宝覆盖了中国绝大多数的电商用户),所以该方法基本解决了盒马大部分新用户的冷启动推荐问题。
图6:通过跨平台特征迁移来为新用户做推荐
3.通过在图嵌入中整合附加信息解决冷启动
我们在第四节4中已经说明了在有向图嵌入构建Skip-Gram模型过程中整合附加信息可以解决冷启动问题,这里不再说明。
4.通过图片、文本内容嵌入解决冷启动问题
前面我们在第四节5中讲解了Content2Vec模型,该模型通过将图片、文本、类别等metadata信息嵌入,再将这些不同源的嵌入向量通过一个统一的模型获得联合嵌入表示,最终通过
(A、B是两个商品的嵌入向量)输出层来训练获得最终的商品嵌入表示。通过该方法,即使没有足够多的用户行为,因为模型整合了图片、文本信息,可以有效避免冷启动问题。
上面只是列举了第四节案例中几种可以解决冷启动的算法模型,其他可以解决冷启动的模型这里不一一列举。总结下来,只要是模型中整合了附加信息,基本都可以有效缓解冷启动问题。
随着Word2Vec等嵌入方法在NLP、推荐、搜素等各个领域的成功运用,嵌入方法越来越受欢迎。本文讲解了嵌入方法的思想、嵌入方法在推荐上的应用思路、介绍了用于推荐业务的几种嵌入方法的一般原理,最后给出了几个工业界利用嵌入方法做推荐的算法案例及怎么利用嵌入方法缓解冷启动问题。参考文献整理了很多关于嵌入方法理论及其在搜素推荐中的应用的论文,值得大家研究和学习。
从数学的角度来说,嵌入方法就是一种投影映射,通过选择合适的映射将复杂空间的向量投影到低维空间,保持某些性质的不变性,可以更容易地解决很多机器学习问题。目前嵌入方法在推荐上的应用基本都是基于矩阵分解、Word2Vec及深度学习的思想通过部分整合附加信息来实现的。我相信未来有更多的理论知识的突破来支持嵌入方法更好地用于推荐业务,嵌入方法未来一定有更大的发展前景和应用价值,让我们拭目以待!
参考文献- [Word2Vec] Distributed Representations of Words and Phrases and their Compositionality (Google 2013)
- [Word2Vec] Efficient Estimation of Word Representations in Vector Space (Google 2013)
- [Word2Vec] Word2vec Parameter Learning Explained (UMich 2016)
- Network–Efficient Distributed Word2vec Training System for Large Vocabularies
- A Deep Embedding Model for Co-occurrence Learning
- [2018 阿里] Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba
- [2018 阿里] Learning and Transferring IDs Representation in E-commerce
- [2017 facebook] StarSpace:Embed All The Things
- [2015] Metadata Embeddings for User and Item Cold-start Recommendations
- [2017 Criteo] Specializing Joint Representations for the task of Product Recommendation
- [2018 Airbnb] Real-time Personalization using Embeddings for Search Ranking at Airbnb
- [2016 Netflix] Factorization Meets the Item Embedding- Regularizing Matrix Factorization with Item Co-occurrence
- [2016] node2vec- Scalable Feature Learning for Networks
- [2016 微软] Item2Vec- Neural Item Embedding for Collaborative Filtering
- [2017 Yahoo] Embedding-based News Recommendation for Millions of Users
- [2016] Meta-Prod2Vec: Product Embeddings Using Side-Information for Recommendation
- [WWW 19] NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization
- [IJCAI 19] ProNE: Fast and Scalable Network Representation Learning
- [2017] Heterogeneous Information Network Embedding for Recommendation
- Representation learning: A review and new perspectives
- [2017] Learning a Hierarchical Embedding Model for Personalized Product Search
- [2017] MRLR: Multi-level Representation Learning for Personalized Ranking in Recommendation
- Deepwalk: Online learning of social representations
- [YouTube 2016] Deep Neural Networks for YouTube Recommendations
- [2017 携程] A Hybrid Collaborative Filtering Model with Deep Structure for Recommender Systems
- [2015] Deep Collaborative Filtering via Marginalized Denoising Auto-encoder
- [2014] Neural Word Embedding as Implicit Matrix Factorization
- [2016 Yahoo] E-commerce in Your Inbox: Product Recommendations at Scale
- [2016] Deep coevolutionary network: Embedding user and item features for recommendation