分享好友 最新动态首页 最新动态分类 切换频道
wordpress父菜单可点击/软件网站关键词优化
2024-12-26 14:51

https://blog.csdn.net/jliang3

wordpress父菜单可点击/软件网站关键词优化

1.重点归纳

1)FM和FFM模型凭借在数据量较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。

2)FM旨在解决稀疏数据下的特征组合问题,使用矩阵分解的方法来求解参数,从而降低计算复杂度为线性。

(1)模型

(2)损失函数

  • 回归问题:最小平方误差(least square error
  • 二分类问题:hinge loss函数/ logit loss函数(sigmoid函数

(3)优化方法

  • 随机梯度下降法(SGD
  • 交替最小二乘法(Alternating Least-Squares, ALS
  • 马尔科夫模特卡洛算法(Markov Chain Monte Carlo, MCMC

3)FFM在FM的基础上引入了field概率,FFM把相同性质的特征归于同一个field。

 

(1)模型

(2)二次参数有nfk个,远多于FM模型的nk个。由于隐向量与field有关,FFM二次项不能够化简,预测复杂度是O(kn^2)

(3)损失函数采用logistic loss函数和L2惩罚项,因此只能用于二分类问题。使用SGD优化。

(4)CTR和CVR样本类别获取

  • CTR预估的正样本是站内点击的用户-商品记录,负样本是展现但未点击的记录
  • CVR预估的正样本是站内支付(发生转化)的用户-商品记录,负样本是点击但未转化的记录

2.FM模型

1FM旨在解决稀疏数据下的特征组合问题

(1)对于categorical特征,一般都是进行one-hot编码处理,不可避免的样本数据变得很稀疏,另外一个问题是特征空间变得特别大。

(2)某些特征经过关联后,与label之间的相关性就会提高,因此引入两个/多个特征的组合是非常有意义的。普通的线性模型,我们都是将各个特征独立考虑的,并没有考虑到特征之间的相互关系,但实际上大量的特征之间是有关联的。

         如:女性这个特征与化妆品类服饰类商品有很大关联

(3)多项式模型是包含特征组合的最直观的模型,二阶多项式模型

  • 在数据稀疏性普遍存在的实际应用场景中,二次项参数的训练很困难,因为每个参数wij的训练需要大量xi和xj都是非零的样本。
  • 矩阵分解提供了一种解决思路。

2)FM求解

(1)所有二次项参数wij可以组成一个对称阵W,这个矩阵可以分解为W=VTV

(2)V的第j列便是第j维特征的隐向量,每个参数wij=<vi,vj>,这是FM模型的核心思想。vi是第i维特征隐向量<.,.>代表向量点积。

 

         进行简化

(3)简化后,二次项的参数数量为kn个(计算复杂度O(kn),远小于多项式模型的参数数量。所有包含“xi的非零组合特征”的样本都可以用来学习隐向量vi,很大程度上避免了数据稀疏性造成的影响。

3)回归和分类

(1)回归问题

  • 损失函数可取最小平方误差(least square error

(2)分类问题(二分类问题

  • 损失函数
    • hinge loss函数
    • logit loss函数(就是sigmoid函数
  • 为了防止过拟合,通常会在优化目标函数中加入正则项

4)优化方法

  • 随机梯度下降法(SGD
  • 交替最小二乘法(Alternating Least-Squares, ALS

每次只对一个参数进行优化,并逐轮进行迭代

  • 马尔科夫模特卡洛算法(Markov Chain Monte Carlo, MCMC

5)与SVM二阶多项式比较

  • FM在样本稀疏的情况下有优势
  • FM的训练/预测复杂度是线性的,SVM需要计算核矩阵,核矩阵复杂度是N^2
  • MF(矩阵分解)只能局限在两类特征,SVD++与MF类似,在特征的扩展性上都不如FM

3.FFM模型

1)FFM在FM的基础上引入了field概率,FFM把相同性质的特征归于同一个field。如onehot编码前特征country下有两取值USA和China,那么onehot编码后这两个特征属于同一个field。

(1)假设样本的n个特征属于f个field,那么FFM的二次项有nf个隐向量。而在FM模型中,每一维特征的隐向量只有一个。FM可以看作是FFM的特例,是把所有特征都归属到一个field时的FFM模型。

(2)模型

  • C2 是非零特征的二元组合,j1 是特征,属于field f1,wj1,f2 是特征 j1 对field f2 的隐向量。

(3)二次参数有nfk个,远多于FM模型的nk个。由于隐向量与field有关,FFM二次项不能够化简,预测复杂度是O(kn^2)

2)例子

   那么,FFM的组合特征有10项,如下图所示。

 

其中,红色是field编号,蓝色是特征编号,绿色是此样本的特征取值。

3)损失函数采用logistic loss函数和L2惩罚项,因此只能用于二分类问题。使用SGD优化。

4)FFM应用

(1)FFM主要用来预估站内的CTR(点击率)和CVR(转化率

  • CTR和CVR预估模型都是线下训练,然后用于线上预测,采用的特征主要有三类
    • 用户相关的特征

:年龄、性别、职业、兴趣、品类偏好、浏览/购买品类等基础信息,用户近期点击量、购买量、消费额等统计信息。

  • 商品相关的特征

:所属品类、销量、价格、评分、历史CTR/CVR等信息。

  • 用户-商品匹配特征

:浏览/购买评论匹配、浏览/购买商家匹配、兴趣偏好匹配等几个维度。

(2)使用FFM方法,所有的特征必须转换成”field_id:feature_id:value”格式。

  • 数值特征只需分配单独的field编号,如用户评论得分、商品的历史CTR/CVR等
  • categorical特征需要经过one-hot编码成数值型,编码产生的所有特征同属于一个field,如用户的性别、年龄段、商品的品类id等
  • 不同品类的浏览/购买数量特征,这类特征按categorical处理,不同的是特征值不是0/1,而是具体的浏览/购买数量

(3)CTR和CVR样本类别获取

  • CTR预估的正样本是站内点击的用户-商品记录,负样本是展现但未点击的记录
  • CVR预估的正样本是站内支付(发生转化)的用户-商品记录,负样本是点击但未转化的记录
  • 模型是按天训练,每天的性能指标可能会有波动,但变化幅度不是很大

(4)FFM的实现细节

  • 样本归一化。FFM默认是进行样本数据的归一化,即参数pa.norm=True,若此参数为False,很容易造成数据inf溢出,进而引起梯度计算nan错误。因此,样本层面数据推荐进行归一化。
  • 特征归一化。将源数据值特征的值归一化到[0,1]是非常必要的。
  • 省略零值特征。零值特征对模型完全没有贡献,包含零值特征的一次项组合项均为0,可以省去零值特征。

 

最新文章
Bt110:虹羽商城崩盘发币 深扒背后的传销套路
近日比特110接到热心人士举报,虹羽商城涉嫌传销,并发行传销币。该商城声称投资3个月可获得41倍收益,另外还推行拉人头高分红的政策,这种暴利高返的模式,吸引了一大批人受骗上当。谎称注册资本1000万 利用空壳公司行骗比特110通过企查查
Android 代码里如何确定屏幕方向
在Android应用开发中,屏幕方向的管理至关重要。不同的屏幕方向(横屏和竖屏)可能会影响用户界面的布局,甚至影响应用的行为。本文将详细介绍如何在Android代码中检测屏幕方向,给出实际的应用场景和代码示例,帮助您更好地掌握屏幕方向的
AI写作助手:全面覆创意撰写、文章生成与优化解决方案
随着人工智能技术的飞速发展写作助手逐渐成为创意工作者、编辑和学者的得力助手。本文将围绕“写作免费一键生成”、“写作助手”、“写作免费”、“写作一键生成”以及“写作软件哪个好”等关键词全面解析写作助手的功能、优势以及怎样为各
20231217申论理论第一讲课堂笔记.docx
第一章申论备考策略一、课前内容:请提前做好课堂上讲解的题目如果有问题没有回答,课下可以通过CCtalk提问有回放,但请坚持听直播二、申论学习方法1、学习题型及作答思路2、注重日常积累,理论知识积累(申论理论热点,背诵名言警句和措施)
10款好用的手机图片编辑器软件排行榜
由于智能手机相机的不断升级,手机照片编辑应用以往更受欢迎。现在的Android应用市场中图片编辑工具非常多,大部分都支持裁剪、滤镜、亮度调节,拼图和美图等功能,虽说无法Photoshop等专业图片编辑器相比,日常修图还是不错的。那么,那款
2025力诚榕诚湾(力诚榕诚湾)官方网站-百度百科-广州房天下
力诚榕诚湾【已认证】开发商电话☎: 400-1638-365「售楼处24h在线」力诚榕诚湾电话☎: 400-1638-365「售楼处24h在线」力诚榕诚湾营销中心电话☎:400-1638-365「售楼处24h在线」在售户型图丨项目介绍丨最新房源丨周边配套丨详细解答〢◆
12月前两周衡水二手房挂牌均价6319元/平 环比下跌1.25%
据房天下研究院监测,12月前两周衡水二手房挂牌均价为6319元/平方米,环比下跌1.25%。12月前两周衡水二手房各区县搜索排行榜中,桃城、冀州、武邑占据热搜区县榜TOP3;桃城路北的颐和家园笑傲楼盘关注度榜单;价格方面,网友关注度主要集中
22种网站SEO常规外链建设方法
对做外链完全没头绪?不知道如何做网站推广?曾几何时我也是一样。外链无疑对网站还是很有作用的,很多SEO新手不会做外链,很是头疼,这里给大家罗列了22中常规网站外链建设方法,还是那句话重要的是执行。自己的网站新网站建设外部链接比较
2024新澳免费资料大全,学习解答解释落实_The97.29.97
2024新澳免费资料大全:学习解答解释落实在数据分析领域,获取准确、全面的数据是至关重要的,随着信息时代的到来,数据已经成为企业决策的重要依据,面对海量的数据资源,如何有效地筛选、整理和应用这些数据成为了一个亟待解决的问题,本
ai写代码平台有哪个?这3个AI工具能一键帮你自动生成
相比于传统的写作方式,ai智能写代码软件可以在短时间内生成大量的内容,有效提高生产效率,降低人力成本。 而且它的学习算法能通过大规模数据的学习和模型的训练,能够生成质量较高、符合要求的作品。 那操作简单
相关文章
推荐文章
发表评论
0评