排序模型-FTRL

article/2025/9/27 9:54:55

排序模型进阶-FTRL

1 问题

在实际项目的时候,经常会遇到训练数据非常大导致一些算法实际上不能操作的问题。比如在推荐行业中,因为DSP的请求数据量特别大,一个星期的数据往往有上百G,这种级别的数据在训练的时候,直接套用一些算法框架是没办法训练的,基本上在特征工程的阶段就一筹莫展。通常采用采样、截断的方式获取更小的数据集,或者使用大数据集群的方式进行训练,但是这两种方式在作者看来目前存在两个问题:

  • 采样数据或者截断数据的方式,非常的依赖前期的数据分析以及经验。
  • 大数据集群的方式,目前spark原生支持的机器学习模型比较少;使用第三方的算法模型的话,需要spark集群的2.3以上;而且spark训练出来的模型往往比较复杂,实际线上运行的时候,对内存以及QPS的压力比较大。
    在这里插入图片描述

2 在线优化算法-Online-learning

  1. 模型更新周期慢,不能有效反映线上的变化,最快小时级别,一 般是天级别甚至周级别。

  2. 模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。

  3. 对1采用On-line-learning的算法。

  4. 对2采用一些优化的方法,在保证精度的前提下,尽量获取稀疏解,从而降低模型参数的数量。
    比较出名的在线最优化的方法有:

TG(Truncated Gradient)
FOBOS(Forward-Backward Splitting)
RDA(Regularized Dual Averaging)
FTRL(Follow the Regularized Leader)
SGD算法是常用的online learning算法,它能学习出不错的模型,但学出的模型不是稀疏的。为此,学术界和工业界都在研究这样一种online learning算法,它能学习出有效的且稀疏的模型

2 FTRL

一种获得稀疏模型的优化方法
算法原理:http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/05/understanding-FTRL-algorithm

3 离线数据训练FTRL模型

目的:通过离线TFRecords样本数据,训练FTRL模型
步骤:
1、构建模型
2、构建TFRecords的输入数据
3、train训练以及预测测试
完整代码:

import tensorflow as tf
from tensorflow.python import kerasclass LrWithFtrl(object):"""LR以FTRL方式优化"""def __init__(self):self.model = keras.Sequential([keras.layers.Dense(1, activation='sigmoid', input_shape=(121,))])@staticmethoddef read_ctr_records():# 定义转换函数,输入时序列化的def parse_tfrecords_function(example_proto):features = {"label": tf.FixedLenFeature([], tf.int64),"feature": tf.FixedLenFeature([], tf.string)}parsed_features = tf.parse_single_example(example_proto, features)feature = tf.decode_raw(parsed_features['feature'], tf.float64)feature = tf.reshape(tf.cast(feature, tf.float32), [1, 121])label = tf.reshape(tf.cast(parsed_features['label'], tf.float32), [1, 1])return feature, labeldataset = tf.data.TFRecordDataset(["./train_ctr_201904.tfrecords"])dataset = dataset.map(parse_tfrecords_function)dataset = dataset.shuffle(buffer_size=10000)dataset = dataset.repeat(10000)return datasetdef train(self, dataset):self.model.compile(optimizer=tf.train.FtrlOptimizer(0.03, l1_regularization_strength=0.01,l2_regularization_strength=0.01),loss='binary_crossentropy',metrics=['binary_accuracy'])self.model.fit(dataset, steps_per_epoch=10000, epochs=10)self.model.summary()self.model.save_weights('./ckpt/ctr_lr_ftrl.h5')def predict(self, inputs):"""预测:return:"""# 首先加载模型self.model.load_weights('/root/toutiao_project/reco_sys/offline/models/ckpt/ctr_lr_ftrl.h5')init = tf.global_variables_initializer()with tf.Session() as sess:sess.run(init)predictions = self.model.predict(sess.run(inputs))return predictionsif __name__ == '__main__':lwf = LrWithFtrl()dataset = lwf.read_ctr_records()inputs, labels = dataset.make_one_shot_iterator().get_next()print(inputs, labels)lwf.predict(inputs)

在线预测

def lrftrl_sort_service(reco_set, temp, hbu):"""排序返回推荐文章:param reco_set:召回合并过滤后的结果:param temp: 参数:param hbu: Hbase工具:return:"""print(344565)# 排序# 1、读取用户特征中心特征try:user_feature = eval(hbu.get_table_row('ctr_feature_user','{}'.format(temp.user_id).encode(),'channel:{}'.format(temp.channel_id).encode()))logger.info("{} INFO get user user_id:{} channel:{} profile data".format(datetime.now().strftime('%Y-%m-%d %H:%M:%S'), temp.user_id, temp.channel_id))except Exception as e:user_feature = []logger.info("{} WARN get user user_id:{} channel:{} profile data failed".format(datetime.now().strftime('%Y-%m-%d %H:%M:%S'), temp.user_id, temp.channel_id))reco_set = [13295, 44020, 14335, 4402, 2, 14839, 44024, 18427, 43997, 17375]if user_feature and reco_set:# 2、读取文章特征中心特征result = []for article_id in reco_set:try:article_feature = eval(hbu.get_table_row('ctr_feature_article','{}'.format(article_id).encode(),'article:{}'.format(article_id).encode()))except Exception as e:article_feature = []if not article_feature:article_feature = [0.0] * 111f = []f.extend(user_feature)f.extend(article_feature)result.append(f)# 4、预测并进行排序是筛选arr = np.array(result)# 加载逻辑回归模型lwf = LrWithFtrl()print(tf.convert_to_tensor(np.reshape(arr, [len(reco_set), 121])))predictions = lwf.predict(tf.constant(arr))df = pd.DataFrame(np.concatenate((np.array(reco_set).reshape(len(reco_set), 1), predictions),axis=1),columns=['article_id', 'prob'])df_sort = df.sort_values(by=['prob'], ascending=True)# 排序后,只将排名在前100个文章ID返回给用户推荐if len(df_sort) > 100:reco_set = list(df_sort.iloc[:100, 0])reco_set = list(df_sort.iloc[:, 0])return reco_set

4 TensorFlow FTRL 读取训练

训练数据说明

  • 原始特征用MurmurHash3的方式,将特征id隐射到(Long.MinValue, Long.MaxValue)范围

  • 保存成One-Hot的数据格式
    算法参数

  • lambda1:L1正则系数,参考值:10 ~ 15

  • lambda2:L2正则系数,参考值:10 ~ 15

  • alpha:FTRL参数,参考值:0.1

  • beta:FTRL参数,参考值:1.0

  • batchSize: mini-batch的大小,参考值:10000


http://chatgpt.dhexx.cn/article/d5kZB833.shtml

相关文章

FTRL代码实现

FTRL(Follow The Regularized Leader)是一种优化方法,就如同SGD(Stochastic Gradient Descent)一样。这里直接给出用FTRL优化LR(Logistic Regression)的步骤: 其中ptσ(Xt⋅w)ptσ(X…

FTRL算法

概述 GBDT算法是业界比较好用筛选特征的算法,在线学习考虑效率和数据量,经常用GBDT离线筛选特征,输入到在线模型进行实时训练,如今比较好用的方法是GBDTLR,而FTRL是另外一种很高效的算法,与其类似的有OGD&…

FTRL-Proximal

Ad Click Prediction: a View from the Trenches ABSTRACT 广告点击率预测是一个大规模的学习问题,对数十亿美元的在线广告行业至关重要。我们从部署的CTR预测系统的设置中提供了一些案例研究和从最近的实验中提取的话题,包括基于FTRL-Proximal在线学习…

FTRL

一、算法原理 二、算法逻辑 三、个人理解 从loss function的形式来看:FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上,并施加一个L2正则项。【PS:paper上是没有加L2正则项的】 这样达到的效果是: 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**; 因为…

在线学习算法FTRL基本原理

文章目录 相关介绍SGD: Stochastic Gradient DescentTG简单加入L1范数简单截断法梯度截断法 FOBOS: Forward Backward Splitting[^4]RDA: Regularized dual averaging[^5] FTRL: Follow-the-Regularized-Leader总结 相关介绍 SGD: Stochastic Gradient Descent 由于批量梯度下…

Lr

二、 逻辑回归 言归正传,因为广告大部分是按照CPC计费的,而我们手里的流量是固定的,因此对每条广告请求我们就需要保证这条广告的展示收益更大。而广告收益是可以根据点击率、广告计费价格、广告质量度均衡决定的,所以我们就需要评…

在线学习FTRL介绍及基于Flink实现在线学习流程

背景 目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤: 数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。 这种方式主要存在两个瓶颈&#xff1…

FTRL的理解

个人理解:FTRL是针对LR学习器,设计了一种独特的梯度下降更新方法 从Logistic Regression到FTRL Logistic Regression在Linear Regression的基础上,使用sigmoid函数将yθxb的输出值映射到0到1之间,且log(P(y1)/P(y0)) θxb。并且…

2021-09-08FTRL 跟随正确的领导者

2.2.3 FTRL FTRL(Follow the Regularized Leader)是一种优化算法,在处理诸如逻辑回归 之类的带非光滑正则化项的凸优化问题上性能出色,自 2013 年谷歌发表 FTRL 算 法的工程性实现论文后[17],业界纷纷上线该算法&…

python编程之np.argmin()用法解析

疑惑 np.argmin()究竟是干嘛用的? 解惑 给出水平方向最小值的下标; list最小的值是3,对应的下标是2; list1展平是9,8,7,66,23,55,4,23,33;最小的值是4,对应的下标是6

关于argmin和argmax的一点说明

一、定义 首先我们应该知道,arg是元素(变元)argument的英文缩写。 在数学中,arg max的参数是指使函数值最大化的某个函数域的点。与全局最大值相反,其指的是函数的最大输出 ,同理,arg min指的是…

clickhouse的argMin()和argMax()函数

1.语法规则 函数语法argMin(arg,val)计算最小值的arg值。如果val的最小值有几个不同的arg值,则遇到的第一个值是输出。argMax(arg,val)计算最大值的参数值。如果存在多个不同的arg值来表示val的最大值,则遇到的第一个…

LaTeX 书写 argmax and argmin 公式

LaTeX 书写 argmax and argmin 公式 1. arg max or argmax For a real-valued function f f f with domain S S S, arg ⁡ max ⁡ f ( x ) x ∈ S \underset{x\in S}{{\arg\max} \, f(x)} x∈Sargmaxf(x)​ is the set of elements in S S S that achieve the global maxi…

torch.argmin()的使用举例

参考链接: argmin(dimNone, keepdimFalse) → LongTensor 参考链接: torch.argmin() 代码实验举例: Microsoft Windows [版本 10.0.18363.1256] (c) 2019 Microsoft Corporation。保留所有权利。C:\Users\chenxuqi>conda activate ssd4pytorch1_2_0(ssd4pytorch1_2_0) C:\U…

numpy.argmin()||argmax()结构及用法||详解axis

numpy.argmin(a, axisNone, outNone)官方文档 参数详解 a : array_like 输入数组 axis : int, optional 默认输入数组展平,否则,按照指定的axis方向 按照指定轴,可以理解为将数据投影到这个轴上。 out : array, optional如果设置了某个数…

ARG MIN的含义是什么?

ARG MIN的含义是什么? 最通俗的理解:表示使目标函数取最小值时的变量值 From Wikipedia In mathematics, arg max (or argmax) stands for the argument of the maximum, that is to say, the set of points of the given argument for which the value…

Matlab中关于argmax、argmin函数的使用

1、在matlab的现有函数中,并没有argmax,argmin函数可以直接调用,要根据这两个函数的实际意义,自己编写程序进行计算 2、我要求解的函数是下式: 其中mad(theta)和amd(theta)两个均为1 * 11的double型向量 括号里得到一…

argmax和argmin的理解

1、符号 :argmax: 2、符号 :argmin:

argmin ,argmax函数

在数学中,ARG MAX(或ARGMAX)代表最大值,即给定参数的点集,给定表达式的值达到其最大值: 换一种说法, 是f(x)具有最大值M的x的值的集合。例如,如果f&#xff0…

全网最详细numpy的argmin与argmax解析(一次性理解np.argmin)

本文以np.argmin()进行讲解,np.argmax()与之类似,np.argmin()求最小值对应的索引,np.argmax()求最大值对应的索引 首先看一下官方注释 def argmin(a, axisNone, outNone):"""Returns the indices of the minimum values alo…