FTRL代码实现

article/2025/9/27 9:56:44

FTRL(Follow The Regularized Leader)是一种优化方法,就如同SGD(Stochastic Gradient Descent)一样。这里直接给出用FTRL优化LR(Logistic Regression)的步骤:

其中pt=σ(Xt⋅w)pt=σ(Xt⋅w)是LR的预测函数,求出ptpt的唯一目的是为了求出目标函数(在LR中采用交叉熵损失函数作为目标函数)对参数ww的一阶导数gg,gi=(pt−yt)xigi=(pt−yt)xi。上面的步骤同样适用于FTRL优化其他目标函数,唯一的不同就是求次梯度gg(次梯度是左导和右导之间的集合,函数可导--左导等于右导时,次梯度就等于一阶梯度)的方法不同。

下面的python代码把FTRL和LR进行了解耦:

# coding=utf-8
__author__ = "orisun"import numpy as npclass LR(object):@staticmethoddef fn(w, x):'''决策函数为sigmoid函数'''return 1.0 / (1.0 + np.exp(-w.dot(x)))@staticmethoddef loss(y, y_hat):'''交叉熵损失函数'''return np.sum(np.nan_to_num(-y * np.log(y_hat) - (1 - y) * np.log(1 - y_hat)))@staticmethoddef grad(y, y_hat, x):'''交叉熵损失函数对权重w的一阶导数'''return (y_hat - y) * xclass FTRL(object):def __init__(self, dim, l1, l2, alpha, beta, decisionFunc=LR):self.dim = dimself.decisionFunc = decisionFuncself.z = np.zeros(dim)self.n = np.zeros(dim)self.w = np.zeros(dim)self.l1 = l1self.l2 = l2self.alpha = alphaself.beta = betadef predict(self, x):return self.decisionFunc.fn(self.w, x)def update(self, x, y):self.w = np.array([0 if np.abs(self.z[i]) <= self.l1 else (np.sign(self.z[i]) * self.l1 - self.z[i]) / (self.l2 + (self.beta + np.sqrt(self.n[i])) / self.alpha) for i in xrange(self.dim)])y_hat = self.predict(x)g = self.decisionFunc.grad(y, y_hat, x)sigma = (np.sqrt(self.n + g * g) - np.sqrt(self.n)) / self.alphaself.z += g - sigma * self.wself.n += g * greturn self.decisionFunc.loss(y, y_hat)def train(self, trainSet, verbos=False, max_itr=100000000, eta=0.01, epochs=100):itr = 0n = 0while True:for x, y in trainSet:loss = self.update(x, y)if verbos:print "itr=" + str(n) + "\tloss=" + str(loss)if loss < eta:itr += 1else:itr = 0if itr >= epochs:  # 损失函数已连续epochs次迭代小于etaprint "loss have less than", eta, " continuously for ", itr, "iterations"returnn += 1if n >= max_itr:print "reach max iteration", max_itrreturnclass Corpus(object):def __init__(self, file, d):self.d = dself.file = filedef __iter__(self):with open(self.file, 'r') as f_in:for line in f_in:arr = line.strip().split()if len(arr) >= (self.d + 1):yield (np.array([float(x) for x in arr[0:self.d]]), float(arr[self.d]))if __name__ == '__main__':d = 4corpus = Corpus("train.txt", d)ftrl = FTRL(dim=d, l1=1.0, l2=1.0, alpha=0.1, beta=1.0)ftrl.train(corpus, verbos=False, max_itr=100000, eta=0.01, epochs=100)w = ftrl.wprint wcorrect = 0wrong = 0for x, y in corpus:y_hat = 1.0 if ftrl.predict(x) > 0.5 else 0.0if y == y_hat:correct += 1else:wrong += 1print "correct ratio", 1.0 * correct / (correct + wrong)

输出:

reach max iteration 100000
w= [  4.08813934   1.84596245  10.83446088   3.12315268]
correct ratio 0.9946

当把参数调为λ1=0,λ2=0,α=0.5,β=1λ1=0,λ2=0,α=0.5,β=1时,准确率能达到0.9976。

train.txt文件前4列是特征,第5列是标签。内容形如:

-0.567811945258 0.899305436215 0.501926599477 -0.222973905568 1.0
-0.993964260114 0.261988294216 -0.349167046026 -0.923759536056 0.0
0.300707261785 -0.90855090557 -0.248270600228 0.879134142054 0.0
-0.311566995194 -0.698903141283 0.369841040784 0.175901270771 1.0
0.0245841670644 0.782128080056 0.542680482068 0.44897929707 1.0
0.344387543846 0.297686731698 0.338210312887 0.175049733038 1.0

转自https://www.cnblogs.com/zhangchaoyang/articles/6854175.html


http://chatgpt.dhexx.cn/article/GwIksemZ.shtml

相关文章

FTRL算法

概述 GBDT算法是业界比较好用筛选特征的算法&#xff0c;在线学习考虑效率和数据量&#xff0c;经常用GBDT离线筛选特征&#xff0c;输入到在线模型进行实时训练&#xff0c;如今比较好用的方法是GBDTLR&#xff0c;而FTRL是另外一种很高效的算法&#xff0c;与其类似的有OGD&…

FTRL-Proximal

Ad Click Prediction: a View from the Trenches ABSTRACT 广告点击率预测是一个大规模的学习问题&#xff0c;对数十亿美元的在线广告行业至关重要。我们从部署的CTR预测系统的设置中提供了一些案例研究和从最近的实验中提取的话题&#xff0c;包括基于FTRL-Proximal在线学习…

FTRL

一、算法原理 二、算法逻辑 三、个人理解 从loss function的形式来看:FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上,并施加一个L2正则项。【PS:paper上是没有加L2正则项的】 这样达到的效果是: 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**; 因为…

在线学习算法FTRL基本原理

文章目录 相关介绍SGD: Stochastic Gradient DescentTG简单加入L1范数简单截断法梯度截断法 FOBOS: Forward Backward Splitting[^4]RDA: Regularized dual averaging[^5] FTRL: Follow-the-Regularized-Leader总结 相关介绍 SGD: Stochastic Gradient Descent 由于批量梯度下…

Lr

二、 逻辑回归 言归正传&#xff0c;因为广告大部分是按照CPC计费的&#xff0c;而我们手里的流量是固定的&#xff0c;因此对每条广告请求我们就需要保证这条广告的展示收益更大。而广告收益是可以根据点击率、广告计费价格、广告质量度均衡决定的&#xff0c;所以我们就需要评…

在线学习FTRL介绍及基于Flink实现在线学习流程

背景 目前互联网已经进入了AI驱动业务发展的阶段&#xff0c;传统的机器学习开发流程基本是以下步骤&#xff1a; 数据收集->特征工程->训练模型->评估模型效果->保存模型&#xff0c;并在线上使用训练的有效模型进行预测。 这种方式主要存在两个瓶颈&#xff1…

FTRL的理解

个人理解&#xff1a;FTRL是针对LR学习器&#xff0c;设计了一种独特的梯度下降更新方法 从Logistic Regression到FTRL Logistic Regression在Linear Regression的基础上&#xff0c;使用sigmoid函数将yθxb的输出值映射到0到1之间&#xff0c;且log(P(y1)/P(y0)) θxb。并且…

2021-09-08FTRL 跟随正确的领导者

2.2.3 FTRL FTRL&#xff08;Follow the Regularized Leader&#xff09;是一种优化算法&#xff0c;在处理诸如逻辑回归 之类的带非光滑正则化项的凸优化问题上性能出色&#xff0c;自 2013 年谷歌发表 FTRL 算 法的工程性实现论文后[17]&#xff0c;业界纷纷上线该算法&…

python编程之np.argmin()用法解析

疑惑 np.argmin()究竟是干嘛用的&#xff1f; 解惑 给出水平方向最小值的下标&#xff1b; list最小的值是3&#xff0c;对应的下标是2&#xff1b; list1展平是9,8,7,66,23,55,4,23,33;最小的值是4&#xff0c;对应的下标是6

关于argmin和argmax的一点说明

一、定义 首先我们应该知道&#xff0c;arg是元素&#xff08;变元&#xff09;argument的英文缩写。 在数学中&#xff0c;arg max的参数是指使函数值最大化的某个函数域的点。与全局最大值相反&#xff0c;其指的是函数的最大输出 &#xff0c;同理&#xff0c;arg min指的是…

clickhouse的argMin()和argMax()函数

1.语法规则 函数语法argMin(arg&#xff0c;val)计算最小值的arg值。如果val的最小值有几个不同的arg值&#xff0c;则遇到的第一个值是输出。argMax(arg&#xff0c;val&#xff09;计算最大值的参数值。如果存在多个不同的arg值来表示val的最大值&#xff0c;则遇到的第一个…

LaTeX 书写 argmax and argmin 公式

LaTeX 书写 argmax and argmin 公式 1. arg max or argmax For a real-valued function f f f with domain S S S, arg ⁡ max ⁡ f ( x ) x ∈ S \underset{x\in S}{{\arg\max} \, f(x)} x∈Sargmaxf(x)​ is the set of elements in S S S that achieve the global maxi…

torch.argmin()的使用举例

参考链接: argmin(dimNone, keepdimFalse) → LongTensor 参考链接: torch.argmin() 代码实验举例: Microsoft Windows [版本 10.0.18363.1256] (c) 2019 Microsoft Corporation。保留所有权利。C:\Users\chenxuqi>conda activate ssd4pytorch1_2_0(ssd4pytorch1_2_0) C:\U…

numpy.argmin()||argmax()结构及用法||详解axis

numpy.argmin(a, axisNone, outNone)官方文档 参数详解 a : array_like 输入数组 axis : int, optional 默认输入数组展平&#xff0c;否则&#xff0c;按照指定的axis方向 按照指定轴&#xff0c;可以理解为将数据投影到这个轴上。 out : array, optional如果设置了某个数…

ARG MIN的含义是什么?

ARG MIN的含义是什么&#xff1f; 最通俗的理解&#xff1a;表示使目标函数取最小值时的变量值 From Wikipedia In mathematics, arg max (or argmax) stands for the argument of the maximum, that is to say, the set of points of the given argument for which the value…

Matlab中关于argmax、argmin函数的使用

1、在matlab的现有函数中&#xff0c;并没有argmax&#xff0c;argmin函数可以直接调用&#xff0c;要根据这两个函数的实际意义&#xff0c;自己编写程序进行计算 2、我要求解的函数是下式&#xff1a; 其中mad(theta)和amd(theta)两个均为1 * 11的double型向量 括号里得到一…

argmax和argmin的理解

1、符号 &#xff1a;argmax: 2、符号 &#xff1a;argmin:

argmin ,argmax函数

在数学中&#xff0c;ARG MAX&#xff08;或ARGMAX&#xff09;代表最大值&#xff0c;即给定参数的点集&#xff0c;给定表达式的值达到其最大值&#xff1a; 换一种说法&#xff0c; 是f&#xff08;x&#xff09;具有最大值M的x的值的集合。例如&#xff0c;如果f&#xff0…

全网最详细numpy的argmin与argmax解析(一次性理解np.argmin)

本文以np.argmin()进行讲解&#xff0c;np.argmax()与之类似&#xff0c;np.argmin()求最小值对应的索引&#xff0c;np.argmax()求最大值对应的索引 首先看一下官方注释 def argmin(a, axisNone, outNone):"""Returns the indices of the minimum values alo…

矩阵的内积和外积,三向量混合积

矩阵的内积指的是矩阵点乘&#xff0c;即矩阵的对应元素相乘&#xff1b;矩阵的外积指的是矩阵的叉乘&#xff0c;即矩阵相乘&#xff0c;比如CA*B&#xff0c;则A的列数要与B的行数一致&#xff0c;例如A为[m,n]&#xff0c; B 为[n,k]&#xff0c; 则C为 [m,k].三向量混合积的…