Kaggle平台

article/2025/6/23 4:50:32

Kaggle竞赛平台

Kaggle首页

简介

Kaggle是一个大型的国际数据科学平台,不仅有有趣的数据挖掘深度学习等比赛,还有社交、云服务等有趣的功能。(Kaggle的kernel相当于给了一个免费GPU服务器给用户,在国内不科学上网不能进入Colab等性价比高的云服务器的情况下,无疑是很好的替代选择,Kaggle国内可以访问。)

Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,通过真实的企业数据,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5000-10000美金的奖金。而且,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。(Kaggle目前已经被Google收购)

Kaggle是世界上认可度最高的数据科学竞赛平台,其Grand Master头衔极大的代表了自身的能力。(类似的数据科学竞赛平台有阿里天池、Data Castle等,但其功能并没有Kaggle这么完善和丰富。)

网站模块

各模块

  • Competitions(竞赛)
    • 包含在办的各类比赛,后面细说其分类。
  • Datasets(数据集)
    • 包含所有Kaggle赛事的数据集以及世界上数据科学领域常用的数据集(一般是玩家上传的),建立环境无需自己上传或者麻烦地获取数据集。
  • Notebooks(笔记本)
    • 原Kernel,可以自己开启私人(仅自己可见)或者公共(平台用户可见)的笔记本或者脚本文件(支持Python和R语言)。是一个运行环境在云端,无需自己安装常用包的GPU环境等。
  • Discussion(讨论区)
    • 包含一些讨论帖子,关于平台问题、代码问题、数据问题等都可以发布在这里,与其他人一起交流。
  • Courses(课程区)
    • 包含众多优质的入门到高阶的是视频或者文本教程,让你迅速了解Python语言、数据分析、数据科学竞赛。
  • Other(其他)
    • 此外,近期的Kaggle平台更新加入了Job(职业区)、Blog(博客区)、User Rankings(用户排名区)等模块。

竞赛类别

级别

Kaggle的每个竞赛都有类别等级,方便用户选择合适的比赛。

  • Getting Started(入门赛)
    • 适合数据科学竞赛新手的比赛,没有太大难度,一般包含基本的回归、分类等类型,长期开放。
  • Playground(娱乐赛)
    • 一种“为了乐趣”的Kaggle比赛类型,难度比入门高出一些。这些比赛通常提供相对简单的机器学习任务,并且同样是针对新手设置的,适合那些对小项目有兴趣但是希望在时间投入较低的情况下可以练习新类型问题的玩家。
  • In Class(课业赛)
    • 是学校教授机器学习的老师留作业的地方,这里的竞赛有些会向public开放参赛,也有些仅仅是学校内部教学使用。
  • Featured(精选赛)
    • 对应商业问题的有奖金的公开竞赛。赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业活动中。
  • Recruitment(人才招募赛)
    • 赞助企业寻求数据科学家、算法设计人才的渠道,但是这类比赛只允许个人参赛,不接受团队报名。
  • Research(研究赛)
    • 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。

方向

一般认为,Kaggle的比赛分为两个走向,ML(传统机器学习)和DL(深度学习)Kaggle玩家一般认为,这是“Kaggle的两个世界”。其中,最关键的区别在于是否很消耗GPU算力。这两类比赛没有上下之分,只是不同领域的交集不多罢了。当然也有很强的人两类比赛都游刃有余,但是大多数人还是倾向于一类比赛的。大体上,按照内容可以分为下面三大类。

  • 数据挖掘
    在这里插入图片描述
    • 这类比赛适合使用传统的机器学习算法,不同于神经网络,这类算法的特点是需要花费大部分时间在feature engineering(特征工程)和ensemble(集成学习)上。
    • 这类比赛的典型代表就是房价预测、时序数据处理等。
    • 可以看到tag里一般数据类型为tabular data(表格数据)。
  • 图像处理
    在这里插入图片描述
    • 这类比赛主要是深度学习领域的比赛,主要手段是深度神经网络。由于端到端的学习特性,不需要花费很多时间在数据预处理上,需要做的只是给神经网络“喂”更多的数据。这类比赛很需要GPU算力,因为绝大多数时间花在了模型的构建和调整上。
    • 这类比赛的典型代表是图片分类等。
    • 可以看到tag里一般数据类型为image data(图像数据)。
  • 自然语言处理
    在这里插入图片描述
    • 同上,现在NLP的比赛基本上也是使用深度模型进行处理。
    • 这类比赛的典型代表是文本分类等。
    • 可以看到tag里一般数据类型为text data(文本数据)。

排名机制

比赛过程中

Kaggle将参赛者每次提交的结果取出一部分(25%-33%),并依照准确率进行临时排名。

比赛结束前

参赛者每天最多可以提交5次测试集的预测结果。每一次提交结果都会更新实时排名成绩,直至比赛结束获得最终排名。

在比赛结束时

参赛者可以指定几个已经提交的结果,Kaggle从中去除之前用于临时排名的部分,用剩余数据的准确率综合得到最终排名。

Kernel使用说明(新版本称为Notebook模块)

这里的Kernel说白了就类似于一个可以在浏览器上间接(本质上是在Kaggle的GPU服务器上)运行的一个Python或者R的环境,这个环境里包含了我们基本需要的各种软件,当然我们也可以自己去安装一些软件,然后去运行我们的训练程序。类似于Google Colab,但是国内可以访问。而且提供免费GPU,确实很良心了。

注意:使用GPU需要开启GPU,下载网络数据或者安装其他包(一般不需要)需要开启网络权限,第一次开启要验证手机号(国内860加手机号)。

使用Kernel之前要创建一个环境,如下。进入Notebooks板块,点击新建notebook。在这里插入图片描述

选择使用的语言(Python或R)及环境形式(notebook或script)。在这里插入图片描述
Kaggle还是对Jupyter Notebook进行了封装,使用的大部分方法一致。顶部命名文件,右侧有环境的状态。
在这里插入图片描述
几个注意

  • 没有开启GPU时可以使用的总内存是16GB,开启后就变为14GB,磁盘容量是固定的,但是这个磁盘是交换数据时需要的,我们从Kaggle加载数据集使用右侧顶部的ADD DataSet,Kaggle的数据集并不会放到这个Disk里头。
  • 预先安装了Keras、TensorFlow、Fastai、PyTorch等主流框架。
  • 数据集也可以自己上传,比较简单。但是很多比赛限制为Kernel比赛,不可以本地跑。
  • 代码运行类似Jupyter,但是需要注意,kernels运行代码有一个很大的限制,那就是运行代码不能超过9个小时,我们可以通过右上角的使用时间看到我们还剩多少时间可用了。而且,每次开启内核需要排队,右侧状态为Queue,等待空闲资源。
  • 很重要的一点,如果离开Kernel界面时间超过一个小时,这个Kernel就会重启(丢失运行数据,用户Disconnect),这是为了资源的合理利用,分配给在线的用户。如果有一个代码需要运行1个小时以上,不可能总在界面上等着,解决办法是允许无误后点击右上角Commit按钮。也就是当我们在调试好Kernel中的代码之后,发现这些代码按顺序可以正常运行,我们只需要点击这个按钮,将这批代码提交,那么这些代码就会在这个服务器的后端执行,当执行完毕后页面就会加载。(此时用户会Disconnect)这样的运行最多也是9小时。

补充说明

本文介绍了一下Kaggle的平台及其使用方式。博客已经同步至我的个人博客网站,欢迎访问查看最新文章。如有错误或者疏漏之处,欢迎指正。


http://chatgpt.dhexx.cn/article/4G5Se4gr.shtml

相关文章

Github,Kaggle访问速度慢的解决办法。

平时上个github,慢的要死,有时候直接超时进不去,下载项目的速度更是感人。 接下来我们就配置一下,来加快访问github网站速度。 第一步: 打开域名解析网址:The Best IP Address, Email and Networking Tool…

Kaggle注册以及问题解决

大家在注册kaggle可能会遇到的问题,我这里提高一个本人的解决方法。 选择register 选择邮箱注册进入后。 填写信息,发现始终通过不了,显示不出验证,是因为人机验证问题,我这里提高一个解决办法,找到微软的右…

kaggle手机验证方法

最近想训练一个模型,苦于没有服务器。于是想到了kaggle的免费GPU资源。然而,kaggle的GPU资源需要绑定手机后才能使用。在网上找了很多方法,比如:860(目前已经无法输入860),xxx-xxxx-xxxx&#x…

Kaggle官网免费课程:从Python到机器学习,4小时学完一门,48小时掌握数据科学...

点击我爱计算机视觉标星,更快获取CVML新技术 赖可 发自 凹非寺量子位 报道 | 公众号 QbitAI 听说过Kaggle官网的免费“微课“吗? 想学Python 、机器学习、数据可视化……你可能会想到Coursera上的在线教程,或者吴恩达大名鼎鼎的深度学习视频课…

Kaggle所有量化金融竞赛汇总。

kaggle竞赛宝典 作者:杰少 Kaggle量化金融相关竞赛汇总 简介 本文我们汇总Kaggle和金融相关的竞赛,如果对金融量化建模的小伙伴学习和参考。如有遗漏,欢迎留言补充。 竞赛汇总 1. JPX Tokyo Stock Exchange Prediction(进行中) 1.1 比赛连接…

Kaggle账号注册

进行一下操作前请务必在翻墙条件下。 1.进入 Kaggle官网:https://www.kaggle.com/,点击Register; 2. 选择邮箱注册,Register with your email; 3. 填写信息,人机验证,点击Next;…

Kaggle简单实战

Kaggle简单分类问题实战 因为在准备下个学期的数模比赛,想着就拿Kaggle上的机器学习比赛练练手,熟悉一下sklearn库的一些算法。笔者也是由易入难,所以一开始选了一个比较简单的分类问题。 比赛的题目也贴在了下方👇。 首先&…

Kaggle 入门(Kaggle网站使用及项目复现)

目录 一、简介 二、前期准备 1、python环境 2、pycharm 三、网页运行 1、网址:kaggle.com 2、注册账号 3、打开一个项目 4、进入后可以看到项目的代码 5、点Edit可以进入编辑模式 6、此处可以更改名字并保存 7、选择run all可以运行 8、在output处下载运…

Kaggle注册方法

官网:https://www.kaggle.com/ 1. 点击Register 2. 选择邮箱注册 3. 人机验证。这一步是最难的,因为国内网选择是注册是无法显示人机验证的的,进而收不到验证码就注册不了,会显示Captcha must be filled out(必须填写…

Kaggle入门准备与上网指南

0x01 注册 Kaggle官网:https://www.kaggle.com 可以用普通邮箱注册,注册好了会在邮箱收到验证链接,但点开链接需要进行人机验证,科学上网才能显示,验证框如下图所示(之前已经注册过了,就在网上…

ps-去除红色印章和为人物添加口红

ps-去除红色印章 步骤: 通道面板-->选择红色通道 ctrlL调出色阶,滑块向左调整到印章消失图像-->模式--->灰度 (删除其它通道,保留红色通道)ctrls保存 ps-添加口红 步骤: 钢笔工具(选出嘴唇部分&#xf…

印章擦除算法

分享下处理过的一套印章定位擦除算法效果。 (1)算法实现印章定位;并对定位上的印章进行擦除。 (2)输入一幅图像,输出定位坐标及擦除后的图像。

利用PS快速去除图片中的红章子

如果文件是彩色的,用上面的方法就会使原来的图片颜色变掉,我们可以局部去除。点击工具栏里选择工具,选择红章子那块画框线。 2 然后我们需要去掉这个选项框里的红色,去掉红色我们需要借助其它工具,现在我们点击上方的选…

怎么把照片里的水印去掉?这三个办法教给你

图片水印是指在图片上添加一些文字或图形,以标识该图片的来源或版权归属。它可以让人们更容易地辨认出图片的来源,从而增强品牌的辨识度。如果我们在网上看到很喜欢的照片,想要用来个人收藏或者当做背景图,而它的图片水印只是为了…

自动生成电子印章

网络办公正逐渐成为常态,无纸化办公也是一个潮流,这二者需要电子签章,最简单的方法就是在纸上盖一个章然后扫描成电子图片文件,最后在你的系统加载这个签章电子图片文件。但这样就会些不理想的地方,如果不是透明的&…

photoshop印章效果制作

最近因为新冠的原因经济不景气,行业离职率都偏高,希望这篇文档能给大家一点帮助 一、印章效果制作 打开photoshop软件,新建500*500像素photoshop图层 然后选择“椭圆工具”,去掉填充,描边颜色为红色,粗细为…

UNet实现文档印章消除

向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx 一个分割网络——Unet,Unet借鉴了FCN网络,其网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3x3的卷…

Python-OpenCV 图像处理(十九):霍夫圆检测 (发票印章去除)

import cv2 import numpy as np from matplotlib import pyplot as plt__author__ "zxsuperstar" __email__ "zxsuperstar163.com"""" 霍夫圆检测 """ def detect_circle_demo(image):# dst cv2.cv2.GaussianBlur(image,…

OpenCV精进之路(二十一):实例——去除发票上的印章

最近在做票据识别的编码工作时遇到一些问题,就是票据上往往会有一些红色印章把一些重要信息区域给覆盖了,比如一些开发票人员盖印章时比较随意,容易吧一些关键区域给遮蔽了,这让接下来的票据识别很困难,因此&#xff0…

PS抠印章|证件照换背景

工具:PS CC2018 技巧一:抠印章 方法:色阶亮度/对比度色彩范围仿制图章前景色填充 效果展示: 图片来源于网络(如有侵权,请联系) 步骤1: 复制一个图层(为了保留原图&…