使用Java随机划分数据集为训练集和测试集

article/2025/9/19 8:51:48

在做机器学习,推荐系统等等实验的过程中,我们难免会自己来手动划分数据集,一般都是用一些python开源库来划分,今天我们使用Java自己写代码来随机划分数据集。以下数据集的格式为user item rating ,如图:


下面为代码:

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.OutputStreamWriter;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import java.util.TreeMap;
import java.util.TreeSet;public class SpiltData {/**@author Jipon* @throws IOException * @throws NumberFormatException * @随机按比例分割数据集*///保存用户的idstatic Set<Integer> userids=new TreeSet<>();//每个用户所有的行数static TreeMap<Integer, Integer> idrows=new TreeMap<>();//对每个id:<行号,行>static HashMap<Integer, TreeMap<Integer, String>> idrowidrows=new HashMap<>();public static void getdata(String path) throws NumberFormatException, IOException{FileInputStream inputStream=new FileInputStream(path);BufferedReader reader=new BufferedReader(new InputStreamReader(inputStream));String line;while((line=reader.readLine())!=null){String[] str=line.split(" ");int userid=Integer.parseInt(str[0]);userids.add(userid);if (!idrows.containsKey(userid)) {idrows.put(userid,1);TreeMap<Integer, String> map=new TreeMap<>();map.put(1, line);idrowidrows.put(userid, map);}else {int count=idrows.get(userid)+1;idrows.put(userid, count);TreeMap<Integer, String> map=idrowidrows.get(userid);map.put(count, line);idrowidrows.put(userid, map);}}		reader.close();}/*** 随机分割数据集* @param 分割比例ratio为training所占的比例* @throws IOException */public static void splitData(double ratio,String path,String path1) throws IOException {//for测试集OutputStream outputStream=new FileOutputStream(path);BufferedWriter writer=new BufferedWriter(new OutputStreamWriter(outputStream));//for训练集OutputStream outputStream1=new FileOutputStream(path1);BufferedWriter writer1=new BufferedWriter(new OutputStreamWriter(outputStream1));//对每个用户for (Integer userid : userids) {//取得每位用户的行数int rows=idrows.get(userid);//每位用户需要training:test的比例int testrows=rows-(int) (rows*ratio);//测试集行数集Set<Integer> ir=randomSet(1, rows, testrows, new HashSet<Integer>());//获得行for (Integer rowid : ir) {//把测试集数据写入文件String row=idrowidrows.get(userid).get(rowid);writer.write(row);writer.newLine();//删除测试集行数,剩余为训练集idrowidrows.get(userid).remove(rowid);}}//关闭连接writer.close();outputStream.close();//写训练集数据for (Integer userid : userids) {//每个用户所有的行数据for (Map.Entry<Integer, String> useridrows : idrowidrows.get(userid).entrySet()) {writer1.write(useridrows.getValue());writer1.newLine();}}writer1.close();outputStream1.close();}/***@Method 生成随机数方法*** 随机指定范围内N个不重复的数* 利用HashSet的特征,只能存放不同的值* @param min 指定范围最小值* @param max 指定范围最大值* @param n 随机数个数* @param HashSet<Integer> set 随机数结果集*/public static Set<Integer> randomSet(int min, int max, int n, HashSet<Integer> set) {if (n > (max - min + 1) || max < min) {return set;}for (int i = 0; i < n; i++) {// 调用Math.random()方法int num = (int) (Math.random() * (max - min)) + min;set.add(num);// 将不同的数存入HashSet中}int setSize = set.size();// 如果存入的数小于指定生成的个数,则调用递归再生成剩余个数的随机数,如此循环,直到达到指定大小if (setSize < n) {randomSet(min, max, n - setSize, set);// 递归}return set;}public static void main(String[] args) {//划分比例double ratio=0.7;String path="G:\\08.01\\sdata\\svddata.txt";String testpath="G:\\08.01\\sdata\\test3.txt";String trainpath="G:\\08.01\\sdata\\train7.txt";try {System.out.println("===开始获取===");getdata(path);System.out.println("===获取完毕===");System.out.println("===开始尝试划分数据集并保存===");splitData(ratio, testpath, trainpath);System.out.println("===划分完毕=====");} catch (NumberFormatException | IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}}}


http://chatgpt.dhexx.cn/article/eMfLvBop.shtml

相关文章

Java项目使用Redis缓存数据

Java项目使用Redis缓存数据 一、Redis的下载安装 1、下载gcc编译器 yum install gcc-c安装完成后检查是否安装成功&#xff0c;查看版本 gcc --version2、使用weget下载redis wget http://download.redis.io/releases/redis-6.2.4.tar.gz下载成功后使用 ll 或 ls 命令查看…

Java数据结构及原理实现

程序设计主要是数据结构算法&#xff0c;而数据结构在面向对象思维里是“容器”的意思&#xff0c;数据结构主要负责数据的添加&#xff0c;删除&#xff0c;修改&#xff0c;查找及对数据的其他操作。编程里面对着不同问题场景&#xff0c;选择哪种数据结构进行操作就非常重要…

Java数据集总结

Java数据集关系图&#xff08;来自网上&#xff09; 红色是接口&#xff0c;绿色是实现。其中 HashSet是通过内部持有HashMap实现TreeSet是通过内部持有TreeMap实现 除了上述基础数据集&#xff0c;还有一些其他数据集 LinkedHashMap 继承HashMapLinkedHashSet 继承HashSet&…

Java常见数据集合list、set、map

线性表 由零个或者多个数据元素组成的有限序列。第一个元素无前驱&#xff0c;最后一个元素没有后继&#xff0c;其他元素有且只有一个前驱或者后继 栈、队列 栈Queue队列Stack先进先出先进后出LinkedList&#xff1a;可以用它来实现双向队列。PriorityQueue&#xff1a;基于…

java数据集合

一&#xff09;Collection接口&#xff1a;存储单列数据&#xff1a; (1)List&#xff1a;单列有序集合&#xff08;可以重复&#xff09;&#xff1a; A、ArrayList&#xff1a;底层结构是数组&#xff0c;底层查询快&#xff0c;增删慢&#xff08;非线程安全&#xff09;&am…

windows VM12虚拟机安装苹果系统(Mac OX 10.11)

windows VM12虚拟机安装苹果系统(Mac OX 10.11) 本人最近需要使用苹果电脑生成请求文件&#xff0c;由于没有苹果电脑&#xff0c;只能安装个黑苹果对付一下了&#xff0c;以下是本人的经历。 首先需要工具 1、vm12安装包下载 提取码tcua&#xff1b; 2、unlocker208工具下载 提…

vm16安装macos12的详细配置

文章目录 版本情况macos安装unlock创建虚拟机虚拟机安装配置安装tools 优化部分参考文档部分 版本情况 VM16 macos 12.01 unlocker&#xff08;破解&#xff09; Github上的大佬Dr. Donk分享的Unlocker: https://github.com/DrDonk/unlocker/releases 资源相关链接&#xff1…

FileUtils中writeStringToFile和readFileToString的使用

使用FileUtils的前提必须先导入commons.io   jar包 maven 版本 <!-- https://mvnrepository.com/artifact/commons-io/commons-io --> <dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.…

Java 使用FileUtils.copyFile复制文件

1、FileUtils.copyFile方法 copyFile方法有多种重载形式&#xff0c;下面截图只是其中比较简单的一种&#xff0c;详细见官方文档 2、业务代码&#xff1a; private File copyFile(Long baseTime, int orgId, int typeId, String sourcePath, String fileName) throws IOExce…

【Java基础知识 18】通过FileUtils.copyFile探索IO原理

目录 一、FileUtils.copyFile1、从实例出发2、还是蛮快的&#xff0c;探索源码一番... 二、FileChannel1、读操作2、写操作3、代码实例4、控制台输出 三、如何减少copy和上下文切换的次数&#xff1f;1、为什么不能舍弃内核空间这一步&#xff0c;直接读取到用户空间呢&#xf…

FileUtils工具类常用方法

文件操作工具类&#xff08;FileUtils&#xff09; 使用 apache 的commons-io包下的FileUtils&#xff0c;import org.apache.commons.io.FileUtils; 下载地址&#xff1a;http://commons.apache.org/proper/commons-io/download_io.cgi 官方API文档&#xff1a;http://com…

App分渠道打包工具

渠道包就是要在安装包中添加渠道信息&#xff0c;也就是channel&#xff0c;对应不同的渠道&#xff0c;例如&#xff1a;小米市场、360市场、应用宝市场等。 我们要在安装包中添加不同的标识&#xff0c;应用在请求网络的时候携带渠道信息&#xff0c;方便后台做运营统计&…

H5打包成app的在线工具

H5打包成APP&#xff0c;有两种方式&#xff0c;方式一是直接用网址打包&#xff0c;方式二是将H5文件打包到APP的资源文件里面。第一种方式的用户体验不是很好&#xff0c;因为这种APP在用户没有网络的情况下&#xff0c;打开APP就会变成白屏&#xff0c;因为这种远程网址调用…

网站打包成app,webapp在线打包工具推荐

最近因为需求&#xff0c;需要把移动端网页打包成APP&#xff0c;本人一直是做网站开发的&#xff0c;没想到现在的webapp打包能如此方便了&#xff0c;打包的时候只用提供网站链接就可以了&#xff08;原理应该是做一个app简单浏览器&#xff0c;然后默认打开你网站的链接&…

HTML一键打包IPA(苹果IOS应用)工具 网站打包 APP

工具简介 HTML一键打包IPA&#xff08;苹果应用&#xff09;工具可以把本地HTML项目或者网站打包为一个苹果应用IPA文件&#xff0c;无需编写任何代码&#xff0c;支持在苹果设备上安装运行。 打包工具群&#xff1a;429338543 下载地址&#xff1a; 点击进入下载页面 加群获…

HTML一键打包APK工具_安卓app封装_H5打包安卓APP

随着目前苹果Appstore审核越来越严格&#xff0c;每天平均上架1000个&#xff0c;下架3000个应用&#xff0c;想要上架苹果应用商店已经越来越困难了&#xff0c;反复修改审核上架&#xff0c;短则1-2周&#xff0c;长则几个月&#xff0c;并且游戏类应用上架目前极其困难。 因…

AndroidStudio如何打包APP

首先&#xff0c;点击AS工具栏的Build下面的“Generate Signed Build APK…” 然后在弹出的框内选择APK &#xff08;Android App Bundle&#xff1a;用于通过 Google Play 发布的应用&#xff0c;需要升级到AS 3.2 以上版本才支持App Bundle格式&#xff1b; APK&#xff1a;…

网站项目打包成app

web项目打包app 这次打包app项目&#xff0c;主要用到的软件是HBuilderX&#xff1b; HBuilderX下载网址&#xff1a;https://www.dcloud.io/hbuilderx.html HBuilderX&#xff1a;可直接将网页打包成手机端app&#xff0c;可以有安卓和苹果两种安装包&#xff0c;这次我们主…

Flutter项目打包生成APK

flutter实现安卓打包&#xff1a;&#xff08;以安卓Studio工具为例&#xff09; &#xff08;1&#xff09;创建key.jks文件 在安卓studio中调整至项目路径&#xff0c;例如&#xff1a; 我的项目所在地 E:\Flutter\fluttershuqi>然后输入命令&#xff1a; keytool -ge…

Android App打包流程

简单总结下app打包的流程&#xff1a; 第一步&#xff1a;aapt 为res目录下的资源生成R.java文件&#xff0c;同时为AndroidManinfest.xml生成Manifest.java文件 第二步&#xff1a;aidl 把项目中自定义的aidl文件生成相应的Java代码文件 第三步&#xff1a;javac 把项目中所…