Beta版本软件使用说明

article/2025/10/28 13:09:53

北京航空航天大学计算机学院 远航1617 小组

产品版本: Beta版本

产品名称:Crawling   is going on

文档作者:杨帆

文档日期:2013/12/24

 

1.   引言

1.1      编写目的

  编写本使用说明的目的是充分叙述本软件所能实现的功能及其运行环境,以便使用者了解本软件的使用范围和使用方法,

并为软件的维护和更新提供必要的信息。

1.2      参考资料

资料名称

作者

自己动手写网络爬虫

罗刚

Web数据挖掘

(Soumen Chakrabarti)查凯莱巴蒂

软件测试

肖汉

精通SQL Server   2008完全自学手册

金玉明

 

1.3      术语和缩写词

缩略语

全意

爬虫

一种自动获取网页内容的程序,是搜索引擎的重要组成部分

URL

中文名称为“统一资源定位符”,是互联网上标准资源的地址

过滤

去除网页中不符合需求的内容,例如广告等

线程

爬虫程序运行时的程序调度单位

 

2        软件概述

2.1      软件用途

  本软件用于自动获取网页内容,同时具有去广告,分类保存扒取到的文件,网页质量判定等功能。

是网上问答系统等搜索引擎的重要组成部分。

2.2      软件运行

  本软件运行在PC 及其兼容机上,使用WINDOWS 操作系统 ,需安装JDK以及JRE(建议使用最新版本)。

双击文件ThreadCrawler_final.jar运行软件。

2.3      系统配置

  本软件运行在PC 及其兼容机上,使用WINDOWS 操作系统,要求奔腾4以上CPU,512兆以上内存,

10G 以上硬盘。

2.4      软件结构


 

1.1      软件性能

  功能测试用例通过率达到94%。爬取的网页达到10^2数量级时,平均用时不超过1.5分钟。

  CPU占用率如下表:

序号

爬取数

CPU占用率(%

内存占用率(KB

1

10

2.28

174650

2

100

8.46

190878

3

1000

29.54

152768

可靠性,安全性,易用性均经过测试并达到测试要求。

1.2      输入、处理、输出

2.6.1   输入

1)     网络爬取过程开始的一个或多个源网址。

2)     预期抓取的网页数量。

2.6.2   处理

  程序将从源网址(输入1)开始依次爬取下一级链接或下一源网址队列中下一链接,爬取到预期爬取网页数量后(输入2)停止爬取。

  点击start键开始爬取。

  点击close键关闭软件。

2.6.3    输出

1)        已爬取的URL数;

2)        当前爬取URL;

3)        爬取进度;

4)        爬取状态;

5)        爬取的URL;

6)        本地File目录下爬取结果下载的文件内容,包含html等文件。

7)        数据库中保存文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、

    更新时间集、以及最后一次操作时间等信息。

8)        对于当前数据库中文件类型的统计,以饼状图的形式展示。

3          软件使用过程

3.1      软件安装

  将软件压缩包中的全部文件解压到本地。

3.2      运行说明

  本软件需运行在WINDOWS操作系统下,并需要安装最新版本的JDK和JRE。

  配置数据库到Windows(或Windows server)数据源中,数据库名为yuanhang。数据库中包括:被抓取网页的类型、

编码等信息;文件下载后在本地的存储路径;文件的下载时间记录、更新时间记录、最后一次更新记录。

  软件安装完成后,双击运行ThreadCrawler_final.jar文件进入软件操作界面。

3.3      控制输入

1)    运行软件出现主界面后,在主界面的select the file中选择源网址输入方式。若源网址只有一个,输入方式选择No,

   在URL seed中输入唯一源网址;若需爬取多个源网址,输入方式选择Yes,并在目录下test.txt文件中输入源网址队列。

   输入格式为:每个源网址占一行,回车换行。

2)    在主界面how much pages中输入想要抓取的网页数量。

3)    点击“start”按钮开始爬取。

3.4      输出文件

  在本地File路径下为爬取结果下载的文件内容,包含html等文件。

  在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、

更新时间集、以及最后一次操作时间等信息。

3.5      输出报告

  在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、爬取的全部URL。

3.6      数据库文件分析

  点击主界面analyse键,可对当前数据库内文件类型以及数量信息进行统计,并以饼状图展示。

3.7      非常规过程

  如果出现不可能处理的问题,可以直接与远航1617 小组的技术支持人员联系团队博客:

  http://www.cnblogs.com/yuanhang1617。

 

4        软件维护过程

4.1     源程序清单

本软件源程序全部位于default package包中,共包括9个文件:

ConnectServer.java

CraUi.java

DownLoadFile.java

HtmlParserTool.java

LinkFilter.java

LinkQueue.java

MyCrawler.java

Queue.java

Url.java


 

转载于:https://www.cnblogs.com/yuanhang1617/p/3489932.html


http://chatgpt.dhexx.cn/article/ArXGPlVi.shtml

相关文章

Beta版本测试报告以及Beta版本发布说明

Beta版本测试报告 请根据团队项目中软件的需求文档、功能说明、系统设计和Beta阶段的计划安排,写出软件的测试过程和测试结果,并回答下述问题。 在测试过程中总共发现了多少bug?每个类别的bug分别为多少个?bug的分类: …

Beta版本测试报告

新发现的问题&战略调整: 这里的问题主要包含两种: 优化问题和不影响整体使用的bug,主要针对即时聊天以及UI交互部分;我们安排六位同学两两组队,在一周时间内分别对产品进行覆盖性的体验测试,提出了以…

微软发布 Windows 11 首个 Beta 版本

近日,微软向开发频道发布了 Windows 11 Insider Preview Build 22000.100,在没有发现重大问题之后,微软现在又向更稳定的 Beta 频道发布了同样的版本,这也是 Windows 11 首个 Beta 频道的预览版。微软建议那些想尝试 Windows 11 版…

软件版本号讲解:什么是Alpha, Beta, RC,Release

1. 软件版本阶段说明 Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改。Beta版: 该版本相对于α版已有了很大的改进,消除了严重的…

WhiteHole Base beta版本正式发布!

体验 当前版本为基础测试版本,测试效果可以前往演示视频查看:https://www.bilibili.com/video/BV18Y411D7sA/?spm_id_from333.999.0.0&vd_source641e71dfd1a118fb834c4a5d156688d5 在线体验地址为: http://47.100.239.95 数据将保存~ …

版本详解:Beta、Dev、Canary、Stable、Chromium等版本

以Edge浏览器为例,各个版本有着不同的区别,或者说各个版本是测试版: 以Edge浏览器来说: Canary(金丝雀)版本浏览器,命名金丝雀,以为着“版本金贵且易碎”,这意味着该版本会融入很多新功能或者说…

UDS学习笔记(三)——协议的理解

在理解了CAN总线之后,我们就需要学习UDS协议了。百度一下UDS协议,出现很多的两个标准是ISO14229,ISO15765。ISO14229就是我们说的UDS诊断协议了,那还有一个ISO15765又是什么呢?这么多的标准要把脑袋都搞大了。那我们就…

UDS协议中常见的NRC

UDS诊断协议中常见的NRC NRC:Negative Response Code,否定响应码

解读UDS协议中NRC以及NRC优先级

最近被新东方转型之举震撼,让自己震撼的不是销售业绩、不是俞敏洪再创业启航,震撼的是多读书是真的可以改变一个人的,多读的这些书不是应用工作的功利书,是能慰藉心灵的“闲书”。为使自己摆脱高知识低文化宿命,分享一段文字,开始今天的主题: “ 我当然很希望自己可以得…

【UDS】ISO15765-2之协议数据单元

文章目录 简介结构格式分类1.单帧SF2.首帧FF3.流控帧FC4.连续帧CF 总结 ->返回总目录<- 简介 网络层协议数据单元&#xff08;N_PDU&#xff0c;Network_Protocol Data Unit&#xff09;。可以理解成是一种规范协议。而汽车电子中通信的报文格式就是以PDU为传输单元&am…

聊聊诊断协议——UDS

文章目录 前言一、车载诊断功能是什么&#xff1f;二、诊断协议框架总结 前言 随着技术不断提高&#xff0c;驾驶员对车辆的要求也在不断提高&#xff0c;因此车身控制器的数量也在与日俱增。控制器实现的功能&#xff1a;安全功能&#xff08;防抱死系统等&#xff09;、驾驶…

UDS诊断基础——UDS网络层协议

汽车诊断简介 汽车诊断分类 按照连接方式分类可分为在线诊断、远程诊断&#xff1a; 在线诊断&#xff1a;诊断仪通过与汽车OBD(On Board Diagnostic)接口直接连接远程诊断&#xff1a;通过车载终端、云端服务、用户之间交互实现 按照通信方式分类可分为&#xff1a; 基于…

汽车诊断UDS通信协议总结

UDS通信过程 UDS&#xff08;Unified Diagnostic Services&#xff09;是一种用于汽车诊断的通信协议&#xff0c;它是基于CAN&#xff08;Controller Area Network&#xff09;总线的一种高层协议。 下面是UDS通信的基本流程&#xff1a; 建立诊断会话&#xff1a;通过CAN总…

UDS诊断系列之二 ISO14229协议介绍(上)

ISO14229系列&#xff0c;涵盖了UDS的服务定义以及在各车载总线上的一些特殊应用指导&#xff0c;以及各总线类型所对应的下层协议要求&#xff0c;下面就是该系列中各协议所对应的内容清单。 协议编号协议名称协议内容14229-1Application layerUDS的使用规则&#xff0c;服务…

基于UDS协议的Bootloader

参考上汽标准:SMTC 2 800 004 电控单元诊断开发的技术要求 一、概述 二、Bootloader要求 三、刷新流程 四、刷新示例 一、概述 Bootloader概述&#xff1a;使用UDS协议服务实现应用软件&#xff0c;应用数据&#xff08;包括网络配置数据和标定数据&#xff09;的更新。B…

UDS - 诊断协议和协议栈介绍

目录 UDS介绍 UDS命令形式 UDS的26种服务 UDS on CAN (CAN上的UDS为例说明) 常用UDS命令 故障码&#xff08;四个大类&#xff09; NRZ码 CAN ID与CAN节点寻址关系 UDS源代码 &#xff08;UDS协议栈&#xff09; CAN诊断实战 UDS介绍 UDS&#xff08;全称&#xff1…

UDS应用层协议解析(史上最全)

UDS应用层协议解析 UDS应用层协议解读&#xff08;下&#xff09; 诊断服务分类 基础服务类 0x10 诊断会话模式 任何会话模式切换至默认会话模式时&#xff0c;非默认会话模式下设置的状态需要reset&#xff08;28服务、85服务设置的状态需要恢复至默认状态&#xff0c;27服务解…

UDS协议入门之10服务

前言 ISO-14229中按各服务的功能将uds协议划分为六大类&#xff1a; Diagnostic and Communication Management &#xff08;诊断和通信管理&#xff09;Data Transmission &#xff08;数据传输&#xff09;Stored Data Transmission &#xff08;存储数据传输&#xff0c;用…

UDS协议发展历史(UDS是什么?)

诊断协议那些事儿 本文为诊断协议那些事儿专栏首篇文章&#xff0c;旨在介绍诊断的起源、发展历史&#xff0c;让读者对诊断有一个基本的认识&#xff0c;明确UDS到底是什么。 关联文章&#xff1a; UDS的应用场景 UDS的OSI模型 UDS服务列表 文章目录 诊断协议那些事儿一、诊…

(转发)详解汽车UDS诊断协议(二)

一.概述 UDS定义的服务从逻辑上分为6类&#xff0c;在上一篇文章中已经对诊断和通信管理类”“数据传输类”“存储数据传输“进行了解读。本文将介绍余下3类UDS服务&#xff0c;即“IO控制服务”“例行程序服务”“上传与下载服务”。 二.诊断服务内容 O控制服务 1. InputO…