www.wwwwwwwwww

article/2025/9/13 5:27:49

复习题

   

一、问答题

1.Anaconda的优点有哪些?

(1)开源。

(2)安装过程简单。

(3)⾼性能使⽤Python和R语⾔。

(4)免费的社区⽀持。

(5) Conda包管理。

(6) 1,000+开源库

2.爬虫技术是什么?它的设计流程有哪些?

     通过递归访问网络资源,抓取网络中信息的数据。

Scrapy是一个用于爬取网页、提取结构化数据的应用的框架,可用于数据挖掘、信息处理或历史归档等的应用系统。

(1)Scrapy Engine:负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等;

(2)Scheduler:它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列和入队,当引擎需要时交还给引擎;

(3)Downloader:负责下载Scrapy Engine发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine,由引擎交给Spider来处理;

(4)Spider:负责处理所有的Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler;

(5)Item Pipeline:负责处理Spider中获取到的Item,并进行后期处理(详细分析、过滤、存储等)的地方;

(6)Downloader Middlewares:一个可以自定义扩展下载功能的组件;

(7)Spider Middlewares:一个可以自定义扩展的操作引擎和Spider中间通信的功能组件。

3.Python提供了大量用于编写网络爬虫程序的标准库和扩展库,请列举5个,并说说它们各自的特点。

(1)urllib库:它提供了urllib.request、urllib.response、urllib.parse和urllib.error四个模块,很好地支持了网页内容读取功能;它结合Python字符串方法和正则表达式,可以完成一些简单地网页内容爬取工作,也是理解和使用其他爬虫库地基础。

(2)Scrapy:它是一个非常好用地Web爬虫框架,非常适合抓取Web站点从网页中提取结构化的数据,并且支持自定义需求。

(3)BeautifulSoup是一个非常优秀的扩展库,可以用来从HTML或XML文件中提取我们感兴趣的数据,并且允许指定使用不同的解析器。

(4)Requests可以使用更简洁的形式来处理HTTP和解析网页内容。

(5)Selenium是一个用于Web应用程序测试的工具,可以用来驱动几乎所有的主流浏览器,完美模拟用户操作,从终端用户的角度测试应用程序。

二、请填写缺失的代码。

1. from bs4 import BeautifulSoup

file = open('samples/./htmlsample01.htm', 'rb')

html = file.read()

bs = BeautifulSoup(html,"html.parser")

# 获取title标签的所有内容

print(      ) bs.title

# 获取head标签的所有内容

print(      ) bs.head

# 获取第一个a标签的所有内容

print(      ) bs.a

# 类型

print(       ) type(bs.a)

2. from selenium import webdriver  #导入库

from selenium.webdriver.common.by import By

browser = webdriver.Chrome() #导入引擎

url = 'https://www.taobao.com'  #设置要访问的网站

           browser.get(url)

input_1 =       #调用查找元素函数找到id为q的元素 browser.find_element(By.ID, 'q')

print(       ) #打印输出结果   input_1

3. #导入相关的库

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

#绘制条形图

df= pd.DataFrame(np.random.rand(10,4),

       ) columns=['a','b','c','d']

         df.plot.bar()

         plt.show()

三、论述题

1.请谈谈抽取Word文档文本信息的案例的算法思路。

(1)切分文件上级目录和文件名。

(2)修改转化后的文件名。

(3)设置保存路径。

(4)加载处理应用,将Word转为txt文本。

(5)本地化保存文本。

四、程序设计题。

1.代码如下,请写出输出结果。

import numpy as np  #导入数组

arr2 = np.array([[1,2],[3,4],[5,6]])

print("数组的维数:",arr2.ndim)

print("数组元素总个数:",arr2.size)

print("元素类型:",arr2.dtype)


http://chatgpt.dhexx.cn/article/UaiXw1qj.shtml

相关文章

NWD(2022)

A Normalized Gaussian Wasserstein Distance for Tiny Object Detection Abstract 检测微小物体是一个非常具有挑战性的问题,因为微小物体仅包含几个像素大小。我们证明,由于缺乏外观信息,最先进的检测器无法在微小物体上产生令人满意的结…

SAN环境中WWN,WWNN,WWPN的区别

存储区域网络(Storage Area Network,简称SAN)采用网状通道(Fibre Channel ,简称FC,区别与Fiber Channel光纤通道)技术,通过FC交换机连接存储阵列和服务器主机,建立专用于…

WWN,WWNN,WWPN介绍

WWN是HBA卡用的编号吧,每一个光纤通道设备都有一个唯一的标识,称为WWN(world wide name),由IEEE负责分配。在有多台主机使用磁盘阵列时,通过WWN号来确定哪台主机正在使用指定的LUN(或者说是逻辑…

WWN,WWNN,WWPN区别

WWN: world wide number 是硬件的全球唯一标示 WWPN: world wide port number 是指端口号 WWNN: world wide node number 是指节点号 如果是光纤交换机的话wwn和wwnn是一样的,而wwpn是指每个光纤端口. 如果是HBA卡的话,若是只有一个端口则三者可能一样,若是有多个端口则和交换…

如何查看WWN号

如何查看WWN号 WWN即World Wide Name,用来标识网络上的一个连接或连接集合,主要用于FC和SAS。就像网卡的MAC地址一样,WWN是用在光纤网络的。 如何查看WWN号AIX: 1,获得AIX主机连接的光纤设备: # lsdev -Cc adapter -S a | grep fcs fcs0 Ava…

linux查看WWN号及常见问题解决

linux查看WWN号及常见问题解决 查看WWN号查看WWID号查询常见问题 查看WWN号 要查看CentOS 6.7版本的WWN号,可以执行以下步骤: 1.确保已经连接了存储设备。 lspci | grep -i fibre2.在终端中输入命令:lsscsi,然后按 Enter 键。该命…

WWN,WWNN,WWPN三者的区别

WWN: world wide number 是硬件的全球唯一标示 WWPN: world wide port number 是指端口号 WWNN: world wide node number 是指节点号 如果是光纤交换机的话wwn和wwnn是一样的,而wwpn是指每个光纤端口. 如果是HBA卡的话,若是只有一个端口则三者可能一样,若是有多个端口则和交换…

excel制作可模糊匹配的下拉框

1.整体效果: 2.设置数据有效性 在来源中输入公式:OFFSET(国籍地区!$A$1,MATCH(船舶基本资料!$F2&"*",国籍地区!$A$2:$A$246,0),,COUNTIF(国籍地区!$A$2:$A$246,船舶基本资料!$F2&"*"),) 其中“国籍地区”为一个sheet,ru如下…

关于Excel表操作-通过gensim实现模糊匹配

gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF,LDA,LSI等模型转换成向量模式,此外,gensim还实现了word2vec,能够将单词转换为词向量。 gensim的一些常见概念: 语料Corpus: 一组原始…

Excel效率提升|解决不完全匹配数据整理

以各地级市(1-5线城市)人均GDP数据为例 从国家统计局或wind导出来的数据: 而我们整理后的目标sheet的匹配字段如图: 如何进行有效匹配? 观察可知:我们需要以城市名作为匹配的依据 如何将城市名批…

ExcelWPS通配符的使用方法,一招解决模糊查询!

大家好,本期和大家分享Excel通配符的使用方法! Excel 通配符一共有3个。 它们的含义如下图所示: 符号含义举例?表示任意单个字符比如要查找所有姓王的名字为2个字的人,则可以使用 【 王? 】 代替;查找所…

[Excel]vlookup的内在逻辑以及模糊检索

作为一个excel的用户,vlookup可能是使用频度最高的一个函数 但是有关这个函数当中的数学意义不知道大家具体了解多少 今天就在这里讲讲我个人的vlookup的一些用法 比一般的使用方法稍微高阶一点(求保命) 大部分人刚开始使用vlookup的时候都…

python 模糊匹配字符串 excel,python pandas模糊匹配 读取Excel后 获取指定指标的操作...

1.首先读取Excel文件 数据代表了各个城市店铺的装修和配置费用,要统计出装修和配置项的总费用并进行加和计算; 2.pandas实现过程 import pandas as pd #1.读取数据 df = pd.read_excel(r./data/pfee.xlsx) print(df) cols = list(df.columns) print(cols) #2.获取含有装修 和…

模糊匹配省市区地址

用户输入地址不可能一定规范,如按习惯省略掉:“省”、“市”、“区”等关键字,此时安装正则匹配很容易查找不到正确的地址。 以下代码按照用户输入的先后顺序,相同的词组进行匹配,可靠性与适配性大大提高,记…

excel根据不同的条件模糊匹配,替换,做计算

IF(COUNTIF(E2,“Gbps”)>0,VALUE(SUBSTITUTE(E2," Gbps","")),IF(COUNTIF(E2,“Tbps”)>0,VALUE(SUBSTITUTE(E2," Tbps","")*1024),IF(COUNTIF(E2,“Mbps”)>0,VALUE(SUBSTITUTE(E2," Mbps","")/1024),…

【Python处理EXCEL】轻办公实用篇1:通过模糊匹配算法对两个excel表格的内容进行匹配归类

目录 一、问题描述 二、运用方法 三、代码编写 3.1 3.2 3.3 3.4 3.5 四、代码集合 一、问题描述 在实习的时候,需要将两个表格的内容进行匹配分类,比如两个不同的工程项目针对的对象都是A,那么就需要将这两个工程项目归类到A当中&am…

python 模糊匹配字符串 excel,python pandas模糊匹配Excel指定指标 python pandas模糊匹配 读取Excel后 获取指定指标的操作...

想了解python pandas模糊匹配 读取Excel后 获取指定指标的操作的相关内容吗,D_grey在本文为您仔细讲解python pandas模糊匹配Excel指定指标的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,pandas,模糊匹配,读取Excel,指定指标,下面大家一起来学习吧。 1.首…

wps中excel如何实现模糊搜索匹配的内容(可以匹配想要的各种格式)

1,在某一列进行搜索-筛选搜索-如包含“XXX信息XX公司XX”这种格式的。 输入 :信息*公司 (1)选择第一种搜索方式代表寻找符合条件: 包含信息和公司两个关键字, 且信息在前公司在后, 且两个词语之…

【如何使用Excel进行两表之间模糊匹配查找】

在特殊情况下,A表中表示人名字段的内容只是包含名字,B表中表示人名字段包含姓和名字,如A表:yinxu ,B表:li yinxu ,我们认为是同一个人,如何通过Excel更好的匹配出来呢? &#xff0…

excel部分字段相同模糊匹配

一、提出问题 你要么获取一批数据,然后根据它提问,或者先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。 二、理解数据 1、理解各字段的意思,如果有英文可修改成中文更易理解。 2、在数据清洗…