爬取福利吧论坛所有的福利汇总文(视频标题链接、图片)

article/2025/9/19 14:41:27

目录

items.py

flhz.py 

pipelines.py 


 

 目标:爬取 福利吧论坛 里的 福利汇总 文,将所有 福利汇总 文里的热门视频标题、链接以json格式保存,所有 福利汇总 文里面的图片按目录(目录名为当前图片所在页url中的7位数字),如某篇福利文 url 为http://fulibus.net/2019015.html,则该页内图片保存在当前项目目录下的 2019015 目录内

items.py

# -*- coding: utf-8 -*-
import scrapyclass ArticleItem(scrapy.Item):title = scrapy.Field()publish_time = scrapy.Field()videos = scrapy.Field()

 

flhz.py 

# -*- coding: utf-8 -*-
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from fulibus.items import ArticleItem
import osclass FlhzSpider(CrawlSpider):name = 'flhz'allowed_domains = ['fulibus.net', 'sinaimg.cn', ]start_urls = ['http://fulibus.net/category/flhz']pages_list = LinkExtractor("category/flhz")# http://fulibus.net/2019004.html http://fulibus.net/tugirl.htmlarticles_list = LinkExtractor(allow="\d{6,7}\.html",restrict_xpaths="//article[contains(@class, 'excerpt')]")images_list = LinkExtractor(allow="sinaimg\.cn/mw690/", restrict_xpaths="//article",tags="img", attrs="src", deny_extensions="")rules = (Rule(pages_list),Rule(articles_list, callback='parse_content', follow=True),Rule(images_list, callback="parse_image")  # 提取福利文中的图片链接,发送请求,用parse_images解析响应)def parse_content(self, response):article = ArticleItem()article["title"] = response.xpath("//h1/a/text()")[0].extract()article["publish_time"] = response.xpath('//span[@class="item"][1]/text()')[0].extract()video_list = []video_title_list = response.xpath('//blockquote//a/text()').extract()video_link_list = response.xpath('//blockquote//a/@href').extract()video_tuple_list = zip(video_title_list, video_link_list)for video_title, video_link in video_tuple_list:video_list.append({video_title: video_link})article["videos"] = video_listyield articledef parse_image(self, response):# 获取请求每1张图片的请求头里面的 Referer ,截取其中的7位数字作为保存目录# 灵感来源见下图# dirname = response.request.headers.get("Referer")[-12:-5]dirname = response.request.headers['Referer'][-12:-5]try:with open(dirname + "/" + response.url[-10:], "w") as f:f.write(response.body)except:os.mkdir(dirname)with open(dirname + "/" + response.url[-10:], "w") as f:f.write(response.body)

 

pipelines.py 

# -*- coding: utf-8 -*-
import jsonclass FlhzPipeline(object):def __init__(self):self.file = open("/mnt/hgfs/Ubuntu8Windows/articles.json", "w")self.file.write("[")def process_item(self, item, spider):data = json.dumps(dict(item), ensure_ascii=False)self.file.write(data.encode("utf-8")+", ")return itemdef close_spider(self, spider):self.file.write("]")self.file.close()

 


http://chatgpt.dhexx.cn/article/BQgKpQf3.shtml

相关文章

iPhone上5款视频压缩工具推荐,学会轻松压缩视频

随着技术的不断进步,现在移动端设备已经能够轻松地拍摄高清视频,然而这也带来了存储压力的增大。苹果手机更新换代频繁,但内存空间却没有跟着变大,因此如何压缩视频成为了一个重要的问题。 苹果手机怎么压缩视频?有什…

社区短视频影视appH5小视频

该源码为网站源码,自适应站 可适应多端,例如pc phone等。不含app, 可自行封装成app 主要功能: 1. 视频、图片、音乐、文章一网打尽。多广告系统,精美设计,适应所有终端设备。 2. 广告系统可针对每个模块…

宅男福利!20行Python代码,一网打尽B站小姐姐的直播信号源!

大家好,我是菜鸟哥! 今天我们又用Python来玩一个好玩的程序。随着收看直播的用户激增,越来越多的小姐姐们都在通过直播的方式和粉丝们交流互动。但是直播的界面中总是充斥着各种各样的广告推荐和弹幕信息,让我不能专注于欣赏小姐姐…

推荐几个小视频

公众号推文规则变了,点击上方 "数据社", 设为星标 后台回复【加群】,申请加入数据学习交流群 大家好,我是一哥,今天是假期的第一天,国内疫情有所缓和,大家应该都忙着到处逛吃吧。有小伙伴私聊我&…

视频怎么压缩大小?教你几个压缩视频小技巧

视频怎么压缩一下呢?在现代数字生活中,视频已经成为了一种非常普遍的媒体形式。然而,随着高清、超高清视频的普及,视频文件的大小也越来越大,给存储和传输带来了很大的负担。如果电脑或移动设备的存储空间有限&#xf…

粉丝福利来袭

** 🔥粉丝福利来袭❤️ CSDN资源免费下载!❤️ ** 本文三连加评论下载地址!粉丝可以免费下载!真实有效,顶上去!!! -----------------------------------------------------------…

【福利】Python抖音小视频无水印下载工具助手exe

本渣渣的一个老哥要的抖音小视频无水印下载,我觉得他是一个LSP,因为抖音上的小姐姐实在是太多,太好看了! 可是他就是不发好看的小姐姐抖音号给我... 难道我的肾没有他强?! 不可能啊,本渣渣经常吃…

搭建nginx rtmp流媒体服务器(超详细)

阿里云搭建rtmp流媒体服务器,中间踩过一些坑,过程一步步纪录的很详细,以及碰到的一些问题。 一.工具下载 下载Nginx wget http://nginx.org/download/nginx-1.12.1.tar.gz 下载 OpenSl https://github.com/openssl/openssl/archive/Open…

Windows上搭建rtsp-simple-server流媒体服务器实现rtsp、rtmp等推流以及转流、前端html与Vue中播放hls(m3u8)视频流

场景 Nginx-http-flv-module流媒体服务器搭建模拟推流flv.js在前端html和Vue中播放HTTP-FLV视频流: Nginx-http-flv-module流媒体服务器搭建模拟推流flv.js在前端html和Vue中播放HTTP-FLV视频流_霸道流氓气质的博客-CSDN博客 上面讲了Nginx-http-flv-moduleflv.j…

直播平台流媒体服务器搭建(Linux+Nginx+RTMP)

写在前面: 实践出真知学习编程最好的语言不是PHP,是English 近年来各大视频直播平台兴起,直播技术也愈发成熟,作为一个程序员,秉着“折腾”精神自己搭建了一个直播用的流媒体服务器,现在来和大家分享一下搭…

个人流媒体服务搭建

简介 主要是个人的流媒体服务器的创建的方式分享 Centos7自建基于HLS的私人直播服务器 相关资源下载 链接:https://pan.baidu.com/s/1zhWFpFRy2v0_lyjA0-AfAg 提取码:yyds 入门操作 实现方法基于nginx和nginx的一个rtmp模块。因为epel源和nginx官…

搭建RTSP流媒体服务器的三种方式

主要用于测试目的,系统是windows,使用的是docker desktop 3.5.1 1. rtsp-simple-server 官网:https://github.com/aler9/rtsp-simple-server (1)下载解压缩 Centos7下载压缩包,然后启动rtsp服务器 tar zx…

一分钟内搭建高性能免费流媒体服务器---导航

本博文件是为了方便大家寻找资源更加方便而写, 这样大家可以以此为入口,看到所有关于流媒体服务的相关内容,所有资源都附在了相关博文中。 在服务器系列博文中有服务器的知识群二维码,大家可以通过二维码加群讨论。 流媒体服务器…

流媒体之从零实现搭建简单流媒体服务器,推流,拉流播放全景视频

一、直播与点播 直播:在我的理解中是实时录制的内容,类似各个晚会的实时直播过程,在现场采集图像的同时传输影像到网络上。点播:是提前录制完成的内容,类似某些直播平台上根据观众的需求播放某些电影或经典电视剧。终…

阿里云搭建流媒体服务器

最近不少人问是否能够将云视睿博流媒体服务器NTV Media Server G3搭建在阿里云服务器上,答案是肯定的,而且我们大部分客户都是这样用的,利用流媒体服务器的视频处理和播出能力,以及阿里云的基础计算能力和可扩展性,构建…

流媒体视频服务:快速搭建一个简单的流媒体视频服务(一)

快速搭建一个简单的流媒体视频服务 前言系统组成RTMP协议简介Red5 概述Red5 服务器搭建 前言 最近自己在研究有关于流媒体播放的技术,网上资料甚少。出于开源精神以及在查阅资料得到各位大佬的帮助,故将自己的心得写下记录,便于分享以及日后…

用VLC搭建简单的流媒体服务器

在做视频传输客户端开发的时候,经常需要用到流媒体服务,VLC有着非常强大的流媒体处理能力,同时它也可以搭建流媒体服务器。这里介绍一种使用图形化界面搭建RTSP流媒体服务的应用。 (1)打开一个本地的流文件 &#xff…

Linux下视频流媒体服务器搭建详解

目标用于搭建内网流媒体服务器支持视频的点播。 背景 用于支持培训网站中视频点拨功能,在培训网站总体方案中需要加入流媒体服务器,用于存储和传输视频资源。 相关概念 流媒体流媒体(Streaming Media)是一种新兴的网络传输技术…

流媒体服务器搭建亲测有效(srs)

流媒体服务器搭建流程 第一步 去官网下载srs的源码文件官网地址:[https://github.com/ossrs/srs#usage] 说明:建议下载4.0版本,3.0的需要flash的支持。目前谷歌浏览器已经停止了flash的使用。 第二步 按照官网的步骤进行操作 1.进行解压文…

搭建自己的流媒体服务器-(1)服务器搭建篇

搭建自己的流媒体服务器-(1)服务器搭建篇 http://download.csdn.net/download/katdriver/3272133 http://blog.csdn.net/haolipengzhanshen/article/details/50810066 标签: ios流媒体服务器服务器 2016-02-19 15:09 121人阅读 评论(0) 收藏 举报 分…