网页爬虫代理的基本工作原理【爬虫技术吧】

爬虫技术吧关注：1,266贴子：6,435

1回复贴，共1页

网页爬虫代理的基本工作原理

网页爬虫在工作框架中，首要流程是由解析器，控制器，资源库三部分构成。
解析器的首要工作是下载页面，做好页面的处理，将某些JS脚本标签、CSS代码内容、空格字符、HTML标签等內容处理掉，网络爬虫的基本工作是由解析器完成。
控制器的首要工作是负责给多线程中的各个网络爬虫线程划分工作目标。资源库是用于储放下载到的网页资源，通常都选用大型的数据库存储，如Oracle数据库、Sql数据库，并对其创建索引。

送TA礼物

1楼2020-07-17 15:57回复

解析器
解析器是负责网络爬虫的首要部分，其负责的工作首要有：下载网页的作用，对网页的文本做好处理，如过滤作用，提取特殊HTML标签的作用，分析数据作用。
控制器
控制器是网页爬虫的中央控制器，它主要是负责依据系统传过来的URL链接，划分一线程，随后启动线程读取网络爬虫爬取网页的流程。
资源库主要是用于存储网页中下载下来的数据记录的容器，并给予生成索引的目标源。中大型的数据库产品有：Oracle、SqlServer等。

2楼2020-07-17 15:58

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1回复贴，共1页

<返回爬虫技术吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

网页爬虫代理的基本工作原理

登录百度账号

扫二维码下载贴吧客户端