爬虫技术吧 关注:1,266贴子:6,435
  • 1回复贴,共1

网页爬虫代理的基本工作原理

只看楼主收藏回复

网页爬虫在工作框架中,首要流程是由解析器,控制器,资源库三部分构成。
解析器的首要工作是下载页面,做好页面的处理,将某些JS脚本标签、CSS代码内容、空格字符、HTML标签等內容处理掉,网络爬虫的基本工作是由解析器完成。
控制器的首要工作是负责给多线程中的各个网络爬虫线程划分工作目标。资源库是用于储放下载到的网页资源,通常都选用大型的数据库存储,如Oracle数据库、Sql数据库,并对其创建索引。


1楼2020-07-17 15:57回复
    解析器
    解析器是负责网络爬虫的首要部分,其负责的工作首要有:下载网页的作用,对网页的文本做好处理,如过滤作用,提取特殊HTML标签的作用,分析数据作用。
    控制器
    控制器是网页爬虫的中央控制器,它主要是负责依据系统传过来的URL链接,划分一线程,随后启动线程读取网络爬虫爬取网页的流程。
    资源库主要是用于存储网页中下载下来的数据记录的容器,并给予生成索引的目标源。中大型的数据库产品有:Oracle、SqlServer等。


    2楼2020-07-17 15:58
    回复