网页爬虫在工作框架中,首要流程是由解析器,控制器,资源库三部分构成。
解析器的首要工作是下载页面,做好页面的处理,将某些JS脚本标签、CSS代码内容、空格字符、HTML标签等內容处理掉,网络爬虫的基本工作是由解析器完成。
控制器的首要工作是负责给多线程中的各个网络爬虫线程划分工作目标。资源库是用于储放下载到的网页资源,通常都选用大型的数据库存储,如Oracle数据库、Sql数据库,并对其创建索引。
解析器的首要工作是下载页面,做好页面的处理,将某些JS脚本标签、CSS代码内容、空格字符、HTML标签等內容处理掉,网络爬虫的基本工作是由解析器完成。
控制器的首要工作是负责给多线程中的各个网络爬虫线程划分工作目标。资源库是用于储放下载到的网页资源,通常都选用大型的数据库存储,如Oracle数据库、Sql数据库,并对其创建索引。