网站上的历史数据可以通过爬虫获取吗？

首先了解下网络爬虫的基本工作流程：

网站上的历史数据可以通过爬虫获取吗？第1张

1.先选取一部分精心挑选的种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中网页数据抓取。此外，将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环网页数据抓取。

由此可见，你要的数据要通过URL进行传递，如果URL无效，通过一般正常的手段是基本获取不到数据的网页数据抓取。所以基本上只要是人无法看到的东西就可以默认为无法获取到。

微信号：956602803
加微信好友, 获取更多信息
复制微信号

声明

一、本站原创内容，其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载，也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。

二、本网站转载其它媒体作品的目的在于传递更多信息，并不代表本网站赞同其观点和对其真实性负责；如侵犯你的权益请告诉我们立即删除；其他媒体、网站或个人转载使用自负法律责任。