原因:网页内容较多,页面信息量大,采集到一定数据量时,缓存过多导致内存分区爆掉。
解决方法:可以尝试将任务进行拆分,分为多个任务进行采集。比如先采集详情页的网址(URL),再通过循环打开这些链接(URL)去采集详情页面的数据,可参考以下教程。
1. URL循环:批量采集同类网页(图文)
2. URL循环:批量采集同类网页(视频)