博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
crawler_爬虫开发的曲线图
阅读量:5278 次
发布时间:2019-06-14

本文共 450 字,大约阅读时间需要 1 分钟。

个人总结爬虫的学习曲线,可分为三个阶段, 

一、 

    主要在填充基础知识,要熟悉http协议,学习正则表达式,首先基于jdk的基础包的网络功能,.net包下的  httpurlconnction 

从细节上简单访问网络数据,进一步可以减去一些繁琐的封装功能(请求参数),使用httpClient (4.2.1)版本,处理的登录

页面解析可以借助regex ,jsoup ,htmlparser ,建议使用正则(要求较高),数据的锁向性准确,性能高。

二、

    融入架构的思想,考虑爬取性能,爬取道德,站点处理能力,设计实现分布式爬虫,异步下载,负载均衡。

个人正在处在第二阶段

三 、

    经过阶段二,一般商用爬虫都能应对,若打算进一步提高,java的垃圾回收,内存释放,注定性能比不上c,

可根据个人兴趣,用c重写。

不尽之处,欢迎沟通与交流 ,共同进步。

爬虫技术交流_crawler  QQ群 :167047843

转载于:https://www.cnblogs.com/cphmvp/p/3304535.html

你可能感兴趣的文章
安装NVIDIA驱动时禁用自带nouveau驱动
查看>>
HDU-1255 覆盖的面积 (扫描线)
查看>>
项目管理之路(1):初步踏入项目管理
查看>>
Java 中 静态方法与非静态方法的区别
查看>>
Jenkins+ProGet+Windows Batch搭建全自动的内部包(NuGet)打包和推送及管理平台
查看>>
php上传文件及头像预览
查看>>
大四java实习生的一些经历
查看>>
线程池的概念
查看>>
Oracle_Statspack性能诊断工具
查看>>
Java 序列化
查看>>
Java 时间处理实例
查看>>
Java 多线程编程
查看>>
Java 数组实例
查看>>
mysql启动过程
查看>>
2017前端面试题总结
查看>>
Http GetPost网络请求
查看>>
SWIFT国际资金清算系统
查看>>
Sping注解:注解和含义
查看>>
站立会议第四天
查看>>
如何快速掌握一门技术
查看>>