ava网络爬虫简单实现
时间:2015-10-19
来源:科泰教育
[p=168, null, left]*先介绍每个类的功能:
[p=180, null, left][size=168px]DownloadPage.java
[p=180, null, left]的功能是下载此超链接的页面源代码
[p=180, null, left][size=168px].
[p=180, null, left][size=168px]FunctionUtils.java
[p=180, null, left]的功能是提供不同的静态方法,包括:页面链接正则表达式匹配
[p=180, null, left][size=168px],
[p=180, null, left]获取
[p=180, null, left][size=168px]URL
[p=180, null, left]链接的元素
[p=180, null, left][size=168px],
[p=180, null, left]判断是否创建文件
[p=180, null, left][size=168px],
[p=180, null, left]获取页面的
[p=180, null, left][size=168px]Url
[p=180, null, left]并将其转换为规范的
[p=180, null, left][size=168px]Url,
[p=180, null, left]截取网页网页
[p=168, null, left]源文件的目标内容。
[p=180, null, left][size=168px]HrefOfPage.java
[p=180, null, left]的功能是获取页面源代码的超链接。
[p=180, null, left][size=168px]UrlDataHanding.java
[p=180, null, left]的功能是整合各个给类,实现
[p=180, null, left][size=168px]url
[p=180, null, left]到获取数据到数据处理类。
[p=180, null, left][size=168px]UrlQueue.java
[p=180, null, left]的未访问
[p=180, null, left][size=168px]Url
[p=180, null, left]队列。
[p=180, null, left][size=168px]VisitedUrlQueue.java
[p=180, null, left]已访问过的
[p=180, null, left][size=168px]URL
[p=180, null, left]队列。
[p=168, null, left]下面介绍*下每个类的源代码:
[p=180, null, left][size=168px]DownloadPage.java
[p=180, null, left]此类要用到
[p=180, null, left][size=168px]HttpClient
[p=180, null, left]组件。
-
上一篇:
web前端css定位position和浮动float
-
下一篇:
十大面试问题解惑,秒杀一切HR、技术面试
相关推荐: