# 提取模拟器

测试接口主要用于用户在配置风铃虫定义规则时测试使用,请勿将此作为正式抓取功能使用。

所有测试接口的返回数据都是同一种数据结构,该数据结构的定义如下:

public class SimulatorData implements Serializable {

	/**
	 * 
	 */
	private static final long serialVersionUID = 3200425841448559923L;
	/**
	 * 测试是否否成功,true表示成功,false表示失败
	 */
	private Boolean success;
	/**
	 * 提示信息
	 */
	private String msg;
	/**
	 * 结果数据
	 */
	private Object data;

}

# 网页下载功能测试

该接口主要是为了测试站点规则的配置是否正确以及目标网站能否访问。

测试接口如下:

    /**
	 * 测试网页下载器<br/>
	 * 使用自定义下载器
	 * 
	 * @param url        测试网页的地址
	 * @param siteRule   站点规则
	 * @param downloader 网页下载器,可以为null
	 * @return 测试结果
	 */
	SimulatorData data=Crawler.testDown(SiteRule siteRule, LinkRule linkRule);

# 链接抓取功能测试

该接口主要是为了测试链接解析规则是否配置正确,在该返回结果的结果数据属性中会包含所有提取出来的链接,通过对比预期值和实际值,用户可以不断调整链接解析规则配置参数。

测试接口如下:

  /**
	 * 测试链接提取规则<br/>
	 * 使用自定义下载器
	 * 
	 * @param url        测试目标地址
	 * @param siteRule   站点规则
	 * @param linkRule   链接提取规则
	 * @param downloader 网页下载器,可以为null
	 * @return 测试结果
	 */
	SimulatorData data=Crawler.testLink(String url, SiteRule siteRule, LinkRule linkRule,Downloader downloader);

# 内容匹配功能测试

该接口主要是为了测试内容解析规则是否配置正确,内容解析规则的目的是标识那些页面是内容页,在该返回结果的提示信息属性会告知用户匹配通过与否的原因。

测试接口使用方法如下:

	/**
	 * 内容匹配测试
	 * 
	 * @param url        测试目标地址
	 * @param siteRule   站点规则
	 * @param content    内容解析规则
	 * @param downloader 网页下载器,可以为null
	 * @return 测试结果
	 */
SimulatorData data = 
	Crawler.testMatcher(String url, SiteRule siteRule, ContentRule content,
			Downloader downloader);

# 内容提取功能测试

该接口主要是为了测试内容提取规则是否配置正确,若内容提取规则配置正确,在结果数据中会包含预期的结果数据

测试接口使用方法如下:

		/**
	 * 测试内容提取规则<br/>
	 * 使用自定义下载器
	 * 
	 * @param url                测试网页的地址
	 * @param siteRule           站点规则
	 * @param contentExtractRule 内容提取规则
	 * @param downloader         网页下载器
	 * @return 测试结果
	 */
SimulatorData data = 
	Crawler.testContent(String url, SiteRule siteRule, ExtractRule contentExtractRule,
			Downloader downloader;

Last Updated: 5/23/2020, 11:37:44 PM