分享

HtmlUnit使用

 昵称9552892 2015-11-18

HtmlUnit使用

Java代码  收藏代码
  1. package com.lanyotech.www.wordbank;  
  2.   
  3. import java.io.FileOutputStream;  
  4. import java.io.IOException;  
  5. import java.io.InputStream;  
  6. import java.io.OutputStream;  
  7. import java.net.MalformedURLException;  
  8. import java.util.List;  
  9. import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;  
  10. import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;  
  11. import com.gargoylesoftware.htmlunit.ScriptResult;  
  12. import com.gargoylesoftware.htmlunit.WebClient;  
  13. import com.gargoylesoftware.htmlunit.html.HtmlOption;  
  14. import com.gargoylesoftware.htmlunit.html.HtmlPage;  
  15. import com.gargoylesoftware.htmlunit.html.HtmlSelect;  
  16.   
  17. public class WorldBankCrawl {  
  18.   
  19. private static String TARGET_URL = “http://databank.worldbank.org/ddp/home.do”;  
  20.   
  21. public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {  
  22. //模拟一个浏览器  
  23. WebClient webClient = new WebClient();  
  24. //设置webClient的相关参数  
  25. webClient.setJavaScriptEnabled(true);  
  26. webClient.setCssEnabled(false);  
  27. webClient.setAjaxController(new NicelyResynchronizingAjaxController());  
  28. webClient.setTimeout(35000);  
  29. webClient.setThrowExceptionOnScriptError(false);  
  30. //模拟浏览器打开一个目标网址  
  31. HtmlPage rootPage= webClient.getPage(TARGET_URL);  
  32. //获取第一个数据库  
  33. HtmlSelect hs = (HtmlSelect) rootPage.getElementById(“lstCubes”);  
  34. //按要求选择第一个数据库  
  35. hs.getOption(0).setSelected(true);  
  36. //模拟点击Next按钮,跳转到第二个页面  
  37. System.out.println(“正在跳转…”);  
  38. //执行按钮出发的js事件  
  39. ScriptResult sr = rootPage.executeJavaScript(“javascript:setCubeData(2,-1,4,’/ddp’);”);  
  40.   
  41. //跳转到第二个页面,选择国家  
  42. HtmlPage countrySelect = (HtmlPage) sr.getNewPage();  
  43. //获得包含全部国家信息的选择框页面  
  44. HtmlPage framePage=(HtmlPage)countrySelect.getFrameByName(“frmTree1″).getEnclosedPage();  
  45. //获得selectAll按钮,触发js事件  
  46. framePage.executeJavaScript(“javascript:TransferListAll(‘countrylst’,'countrylstselected’,'no’);SetSelectedCount(‘countrylstselected’,'tdcount’);”);  
  47. //获取Next按钮,触发js事件  
  48. ScriptResult electricityScriptResult = framePage.executeJavaScript(“javascript:wrapperSetCube(‘/ddp’)”);  
  49.   
  50. System.out.println(“正在跳转…”);  
  51. //跳转到下一个页面electricitySelect  
  52. HtmlPage electricitySelect = (HtmlPage) electricityScriptResult.getNewPage();  
  53. //获得electricity选择的iframe  
  54. HtmlPage electricityFrame = (HtmlPage) electricitySelect.getFrameByName(“frmTree1″).getEnclosedPage();  
  55. //获得选择框  
  56. HtmlSelect seriesSelect = (HtmlSelect) electricityFrame.getElementById(“countrylst”);  
  57. //获得所有的选择框内容  
  58. List optionList = seriesSelect.getOptions();  
  59. //将指定的选项选中  
  60. optionList.get(1).setSelected(true);  
  61. //模拟点击select按钮  
  62. electricityFrame.executeJavaScript(“javascript:TransferList(‘countrylst’,'countrylstselected’,'no’);SetSelectedCount(‘countrylstselected’,'tdcount’);”);  
  63. //获取选中后,下面的选择框  
  64. HtmlSelect electricitySelected = (HtmlSelect) electricityFrame.getElementById(“countrylstselected”);  
  65. List list = electricitySelected.getOptions();  
  66. //模拟点击Next按钮,跳转到选择时间的页面  
  67. ScriptResult timeScriptResult = electricityFrame.executeJavaScript(“javascript:wrapperSetCube(‘/ddp’)”);  
  68.   
  69. System.out.println(“正在跳转…”);  
  70. HtmlPage timeSelectPage = (HtmlPage) timeScriptResult.getNewPage();  
  71. //获取选中时间的选择框  
  72. timeSelectPage = (HtmlPage) timeSelectPage.getFrameByName(“frmTree1″).getEnclosedPage();  
  73. //选中所有的时间  
  74. timeSelectPage.executeJavaScript(“javascript:TransferListAll(‘countrylst’,'countrylstselected’,'no’);SetSelectedCount(‘countrylstselected’,'tdcount’);”);  
  75. //点击Next按钮  
  76. ScriptResult exportResult = timeSelectPage.executeJavaScript(“javascript:wrapperSetCube(‘/ddp’)”);  
  77.   
  78. System.out.println(“正在跳转…”);  
  79. //转到export页面  
  80. HtmlPage exportPage = (HtmlPage) exportResult.getNewPage();  
  81. //点击页面上的Export按钮,进入下载页面  
  82. ScriptResult downResult = exportPage.executeJavaScript(“javascript:exportData(‘/ddp’ ,’EXT_BULK’ ,’WDI_Time=51||WDI_Series=1||WDI_Ctry=244||’ );”);  
  83.   
  84. System.out.println(“正在跳转…”);  
  85. HtmlPage downLoadPage = (HtmlPage) downResult.getNewPage();  
  86. //点击Excel图标,开始下载  
  87. ScriptResult downLoadResult = downLoadPage.executeJavaScript(“javascript:exportData(‘/ddp’,'BULKEXCEL’);”);  
  88. //下载Excel文件  
  89. InputStream is = downLoadResult.getNewPage().getWebResponse().getContentAsStream();  
  90.   
  91. OutputStream fos = new FileOutputStream(“d://test.xls”);  
  92. byte[] buffer=new byte[1024*30];  
  93. int len=-1;  
  94. while((len=is.read(buffer))>0){  
  95. fos.write(buffer, 0, len);  
  96. }  
  97. fos.close();  
  98. fos.close();  
  99. System.out.println(“Success!”);  
  100. }  
  101. }  

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多