由于要爬取的頁面,每個(gè)鏈接的請(qǐng)求都是點(diǎn)擊之后js動(dòng)態(tài)發(fā)起的,目標(biāo)數(shù)據(jù)也多是js動(dòng)態(tài)生成的,所以使用selenium工具+webdriver(調(diào)試用的是chrome,具體使用準(zhǔn)備用phantomjs).
模擬登錄之后,模擬查詢之后,得到如下列表
可以看到鏈接是不能直接拿到的。
接下去步驟是這樣的:
按照如上邏輯,在執(zhí)行到遍歷步驟的時(shí)候,在第二次時(shí)報(bào)錯(cuò)了。
第一種報(bào)錯(cuò):
org.openqa.selenium.StaleElementReferenceException: stale element
reference: element is not attached to the page document
我的代碼:
// 獲取查詢按鈕
WebElement queryBtn = driver.findElement(By.ByXPath.xpath("http://*[@id=\"mainContent\"]/form/div[3]/div[13]/button[1]"));
// jse.executeScript("arguments[0].scrollIntoView()", queryBtn);
scrollToElementAndClick(queryBtn);
Thread.sleep(500); // 等待加載
driver.manage().window().maximize();
driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
int pageIndex = Integer.parseInt(driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[3]")).getText());
int pageSize = Integer.parseInt(driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[2]")).getText());
// Actions actions = new Actions(driver);
while (pageIndex <= pageSize) {
pageIndex++;
WebElement tbody = driver.findElement(By.ByXPath.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));
List<WebElement> links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));
for (WebElement link : links) {
WebDriver window;
System.out.println("-------------- voucherNo: "+ link.getText());
scrollToElementAndClick(link);
// jse.executeScript("arguments[0].scrollIntoView()", link);
// Thread.sleep(1000);
// actions.moveToElement(link).click().perform();
currentWindow = driver.getWindowHandle();
//get all windows
Set<String> handles = driver.getWindowHandles();
for (String s : handles) {
//current page is don't close
if (s.equals(currentWindow) || s.equals(parentWindow))
continue;
else {
window = driver.switchTo().window(s);
window.manage().window().maximize();
window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
//get all tables
String pageSource = window.getPageSource();
String jsonArray = parseDTO(pageSource);
System.out.println(jsonArray);
//close the table window
window.close();
}
//swich to current window
driver.switchTo().window(currentWindow);
}
}
// click next page
if (pageIndex <= pageSize) {
WebElement nextPage = driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));
scrollToElementAndClick(nextPage);
//set next page to current page
driver = driver.switchTo().window(driver.getWindowHandle());
driver.manage().window().maximize();
driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
}
}
我在stackoverflow上面查到過類似問題,也去官網(wǎng)上面看到了對(duì)應(yīng)報(bào)錯(cuò)的解釋:原因應(yīng)該是我在跳轉(zhuǎn)到子頁面的時(shí)候,父頁面進(jìn)行的刷新,雖然在ui上面還能到那些鏈接,但是集合里面的鏈接是原先定義的,和遍歷一次之后回來的父頁面對(duì)應(yīng)不上了。(我是這么理解的,如果我理解錯(cuò)了,請(qǐng)大神指出)。
然后我就按照官方的建議,每次頁面去頁面上拿鏈接而不是從原先定義的鏈接集合中拿。
先說明:每個(gè)鏈接的xpath都是有規(guī)律的,如:
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[1]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[2]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[3]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a
這是我第二次的代碼:
while (pageIndex <= pageSize) {
pageIndex++;
WebElement tbody = driver.findElement(By.ByXPath.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));
List<WebElement> links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));
int size = links.size();
for (int i = 1; i <= size; i++) {
String href = String.format("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a", i);
WebElement link = driver.findElement(By.xpath(href));
WebDriver window;
System.out.println("-------------- voucherNo: "+ link.getText());
scrollToElementAndClick(link);
currentWindow = driver.getWindowHandle();
//get all windows
Set<String> handles = driver.getWindowHandles();
for (String s : handles) {
//current page is don't close
if (s.equals(currentWindow) || s.equals(parentWindow))
continue;
else {
window = driver.switchTo().window(s);
window.manage().window().maximize();
window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
//get all tables
String pageSource = window.getPageSource();
String jsonArray = parseDTO(pageSource);
System.out.println(jsonArray);
//close the table window
window.close();
}
//swich to current window
driver.switchTo().window(currentWindow);
}
}
// click next page
if (pageIndex <= pageSize) {
WebElement nextPage = driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));
scrollToElementAndClick(nextPage);
//set next page to current page
driver = driver.switchTo().window(driver.getWindowHandle());
driver.manage().window().maximize();
driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
}
}
這次報(bào)了第二種錯(cuò)誤:
Caused by: org.openqa.selenium.NoSuchElementException: {"errorMessage":"Unable to find element with xpath
Emm...試了很多種辦法都沒有用,希望有大神能救救我
萬分感謝?。?!
北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國(guó)IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國(guó)家
北大青鳥中博軟件學(xué)院創(chuàng)立于2003年,作為華東區(qū)著名互聯(lián)網(wǎng)學(xué)院和江蘇省首批服務(wù)外包人才培訓(xùn)基地,中博成功培育了近30000名軟件工程師走向高薪崗位,合作企業(yè)超4
中公教育集團(tuán)創(chuàng)建于1999年,經(jīng)過二十年潛心發(fā)展,已由一家北大畢業(yè)生自主創(chuàng)業(yè)的信息技術(shù)與教育服務(wù)機(jī)構(gòu),發(fā)展為教育服務(wù)業(yè)的綜合性企業(yè)集團(tuán),成為集合面授教學(xué)培訓(xùn)、網(wǎng)
達(dá)內(nèi)教育集團(tuán)成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機(jī)構(gòu),是中國(guó)一站式人才培養(yǎng)平臺(tái)、一站式人才輸送平臺(tái)。2014年4月3日在美國(guó)成功上市,融資1
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項(xiàng)目經(jīng)理從事移動(dòng)互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍(lán)懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
浪潮集團(tuán)項(xiàng)目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺(tái)面向?qū)ο箝_發(fā)經(jīng)驗(yàn),技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點(diǎn)難點(diǎn)突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對(duì)瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗(yàn)。曾經(jīng)歷任德國(guó)Software AG 技術(shù)顧問,美國(guó)Dachieve 系統(tǒng)架構(gòu)師,美國(guó)AngelEngineers Inc. 系統(tǒng)架構(gòu)師。