鍍金池/ 問答/Java  Python  Linux  HTML/ java爬蟲通過selenium+WebDriver遍歷頁面鏈接報(bào)錯(cuò)

java爬蟲通過selenium+WebDriver遍歷頁面鏈接報(bào)錯(cuò)

背景

由于要爬取的頁面,每個(gè)鏈接的請(qǐng)求都是點(diǎn)擊之后js動(dòng)態(tài)發(fā)起的,目標(biāo)數(shù)據(jù)也多是js動(dòng)態(tài)生成的,所以使用selenium工具+webdriver(調(diào)試用的是chrome,具體使用準(zhǔn)備用phantomjs).

模擬登錄之后,模擬查詢之后,得到如下列表

圖片描述

可以看到鏈接是不能直接拿到的。

接下去步驟是這樣的:

  1. 得到鏈接的集合
  2. 遍歷集合,點(diǎn)擊鏈接,得到對(duì)應(yīng)的詳情頁面
  3. 通過頁面句柄轉(zhuǎn)到詳情頁面,拿到目標(biāo)數(shù)據(jù),再轉(zhuǎn)回父頁面
  4. 如上繼續(xù)遍歷

問題

按照如上邏輯,在執(zhí)行到遍歷步驟的時(shí)候,在第二次時(shí)報(bào)錯(cuò)了。

第一種報(bào)錯(cuò):

org.openqa.selenium.StaleElementReferenceException: stale element 
reference: element is not attached to the page document

我的代碼:

// 獲取查詢按鈕
            WebElement queryBtn = driver.findElement(By.ByXPath.xpath("http://*[@id=\"mainContent\"]/form/div[3]/div[13]/button[1]"));
//            jse.executeScript("arguments[0].scrollIntoView()", queryBtn);
            scrollToElementAndClick(queryBtn);
            Thread.sleep(500);  // 等待加載

            driver.manage().window().maximize();
            driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
            driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

            int pageIndex = Integer.parseInt(driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[3]")).getText());
            int pageSize = Integer.parseInt(driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[2]")).getText());
//            Actions actions = new Actions(driver);
            while (pageIndex <= pageSize) {
                pageIndex++;
                WebElement tbody = driver.findElement(By.ByXPath.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));
                List<WebElement> links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));
                for (WebElement link : links) {
                    WebDriver window;
                    System.out.println("-------------- voucherNo: "+ link.getText());
                    scrollToElementAndClick(link);
//                    jse.executeScript("arguments[0].scrollIntoView()", link);
//                    Thread.sleep(1000);
//                    actions.moveToElement(link).click().perform();
                    currentWindow = driver.getWindowHandle();
                    //get all windows
                    Set<String> handles = driver.getWindowHandles();
                    for (String s : handles) {
                        //current page is don't close
                        if (s.equals(currentWindow) || s.equals(parentWindow))
                            continue;
                        else {
                            window = driver.switchTo().window(s);
                            window.manage().window().maximize();
                            window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                            window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                            //get all tables
                            String pageSource = window.getPageSource();
                            String jsonArray = parseDTO(pageSource);
                            System.out.println(jsonArray);
                            //close the table window
                            window.close();
                        }
                        //swich to current window
                        driver.switchTo().window(currentWindow);
                    }

                }
                // click next page
                if (pageIndex <= pageSize) {
                    WebElement nextPage = driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));
                    scrollToElementAndClick(nextPage);
                    //set next page to current page
                    driver = driver.switchTo().window(driver.getWindowHandle());
                    driver.manage().window().maximize();
                    driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                    driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                }
            }

我在stackoverflow上面查到過類似問題,也去官網(wǎng)上面看到了對(duì)應(yīng)報(bào)錯(cuò)的解釋:原因應(yīng)該是我在跳轉(zhuǎn)到子頁面的時(shí)候,父頁面進(jìn)行的刷新,雖然在ui上面還能到那些鏈接,但是集合里面的鏈接是原先定義的,和遍歷一次之后回來的父頁面對(duì)應(yīng)不上了。(我是這么理解的,如果我理解錯(cuò)了,請(qǐng)大神指出)。

然后我就按照官方的建議,每次頁面去頁面上拿鏈接而不是從原先定義的鏈接集合中拿。

先說明:每個(gè)鏈接的xpath都是有規(guī)律的,如:

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[1]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[2]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[3]/td[2]/a
//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a

這是我第二次的代碼:

            while (pageIndex <= pageSize) {
                pageIndex++;
                WebElement tbody = driver.findElement(By.ByXPath.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));
                List<WebElement> links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));
                int size = links.size();
                for (int i = 1; i <= size; i++) {
                    String href = String.format("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a", i);
                    WebElement link = driver.findElement(By.xpath(href));
                    WebDriver window;
                    System.out.println("-------------- voucherNo: "+ link.getText());
                    scrollToElementAndClick(link);
                    currentWindow = driver.getWindowHandle();
                    //get all windows
                    Set<String> handles = driver.getWindowHandles();
                    for (String s : handles) {
                        //current page is don't close
                        if (s.equals(currentWindow) || s.equals(parentWindow))
                            continue;
                        else {
                            window = driver.switchTo().window(s);
                            window.manage().window().maximize();
                            window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                            window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                            //get all tables
                            String pageSource = window.getPageSource();
                            String jsonArray = parseDTO(pageSource);
                            System.out.println(jsonArray);
                            //close the table window
                            window.close();
                        }
                        //swich to current window
                        driver.switchTo().window(currentWindow);
                    }

                }
                // click next page
                if (pageIndex <= pageSize) {
                    WebElement nextPage = driver.findElement(By.xpath("http://*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));
                    scrollToElementAndClick(nextPage);
                    //set next page to current page
                    driver = driver.switchTo().window(driver.getWindowHandle());
                    driver.manage().window().maximize();
                    driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
                    driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);
                }
            }

這次報(bào)了第二種錯(cuò)誤:

Caused by: org.openqa.selenium.NoSuchElementException: {"errorMessage":"Unable to find element with xpath

Emm...試了很多種辦法都沒有用,希望有大神能救救我

萬分感謝?。?!

回答
編輯回答
青瓷

很尷尬又來自答了,按照我第二種方法,頁面跳轉(zhuǎn)之后,返回到父頁面時(shí),通過xpath定位我要點(diǎn)擊的下一個(gè)鏈接,這個(gè)方法是可行的。

問題是出在在返回到父頁面之后,要切換iframe,不然就定位不到。

所以要執(zhí)行一次driver.switchTo.frame()。這樣才能定位到。

2017年11月15日 05:20
編輯回答
晚風(fēng)眠

第一次的問題是因?yàn)樵厥В?dāng)循環(huán)中的第一個(gè)元素點(diǎn)擊過后,其他全部失效,你可以嘗試吧所有url放到list中再獲取。第二個(gè)問題是元素不存在,頁面跳轉(zhuǎn)之后,相同的xpath是找不到對(duì)應(yīng)的元素的。

2017年7月18日 02:23