分類:

推薦最新等你回答

鹿惑回答

你可以將這個spider類的代碼全部粘貼出來，更利于回答者發(fā)現(xiàn)問題。

從scrapy的統(tǒng)計日志中可以看出scrapy是正常結(jié)束爬取，不是因為隊列爆了。所以這里最可能的問題是 self.house_id_dict這個字典中確實只有6472個key，而你說的20w的key，可能去重后是6472（猜的）

print("number of the id_dict is %s"%len(self.house_id_dict))

另外，這條語句輸出多少呢？

Reactcytoscape給直線添加箭頭

膽怯回答

還是我自問自答吧，也是我剛找到的,在style中配置。直接上代碼：

render(){
    return (
        <ReactCytoscape containerID="cy"
        elements={this.getElements()}
        style={this.cyStyle()}
        cyRef={(cy) => { this.cyRef(cy) }}
        cytoscapeOptions={{ wheelSensitivity: 0.1,autounselectify: true,boxSelectionEnabled:         false, }}
        layout={{ name: 'random', }} />
    )
}

    cyStyle=()=>{
        return [
            {
                selector: 'node',
                css: {
                    'text-valign': 'center',
                    'text-halign': 'center'
                }
            },
            {
                selector: 'edge',
                css: {
                    // 添加箭頭!!!!!!
                    'curve-style': 'bezier',
                    'target-arrow-shape': 'triangle'
                }
            },
            {
                selector: ':selected',
                css: {
                    'background-color': 'black',
                    'line-color': 'black',
                    'target-arrow-color': 'black',
                    'source-arrow-color': 'black'
                }
            }
        ]
    }

使用js隱藏dom元素會被搜索引擎判定為SEO作弊嗎？

溫衫回答

不用隱藏，把你想要被抓的信息設(shè)置為text-indent:-9999px,然后處理下，讓他點不到就行，比如你上面的id為content的div

#id{
    width: 1px;
    height: 1px;
    float: left;
    text-indent:-9999px;
}

為什么用scarpy爬大眾點評的城市主頁有內(nèi)容而按區(qū)爬的時候就無法獲取內(nèi)容？

青檸回答

ROBOTSTXT_OBEY = False 再試試

weex最新版本初始化失敗

荒城回答

碰到了一樣的問題，同樣求解答

帶陰影的三角形如何繪制？

厭惡我回答

利用:before,:after偽類進(jìn)行絕對定位，設(shè)置陰影，然后旋轉(zhuǎn)，就可以模擬三角斜邊陰影了。
可以看下這個例子：三角陰影
其實不難，想清楚就行
這邊我另附一下box-shadow的用法吧
box-shadow

pandas 里面的含義

念初回答

最好的辦法是來個小例子試一下，

假設(shè)你有一個data.cvs的逗號分隔的數(shù)據(jù)文件，內(nèi)容如下

0     index,name,comment,,,,
1    1,name_01,coment_01,,,,
2    2,name_02,coment_02,,,,
3    3,name_03,coment_03,,,,
4    4,name_04,coment_04,,,,
5    5,name_05,coment_05,,,,

用下面的代碼來讀

import pandas as pd
word = pd.read_table('data.csv', delimiter=',',encoding = 'utf-8', names = ['index','name','comment','foo','bar','baz'], header=0)

print(word)

你將看到如下的結(jié)果：

      index       name  comment  foo  bar  baz
1   name_01  coment_01      NaN  NaN  NaN  NaN
2   name_02  coment_02      NaN  NaN  NaN  NaN
3   name_03  coment_03      NaN  NaN  NaN  NaN
4   name_04  coment_04      NaN  NaN  NaN  NaN
5   name_05  coment_05      NaN  NaN  NaN  NaN
......

回答你的問題：names是指讀到內(nèi)存后的數(shù)據(jù)的列名，heads是指數(shù)據(jù)表頭行號，真正的數(shù)據(jù)是這一行之后開始。

JS打印this對象值與打印this對象的屬性值不一致

貓館回答

console.log(JSON.stringify(this))，你看到的是你展開這個對象時的快照。

模仿b站做了一個網(wǎng)頁爬蟲，但是運(yùn)行錯誤，不知道是哪里出錯了。

青檸回答

注意正則的*號，看圖片

import requests
import re
def text():

for a in range(1,13):
    url = 'https://sf.taobao.com/list/50025969__1___%BA%BC%D6%DD.htm?spm=a213w.7398504.pagination.3.W9af3L&auction_start_seg=-1&page='+str(a)
    html = requests.get(url).text
    ids = re.findall('"id":(.*?),"itemUrl"',html)
    names = re.findall('"title":"(.*?)"',html)
    prices = re.findall('"initialPrice": (.*?) ,"currentPrice"',html)
    find = zip(ids,names,prices)
    for txt in find:
        print(txt)

if name == '__main__':

print('\t\t\t序號\t\t\t','\t\t\t\t\t地點\t\t\t','\t\t\t\t\t\t價格')
text()

圖片描述

PHP數(shù)組自定義排序

紓惘回答

print_r(array_combine($order,$array));

thinkphp5 QueryList4 PhantomJs 網(wǎng)頁爬蟲報錯怎么解決？

撥弦回答

樓上正解，QueryList文檔也有說明：http://doc.querylist.cc/site/...

1百萬行*4列數(shù)據(jù)，用R語言dist()計算距離提示內(nèi)存不足，請問怎么優(yōu)化

女流氓回答

不確定你怎么做的，是不是笛卡爾積了

python爬蟲onclick問題

尋仙回答

SubTurnExport 在http://piccache.cnki.net/kdn/... 里，在你獲取的js里搜索就行了

跪求幫分析github.com首頁 cookie來源

初心回答

_ga 和 _gat 其實并不是服務(wù)器返回的，而是通過js創(chuàng)建的，
是通過framework.js文件里面的下面代碼創(chuàng)建的

S = function(e, t, r, o, i, a) {
            if (!(i = !T(i) && !(C.test(k.location.hostname) || "/" == r && L.test(o))))
                return !1;
            if (t && 1200 < t.length && (t = t.substring(0, 1200),
            n(24)),
            r = e + "=" + t + "; path=" + r + "; ",
            a && (r += "expires=" + new Date((new Date).getTime() + a).toGMTString() + "; "),
            o && "none" != o && (r += "domain=" + o + ";"),
            o = k.cookie,
            k.cookie = r,
            !(o = o != k.cookie))
                e: {
                    for (e = j(e),
                    o = 0; o < e.length; o++)
                        if (t == e[o]) {
                            o = !0;
                            break e
                        }
                    o = !1
                }
            return o
        }

打斷點可以看到
圖片描述

mac系統(tǒng)下python3.6，lxml不包含etree方法該怎么解決？

情未了回答

不需要解決。去看相應(yīng)版本的文檔，看如何處理解析問題。
（當(dāng)然，我看官方文檔，并沒有看到你說的，不包含 etree 的情況）

Node爬蟲問題

笑浮塵回答

Promise.all()

今日頭條這樣的爬取系統(tǒng)是用什么語言實現(xiàn)的？

凹凸曼回答

跟語言沒有什么關(guān)系，真正要解決的核心是資源。

ip 池怎么搭、反爬策略熟不熟悉、HTTP 熟不熟悉、隊列、緩存...

這些都是語言無關(guān)的。