鍍金池/ 問答/ 數(shù)據(jù)分析&挖掘問答
鹿惑 回答

你可以將這個spider類的代碼全部粘貼出來,更利于回答者發(fā)現(xiàn)問題。

從scrapy的統(tǒng)計日志中可以看出scrapy是正常結(jié)束爬取,不是因為隊列爆了。所以這里最可能的問題是 self.house_id_dict這個字典中 確實只有6472個key,而你說的20w的key,可能去重后是6472(猜的)

print("number of the id_dict is %s"%len(self.house_id_dict))

另外,這條語句輸出多少呢?

膽怯 回答

還是我自問自答吧,也是我剛找到的,在style中配置。直接上代碼

render(){
    return (
        <ReactCytoscape containerID="cy"
        elements={this.getElements()}
        style={this.cyStyle()}
        cyRef={(cy) => { this.cyRef(cy) }}
        cytoscapeOptions={{ wheelSensitivity: 0.1,autounselectify: true,boxSelectionEnabled:         false, }}
        layout={{ name: 'random', }} />
    )
}

    cyStyle=()=>{
        return [
            {
                selector: 'node',
                css: {
                    'text-valign': 'center',
                    'text-halign': 'center'
                }
            },
            {
                selector: 'edge',
                css: {
                    // 添加箭頭!!!!!!
                    'curve-style': 'bezier',
                    'target-arrow-shape': 'triangle'
                }
            },
            {
                selector: ':selected',
                css: {
                    'background-color': 'black',
                    'line-color': 'black',
                    'target-arrow-color': 'black',
                    'source-arrow-color': 'black'
                }
            }
        ]
    }
    
    
溫衫 回答

不用隱藏,把你想要被抓的信息設(shè)置為text-indent:-9999px,然后處理下,讓他點不到就行,比如你上面的id為content的div

#id{
    width: 1px;
    height: 1px;
    float: left;
    text-indent:-9999px;
}
荒城 回答

碰到了一樣的問題,同樣求解答

厭惡我 回答

利用:before,:after偽類進(jìn)行絕對定位,設(shè)置陰影,然后旋轉(zhuǎn),就可以模擬三角斜邊陰影了。
可以看下這個例子:三角陰影
其實不難,想清楚就行
這邊我另附一下box-shadow的用法吧
box-shadow

念初 回答

最好的辦法是來個小例子試一下,

假設(shè)你有一個data.cvs的逗號分隔的數(shù)據(jù)文件,內(nèi)容如下

0     index,name,comment,,,,
1    1,name_01,coment_01,,,,
2    2,name_02,coment_02,,,,
3    3,name_03,coment_03,,,,
4    4,name_04,coment_04,,,,
5    5,name_05,coment_05,,,,

用下面的代碼來讀

import pandas as pd
word = pd.read_table('data.csv', delimiter=',',encoding = 'utf-8', names = ['index','name','comment','foo','bar','baz'], header=0)

print(word)

你將看到如下的結(jié)果:

      index       name  comment  foo  bar  baz
1   name_01  coment_01      NaN  NaN  NaN  NaN
2   name_02  coment_02      NaN  NaN  NaN  NaN
3   name_03  coment_03      NaN  NaN  NaN  NaN
4   name_04  coment_04      NaN  NaN  NaN  NaN
5   name_05  coment_05      NaN  NaN  NaN  NaN
......

回答你的問題:names是指讀到內(nèi)存后的數(shù)據(jù)的列名,heads是指數(shù)據(jù)表頭行號,真正的數(shù)據(jù)是這一行之后開始。

貓館 回答

console.log(JSON.stringify(this)),你看到的是你展開這個對象時的快照。

青檸 回答

注意正則的*號,看圖片

import requests
import re
def text():

for a in range(1,13):
    url = 'https://sf.taobao.com/list/50025969__1___%BA%BC%D6%DD.htm?spm=a213w.7398504.pagination.3.W9af3L&auction_start_seg=-1&page='+str(a)
    html = requests.get(url).text
    ids = re.findall('"id":(.*?),"itemUrl"',html)
    names = re.findall('"title":"(.*?)"',html)
    prices = re.findall('"initialPrice": (.*?) ,"currentPrice"',html)
    find = zip(ids,names,prices)
    for txt in find:
        print(txt)

if name == '__main__':

print('\t\t\t序號\t\t\t','\t\t\t\t\t地點\t\t\t','\t\t\t\t\t\t價格')
text()

圖片描述

紓惘 回答

print_r(array_combine($order,$array));

尋仙 回答

SubTurnExport 在http://piccache.cnki.net/kdn/... 里,在你獲取的js里搜索就行了

初心 回答

_ga 和 _gat 其實并不是服務(wù)器返回的,而是通過js創(chuàng)建的,
是通過framework.js文件里面的下面代碼創(chuàng)建的

S = function(e, t, r, o, i, a) {
            if (!(i = !T(i) && !(C.test(k.location.hostname) || "/" == r && L.test(o))))
                return !1;
            if (t && 1200 < t.length && (t = t.substring(0, 1200),
            n(24)),
            r = e + "=" + t + "; path=" + r + "; ",
            a && (r += "expires=" + new Date((new Date).getTime() + a).toGMTString() + "; "),
            o && "none" != o && (r += "domain=" + o + ";"),
            o = k.cookie,
            k.cookie = r,
            !(o = o != k.cookie))
                e: {
                    for (e = j(e),
                    o = 0; o < e.length; o++)
                        if (t == e[o]) {
                            o = !0;
                            break e
                        }
                    o = !1
                }
            return o
        }

打斷點可以看到
圖片描述
圖片描述

情未了 回答

不需要解決。去看相應(yīng)版本的文檔,看如何處理解析問題。
(當(dāng)然,我看官方文檔,并沒有看到你說的,不包含 etree 的情況)

clipboard.png

笑浮塵 回答

Promise.all()

凹凸曼 回答

跟語言沒有什么關(guān)系,真正要解決的核心是資源。

ip 池怎么搭、反爬策略熟不熟悉、HTTP 熟不熟悉、隊列、緩存...

這些都是語言無關(guān)的。

乞許 回答

你這種情況需要用到無頭瀏覽器才行的。相當(dāng)于要等js執(zhí)行后,你再解析內(nèi)容。
如果是node來寫的話,可能比較方便,使用PhantomJS實現(xiàn)起來比較方便。

不過,java環(huán)境下的HtmlUnit兼容性稍弱,你可以試試看

有點壞 回答

Greenplum 默認(rèn)禁用 Index Scan, 打開試試。

set enable_indexscan = on;

對于小數(shù)據(jù)量、簡單查詢,Greenplum 的分布式架構(gòu)比單機(jī)的 Postgresql 慢是正常的。分布式事務(wù)、查詢計劃下發(fā)等都會帶來不小的固定時間開銷。

安若晴 回答

luaJIT屌屌的,甩所有語言到后排。
這個問題沒有技術(shù)含量,提問者也是小菜吧;