鍍金池/ 問答/ 數(shù)據(jù)分析&挖掘問答
愿如初 回答

一篇不錯的反爬蟲技術(shù)方案博文:https://github.com/FantasticL...

蟲児飛 回答

java.lang.NullPointerException
應(yīng)該是空指針異常引發(fā)的socke錯誤,檢查賦值操作為NULL的情況

萌吟 回答

clipboard.png

如果是我來做的話,大概采用這么個思路。首先找到關(guān)鍵信息所在位置。信息都有具體的層級結(jié)構(gòu),具體到對應(yīng)到哪個html標(biāo)簽,這個html標(biāo)簽具有什么class屬性,這么一步作用是縮小了范圍。然后查找關(guān)鍵字:比如公司名稱、手機、姓名之類的,找到關(guān)聯(lián)的字段。最后考慮用正則輔助。

壞脾滊 回答

直接調(diào)用R里面的ggplot+plotly+shiny 或者你如果是用java的話可以直接寫一個js

薄荷綠 回答

大哥你仔細看你的代碼,你要return的data被for循環(huán)覆蓋了,第二個代碼你用了print(),當(dāng)然每次循環(huán)只是把data打印出來了

檸檬藍 回答

xpath 語法可以實現(xiàn)你的要求,不必重造輪子。

舉個例子,定位含有類 title 的最后一個 h2 元素,xpath 可以這樣

(//h2[@class="title"])[last()]

請注意一定要使用括號,因為 [ ] 的優(yōu)先級較高。


順便提一下,在谷歌瀏覽器開發(fā)者工具(console,按 F12 打開)中,用 $x(...) 便可執(zhí)行 xpath 查詢。

參考

xpath 語法文檔, https://www.w3schools.com/xml...

怣痛 回答

price.sort((a,b) => b-a)[price.length - 1]
這個答案會改動原有數(shù)組。

笑浮塵 回答

一樓的finditer方法是一個非常好的方法,它會返回一個迭代器,而不是返回所有的匹配數(shù)據(jù),這樣的好處一個是節(jié)省內(nèi)存,另一個是能逐個輸出,樓主可以參考,謝謝

傲嬌范 回答

推薦系統(tǒng),用戶畫像,精準(zhǔn)營銷,反作弊等等。

浪蕩不羈 回答

所以你是問為什么報錯,還是問為什么網(wǎng)站卡嘛……

報錯是因為響應(yīng)數(shù)據(jù)格式不對,忽略就好了。

夕顏 回答
df[['one','two']]=df[['one','two']].replace(np.nan,'hello')
df
假灑脫 回答

用post提交表需要確認(rèn)服務(wù)器需要的數(shù)據(jù)項,然后組成json對。

requests.post(url=url, data=data)

我覺得樓主說的是data的提交。


一般用瀏覽器的開發(fā)者工具確認(rèn)網(wǎng)頁請求時候的方法,cookie,請求頭等等
也就是說data也可以在這里找到
模擬一次提交表的過程,就可以看到提交的參數(shù)項了

clipboard.png

clipboard.png

requests.post(headers=headers,params=json.dumps(payload),url=url)

嗯嗯嗯,用的payload。我錯了。。。

薔薇花 回答

再隨機一次咯,直到隨機到有用的為止。

祉小皓 回答

可以去看一下二叉樹的遞歸,相信應(yīng)該有幫助

囍槑 回答
import pandas as pd
df = pd.DataFrame([['2018-3-8', 10],
    ['2018-3-9', 20],
    ['2018-3-10', 30],
    ['2018-3-11', 40],
    ['2018-3-12', 250],
    ['2018-3-13', 260],
    ['2018-3-14', 270],
    ['2018-3-15', 280]], columns=['日期', '數(shù)據(jù)1'])


def f(df):
    return (df[2] - df[1] < 100) and df[2] > df[1] and (df[1] - df[0] < 100) and df[1] > df[0] #增長大于0小于100

df[pd.rolling_apply(df, window=3, func=f)['數(shù)據(jù)1'] == True] # 滿足條件的日期(展示的是連續(xù)三天的最后一天)

判斷每個ID是否有連續(xù)3天【數(shù)據(jù)1】增長都大于0小于100的日期吧。

傲寒 回答

先笛卡爾積s1['product_name']和s2['brand_name'],設(shè)為結(jié)果為df則:

df[df['brand_name'].isin('product_name')]

為結(jié)果。這樣子可能會調(diào)用內(nèi)部優(yōu)化快一點,可以試試。

具體如何在pandas里做笛卡爾積可以參考這個答案

心沉 回答

我覺得,你沒有搞明白,什么叫“數(shù)”,什么叫“字節(jié)”吧。
0xfffe7b89 這個數(shù),就是 4294867849 ,負的是 -0xfffe7b89 。
事實上,它就不是負數(shù),只是你自己“覺得”它是負數(shù)。

茍活 回答

當(dāng)某一行所有值都不大于7時,walks[hits7] >= 7在那一行返回全部是False.
np.argmax函數(shù)來說,當(dāng)所有值都一樣大,也就都是最大值,默認(rèn)返回第一個,也說是0出現(xiàn)的原因。

傲寒 回答

numpy/__init__.py里有一句:

from .core import *

然后core/__init__.py里有一句:

from .numeric import *