鍍金池/ 問答/ 數(shù)據(jù)分析&挖掘問答
萌吟 回答

又不是 UA 的事。微信的環(huán)境有自己的東西,你要訪問的頁面,隨便一行 HAHAHA.XXX() 的調(diào)用,就可以判斷是不是微信環(huán)境。(因為瀏覽器是自己的, window 下有哪些 js api 都是自己控制的)

別傷我 回答

curl不會執(zhí)行js。你在瀏覽器里使用調(diào)試工具抓下請求響應(yīng),應(yīng)該是差不多的。

map函數(shù)返回的是一個生成器,你要把這個生成器初始化后再賦值給df:

def f(x):
    if('k' in str(x)):
        return int(x[:-1]) * 1000
    return x
# 初始化為list再賦值
df['views'] = list(map(f,df['view']))

如果不行你再試試

df['views'] = np.array(list(map(f,df['view'])))

反正就是這個意思,你可以先在ipython中運行出來看看能不能賦值,再進(jìn)程序跑
你也可以把數(shù)據(jù)發(fā)給我,我?guī)湍銓懞?因為沒具體的數(shù)據(jù),我也不知道會出現(xiàn)啥情況2333333

apply函數(shù)我沒用過,學(xué)習(xí)了,我研究下,我用pandas用的也不多
多嘴一句:別迭代DataFrame,一般比較慢,迭代numpy的ndarry會快很多,原來寫程序發(fā)現(xiàn)的坑

瘋子范 回答

這是一個非常常見的反爬策略,同一IP某一時間段訪問過于頻繁,限制請求多長時間
如果你對數(shù)據(jù)的時效性要求不高,可以設(shè)定請求間隔,比如0.5秒,1秒
如果對時效性要求比較高,則可以使用代理ip的方式

網(wǎng)妓 回答

答案來了。

const axios = require('axios')
// 下面代碼發(fā)送一個post請求到一個服務(wù)器
axios.post('驗證驗證碼的目標(biāo)url', {
    telephone: "17202345234" // 帶上手機號參數(shù)
  })
  .then(function (response) { // 后端處理成功,給你返回一個驗證碼數(shù)據(jù),數(shù)據(jù)通過response讀取
    console.log(response.testnumber);
    return axios.post('獲取驗證碼成功再發(fā)送一次請求的地址',{
        password: "我是密碼",
        telephone: "17202345234",
        noteinfo: "我是備注"
    })
  })
  .then(function(res){
    //完成注冊了
    console.log("注冊完成");
   })
  .catch(function (error) { // 如果請求失敗就走這里了
    console.log(error);
  });
撿肥皂 回答

這個因為excel會處理超過一定位數(shù)的大數(shù)字。解決方法可以試試在寫入前,將身份證那一列的數(shù)據(jù)類型強制轉(zhuǎn)換為字符串或者說object,即:
a['身份證號'] = a['身份證號'].astype('str')
試一試。

優(yōu)先級,只是優(yōu)先級而已,只是在其它各種情況都一致的情況下,多一點優(yōu)勢

疚幼 回答

什么破書……那個 choice 沒定義在那里,所以新版本不小心就沒了吧……

>>> from numpy.random import choice
>>> choice(['red', 'green'])
'red'
茍活 回答

Request的參數(shù)名寫錯了 callback

茍活 回答

array也好,object也罷,這都是具體語言在數(shù)據(jù)結(jié)構(gòu)上的實現(xiàn),你們在做“約定”這個事的時候,只需要關(guān)注用來網(wǎng)絡(luò)傳輸?shù)淖址袷绞荍SON還是XML就好了,具體的本地語言會把比如JSON轉(zhuǎn)譯成什么結(jié)構(gòu)不要去管,只需要確保JSON格式合法、并且你倆都能用就可以了。

乖乖噠 回答

先檢查拼接后的新網(wǎng)址有沒有問題?手動在瀏覽器中能不能打開。

赱丅呿 回答

關(guān)于數(shù)據(jù)

A B
100 2
200 3
300 4
...

可以看成一個長這樣[100,100,200,200,200,300,300,300,300,...]list。

標(biāo)準(zhǔn)分布

可以使用numpystd()來計算標(biāo)準(zhǔn)差,當(dāng)然自己寫公式也可以。比如

In [1]: import numpy as np
In [2]: np.std([100,100,200,200,200,300,300,300,300])
Out[2]: 78.56742013183862

分布圖

正態(tài)分布圖只是正態(tài)分布的數(shù)據(jù)的分布圖。是否正態(tài)分布取決于你的數(shù)據(jù)??梢钥紤]用seaborn來繪制分布圖。

import seaborn as sns
sns.distplot([100,100,200,200,200,300,300,300,300])

分布圖長這樣:

圖片描述

大數(shù)據(jù)量

可以用pandas讀取。用一個循環(huán)將數(shù)據(jù)表轉(zhuǎn)為list:

import pandas as pd
df = pd.DataFrame({'A':[100,200,300],'B':[2,3,4]})
"""
df 像這樣

     A  B
0  100  2
1  200  3
2  300  4
"""

l = []
for i, j in zip(df['A'],df['B']):
    tmp = [i]*j
    l.extend(tmp)
    
"""
l 像這樣
[100, 100, 200, 200, 200, 300, 300, 300, 300]
"""
淚染裳 回答
import requests
import json

url = 'http://fanyi.baidu.com/sug'
data = {'kw':'girl'}
res = requests.post(url, data=data)
content = json.loads(res.content.decode())
print(content)

圖片描述

plt是別的變量吧,試試在出錯一行上面加上

import matplotlib.pyplot as plt
假灑脫 回答

用post提交表需要確認(rèn)服務(wù)器需要的數(shù)據(jù)項,然后組成json對。

requests.post(url=url, data=data)

我覺得樓主說的是data的提交。


一般用瀏覽器的開發(fā)者工具確認(rèn)網(wǎng)頁請求時候的方法,cookie,請求頭等等
也就是說data也可以在這里找到
模擬一次提交表的過程,就可以看到提交的參數(shù)項了

clipboard.png

clipboard.png

requests.post(headers=headers,params=json.dumps(payload),url=url)

嗯嗯嗯,用的payload。我錯了。。。

兔寶寶 回答
$arr = array(
        array('id'=>'1','name'=>'a'),
        array('id'=>'1','name'=>'b'),
        array('id'=>'1','name'=>'c'),
        array('id'=>'2','name'=>'d'),
        array('id'=>'2','name'=>'e'),
    );
    
    
    $result = array();
    
    foreach ($arr as $value) {
        $result[$value['id']]['id'] = $value['id'];
        $result[$value['id']]['name'][] = $value['name'];
    }
    $result = array_values($result);
    print_r($result);

函數(shù)自己封裝吧

笨小蛋 回答

請?zhí)峁┮粋€可重復(fù)的例子

囍槑 回答

https代理在建立代理隧道之后只需要轉(zhuǎn)發(fā)原始報文就好了,這樣做代理服務(wù)器并不能拿到https明文,而中間人攻擊是能拿到明文的
可以看看https://segmentfault.com/a/11...

兔寶寶 回答

分頁方式應(yīng)由數(shù)據(jù)提供方定義
需要請對方開出對應(yīng)的分頁串接方式才行

司令 回答

rules是Rule的列表,所以你可以放多個規(guī)則不同的Rule