鍍金池/ 問答/ 數(shù)據(jù)分析&挖掘問答
來守候 回答

你的 python file 文件名跟 numpy 同名, 在 import 的時候匯入了自己而非你想要的那個 numpy。

改個名字應(yīng)該就好了。


我回答過的問題: Python-QA

溫衫 回答

如果是按需求(不是差集)來實現(xiàn),可以將in_array換成array_search,如果查找成功,該函數(shù)會返回命中的key,如果在arr2中能找到,在刪除$arr1[$k]時,同時刪除$arr2[$idx]就行了,如果要保留$arr2,就copy一個數(shù)組來操作
foreach($arr1 as $k=>$v){

$idx = array_search($v,$arr2);
if($idx !== false){ //找到了
    unset($arr1[$k]);
    unset($arr2[$idx]);
}

}

朽鹿 回答
df["kscj"] = df["kscj"].astype(str)
result = df[df.kscj.str.isdigit()]
莫小染 回答

時間復(fù)雜度是表示時間增長的趨勢啊...

把前后兩部分拆開來看
N! 和 2^n
誰的增速大就是誰

青檸 回答

先進行非空判斷,在執(zhí)行業(yè)務(wù)邏輯,這個問題多半是沒有獲取到數(shù)據(jù)

殘淚 回答

不太明白你想做什么 可以封個函數(shù) 就如2樓的

蝶戀花 回答

建議修改你的 formatter_function,讓它忽略 NaN,這樣簡化代碼

return df.apply(formatter_function) 

否則可以這樣

return df.apply(lambda c: c[~np.isnan(c)].apply(formatter_function))
茍活 回答

已找到解決辦法。網(wǎng)頁中有段js是生成token的.

我以為 回答

如下為生成器的 next() 函數(shù)的描述

開始生成器函數(shù)的執(zhí)行或者在最后一次執(zhí)行的yield表達式處恢復(fù)執(zhí)行。當(dāng)生成器函數(shù)使用next()方法恢復(fù)執(zhí)行時,當(dāng)前的yield表達式始終None。然后執(zhí)行繼續(xù)行進到下一個yield表達式,在那里生成器被再次掛起并返回expression_list的值給next()的調(diào)用者。

即你在第一次 yield 5 后,,這個時候 m= 這個賦值操作根本沒有執(zhí)行,然后,第二次使用 next 時, 當(dāng)前的 yield 表達式為 None,即 m=None

有你在 回答

數(shù)組也是對象,不信[] instanceof Object試試。for-in遍歷的是鍵,而for-of遍歷的是可迭代對象的值,你可以用for-in遍歷對象和數(shù)組,但只能用for-of遍歷數(shù)組。

乖乖噠 回答

先檢查拼接后的新網(wǎng)址有沒有問題?手動在瀏覽器中能不能打開。

尛憇藌 回答

把你不需要的變量設(shè)成None,把不需要的cell刪掉,import gc; gc.collect()

骨殘心 回答

.*太多了,算法的時間太長

result = re.findall(pattern, content[15000:20000]) # 這個都是秒級的了,何況content長度134383

而且時間復(fù)雜度非線性 5000長度,3~4秒 134383長度,估計你跑一天能出來

建議分步正則,一次最好不要超過兩個.*,一步一步匹配出你要的結(jié)果

熊出沒 回答

思路有點奇怪,urlList的鏈接也是自己放進去吧,放一個爬一個不就行了。什么時候不往urlList放鏈接爬蟲就停了。

鹿惑 回答

你可以將這個spider類的代碼全部粘貼出來,更利于回答者發(fā)現(xiàn)問題。

從scrapy的統(tǒng)計日志中可以看出scrapy是正常結(jié)束爬取,不是因為隊列爆了。所以這里最可能的問題是 self.house_id_dict這個字典中 確實只有6472個key,而你說的20w的key,可能去重后是6472(猜的)

print("number of the id_dict is %s"%len(self.house_id_dict))

另外,這條語句輸出多少呢?

涼汐 回答
function zh2Number(digit) {
  digit = digit.split('第')[1];
  const zh = ['零', '一', '二', '三', '四', '五', '六', '七', '八', '九'];
  const unit = ['千', '百', '十'];
  const quot = ['萬', '億', '兆', '京', '垓', '秭', '穰', '溝', '澗', '正', '載', '極', '恒河沙', '阿僧祗', '那由他', '不可思議', '無量', '大數(shù)'];
  let result = 0, quotFlag;

  for (let i = digit.length - 1; i >= 0; i--) {
    if (zh.indexOf(digit[i]) > -1) { // 數(shù)字
      if (quotFlag) {
        result += quotFlag * getNumber(digit[i]);
      } else {
        result += getNumber(digit[i]);
      }
    } else if (unit.indexOf(digit[i]) > -1) { // 十分位
      if (quotFlag) {
        result += quotFlag * getUnit(digit[i]) * getNumber(digit[i - 1]);
      } else {
        result += getUnit(digit[i]) * getNumber(digit[i - 1]);
      }
      --i;
    } else if (quot.indexOf(digit[i]) > -1) { // 萬分位
      if (unit.indexOf(digit[i - 1]) > -1) {
        if (getNumber(digit[i - 1])) {
          result += getQuot(digit[i]) * getNumber(digit[i - 1]);
        } else {
          result += getQuot(digit[i]) * getUnit(digit[i - 1]) * getNumber(digit[i - 2]);
          quotFlag = getQuot(digit[i]);
          --i;
        }
      } else {
        result += getQuot(digit[i]) * getNumber(digit[i - 1]);
        quotFlag = getQuot(digit[i]);
      }
      --i;
    }
  }

  return '第' + result;

  // 返回中文大寫數(shù)字對應(yīng)的阿拉伯?dāng)?shù)字
  function getNumber(num) {
    for (let i = 0; i < zh.length; i++) {
      if (zh[i] == num) {
        return i;
      }
    }
  }

  // 取單位
  function getUnit(num) {
    for (let i = unit.length; i > 0; i--) {
      if (num == unit[i - 1]) {
        return Math.pow(10, 4 - i);
      }
    }
  }

  // 取分段
  function getQuot(q) {
    for (var i = 0; i < quot.length; i++) {
      if (q == quot[i]) {
        return Math.pow(10, (i + 1) * 4);
      }
    }
  }
}

zh2Number('第一百八十七');  // 第187
孤星 回答

假設(shè)你的這段html代碼命名為s

from bs4 import BeautifulSoup

soup = BeautifulSoup(s, "lxml")  
table = soup.find("table", {"class", "mod_table"})  # 獲得table,用class來限制唯一性
trs = table.find_all("tr")[1:-1]  # 獲得table內(nèi)的各行,去除表頭(第一行)和頁碼(最后一行)
result = [tr.find_all("td")[4] for tr in trs]  # 獲得每個tr里的所有td中的第5個(目標)

獲取html上的元素一般都可以用這種方法。

大濕胸 回答

動態(tài)計算,使隨機的期望值在理論上符合你的要求即可。
當(dāng)然,最后的結(jié)果,不可能是嚴格的 10 分鐘。(如果要嚴格也可以,只是后面的變化,可能是 0 而已)

很簡單的歸并問題,目前剩余時間 T (時間可以轉(zhuǎn)化為“循環(huán)次數(shù)”,“間隔時間”等),相差的量是 S,那么當(dāng)前的變化量是一個關(guān)于 TS 的函數(shù), 即 d(n) = f(T, S) ,變化之后,下一個 d 就是 d(n+1) = f(T - t, S - d) 。進一步,當(dāng) S <= 0 時, d = 0


給個進度條的例子,每次隨機值的變化程度是動態(tài)分頁數(shù)據(jù)的那個 stdDev 影響的:

<!DOCTYPE html>
<html lang="zh-cmn-Hans">
<head>
<meta charset="utf-8" />
<title>變化</title>
<link rel="stylesheet" type="text/css" href="" />
<script type="text/javascript" src="https://s.zys.me/js/jq/jquery.min.js"></script>
</head>
<body style="margin: 100px;">
  <div id="bg" style="width: 800px; height: 30px; background-color: gray;">
    <div id="bar" style="width: 50%; height: 30px; background-color: red;"></div>
  </div>

  <script type="text/javascript">
    // http://www.cnblogs.com/zztt/p/4025207.html
    // 抄的正態(tài)分布生成算法

    function getNumberInNormalDistribution(mean, stdDev){
      return mean + (randomNormalDistribution() * stdDev);
    }

    function randomNormalDistribution(){
      var u=0.0, v=0.0, w=0.0, c=0.0;
      do {
        //獲得兩個(-1,1)的獨立隨機變量
        u = Math.random() * 2 - 1.0;
        v = Math.random() * 2 - 1.0;
        w = u * u + v * v;
      } while( w == 0.0 || w >= 1.0 )
        //這里就是 Box-Muller轉(zhuǎn)換
      c = Math.sqrt( (-2 * Math.log(w)) / w );
      //返回2個標準正態(tài)分布的隨機數(shù),封裝進一個數(shù)組返回
      //當(dāng)然,因為這個函數(shù)運行較快,也可以扔掉一個
      //return [u*c,v*c];
      return u * c;
    }

  </script>

  <script type="text/javascript">



    // 假設(shè)整個變化過程為 5000 毫秒時間, 總長度是 800px
    var T = 5000;
    var D = 800;

    // 同時, 我們定每 100 毫秒變化一次, 則整個過程執(zhí)行完是 5000 / 100 = 50 次的變化
    // 那么, 如果每次變化是平均的, 則期望值是 800 / 50 px 每次.
    var PER = 100;
    var N = T / PER;

    var $n = $('#bar');
    $n.width(0);

    var width = 0;
    function action(){
      var n = getNumberInNormalDistribution(D / N, 10);
      D -= n;
      if(D <= 0){ $n.width('800px'); over(); return }
      $n.width(width + n + 'px');
      width += n;
      N -= 1;
      if(N <= 0){ $n.width('800px'); over(); return }
      setTimeout(action, PER);
    }

    function over(){
      console.log('over');
      setTimeout(reset, 3000);
    }

    function reset() {
      T = 5000; D = 800; PER = 100; N = T / PER;
      $n.width(0);
      width = 0;
      action();
    }

    action();


  </script>
</body>
</html>
離觴 回答

你的根目錄是指到public目錄下嗎?