鍍金池/ 問答/人工智能/ spark集群中的worker總是連接不到master, zookeeper集群

spark集群中的worker總是連接不到master, zookeeper集群實(shí)現(xiàn)master高可用?

1,spark0-2 三臺(tái)主機(jī)是zookeeper集群

2,spark0-4五臺(tái)主機(jī)是 spark集群

3 spark0-1 兩臺(tái)主機(jī)實(shí)現(xiàn)master高可用。

在spark0上運(yùn)行start-all.sh啟動(dòng)spark集群,這個(gè)時(shí)候會(huì)在本機(jī)啟動(dòng)spark 作為master,啟動(dòng)slaves文件中的 spark2 spark3 spark4主機(jī)作為slave。

clipboard.png

這個(gè)時(shí)候就出現(xiàn)了一個(gè)問題:
spark0 上運(yùn)行start-all。sh 發(fā)現(xiàn)slave主機(jī)沒有啟動(dòng)成功,僅spark0上的master啟動(dòng)成功了。

查看spark0上的日志發(fā)現(xiàn) spark0在通過ssh 啟動(dòng)slave的時(shí)候 slave主機(jī)上的spark啟動(dòng),然后嘗試連接master,卻將自己作為master。

比如說spark0 通過ssh 啟動(dòng)spark2上的spark,spark2上的 spark啟動(dòng)了作為worker,此時(shí)啟動(dòng)之后這個(gè)worker 嘗試連接master,日志顯示spark2上的worker spark 將自己localhost 作為master,正常情況下他應(yīng)該詢問zookeeper 集群 spark master是哪個(gè),為什么這個(gè)地方卻將localhost 作為master?

各位我的意思可以理解嗎?

補(bǔ)充內(nèi)容:
(1)spark集群配置連接zookeeper集群

clipboard.png

--------------------------------------------------------再述問題---------------------------

再述問題:

(1)spark0 作為master ,spark1 作為備用master

(2)slave中配置了spark2-4 作為worker節(jié)點(diǎn)

(3)在spark0上運(yùn)行start-all.sh ,此時(shí)首先本地啟動(dòng)spark0上的 spark作為master,然后通過ssh 啟動(dòng)slaves 中的 spark2,spark3 spark4作為worker

(4)spark2上的 spark啟動(dòng)之后 需要和master通信確認(rèn) ,此時(shí)我查看了spark2上的日志發(fā)現(xiàn),spark2上的spark 找不到master, 日志顯示將localhost 作為了mater,就如上圖中的 紅色箭頭顯示一樣

(5)spark0 一直收不到spark2-spark4 work節(jié)點(diǎn)的確認(rèn)啟動(dòng)成功信息,所以worker啟動(dòng)失敗。

問題: 為什么spark2 spark3 spark4 這三個(gè)節(jié)點(diǎn)找不到master?將localhost作為了master ? 正常情況下應(yīng)該是 spark2 spark3 spark4 啟動(dòng)之后 應(yīng)該詢問zookeeper集群 哪個(gè)接地啊是master, 因?yàn)槲覀冊(cè)趕aprk2 spark3 spark4中的 spark-env.sh 文件中配置了 連接zookeeper集群參數(shù)

回答
編輯回答
只愛你

不是有一個(gè)slaves文件嗎?那里面應(yīng)該配置worker地址的.哪一臺(tái)機(jī)器是slaves,把主機(jī)地址寫里面了嗎?

2018年3月21日 01:29
編輯回答
來守候

兄弟 問題解決了么,我特意注冊(cè)了賬號(hào)來回復(fù)。。
我也遇到了一樣的問題,
開始以為是hosts文件配置錯(cuò)了,后來又找zookeeper配置的原因,結(jié)果都沒有結(jié)果
耗費(fèi)了半天時(shí)間
后來在stackoverflow上找到了解決方法:
在spark-env.sh中配置:
export SPARK_MASTER_HOST=your master ip
export SPARK_LOCAL_IP=your local ip

因?yàn)閾?jù)說在spark2.0之后,SPARK_MASTER_IP這個(gè)參數(shù)沒有了,變成了SPARK_MASTER_HOST
我之前一直用的SPARK_MASTER_IP,在其他的服務(wù)器上沒有問題,但是在生產(chǎn)環(huán)境出現(xiàn)了問題。
雖然疑惑還是有的,但是至少問題解決了。

2017年2月25日 17:54