Как отправить задание spark в кластере CDH 4 узла

У меня есть кластер со следующими конфигурациями.

Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB

Размер входного файла-10 ГБ. Это занимает много времени (около 20 минут), когда я отправляю следующую команду.

spark-submit --jars xxxx  --files xxx,yyy  --master yarn /home/me/python/ParseMain.py

В моем коде python я устанавливаю следующее:

sparkConf = SparkConf().setAppName("myapp")    
sc = SparkContext(conf = sparkConf)    
hContext = HiveContext(sc)

Как изменить параметры отправки spark, чтобы повысить производительность?

1 ответ

  1. Некоторые параметры spark-submit, которые можно попробовать

    --driver-cores 4
    --num-executors 4
    --executor-cores 20
    --executor-memory 5G
    

    CDH должен быть настроен, чтобы иметь достаточно vCore и vMemory. В противном случае представленное задание останется ACCEPTEDим RUN.