Использование Jupyter notebook с SparkR

Я хочу использовать Jupyterноутбук с SparkR, я хочу установить ядро IR, на Jupyterкотором установлен на моем Sparkкластере.

Я мог бы найти помощь по использованию JupyterСpySpark, но не с SparkR.

Я создал Sparkкластер на AWS-EMRкластере.

2 ответа

  1. Если нет необходимости использовать IRkernel, то для использования Jupyter с Spark следует рассмотреть возможность установки ядра Apache Toree: https://toree.incubator.apache.org/

    Это ядро позволит вам подключить ноутбук Jupyter к Spark с помощью любого из API Spark. Он также позволяет использовать магию (например, %pyspark или %sparkr) для переключения между языками в разных ячейках одного ноутбука.

  2. После создания ядра с Toree, ваше ядро.json должен включать в себя SPARK_HOME env, действительно это что-то вроде:

    «/opt / cloudera / посылки / SPARK2 / lib / spark2»:
    «/opt / cloudera / посылки / SPARK2 / lib / spark2»,

    и иногда:

    «/opt / cloudera / parcels/SPARK2 / lib / spark2»: «spark-home»,

    Несмотря на то, что я исправил SPARK_HOME вручную для Scala и заставил ядро Scala работать, я все еще не могу заставить ядро SparkR работать на меня, но, возможно, ошибка в ядре — это первое, что вы должны проверить-если вы используете Toree.