Как повысить производительность Vora

Я запускал некоторые тесты в Vora и Hive с контроллера SAP Spark, а также с базового сервера Spark. И контроллер, и сервер Spark Thrift имеют одинаковые конфигурации.

12 колонка
Таблица строки 10М
680Mb



И сервер Spark, и контроллер SAP запускаются с —master YARN и одинаковым количеством исполнителей, памяти и ядер. Контроллер и сервер Thrift находятся на одном сервере в кластере Hadoop, я запускаю одно тестовое завершение работы этого контроллера/Thriftserver, а затем запускаю другое для тестирования.

Все цифры, приведенные ниже, относятся к времени завершения работы сервера Thrift или времени завершения работы SAP Controller, я не жду результатов, чтобы показать в HANA или в Beeline или Spark-Shell.

Результаты:

Spark-Shell — > Spark Thriftserver — > > Hive>>
Select Column returns in: 13s
Count возвращается в: 1.2 s

Spark-Shell — > Spark Thriftserver — > > Vora>>
Выберите столбец возвращает в: 5s
Отсчет возвращает в: 100ms

Hana — > SAP Controller — > > Hive>>
Select Column returns in: 45s
Количество возвратов в: 4s

Hana — > SAP Controller — > > Vora>>
Select Column returns in: 24s
Count возвращается в: 2.1 s

Beeline — > Spark Thriftserver — > > Hive>>
Select Column returns in: 35s
Count возвращается в: 1.9 s

Beeline — > Spark Thriftserver ->> Vora>>
Select Column returns in: 55s
Count возвращается в: 1.2 s

Есть ли какие-либо важные советы по настройке производительности, чтобы помочь контроллеру? Интересен тот факт, что я могу выбирать из Hive на более высокой скорости, чем контроллер из Vora.













1 ответ

  1. После небольшого разбиения на разделы. Я получил SAP Controller, чтобы выбрать данные с более высокой скоростью из Hive, Vora по-прежнему примерно с той же скоростью.
    Кажется, что меньшее количество расколов очень помогает контроллеру
    Разбиение данных с 31 до 10 файлов уменьшает время запроса более чем на 75%

    текущие результаты:

    Spark-Shell — > Spark Thriftserver — > > Hive>>
    Select Column returns in: 14s
    Count возвращается в: 1s

    Hana — > SAP Controller — > > Hive>>
    Select Column returns in: 10s
    Count возвращается в: 5s

    Beeline — > Spark Thriftserver — > > Hive>>
    Select Column returns in: 7s
    Count возвращается в: 1.3 s

    Граф, кажется, возвращается медленно еще, но не проблема.