Является ли filterPushdown настройкой для PySpark?

Наткнулся на сообщение в блоге Hortonwork, пропагандирующее push-down предикатов в этом посте .

Я не могу найти его в документации Spark 1.4 (это версия, которую я использую). Нужно ли беспокоиться о том, чтобы установить значение false, или это уже собственный параметр? Если я могу это изменить, как это сделать?

1 ответ

  1. Pushdown предикатов является частью оптимизации катализатора spark. Это происходит автоматически.

    Например, предположим, вы создаете фрейм данных из SQL server, а затем выполняете на нем фильтр. Вероятно, производительность была бы выше, если бы фильтрация проводилась в SQL server, а не в spark (для уменьшения объема трафика в сети). Двигатель катализатора Spark распознает, что источник JDBC поддерживает pushdown предиката, и реорганизует ваше выражение для этого.

    В конкретном примере статьи говорится только, что ORC source поддерживает pushdown предикатов для конкретных случаев (т. е. когда у него есть встроенные индексы).

    Это не то, о чем вам нужно беспокоиться в 99,9% случаев, это просто улучшит производительность за кулисами.