pyspark redueByKey изменить отдельные результаты

У меня есть набор данных, который выглядит так в pyspark:

samp = sc.parallelize([(1,'TAGA'), (1, 'TGGA'), (1, 'ATGA'), (1, 'GTGT'), (2, 'GTAT'), (2, 'ATGT'), (3, 'TAAT'), (4, 'TAGC')])

У меня есть функция, которую я использую для объединения строк:

   def combine_strings(x,y):
        if (isinstance(x,list) and isinstance(y, list)):
            z = x + y
            return z
        if (isinstance(x, list) and isinstance(y, str)):
            x.append(y)
            return x
        if (isinstance(x, str) and isinstance(y, list)):
            y.append(x)
            return y
        return [x,y]

Результат, который я получаю:

samp.reduceByKey(lambda x,y : combine_strings(x,y)).collect()
[(1, ['TAGA', 'TGGA', 'ATGA', 'GTGT']), (2, ['GTAT', 'ATGT']), (3, 'TAAT'), (4, 'TAGC')]

Чего я хочу, так это:

[(1, [‘TAGA’, ‘TGGA’, ‘ATGA’, ‘GTGT’]), (2, [‘GTAT’,’ ATGT’]), (3, [‘TAAT’]), (4, [‘TAGC’])]

Где все является массивом. I can’t tell if pyspark is calling combine_strings on a result where there’S 1 entry or if I can tell reduceByKey to do something with singleton results? Как изменить функцию reduceByKey () или combine_strings, чтобы получить желаемое?

1 ответ

  1. Можно сначала сопоставить значения в списки, а затем только объединить эти списки:

    samp.mapValues(lambda x : [x]).reduceByKey(lambda x,y : x + y).collect()
    

    Проблема здесь в том, что эти синглеты не затронуты reduceByKey. Вот еще один пример:

    samp = sc.parallelize([(1,1),(2,2),(2,2),(3,3)])
    >>> samp.reduceByKey(lambda x, y : x + y + 1).collect()
    [(3, 3), (1, 1), (2, 5)]