разбирать txt с различными типами в строке

У меня есть txt файлы с полуструктурированными данными, я должен написать его в cassandra через spark-cassandra. Но для начала я что бы разобрать только в scala.

мой код :

import java.io.File
import scala.io.Source

object parser extends App {
  val path = "somepath"
  val fileArray = (new java.io.File(path)).listFiles()
   for (file <- fileArray)
    for (line <- Source.fromFile(file).getLines())

Итак, как я могу разобрать каждую строку и получить значения, чтобы поместить их в cassandra?
например, у меня есть (int, text, timestamp, int, text, char, int, text)?
I have to split line for delimiter («»)? и посадить их в кортеж? или каждый из них конвертировать в читаемый формат?

1 ответ

  1. То, что вы, вероятно, могли бы сделать, это обработать его как csv-файл с разделителем(» «)? Так что пусть Spark сделает анализ за вас.

    val spark = SparkSession.builder.config(conf).getOrCreate()
    val dataFrame = spark.read.option("inferSchema", "true").option("delimiter", " ").csv(csvfilePath)