формат файла svm в weka

Я хочу классифицировать тексты с помощью svm (smo) в weka. Файл, который у меня есть, содержит несколько предложений (персидский) и слово перед каждым предложением, которое показывает его класс. Вопрос в том, должен ли я изменить эти предложения на двоичный вектор и дать эти векторы weka в качестве входных данных, или достаточно просто превратить предложения в вектор, выбрав «string to word vector» в самом weka?

файл примера:

https://www.dropbox.com/s/ohpyortve8jbwhe/shoor.arff?dl=0

1 ответ

  1. Хотя, это работает с выбором «string to word vector» в weka, лучше изменить предложения на векторы в соответствии с 1000 наиболее частыми словами или любыми другими особенностями. Он работает быстрее.