Я хочу классифицировать тексты с помощью svm (smo) в weka. Файл, который у меня есть, содержит несколько предложений (персидский) и слово перед каждым предложением, которое показывает его класс. Вопрос в том, должен ли я изменить эти предложения на двоичный вектор и дать эти векторы weka в качестве входных данных, или достаточно просто превратить предложения в вектор, выбрав «string to word vector» в самом weka?
файл примера:
Хотя, это работает с выбором «string to word vector» в weka, лучше изменить предложения на векторы в соответствии с 1000 наиболее частыми словами или любыми другими особенностями. Он работает быстрее.