05.00.00 Технические науки
Скороходов Иван Сергеевич / Skorokhodov Ivan – бакалавр менеджмента, магистрант, кафедра экономики и менеджмента в промышленности, факультет управления и экономики высоких технологий;
Тихомирова Анна Николаевна / Tikhomirova Anna – кандидат технических наук, доцент, кафедра кибернетики, факультет кибернетики, Федеральное государственное автономное образовательное учреждение высшего образования, Национальный исследовательский ядерный университет, Московский инженерно-физический институт, г. Москва
Аннотация: в данной работе исследуются основные этапы проведения обработки текстовых признаков в задачах интеллектуального анализа данных, а также процедуры генерации информативных факторов. Среди них рассматриваются операции стемминга, лемматизации, формирования мешка слов, формирования статистики TF-IDF, а также методы сокращения пространства признаков.
Abstract: in this paper we investigate key stages of text features processing, which are typically used in data mining tasks, as well as describe main procedures of generating informative factors. Among them we depict such operations as stemming, lemmatization, bag of words and TF-IDF metrics generation and methods to reduce feature space.
Ключевые слова: интеллектуальный анализ данных, текстовые признаки, компьютерная лингвистика, обработка данных, генерация признаков.
Keywords: data mining, text features, computational linguistics, data processing, feature generation.
Литература
Tweet |