05.00.00 Технические науки
Основные этапы обработки текста и генерации признаков в задачах текстовой классификации / Key stages of text processing and feature generation in text classification
- Категория: 05.00.00 Технические науки
- Создано: 28.06.2016, 11:02
- Просмотров: 866
Скороходов Иван Сергеевич / Skorokhodov Ivan – бакалавр менеджмента, магистрант, кафедра экономики и менеджмента в промышленности, факультет управления и экономики высоких технологий;
Тихомирова Анна Николаевна / Tikhomirova Anna – кандидат технических наук, доцент, кафедра кибернетики, факультет кибернетики, Федеральное государственное автономное образовательное учреждение высшего образования, Национальный исследовательский ядерный университет, Московский инженерно-физический институт, г. Москва
Аннотация: в данной работе исследуются основные этапы проведения обработки текстовых признаков в задачах интеллектуального анализа данных, а также процедуры генерации информативных факторов. Среди них рассматриваются операции стемминга, лемматизации, формирования мешка слов, формирования статистики TF-IDF, а также методы сокращения пространства признаков.
Abstract: in this paper we investigate key stages of text features processing, which are typically used in data mining tasks, as well as describe main procedures of generating informative factors. Among them we depict such operations as stemming, lemmatization, bag of words and TF-IDF metrics generation and methods to reduce feature space.
Ключевые слова: интеллектуальный анализ данных, текстовые признаки, компьютерная лингвистика, обработка данных, генерация признаков.
Keywords: data mining, text features, computational linguistics, data processing, feature generation.
Литература
- Shearer C. The CRISP-DM model: the new blueprint for data mining, 2000.
- Evgeniy Gabrilovich, Shaul Markovitch. Feature generation for text categorization using world knowledge.
- Jan Busta, Dana Hlavackova, Milos Jakubicek, and Karel Pala. Classification of errors in text.
- Dawson J. L. (1974); Suffix Removal for Word Conflation, Bulletin of the Association for Literary and Linguistic Computing.
- A comparative study of stemming algorithms.
- Lemmatisation - wikipedia, the free encyclopedia. https://en.wikipedia. org/wiki/Lemmatisation.
- Vimala Balakrishnan and Ethel Lloyd-Yemoh Stemming and lemmatization: A comparison of retrieval performances. IACSIT, 2014.
- Feature extraction - wikipedia, the free encyclopedia. https://en. wikipedia.org/wiki/Feature_extraction.
- Шумовые слова - Википедия. https://ru.wikipedia.org/wiki/Шумовые_слова.
- Pablo A. Estevez, Michel Tesmer Claudio A. Perez, and Jacek M. Zurada Normalized mutual information feature selection. IEEE, 2009.
Поделитесь данной статьей, повысьте свой научный статус в социальных сетях
Tweet |