Russian Chinese (Simplified) English German

Публикация научных работ

Тел.: +7(915)814-09-51(WhatsApp) E-mail: info@p8n.ru

publication foto Журнал «Проблемы современной науки и образования» выходит ежемесячно, 6 числа (уточняется в месяц выхода). Следующий номер журнала № 5(192) 2024 г. Выйдет - 07.05.2024 г. Статьи принимаются до 03.05.2024 г.

Если Вы хотите напечататься в ближайшем номере, не откладывайте отправку заявки.

Потратьте одну минуту, заполните и отправьте заявку в Редакцию.




05.00.00 Технические науки

Основные этапы обработки текста и генерации признаков в задачах текстовой классификации / Key stages of text processing and feature generation in text classification

Скороходов Иван Сергеевич / Skorokhodov Ivan – бакалавр менеджмента, магистрант, кафедра экономики и менеджмента в промышленности, факультет управления и экономики высоких технологий;

Тихомирова Анна Николаевна / Tikhomirova Anna – кандидат технических наук, доцент, кафедра кибернетики, факультет кибернетики, Федеральное государственное автономное образовательное учреждение высшего образования, Национальный исследовательский ядерный университет, Московский инженерно-физический институт, г. Москва

Аннотация: в данной работе исследуются основные этапы проведения обработки текстовых признаков в задачах интеллектуального анализа данных, а также процедуры генерации информативных факторов. Среди них рассматриваются операции стемминга, лемматизации, формирования мешка слов, формирования статистики TF-IDF, а также методы сокращения пространства признаков.

Abstract: in this paper we investigate key stages of text features processing, which are typically used in data mining tasks, as well as describe main procedures of generating informative factors. Among them we depict such operations as stemming, lemmatization, bag of words and TF-IDF metrics generation and methods to reduce feature space.

Ключевые слова: интеллектуальный анализ данных, текстовые признаки, компьютерная лингвистика, обработка данных, генерация признаков.

Keywords: data mining, text features, computational linguistics, data processing, feature generation.

Литература

  1. Shearer C. The CRISP-DM model: the new blueprint for data mining, 2000.
  2. Evgeniy Gabrilovich, Shaul Markovitch. Feature generation for text categorization using world knowledge.
  3. Jan Busta, Dana Hlavackova, Milos Jakubicek, and Karel Pala. Classification of errors in text.
  4. Dawson J. L. (1974); Suffix Removal for Word Conflation, Bulletin of the Association for Literary and Linguistic Computing.
  5. A comparative study of stemming algorithms.
  6. Lemmatisation - wikipedia, the free encyclopedia. https://en.wikipedia. org/wiki/Lemmatisation.
  7. Vimala Balakrishnan and Ethel Lloyd-Yemoh Stemming and lemmatization: A comparison of retrieval performances. IACSIT, 2014.
  8. Feature extraction - wikipedia, the free encyclopedia. https://en. wikipedia.org/wiki/Feature_extraction.
  9. Шумовые слова - Википедия. https://ru.wikipedia.org/wiki/Шумовые_слова.
  10. Pablo A. Estevez, Michel Tesmer Claudio A. Perez, and Jacek M. Zurada Normalized mutual information feature selection. IEEE, 2009.

Publication of scientific papers

Поделитесь данной статьей, повысьте свой научный статус в социальных сетях

        
  
  

Старый сайт

oldsite Старая версия сайта >>>

Рейтинг@Mail.ru
Яндекс.Метрика
Импакт-фактор российских научных журналов
 

Контакты

  • Адрес: 153008, Россия, г. Иваново, ул. Лежневская, д. 55, 4 этаж. Время работы: с 10-00 до 18-00. Кроме выходных.
  • Tel: +7(915)814-09-51 (МТС)
  • Fax: +7(961)245-79-19(Билайн)
  • Email:
  • Website: http://www.ipi1.ru/
  • Вконтакте: http://vk.com/scienceproblems
Вы здесь: Главная Статьи 05.00.00 Технические науки Основные этапы обработки текста и генерации признаков в задачах текстовой классификации / Key stages of text processing and feature generation in text classification