Технологии обработки и анализа больших объемов данных (Никифоров И.В., Селин И.А.)

Технологии обработки и анализа больших объемов данных

Руководители: Никифоров Игорь Валерьевич, доцент, к.т.н., nikiforov_iv@spbstu.ru;
Селин Иван Андреевич,  старший преподаватель, selin_ia@spbstu.ru

Основные направления исследований:

- технологии сбора, хранения, передачи и обработки больших объемов информации;

- системы и средства распределенного анализа данных, поступающих из различных источников: сенсоры, датчики, логи, социальные сети, Интернет и другие;

- машинное обучение и нейросетевые технологий в обработке и анализе данных.

Некоторые результаты исследований и разработок:

- разработан и реализован подход к автоматическому определению регрессии производительности системы хранения потоковых данных Pravega на основе широкого спектра инструментов для создания и оркестровки контейнеров, управления распределенной системой, автоматизации обработки данных, для их визуализации в веб-приложении

- спроектирован и разработан проект по анализу поведения студентов проходящих обучение на портале открытого образования OpenEdu на основе логов (аудита) действий пользователей. Проект был представлен студенческой командой разработки на международный конкурс Dell Envision The Future 2020 году и выиграл 3-е место (тут ссылка https://www.delltechnologies.com/en-ae/campaigns/ecs-internet-things/envision-the-future/winners.htm#tab0=0);

- разработано программное средство для автоматизированной интеллектуальной обработки запросов заказчика, в основе которого лежат методы машинного обучения и анализа неструктурированного текста на естественном языке. Предложенное средство успешно внедрено в крупных ИТ-компаниях для снижения повседневной нагрузки на службу технической поддержки;

- разработано решение по антропометрическому анализу ступней человека с применением кластеризации для проектирования оптимальных обувных колодок

Основные публикации:

- N. Voinov, P. Drobintsev, V. Kotlyarov and I. Nikiforov, "Distributed OAIS-Based digital preservation system with HDFS technology," 2017 20th Conference of Open Innovations Association (FRUCT), 2017, pp. 491-497, doi: 10.23919/FRUCT.2017.8071353.

- N. Voinov, K. Rodriguez Garzon, I. Nikiforov and P. Drobintsev, "Big Data Processing System for Analysis of GitHub Events," 2019 XXII International Conference on Soft Computing and Measurements (SCM)), 2019, pp. 187-190, doi: 10.1109/SCM.2019.8903782.

- Voinov N., Selin I., Drobintsev P., Kotlyarov V. An approach for managing hybrid supercomputer resources in photogrammetric tasks. CEUR Workshop Proceedings. Volume 2281, 2018, P. 12-19. http://ceur-ws.org/Vol-2281/paper-02.pdf

- Nikiforov Igor V., Voinov Nikita V., Drobintsev Pavel D. A System Prototype for Real Time Automatic Fraud Detection in Text Data. Proceedings of 2018 21th IEEE International Conference on Soft Computing and Measurements, SCM 2018, Pages 724-727

- Селин И. А., Дробинцев П. Д. Обработка больших наборов данных в задачах биоинформатики с использованием верти-кального и горизонтального масштабирования. Информатика и кибернетика (COMCON-2016). Сборник докладов студенческой научной конференции Института компьютерных наук и технологий. С.150-153.

- Pavlov, E., Selin, I., Drobintsev, P., Voinov, N., Shemyakin, I., Designing Shoe Lasts Through 3D Feet Scans Clusterization Using Anthropometric Parameters of Population Groups, (2021) Lecture Notes in Electrical Engineering, 737, pp. 479-486. DOI: 10.1007/978-981-33-6318-2_60

- Chikov, A., Egorov, N., Medvedev, D., Chikova, S., Pavlov, E., Drobintsev, P., Krasichkov, A., Kaplun, D., Determination of the athletes' anaerobic threshold using machine learning methods, (2022) Biomedical Signal Processing and Control, 73, art. no. 103414, DOI: 10.1016/j.bspc.2021.103414

 

Примеры тем научно-исследовательских работ для студентов:

Разработка системы классификации объектов и управления манипуляционным роботом на базе контроллера Raspberry Pi 4

Распределенная микросервисная архитектура системы анализа логов платформы «Открытое образование»

Автоматизация определения регрессии производительности СХД на основе методов машинного обучения

Алгоритм балансировки нагрузки мультифрактального трафика между вычислительными узлами гетерогенного кластера

Разработка модуля транскодирования видеопотоков в режиме реального времени с использованием библиотеки ffmpeg

Разработка гибкой и высокопроизводительной платформы для анализа машинных данных

Разработка высокопроизводительного решения для извлечения информации с web-ресурсов

Программная система поддержки принятия решений и оценки финансовых рисков в области транспортного лизинга

Прогнозирование котировок финансовых инструментов с помощью машинного обучения

Использование алгоритмов машинного обучения для обнаружения проблемных заявок в бизнес-приложении