Rabitə və İnformasiya Texnologiyaları Nazirliyinin elektron xəbər xidməti

Инструмент для очистки данных поможет улучшить модели прогнозирования


Исследователи из Колумбийского и Калифорнийского университетов разработали интерактивную систему для очистки крупных пакетов информации.

Специалисты утверждают, что подобные структуры полны недействительных данных, что приводит к созданию некорректных моделей прогнозирования, используемых в финансовой, здравоохранительной и других сферах. Программисты из Колумбийского и Калифорнийского (Беркли) университетов постарались решить эту проблему за счет нового инструмента по очистке данных. Система получила название ActiveClean. Она анализирует модели прогнозирования и решает, какие ошибки редактировать в первую очередь, одновременно обновляя ее в процессе работы. Пользователь видит улучшение с каждым циклом.

Команда представит свой проект в Нью-Дели 7 сентября в ходе конференции по вопросу очень больших баз данных. Сегодня подобные структуры часто объединяются и редактируются вручную, с помощью программ, вроде Trifacta, Google Refine или специальных алгоритмов, выполняющих конкретные задания. Процесс потребляет до 80% рабочего времени аналитиков, действия которых основываются на догадках.

ActiveClean старается минимизировать подобные проблемы, исключая человеческий фактор на наиболее важных этапах. Используя машинное обучение, инструмент анализирует структуру модели, чтобы понять, какого типа ошибки навредят ей сильнее всего. Программа обрабатывает эту информацию в первую очередь. Она уменьшает ее приоритет и удаляет столько данных, чтобы пользователь был уверен в точности своей модели. Авторы выложили программу в сеть для бесплатной загрузки, сообщает Rsute.www.rsute.ru





31/08/16    Çap et