Меню
Главная
Авторизация/Регистрация
 
Главная arrow Экономика arrow Информационные технологии в налогообложении

Технология Data Mining

Появление технологии Data Mining связано с необходимостью извлекать знания из накопленных информационными системами разнородных данных. Возникло понятие, которое по- русски стали называть «добыча», «извлечение» знаний. За рубежом утвердился термин «Data Mining».

Широко использовавшиеся раньше методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing OLAP).

Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.

Деревья решений позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если... то...». Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения.

Ассоциативные правила находят закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью С.

Генетические алгоритмы применяются при решении задач оптимизации. Они нужны для решения такого класса задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта.

Нейронные сети реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алго-

1

ритмов анализа данных. Применяются для восстановления пропусков в данных, поиска закономерностей, классификации и кластеризации данных, прогнозирования и моделирования.

Data Mining как мультидисциплинарная система

Рис. 7.1. Data Mining как мультидисциплинарная система

Ключевое достоинство «Data Mining» по сравнению с предшествующими методами — возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной-двух порожденных им самим гипотез.

Еще одна важная особенность систем Data Mining возможность обработки многомерных запросов и поиска многомерных зависимостей. Системы Data-mining способны автоматически обнаруживать исключительные ситуации, т.е. элементы данных, «выпадающие» из общих закономерностей.

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы «Data Minin»1: ассоциация; последовательность; классификация; кластеризация; прогнозирование.

Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей. «Data Mining» является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (рис. 7.1).

В настоящее время для решения задач «Data Mining» используются нейросетевые технологии, статистические пакеты SAS, SPSS, STATISTICA, STATGRAPHICS и др. В процессе работы с нерегламентированными запросами аналитик точно знает, на какие вопросы клиент хотел бы получить ответы, и просто извлекает нужную информацию из куба OLAP. Например, сотрудник налоговой службы мог бы спросить: «Какова тенденция роста уклонения от налогов доходов и прибыли в нефтеперерабатывающей отрасли (производство бензина) за последние два квартала текущего года?»

С помощью методов «Data-Mining» при отсутствии априорной информации об объектах и их поведении и значительной ее неполноте решаются следующие задачи:

  • — выделение в данных групп, сходных по некоторым признакам записей;
  • — нахождение и аппроксимация зависимостей, связывающих анализируемые параметры или события;
  • — поиск наиболее значимых параметров в данной проблеме (задаче);
  • — выявление данных, характеризующих значительные или существенные отклонения от сложившихся ранее закономерностей (анализ отклонений);
  • — прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с использованием принципов обучения на известных примерах и другие задачи.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >
 
Популярные страницы