Регистрация и обработка экспериментальных данных

Данные любого эксперимента, в том числе и пассивного, фиксируют в той или иной форме, обрабатывают определенным образом, а полученные результаты используют для устранения существующей неопределенности или решения возникшей проблемы. Иногда эти операции практически совмещены во времени. Так, в системах автоматического управления технологическими процессами, в том числе химическими и атомными реакторами, в системах управления сложными объектами в реальном масштабе времени, в том числе во всех автономных системах управления движущимися объектами (самолетами, поездами, космическими аппаратами) выработка и реализация управленческого решения должны осуществляться в очень короткое и жестко лимитированное время. Несоблюдение существующих или заданных ограничений может привести к фатальным последствиям.

В научных исследованиях, контрольно-ревизионной деятельности, криминалистике и системном анализе обработка экспериментальных данных является самостоятельным этапом, промежуточным между непосредственными измерениями и использованием результатов их обработки. В этом случае исходная информация фиксируется в так называемых протоколах наблюдений или экспериментальных таблицах. Вид этих протоколов и таблиц, а также методы обработки содержащихся в них данных зависят от характера модели, для уточнения которой ставится эксперимент, и существующих стандартов в данной предметной области. В большинстве случаев протоколы наблюдений имеют особенности, которые требуют пристального внимания. К числу наиболее существенных особенностей принадлежат:

I) большая размерность;

  • 2) разнотипность данных;
  • 3) пропущенные значения;
  • 4) зашумленность;
  • 5) искажения.

Коротко остановимся на каждой из них.

  • 1. Большая размерность. Во многих статистических исследованиях число объектов в выборке (N) и число признаков, по которым замеряется каждый из них (п), настолько велики, что произведение N'n достигает нескольких десятичных порядков. Если при этом еще учитывается время (интересующие нас характеристики объекта замеряются в определенные моменты времени), то размерность исходного блока данных увеличивается многократно. Даже при нынешних мощностях компьютерной техники размерность исходных данных статистической задачи может стать существенным препятствием на пути ее эффективного решения. В данном случае эффективность ассоциируется с качественным решением задачи в приемлемые сроки.
  • 2. Разнотипность данных. Разные признаки исследуемого объекта могут измеряться в разных шкалах. Большинство существующих пакетов прикладных программ статистической обработки информации воспринимают только однотипные данные. Это вызывает необходимость приводить разнотипные исходные данные к одной шкале.
  • 3. Пропущенные значения. Незаполненные ячейки протокола или таблицы данных — не такой уж редкий случай в статистических измерениях. Особенно это характерно для экономических и социологических исследований, когда эксперимент проводится в естественных, а не в лабораторных условиях. Можно исключить из обработки пропущенное значение, исключив заодно и все сопровождающие его сведения, а можно попытаться восстановить пропущенное значение (опираясь на избыточность исходного протокола, которая, как правило, бывает всегда) и обрабатывать протокол в штатном режиме. К сожалению, универсальных способов восстановления пропущенных данных не существует, и каждый раз при возникновении такой необходимости приходится вырабатывать, обосновывать и согласовывать оригинальные подходы к осуществлению этой процедуры.
  • 4. Зашумленность. Довольно часто измерение, занесенное в протокол, на самом деле отличается от измеряемого значения на некоторую случайную величину. Статистические свойства этой сопровождающей помехи могут не зависеть от измеряемой величины, и тогда помехи называют аддитивным (суммарным) шумом. Если же статистические свойства сопровождающей помехи зависят от измеряемой величины, то такую зашумленность исходных данных называют неаддитивной. Разные виды зашумленности должны по- разному учитываться при обработке.
  • 5. Искажение. Приступая к обработке протокола наблюдений, мы всегда исходим из определенных предположений о природе величин, занесенных в протокол. Любой способ обработки дает результаты ожидаемого качества только в том случае, если обрабатываемые данные отвечают определенным предположениям. К сожалению, далеко не всегда и далеко не все системные аналитики в ходе обработки данных обращают внимание на то, действительно ли все данные из протокола наблюдений отвечают предположениям, заложенным в алгоритм обработки. Например, цифры в протоколе наблюдений могут быть символами, а мы можем считать, что они числа; непрерывная измеряемая характеристика фиксируется с помощью дискретных округленных значений, что является причиной искажения результата; при измерении в числовых шкалах может не учитываться нелинейность измерительного прибора, что тоже влечет за собой искажение протокольных данных и т.д.

Чтобы повысить качество выводов, получаемых при обработке статистических данных, необходимо обеспечить соответствие их свойств требованиям алгоритмов обработки (или наоборот). Для этого нужно контролировать условия эксперимента и/или вносить корректирующие поправки в протоколы наблюдений, например пересчитывать показания нелинейного датчика, и/или конструировать алгоритмы с минимумом предположений, как в непараметрической статистике, и/или конструировать специальные алгоритмы с расчетом на возможные отклонения, как в робастной статистике.

Таким образом, для любого протокола наблюдений, подлежащего обработке, всегда необходимо рассматривать соответствие проверяемой модели и выполнение условий измерения.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >