Надежность ЭВМ — свойство выполнять заданные функции, сохраняя эксплуатационные показатели в допустимых пределах в течение требуемого промежутка времени, и возможность возобновления функционирования, утраченного по тем или иным причинам.
В любой момент времени ЭВМ может находиться в исправном или неисправном состоянии. Если ЭВМ в данный момент времени удовлетворяет всем требованиям, установленным как в отношении основных параметров, характеризующих нормальное выполнение вычислительных процессов (точность, быстродействие и др.), так и в отношении второстепенных параметров, характеризующих внешний вид и удобство эксплуатации, то такое состояние называют исправным состоянием. В соответствии с этим определением неисправное состояние — состояние ЭВМ, при котором она в данный момент времени не удовлетворяет хотя бы одному из этих требований, установленных в отношении как основных, так и второстепенных параметров.
Однако не каждая неисправность приводит к невыполнению ЭВМ заданных функций в отношении основных параметров. Например, образование вмятин или ржавчины на корпусе машины, выход из строя лампочек подсветки не могут препятствовать эксплуатации ЭВМ. Поэтому для оценки надежности систем введены понятия «работоспособность» и «отказ».
Работоспособность — состояние ЭВМ, при котором она в данный момент времени соответствует всем требованиям в отношении основных параметров, характеризующих нормальное протекание вычислительных процессов.
Отказ — событие, состоящее в полной или частичной утрате работоспособности системы. Так как не всякая неисправность приводит к отказу, то на практике различают неисправности основные и второстепенные. Основные неисправности приводят к отказу. Второстепенные неисправности не приводят к отказу, однако создают неудобства в эксплуатации и портят внешний вид ЭВМ. Поэтому второстепенные неисправности целесообразно своевременно устранять.
|
Возникновение отказа во времени — случайное событие, что позволяет для оценки надежности ЭВМ использовать методы теории вероятности и математической статистики. Чтобы определить влияние на характеристики ЭВМ отказов различного вида, целесообразно произвести их классификацию.
По характеру изменения параметров до момента возникновения отказы делят на внезапные и постепенные. Внезапные (катастрофические) отказы возникают в результате мгновенного изменения одного или нескольких параметров элементов, из которых построена ЭВМ (обрыв или короткое замыкание). Устранение внезапного отказа производят заменой отказавшего элемента (блока, устройства) исправным или его ремонтом. Постепенные отказы возникают в результате постепенного изменения параметров элементов до тех пор, пока значение одного из параметров не выйдет за некоторые пределы, определяющие нормальную работу элементов (старение элементов, воздействие окружающей среды, колебания температуры, влажности, давления, уровня радиации и т. п.), механические воздействия (вибрации, удары, перегрузки). Устранение постепенного отказа связано либо с заменой, ремонтом, регулировкой параметров отказавшего элемента, либо с компенсацией за счет изменения параметров других элементов. По характеру устранения отказы делят на устойчивые и самоустраняющиеся. Для устранения устойчивых отказов оператор, обслуживающий ЭВМ, должен отрегулировать или заменить отказавший элемент. Самоустраняющиеся отказы исчезают без вмешательства оператора, проявляются в форме сбоя или перемежающего отказа.
|
Сбой — однократно возникающий самоустраняющийся отказ. Если несколько сбоев следуют друг за другом, то наблюдается перемежающийся отказ. Отказ типа сбоя особенно характерен для ЭВМ. Появление сбоев обусловливается внешними и внутренними факторами. К внешним факторам относятся колебания напряжения питания, вибрации, температурные колебания. Специальными мерами (стабилизации питания, амортизация, термостатирование и др.) влияние этих факторов может быть значительно ослаблено. К внутренним факторам относятся флуктуационные колебания параметров элементов, несинхронность работы отдельных устройств, внутренние шумы и наводки.
Если в ЭВМ возникает сразу несколько отказов, то по их взаимной связи различают независимые отказы (возникновение их не связано с предшествующими отказами) и зависимые (появление их вызвано отказом в предыдущий момент времени). По внешним проявлениям отказы делят на явные и неявные. Явные отказы обнаруживаются при внешнем осмотре, а неявные отказы — специальными методами контроля.
Введенное выше понятие «отказ» позволяет рассмотреть основные эксплуатационные свойства ЭВМ: безотказность, ремонтоспособность, долговечность, сохраняемость.
Безотказность — свойство ЭВМ непрерывно сохранять работоспособность в заданных режимах и условиях эксплуатации без вынужденных простоев. Это свойство характеризует функционирование системы до первого отказа и используется при оценке надежности ЭВМ одноразового применения.
|
Ремонтоспособность — свойство ЭВМ, заключающееся в приспособлении к предупреждению, обнаружению и устранению отказов и неисправностей путем проведения технического обслуживания и ремонтов.
Долговечность — свойство ЭВМ сохранять работоспособность до предельного состояния с необходимыми перерывами для технического обслуживания и ремонтов. Необходимо отметить, что предельное состояние определяется технической непригодностью ЭВМ из-за снижения эффективности или требований техники безопасности и оговаривается в технической документации.
Сохраняемость — свойство изделия сохранять эксплуатационные показатели в течение заданного срока хранения и после него. Это свойство характеризует безопасность ЭВМ в режиме хранения.
Надежность как сочетание свойств безотказности, ремонтоспособности, долговечности и сохраняемости и сами эти качества количественно характеризуются различными функциями и числовыми параметрами. Правильный выбор количественных показателей надежности ЭВМ позволяет объективно сравнивать технические характеристики различных вычислительных систем как на этапе проектирования, так и на этапе эксплуатации (правильный выбор системы элементов, технические обоснования работы по эксплуатации и ремонту ЭВМ, объем необходимого запасного имущества и др.).
При определении надежности ЭВМ необходимо знать:
· процесс возникновения отказов устройств ЭВМ;
· конфигурацию системы, которая описывает характер соединения устройств и правила их работы;
· порядок обслуживания и ремонт устройств ЭВМ.
Процесс возникновения отказов в ЭВМ обычно описывается сложными вероятностными законами. Поэтому в инженерной практике для оценки надежности ЭВМ вводят количественные характеристики, для определения которых обычно используют экспериментальные данные и последующую их обработку. Выбор количественных характеристик надежности зависит от вида ЭВМ (восстанавливаемые и невосстанавливаемые ЭВМ).
Невосстанавливаемые ЭВМ называют ЭВМ, которые в процессе выполнения своих функций не допускают ремонта. Если происходит отказ какого-либо устройства, то выполняемая операция будет сорвана и ее необходимо начинать вновь в том случае, если возможно устранение отказа. К таким устройствам относят как устройства одноразового действия, так и устройства многократного действия (системы ПВО, системы управления воздушным движением, системы управления химическими, металлургическими и другими ответственными технологическими процессами).
Восстанавливаемыми ЭВМ называют ЭВМ, которые в процессе выполнения своих функций допускают ремонт. Если произойдет отказ такой ЭВМ, то он вызовет прекращение функционирования изделия только на период устранения отказа.
Показатели надежности невосстанавливаемых ЭВМ:
· плотность распределения времени безотказной работы f(t),
· вероятность безотказной работы P(t),
· вероятность отказа Q(t),
· интенсивность отказов λ(t),
· средняя наработка до первого отказа Tср.
Наиболее точная количественная мера надежности каждого изделия — его индивидуальная наработка до момента возникновения отказа. На практике же достаточно полная характеристика надежности — плотность распределения времени безотказной работы данного типа изделий f(t) и интенсивность отказов λ(t). Для определения функций f(t) и λ(t) используют экспериментальные данные по испытанию изделий на надежность. При этом опыт ставится следующим образом: испытанию подвергают большую партию изделий N0, время наблюдения разбивают на п небольших отрезков Δt, на каждом из этих отрезков определяют число отказавших изделий ΔNi. Отказавшие изделия либо не заменяют новыми (при определении f(t) и λ(t) невосстанавливаемых элементов), либо заменяют новыми (для восстанавливаемых элементов). По полученным результатам значение вероятности безотказной работы изделия в момент времени t, характеризующее его надежность, может быть определено из следующих соображений.
Если в рассматриваемый момент времени t=tx имеется Nx работающих изделий, а m=N0 - Nx вышли из строя, то опытная статистическая вероятность безотказной работы , а опытная статистическая вероятность отказов где и характеризуют частоту отказов в данном опыте и являются оценками соответствующих «математических» вероятностей, которые определяются как пределы:
«Математические» вероятности характеризуют не отдельную выборку, а всю генеральную совокупность изделий.
Определим зависимость от времени, для чего рассмотрим приращение на ограниченном отрезке времени . Число элементов , которое выйдет из строя за ограниченный промежуток времени , будет пропорционально отрезку времени и числу имеющихся в работе изделий Nx, т. е.
где λt — коэффициент пропорциональности, принимаемый постоянным на ограниченном отрезке времени.
Переходя к бесконечно малым приращениям dmx и учитывая
получим
Интегрируя последнее выражение и имея в виду, что при t = 0; Nx = No найдем,
или, если освободиться от логарифмов,
Значение λt равное
называют интенсивностью (опасностью) отказов.
Таким образом, интенсивность отказов в момент времени t представляет собой вероятность отказов в единицу времени при условии, что до момента времени t отказов не было.
Зависимость интенсивности отказов от времени может быть определена экспериментально (рис. 6.1). Анализируя полученную кривую t, снятую, допустим, при испытаниях в нормальных условиях, можно отметить три временных интервала:
1) от 0 до t1 — время приработки (1—1,5%) всего времени испытаний;
2) от t1 до t2 — время нормальной работы;
3) от t2 до ∞ — время старения.
Рисунок 6.1 – График зависимости интенсивности отказов от времени
Время приработки характеризуется повышенным числом отказов и определяется проявлением технологических и производственных дефектов, время нормальной работы — высокой надежностью испытуемых изделий (интенсивность отказов на этом интервале практически постоянна).
При ослаблении (кривая 2) или ужесточении (кривая 3) условий испытаний зависимость λ(t) изменится, но три характерных временных сохраняются. Полученные ранее зависимости вероятности безотказной работы P(t) от интенсивности отказов λ(t) называют экспоненциальным законом изменения P(t) т. е.
.
или , если λ = const. Этот закон соблюдается в случае учета внезапных отказов. Известны и другие законы изменения P(t).
1) нормальный закон, или распределение Гаусса (для постепенных отказов),
,
где σ — дисперсия среднего времени безотказной работы;
Tср — среднее время безотказной работы;
2) закон Вейбулла (при определении надежности электромеханических элементов) ;
3) закон Эрланга (при определении надежности восстанавливаемых изделий) .
Один из важнейших числовых параметров надежности — среднее время безотказной работы, который определяется как математическое ожидание случайной величины, т. е.
,
где — плотность вероятности отказа.
Преобразуем этот интеграл к следующему виду, решив его по частям:
,
или
.
В общем случае интенсивность отказов λt зависит как от времени t, так и от параметров, характеризующих режим работы (U, I, W) и условия эксплуатации , т. е. . Исходя из анализа физических и физико-химических процессов, являющихся причинами возникновения отказов, определим зависимость λt, от режимов работы.
Число отказов при прерывистом режиме работы элементов зависит как от времени их действительной работы так и от числа циклов работы N, т. е. . Бесконечно малое приращение числа отказов определим как полный дифференциал:
.
Так как mx = N0 - Nx и, следовательно, , то после деления обеих частей на Nx имеем
.
Обозначая и и учитывая, что при t=0, N=0 и Nx=N0, получим
.
Освободившись от логарифмов, имеем
.
Если примем, что и , то
где — время, прошедшее с начала работы изделия;
— время цикла,
и — время использования (работы) изделия и время паузы,
— частота циклов.
Так как во время пауз наблюдаются отказы, то вероятность безотказной работы во время пауз можно определить как
где — интенсивность отказов.
Вероятность отсутствия отказов за время t при прерывистой работе
где
Интенсивность отказов также существенно зависит от режима использования элемента в конкретных функциональных блоках машины, условий окружающей среды и в общем случае равна
,
где — значение интенсивности отказов, полученное в нормальных условиях;
— поправочные коэффициенты, соответственно учитывающие зависимость интенсивности отказов от значения электрической нагрузки;
— поправочные коэффициенты, учитывающие прочие факторы режима использования и условий окружающей среды.
Значение интенсивности отказов определяется при температуре окружающей среды от 15 °С до 35 °С, атмосферном давлении (100 ± 4) Па; относительной влажности (65 ± 15)%; естественном фоне радиации; коэффициенте электрической нагрузки КН = 1. Для случая, когда известны интенсивности отказов отдельных элементов, составляющих конструкцию, интенсивность отказов последней определяется по формуле
,
где — интенсивность отказов i -го элемента;
n — количество элементов.
Рассмотренные критерии надежности позволяют достаточно полно оценить надежность невосстанавливаемых устройств и восстанавливаемых устройств до первого отказа.
Большинство современных ЭВМ относят к восстанавливаемым изделиям, количество элементов которых остается постоянным в течение всего срока службы, так как каждый из отказавших элементов заменяют новым. Поэтому при определении показателей надежности ЭВМ можно рассматривать как работающую непрерывно, но в которой время от времени возникают отказы (время исправной работы до очередного отказа и время восстановления случайны). На временной оси чередование времени исправной работы и времени восстановления может быть представлено в виде отрезков, длина которых случайна. Критерии надежности восстанавливаемых ЭВМ: параметр потока отказов w(t); наработка на отказ Т; параметр потока восстановления μ(t); среднее время восстановления TВ, коэффициент готовности Кr; коэффициент вынужденного простоя Кп.
При оценке надежности восстанавливаемых ЭВМ можно использовать или статистические характеристики случайного времени работы от момента восстановления предыдущего отказа до последующего, или статистические характеристики числа отказов за выбранное время наработки. Предположим, что для определения показателей надежности аппаратуры наблюдают за эксплуатацией N образцов ЭВМ в течение времени t, фиксируя число отказов каждого образца. Среднее число отказов за время
.
В число входят как первоначальные отказы, так и отказы, возникающие после восстановления или замены отказавших элементов. Появление отказов в каждом из образцов аппаратуры можно рассматривать как поток требований к обслуживанию, в данном случае к восстановлению. Характеристику этого потока определяют как
.
По значению функции вычисляют параметр потока отказов. Уравнение для этих вычислений имеет вид
. (6.1)
На практике используют другое уравнение, позволяющее определить приближенное значение параметра потока отказов:
,
где — достаточно малый промежуток времени.
Для ЭВМ характерен так называемый период приработки, который заканчивается к моменту времени . В этом случае характеристика потока отказов становится линейной и уравнение кривой может быть записано следующим образом:
, (6.2)
где w — постоянная величина. Используя (6.1), можно определить параметр потока отказов:
.
В ЭВМ поток отказов равен сумме потоков отказов отдельных устройств. Если каждый в отдельности поток оказывает на суммарный поток достаточно равномерное и небольшое влияние, то суммарный поток будет простейшим. Простейший поток должен удовлетворять условиям стационарности, отсутствию последействия и ординарности. Стационарность потока означает, что вероятность появления к отказов за промежуток времени не зависит от и является функцией переменных t и к.
Отсутствие последействия потока состоит в том, что вероятность появления k отказов в течение промежутка времени не зависит от того, сколько было отказов и как часто они возникали до этого промежутка времени. Ординарность потока выражает условие практической невозможности появления двух или нескольких отказов в один и тот же момент времени. Основной тип потока отказов в ЭВМ, работающей в стабильных условиях эксплуатации, — простейший поток. Основной показатель надежности восстанавливаемых изделий — наработка на отказ Т, определяемая как среднее значение наработки ЭВМ между отказами. В тех случаях, когда наработка на отказ выражена в единицах времени, используется другой термин — среднее время безотказной работы. Для интервала времени от наработки t1 до наработки t2 точное уравнение для вычисления наработки на отказ Т имеет вид
, (6.3)
где — характеристика потока отказов.
Для практических расчетов обычно используют приближенное уравнение
.
Нетрудно убедиться, что по окончании периода приработки, когда характеристика потока становится линейной, наработка на отказ не зависит от выбора значений t1 и t2 Представим, что и . Используя (6.2) и (6.3), получим
,
где w — параметр потока отказов.
Предполагая независимость наработки на отказ от времени, можно получить соотношение для вычисления величины Т по данным эксплуатации одной ЭВМ:
,
где — наработка между соседними отказами;
n — число отказов за наблюдаемый период эксплуатации.
Точность определения времени наработки на отказ по приведенной выше формуле будет тем больше, чем больше число зафиксированных отказов. Для повышения достоверности можно использовать данные об отказах нескольких образцов аппаратуры, которые эксплуатируются в сходных условиях:
,
где — наработка между соседними отказами k -го образца аппаратуры;
— число отказов k -го образца аппаратуры;
N — число наблюдаемых образцов.
Для оценки надежности работы восстанавливаемой аппаратуры такой показатель, как вероятность безотказной работы, используют редко. Однако при оценке эффективности работы сложных систем, куда входит ЭВМ, может возникнуть необходимость в вычислении вероятности безотказной работы за период между наработками t1 и t2. Уравнение для этого случая имеет вид
.
Если характеристика потока отказов H(i) линейна, то эта формула упрощается, т. е.
,
где t=t2-t1.
Среднее время восстановления TВ — важный показатель качества восстанавливаемой аппаратуры, являющийся случайной величиной, статистические характеристики которой зависят от приспособленности аппаратуры к восстановлению. Определяется среднее время восстановления как среднее время вынужденного нерегламентированного простоя, вызванного отыскиванием и устранением одного отказа. Этот показатель можно рассчитывать по результатам эксплуатации ЭВМ в течение большого интервала времени наблюдения:
,
где — время, затраченное на восстановление утраченных свойств аппаратуры при i -м отказе;
т — общее число восстановлений.
Если из последовательности операций сделать выборку промежутков восстановлений, то моменты восстановлений образуют поток требований, аналогичных потоку отказов. Этот поток называют потоком восстановлений. Его основная характеристика — параметр потока . Иногда этот параметр называют интенсивностью восстановления, которая статистически определяется как отношение числа восстановленной ЭВМ за период наблюдения к суммарному времени восстановления:
.
Из соотношения следует, что интенсивность восстановления — величина, обратная среднему времени восстановления. Сравнивая такие характеристики, как наработка на отказ и среднее время восстановления, необходимо отметить, что первая из этих характеристик является аппаратурной, т. е. характеристикой, зависящей в основном от внутренних свойств аппаратуры, а вторая — характеристикой системы человек — машина, зависящей как от внутренних свойств ЭВМ, так и от квалификации обслуживающего персонала. Эти показатели связаны коэффициентом готовности ,определяемым отношением времени исправной работы к сумме времени восстановления и времени работы (при условии, что период приработки закончился):
.
Этот коэффициент позволяет найти вероятность исправного состояния аппаратуры в любой момент времени.
Коэффициентом вынужденного простоя называют отношение времени вынужденного простоя к сумме времени исправной работы и вынужденных простоев ЭВМ, взятых за один и тот же календарный срок:
.
Коэффициент готовности и коэффициент вынужденного простоя связаны между собой зависимостью =1- .
Структурная надежность
Структурная надежность любого радиоэлектронного аппарата, в том числе и ЭВМ, — это его результирующая надежность при известной структурной схеме и известных значениях надежности всех элементов, составляющих структурную схему. При этом под элементами понимаются как интегральные микросхемы, резисторы, конденсаторы и т. п., выполняющие определенные функции и включенные в общую электрическую схему ЭВМ, так и элементы вспомогательные, не входящие в структурную схему ЭВМ: соединения паяные (разъемные), элементы крепления и т. д. (Примечание. Надежность указанных элементов достаточно подробно изложена в специальной литературе. В дальнейшем при рассмотрении надежности ЭВМ будем исходить из того, что надежность элементов, составляющих структурную (электрическую) схему ЭВМ, задана однозначно.)
Количественные характеристики структурной надежности ЭВМ. Для их нахождения составляют структурную схему ЭВМ и указывают элементы устройства (блоки, узлы) и связи между ними. Затем производят анализ схемы и выделяют те ее элементы и связи, которые определяют выполнение основной функции данного устройства. Далее из выделенных основных элементов и связей составляют функциональную схему, причем в ней выделяют элементы не по конструктивному, а по функциональному признаку с таким расчетом, чтобы каждому функциональному элементу обеспечивалась независимость, т. е. чтобы отказ одного функционального элемента не вызывал изменения вероятности появления отказа у другого — соседнего функционального элемента. Поэтому при составлении отдельных функциональных схем (устройств узлов, блоков) иногда следует объединять те конструктивные элементы, отказы которых взаимосвязаны, но не влияют на отказы других элементов.
Рисунок 6.2 – Схемы последовательного (а), параллельного (б) и параллельно-последовательного (в) включения элементов в структурной схеме
Определение количественных показателей надежности ЭВМ с помощью структурных схем дает возможность решать вопросы выбора наиболее надежных функциональных элементов, узлов, блоков, из которых состоит ЭВМ, наиболее надежных конструкций ТЭЗ, панелей, рам, стоек, пультов, тумб, рационального порядка эксплуатации, профилактики и ремонта ЭВМ, состава и количества ЗИП. При построении структурных схем используют последовательное, параллельное и последовательно-параллельное включение элементов. При последовательном включении элементов (рис. 6.2, а) для надежной работы схемы необходима работа всех функциональных элементов. Тогда вероятность безотказной работы схемы будет равна произведению вероятностей безотказной работы всех функциональных элементов:
(6.4)
Если вероятности безотказной работы всех элементов одинаковы, т. е.
Если то
где .
Среднее время наработки на отказ в этом случае
(6.5)
При равной надежности всех элементов
Для другого простейшего случая построения структурной схемы параллельного соединения элементов (рис. 6.2, б) вероятности отказов для каждого из элементов, входящих в схему,
Отказ всей схемы будет тогда, когда откажут все элементы,
где т — число параллельно соединенных элементов.
При этом вероятность безотказной работы всей схемы
(6.6)
В случае применения равнонадежных элементов, если
Если то
(6.7)
При параллельно-последовательном соединении элементов (рис. 6.2, в) следует найти вероятность безотказной работы для каждой из цепочек параллельно включенных элементов, а затем для всей схемы
(6.8)
Пример. Рассчитать вероятность безотказной работы схемы, приведенной на рис. 6.3, при известных значениях вероятностей безотказной работы ее элементов:
Рисунок 6.3 – К примеру расчета вероятности безотказной работы схемы
Разделим схему на цепи I и II, а цепь I — на участки a, b и с. Тогда с учетом принятых обозначений на основании (6.4) и на основании (6.6)
Из (6.4) и (6.6) находим
Отсюда
Подставив в это выражение получим Р = 0,996.
Полученные аналитические выражения (6.1)—(6.5) позволяют произвести расчет надежности функциональных элементов, узлов, блоков, устройств ЭВМ. Основой расчета количественных показателей надежности ЭВМ является предположение, что интенсивность отказов комплектующих элементов подчиняется экспоненциальному закону распределения. Однако наличие нескольких количественных характеристик не означает, что всегда нужно оценивать надежность устройств по всем показателям. Функциональные элементы представляют собой элементарные, но электрически законченные схемы (усилитель, генератор, триггер и др.), на которые разбивают структуру ЭВМ. Наиболее полно надежность функциональных элементов определяется интенсивностью отказов
где — интенсивность отказов комплектующего элемента i -го типа, входящего в состав функционального элемента;
— число элементов i -го типа;
— коэффициент, учитывающий различие в интенсивности отказов элемента i -го типа при воздействии на него электрических нагрузок верхнего или нижнего уровней и продолжительности этих воздействий;
п — количество типов комплектующих элементов, входящих в состав функционального элемента;
i — номер комплектующего элемента.
Узел представляет собой совокупность функционально связанных между собой элементов (регистр, дешифратор, матрица). Количественно надежность узла достаточно полно характеризуется интенсивностью его отказов определяемой по формуле
(6.9)
где , — интенсивность отказов отдельных комплектующих элементов
i -го типа и интенсивность отказов функциональных элементов j -го типа, входящих в состав узла соответственно;
, — коэффициенты, учитывающие характер и длительность электрической нагрузки в соответствии с временной диаграммой работы узла;
, — количество комплектующих элементов i -го типа и функциональных элементов j -го типа соответственно; п, т — количество типов комплектующих элементов и функциональных элементов соответственно.
Блок представляет собой совокупность функциональных элементов и узлов (блок питания и др.). Количественно надежность блока целесообразно оценивать интенсивностью отказов и наработкой на отказ . Интенсивность отказов блока
(6.10)
где , — интенсивности отказов отдельных комплектующих элементов i -го типа и отдельных функциональных элементов j -го типа, входящих в состав блока;
— интенсивность отказов узла l -го типа, входящего в состав блока;