Меню
Главная
Авторизация/Регистрация
 
Главная arrow Экология arrow Ключ к генетическому коду в структуре объединенных молекул воды

МАРКОВСКАЯ ЦЕПЬ КАК МОДЕЛЬ ИССЛЕДОВАНИЯ В ГЕНЕТИКЕ

Непосредственным обобщением схемы независимых испытаний является схема так называемых цепей Маркова, впервые систематически изученная известным русским математиком А.А. Марковым.

Марков Андрей Андреевич (1856-1922) — выдающийся русский математик, академик Императорской Санкт-Петербургской Академии наук. Марков А.А. внес крупный вклад в развитие теории чисел, математического анализа, теории вероятностей и математической статистики, создал теорию случайных процессов, называемых теперь марковским процессом. Им была доказана теорема о предельных вероятностях, которая явилась первым строго доказанным результатом среди так называемых эргодических теорем, играющих важную роль в современной физике и инженерном деле.

В теории цепей Маркова особое место занимает вопрос об асимптотическом поведении вероятностей Pij(n). Цепь Маркова называется эргодической, если для любого] существует предел:

lim Pij(n)=Pj не зависящие от i п—>оо

Для эргодической цепи справедлив закон больших чисел [115]. Закон больших чисел, одно из основных положений вероятностной теории, в силу которого, совокупное действие большого числа случайных факторов приводит, при некоторых весьма общих условиях, к результату почти не зависящему от случая [in. Закон больших чисел выражен в ряде теорем, в каждой из которых доказывается тот или иной случай стремления средних характеристик большого числа экспериментов к некоторым постоянным значениям. Известны две теоремы такого ряда: теорема Я. Бернулли (1654-1705) и теорема Чебышева П.Л. (1821— 1894).

Теорема Я.Бернулли о законе больших чисел

Теорему Я. Бернулли можно формулировать так: «Если производится

неограниченный ряд испытаний и при всех этих испытаниях некоторые события имеют одну и ту же вероятность, то при достаточно большом числе их можно утверждать с вероятностью, сколь угодно близкой к достоверности, что отношение числа появлений события к числу испытаний отклонится от вероятности события менее, чем на данное число, как бы мало оно ни было».

С именем Бернулли связано и классическое определение вероятности, в соответствии с которым вероятность случайного события есть отношение числа благоприятных появлению события случаев (ш) к числу всех «равновозможных» случаев (п):

m

р = —; (6.1)

п

Идею, лежащую в основе классической вероятности, использовал ещё Кеплер. Он утверждал, что планеты «вероятно» никогда не вернутся в своё положение, существующее в момент творения, и конец света вряд ли поэтому наступит.

Определение классической вероятности появилось у Я.Бернулли в первой главе «Искусства предположений». «Вероятность же есть степень достоверности (probabilitas enim est gradus certitudinis) и отличается от нее, как часть от целого», -утверждал он [116].

Помимо определения классической вероятности со второй половины XVII века в демографических исследованиях начало применяться статистическое (апостериорное) определение вероятности, как отношение числа ц появлений случайного события при v испытаниях:

Л Р

Р =- (6.2)

v

Я.Бернулли сомневался, не может ли так случиться, что с возрастанием количества наблюдений наше знание останется всё же ограниченным некоторой степенью достоверности.

Л

Пусть р и р соответственно классическая и статистическая вероятности некоторого события. Тогда сомнения Бернулли могут быть выражены следующим образом: не существует ли таких положительных чисел Р и 5, что предел при v—>оо вероятности:

Л

р( I р - р I < Р) меньше или равен 1—5?

С помощью своей теоремы Бернулли отвечает на этот вопрос отрицательно: нет, таких р и ? не существует. Таким образом, он показал равноправие статистической и классической вероятностей и установил в рамках вероятностей теории познания соответствие между индуктивным и дедуктивным методами. Показав тем самым, как статистические наблюдения постепенно приводят к обоснованному убеждению (или, иначе, к моральной достоверности).

Закон больших чисел

В соответствии с обычным современным определением последовательность случайных величин ^2, • • .^п, ...подчиняется закону больших чисел, если

существует такая числовая последовательность аь а2, ... , ап, ..., для которой при любом в > 0 выполняется равенство:

1 п

lim р {| — X - а„ | < 8 } = 1 (6.3)

п к=1

Справедливость Закона больших чисел для эргодической цепи Маркова являя-ется одним из основных положений теории вероятностей. В биологии с помощью марковских цепей изучается характер развития отдельных видов животных и растений.

Пример из клеточной генетики [117].

Цепь Маркова с набором состояний Е0,.. .Е;.. .EN и переходными

вероятностями: Pj^ — ( ^) (

(6.4)

г> _ / Д / 2N-2j / 2N -1 //: л

N

появляется в биологической задаче, которую упрощенно можно сформулировать следующим образом. Каждая клетка некоторого организма содержит N частиц, причем одни из них относятся к типу А, а другие - к типу В. Говорят, что клетка находится в состоянии Е|, если она содержит ровно ] частиц типа А. Дочерние клетки образуются в результате клеточного деления, но перед делением каждая из частиц реплицирует (т.е. удваивается); дочерняя клетка наследует N частиц выбранных случайным образом из 2] частиц типа А и 2К — 2j частиц типа В, имевшихся в родительской клетке. Вероятность того, что дочерняя клетка будет находиться в состоянии Ек, дается тогда гипергеометрическим распределением.

Развитие сообществ живых существ с теоретической точки зрения естественно рассматривать как марковский процесс, считая, что мы располагаем полной генетической информацией для начального момента времени. В статье «К вопросу о моделировании эволюционного процесса» Кулагина О.С. и Ляпунов А.А. отмечали: «При рассмотрении некоторого развивающегося во времени природного процесса возникает вопрос о том, каковы его внутренние временные связи, т.е. какими сведениями нужно располагать для того, чтобы сделать предсказание о его будущем течении. Не предполагается, что этот процесс протекает детерминированно. Поэтому предсказание является вероятностным. Процесс называется марковским, если исчерпывающие данные для предсказания могут быть получены, отправляясь от описания мгновенного состояния процесса, т.е. дополнительные сведения о предшествующих состояниях ничего не добавляют для возможного предсказания. При этом существенно то, что один и тот же процесс при одной системе описания может быть марковским, а при другой нет (нередко это означает, что вторая система описания является дефектной). Пример: задача небесной механики является марковской, если заданы положения, скорости и массы тел, и не является марковской, если заданы только положения и массы тел. Если говорить о развитии совокупности существующих живых существ, живущих в определенных условиях, то этот процесс не является марковским при чисто фенотипическом описании, так как информация о рецессивных генах отсутствует. При генотипическом описании процесс становится марковским. Те или иные сведения об изменении внешних условий способны изменить условные вероятности перехода всей системы из одного состояния в другое, однако дополнительные сведения о внешних условиях или генотипах в прошлые отрезки времени не влияют на вероятности будущих переходов, из одних состояний в другие. Таким образом, развитие сообществ живых существ с теоретической точки зрения естественно рассматривать как марковский процесс, считая, что мы располагаем полной генетической информацией для начального момента времени» [118].

А.А. Марков под цепью понимал последовательность случайных чисел, вероятности появления которых, взаимосвязаны, точнее, вероятность значения каждого последующего числа связана с предыдущим. В дальнейшем такие математические цепи были названы в науке марковскими. Были сформулированы понятия простых и сложных, однородных и неоднородных цепей. Если предполагать, что в каждом испытании (операции) переходные вероятности не изменяются, то процесс может быть описан простой однородной цепью Маркова. Для однородных цепей Маркова вероятность Ру перехода системы из состояния Е в состояние Е} за один шаг зависит только от того, из какого состояния и в какое осуществляется переход, т.е. матрица переходных вероятностей не зависит от номера шага.

Рассмотрим одно статистическое исследование чередования гласных и согласных в романе А.С. Пушкина «Евгений Онегин», которое проводил А.А.Марков. Характер исследования объединяет последовательность 20000 букв, не считая ъ и ь знаки. Соответственно этому допускается существование неизвестной постоянной вероятности Р - когда буква будет гласной. Приближенную величину Р ищет Марков из наблюдений, считая число появившихся гласных и согласных букв. Кроме числа Р, он также из наблюдений находит приближенные величины двух других чисел - Р1 и Р2, представляющих вероятности. Первое Р1 - гласной букве следовать за гласной. Второе Р2 - гласной букве следовать за согласной. У А.А.Маркова указанные величины следующие: Р = 0,432; Р1 = 0,128; Р2 = 0,663 и 5 = Р1- Р2 = - 0,535;

Р2= Р(1-8). Отсюда вытекает общая формула; Р(к)=Р+(Р -Р)8к_1, где к- номер испытания, Р - вероятность наступления некоторого события при первом испытании. Более подробно Марков описал свою работу в журнале «Известия Академии наук». Исследования Маркова подтвердили достаточно хорошее совпадение реального следования гласных и согласных о наличии простой цепной зависимости. Так родилась идея и попытка найти разумную аналогию между человеческим и генетическим языком. Возник вопрос, что в генетическом тексте следует считать аналогами для букв, слов, предложений и знаков препинания?

Классическим примером из лингвистики - предложение «Убить нельзя помиловать». Если не поставить запятую, то остается непонятным, то ли убить, то ли помиловать. Так и в генетике.

Для однородных марковских цепей вероятности перехода за к шагов Ру(к) являются элементами к-х степеней матриц Р, в связи с чем многие свойства этих цепей можно изучать методами матричного анализа.

Цепи Маркова многие годы не находили достаточного практического применения. В настоящее время они вновь обретают подъем и наряду с другими видами математических моделей занимают вполне достойное место. Простейшую модель цепи можно представить в виде свободно-сочлененных звеньев. Такую цепь можно описать как цепочку из векторов. Каждый вектор направлен от предыдущего сочленения к последующему. Звено может включать в себя несколько мономеров полимерной цепи. Главное - что каждое звено может свободно, как угодно поворачиваться в сочленении относительно своих соседей по цепи.

Рассмотрим трактовку цепей Маркова применительно к молекулярной генетике. Возьмем сначала одну заранее намеченную молекулу. Надо только условиться, с какой молекулой мы хотим иметь дело. Считают, что молекулы могут иметь линейное и разветвленное строение. Разветвления, в свою очередь, могут иметь в принципе бесконечное число комбинаций. Начнем с простейшего, линейного вида. Такой вид имеет первичная структура молекулы ДНК. Линейная макромолекула может быть представлена в виде длинной цепи, состоящей из разных участков (звеньев) нуклеотидной последовательности. Представим цепь в виде:

Т-Ц-Ц-Т-Т-Т-Ц-А-А-Г-А-Ц-Ц-Т-А-Г-А-А-Г-Г-Т-Ц-Ц-А

Для того чтобы знать строение молекулы, надо определить количество звеньев различного типа и порядок их расположения. Это можно сделать, двигаясь вдоль молекулы и подсчитывая тот или иной участок. Вероятностная связь между участками присуща макромолекулам. При образовании макромолекул из исходных продуктов — мономеров каждое последующее звено охотнее или нет присое-

диняется к предыдущему. Называют это явление концевым эффектом. Поэтому вероятность встречи с очередным звеном будет зависеть от того, на каком из них мы находимся в данный момент.

Остановимся на варианте рассматриваемой нами цепи состоящей из нуклеотидных последовательностей. Так как цепь состоит из четырех типов нуклеотидов, а именно: А, Т, Г, Ц, то таких разных участков будет 16: АА, АГ, АТ, АЦ, ГА, ГГ, ГТ, ГЦ, ТА, ТГ, ТТ, ТЦ, ЦА, ЦГ, ЦТ, ЦЦ и тогда, если нам заранее известны вероятности перехода с участка на участок: Р (АА), Р (АГ), Р (АТ), Р (АЦ), Р (ГА), Р (ГГ), Р (ГТ), Р (ГЦ), Р (ТА), Р(ТГ), Р(ТТ), Р(ТЦ), Р(ЦА), Р(ЦГ), Р (ЦТ), Р (ЦЦ), то полное вероятностное описание одного этапа перемещения по цепи может быть представлено в виде переходной матрицы (табл. 6. Г). Матрица Р

обладает следующими свойствами: а) 0<Ру<1;

к

б) 2Ру=1(1=1,2,...к),

)=1

т.е. сумма элементов каждой строки матрицы перехода равна единице.

Таблица 6.2.

Р (АА)

Р (АГ)

Р (АТ)

Р (АЦ)

Р (ГА)

Р(ГГ)

Р(ГТ)

Р(ГЦ)

Р (ТА)

Р(ТГ)

Р(ТТ)

Р(ТЦ)

Р (ДА)

Р(ЦГ)

Р (ЦТ)

Р(ЦЦ)

Квадратные матрицы, для которых выполняются условия а) и б) называются стохастическими (случайными). Вектор а =(а1,а2,... , ак), где а1=Р(Е1)-вероятность появления состояния ЕЦ=1, 2,...,к) в начальном испытании, называется вектором начальных вероятностей. Свойства однородных марковских цепей полностью определяются вектором начальных вероятностей и матрицей вероятностей перехода.

В наших рассуждениях следует сделать уточнение. Например,

Р (АА) не следует рассматривать как вероятность перехода на тот же самый участок А, если мы на нем до сих пор находились, а это новый участок А, аналогичный тому, в котором мы находились до этого момента, т.е. состояния невозвратны, так как из любого из них можно попасть в любой другой и уйти дальше но нельзя вернуться назад. Тогда начало нашего пути также должно быть представлено распределением вероятностей четырех букв: Р (А), Р (Г), Р (Т), Р (Ц). С помощью матрицы перехода можно определить, сколько раз в среднем мы попадаем в то или иное состояние (звено) до окончания цепи. Если мы знаем, когда и сколько раз нам встретится по пути следования в данной молекуле тот или иной нуклеотид, и просуммируем эти значения на все молекулы в полимере, то задача будет решена, т.е. будут определены состав и строение полимера. Среднее число наступлений каждого из четырех состояний А, Г, Т, Ц не будет зависеть от начальных вероятностей. Такими свойствами обладает регулярная марковская цепь. Напомним, что если в эргодической цепи при любом числе шагов не обнаруживается свойство цикличности, то такие цепи именуют регулярными. Это в свою очередь означает, что в регулярной цепи на любом шаге возможны любые переходы и что при любом номере шага вдоль цепи переходные вероятности в матрице должны отличаться от нуля. Кроме того, оказывается, сочетания состояний могут через определенное число шагов и не повторяться. Одним из свойств регулярных цепей является то, что через сравнительно небольшое число шагов матрица приобретает стационарный вид (табл. 6.2.), где сумма вероятностей по строкам равна единице. Начальные вероятности букв также в сумме равны единице.

Для стационарного случая мы можем определить только среднее количество звеньев типа: АА, АГ, АТ, АЦ, ГА, ГГ, ГТ, ГЦ, ТА, ТГ, ТТ, ТЦ, ЦА, ЦГ, ЦТ, ЦЦ в молекуле, иначе говоря, выяснить лишь состав полимера. При этом остается неизвестной его структура, т.е. порядок расположения звеньев. Для этого мы разделим цепь на более крупные участки. Нам выгодней разделить участки по три нуклеотида, так как аминокислоты представляют собой триплеты, т.е. состоят из трех нуклеотидов. И тогда наша цепь будет состоять из триплетов, т.е. из последовательности аминокислот. Но можно всю цепь разбить на еще более крупные участки - блоки, например, по десять нуклеотидов. Тогда один из таких блоков будет, например, иметь вид: ТЦЦТТТЦААГ. Теперь, если будем знать, сколько и каких блоков входит в цепь, можно определить полностью состав и структуру макромолекулы и полимера в целом.

Оценки переходных вероятностей для марковской цепи выглядят в виде:

Л п(и)

Р(Ш=- (6-5)

п(0

символом Р с «шапочкой» обозначаются оценки вероятностей.

п(у) - число пар (у) аминокислот в белке;

- число аминокислот.

Эргодичность однородной цепи Маркова предполагает, что вероятность каждой аминокислоты в последовательности от начала цепи становится постоянной и равной частоте этой аминокислоты. У разных белков частоты аминокислот (и, следовательно, оценки переходных вероятностей), могут отличаться.

На основе модели цепей Маркова показано, что симметрия для троек, четверок и коротких последовательностей оснований вытекает из симметрии пар оснований. Экспериментально доказано, что из симметрии последовательностей оснований для нитей ДНК вытекает симметрия аминокислот в белках.

Вместе с тем, следует отметить, что в 1950 - 1953 г.г. Э.Чаргафф с сотрудниками опубликовал сенсационную работу по изучению химической структуры нуклеиновых кислот, Они обследовали огромное количество разных организмов, брали образцы из различных органов и тканей. Проведенные исследования показали, что в состав ДНК, выделенной из ядер клеток человека, входят 30% аде-нина, 20% гуанина, 20% цитозина, 30% тимина. Такие соотношения наблюю-даются на длинах в сотни пар оснований и меньше. Чем длиннее цепь, тем эти соотношения становятся меньше. Для целой хромосомы высших эукариот можно наблюдать примерное равенство: А~Т, Г~Ц, когда ошибка в этих равенствах составляет сотые доли процента.

Анализ нуклеотидных последовательностей показал, что там, где ничего существенного в ДНК не записано, частота сочетаний разных нуклеотидов близка к случайной. Где много генов, там много букв Г и Ц, а где генов мало, там много букв А и Т [101].

Исследование нуклеотидов в модели с формированием каждого нового символа дает текст близкий к реальному. Такая модель представляет собой марковскую цепь нулевого порядка. В реальных первичных структурах ДНК можно заметить явные предпочтения в выборе нуклеотидами своих соседей как справа, так и слева. В этом случае уже не учитывается принцип независимого порождения.

Для корректировки модели вводят условную вероятность встречаемости нуклеотидов.. Условная вероятность Р(А/Г) означает, вероятность появления нуклеотида А при условии что его соседом с 5’ стороны является нуклеотид Г. Если известны все 16 условных вероятностей Р(Ь/а), где a, b =А, Г, Т, Ц, то их можно использовать для генерирования модельной последовательности. При сочетании условных вероятностей порядок марковской цепи возрастает на порядок и такая цепь имеет название марковской цепи первого порядка. Все условные вероятности Р(Ь/а) в совокупности называются переходными вероятностями марковской цепи. Значения Р(Ь/а) можно определить, если известны частоты моно и динуклеотидов в выборке текстов- f(a) и f(ab), где а,Ь= А, Г, Т, Ц. по формуле P(b/a)= f(ab)/ f(a).

Для модели порядка п значение переходных вероятностей примет вид: Р(Ь/аь

аг,...,an) — f(ai,a2..anb)/f(ab а2,...ап), где: a, b —А, F, Т, Ц.

В расчетах, естественно, проще использовать модели меньших порядков, но, зачастую бывает, что приходится прибегать к цепям Маркова более высокого порядка.

Для расшифрованных геномов вирусов можно использовать модели нулевого, второго и третьего порядка и получать достаточно точные статистические характеристики этих генов.

В последовательности нуклеотидов (аминокислот) можно выделять ячейки по одному, по два, по три, по четыре, по пять и т.д. нуклеотидов (аминокислот). Для сокращения их записи используют греческие приставки. В этом случае связи нуклеотидов называют: мононуклеотиды, динуклеотиды, тринуклеотиды, тетрануклеотиды, пентануклеотиды, гексануклеотиды и т.д.соответственно.

Исследование нуклеотидных последовательностей E.coli [119] и [120] показало, что частоты встречаемости тетра, пента и гексануклеотидов достаточно хорошо предсказываются марковскими цепями 3-го порядка.

В ряде работ [121,122] представлены данные о том, что ДНК различных таксономических групп существуют устойчивые асимметрии в частотах встречаемости динуклеотидов. Напомним, что таксон (от лат.taxon.мн.ч.taxa - порядок) - группа в классификации, состоящая из дискретных объектов, объединенных на основании общих свойств и признаков.

Так, например, в большинстве из 88 прокариотических последовательностей частоты встречаемости динуклеотидов таковы, что имеет место соотношение: f(riJ,)>f(AT)>f(TA), а в большинстве из 256 эукариотических последовательностей - ДГГ)>ДГЦ)>ДТА)>ДЦГ). Можно строго показать, что закономерности встречаемости динуклеотидов не соответствуют модели Маркова нулевого порядка.

В группе последовательностей с суммарной длиной N нуклеотидов число динуклеотидов ab для модели нулевого порядка равно: N-f(a)-f(b), где f(a) и f(b) -частоты мононуклеотидов. Это число обозначим (N(ab)}. Полагая среднеквадратическое отклонение величины N(ab) равным {N(ab)}1/2, ычисляем значение:

d(ab) = (N(ab)- {N(ab)} / {N(ab)}'h.

Если бы модель нулевого порядка была адекватным описанием нуклеотидных последовательностей, то величина t = Zab (d(ab)}2 имела бы распределение у2 с девятью степенями свободы. При рассмотрении первичной структуры ДНК E.coli.величина t принимает значение 2986. Согласно таблицы распределения хи-квадрат (Крамер, 1975), такой результат позволяет отвергнуть гипотезу об адекватности модели нулевого порядка с уровнем значимости 10 4 [123].

Точный комбинаторный анализ требует привлечения мощной вычислительной техники.

Метод чтения белкового текста был предложен Фредом Зангером в 1977 году (Медицинский исследовательский совет Великобритании). Для секвенирования (определения последовательности оснований) Зангер использовал радиоактивные маркер и метки (по числу оснований). Метки фиксировали места в последовательности ДНК, где были расположены соответствующие основания. В последствии процесс был автоматизирован, что было сделано генетиком Л. Худом в 1986 г. Если Зангер использовал радиоактивные метки, то Худ, разработал новый метод, в котором использовались флюоресцентные красители различного цвета для каждого основания ДНК. В автоматическом приборе Худа лазерный луч вызывал свечение красителей различным цветом. Свечение обнаруживалось и анализировалось непосредственно компьютером. К 1999 г. полностью автоматизированный прибор мог секвенировать до 150 млн. пар оснований в год [124].

В белковой цепи участок ДНК может читаться со сдвигом фаз на +1 или -1 нуклеотид. В одной цепи ДНК существует три рамки считывания. Одна из них считается правильной — та, в которой последовательность не содержит кодонов терминации (в такой последовательности кодон терминации стоит в конце цепи). Другие две рамки (в одной цепи) считаются терминирующими (ТРС) рамками считывания, когда такие кодоны терминации, в цепи встречаются. В сдвинутых состояниях получаются совсем другие последовательности кодонов, в каждой из которых и будут неоднократно присутствовать кодоны терминации ter. На двух цепях ДНК теоретически с учетом того, что код триплетный, можно записать 6 разных текстов: три на одной цепи и три на другой. Такое явление получило название перекрывания генов. Впервые оно было обнаружено у вирусов. Вирусные геномы обычно очень маленькие. Перекрывание генов диктовалось необходимостью, как можно компактнее разместить информацию, на относительно коротких молекулах ДНК. Большой геном человека теоретически позволяет обойтись без такого перекрывания. Однако и в геноме человека, хотя и относительно редко, перекрывание генов также имеется [101].

В соответствии с правилами генетического кода можно перевести информацию с языка нуклеотидов на язык аминокислот. Эту операцию можно осуществлять с помощью компьютерных программ.

В качестве конкретного примера рассмотрим фрагмент нуклеотидной последовательности кодирующей части генома SV40 [125], представленного в табл. 6.3. Напомним, что вирус SV40 - полимавирус,обнаруженный в клетках обезьяны и человека. Как и другие полимавирусы, SV40 является ДНК-содержащим вирусом. В 1973 году американский микробиолог Даниел Натане с коллегами построил физическую карту белок-кодирующих областей вируса SV40. Построение физической карты обычно предшествует проведению работ по секвенированию. Генетическим картированием называется метод построения генетических карт. Генетическая карта - схема взаимного расположения структурных генов, регуляторных элементов и генетических маркеров, а также относительных расстояний между ними на хромосоме.

Вся последовательность читается в направлении слева направо, сверху вниз. Последовательность содержит 180 нуклеотидов (т.е. 60 аминокислот). Как мы уже отмечали, одной из основных характеристик ДНК является ее нуклеотидный состав. Математическая модель была бы намного проще, если бы основания имели в составе последовательности одинаковую частоту.

Таблица 6.3.

ЦЦТЦГГЦЦТЦТГАГЦТАТТЦЦАГААГТ АГТ ГАГ ГАГ ГЦТТТТТТГГАГ Про Apr ПроЛей Сер Тир Сер Apr Сер Сер Глу ГлуАлаФелЛей Глу

ГЦЦТАГГЦТТТТГЦАААААГЦТТТГЦАААГ АТГГ АТАААГТТТТАААЦ Ала Стп Ала Фел Ала Лиз Сер Фел Ала Лиз Мет Аси Лиз Вал Лей Аси

АГ АГ АГГ ААТЦТТТГЦАГЦТААТГГ АЦЦТТЦТАГГТЦТТГ АААГГ АГТ Apr Глу Глу Сер Лей Глун Лей Мет Аси Лей Лей Гли Лей Глу Apr Сер

ГЦЦТГГГГГ ААТАТТЦЦТЦТГ АТГ АГ АААГГЦАТАТ Ала Три Гли Аси Иле Про Лей Мет Apr Лиз Ала Тир

Процесс анализа нуклеотидных последовательностей имеет свои особенности. В частности, следует учитывать, что частоты появления соседних нуклеотидов не являются независимыми. Например, частоты пар соседних оснований обычно отличаются от произведения частот этих оснований. Тогда, если Ру — частота, с которой соседние основания встречаются в последовательности, Pj — частота основания типа i, Pj — частота основания типа j, то: Ру Ф Pj xPj.

Это можно проверить исходя из нашего примера. Так, по отдельности в представленной последовательности частоты нуклеотидов А и Г равны между собой и составляют 0,278 и тогда соответственно РА х Ра = 0,077 как и РА х Рг = 0,077, тогда как их парные встречи в последовательности равны: РАА = 0,1 и РАГ = 0,11, что соответствует высказанному ранее утверждению:

Py^Pix Pj, так как РАА(0,1)^РАх РА(0,077) и РАГ(0,11)^ РА х Рг(0,077).

В табл. 6.4 представлены численности четырех оснований и 16 динуклеотидов. Соседние основания не могут быть независимыми и по биологическим причинам, т.к. связь между соседними нуклеотидами сохраняется в популяции в течение очень долгого времени.

В табл. 6.5 указано число различных кодонов, встречающихся в выбранной последовательности (табл. 6.3) на фоне всех 64 триплетов и соответствующих им аминокислот. Эффективный алгоритм для поиска прямых повторов в последовательности оснований был предложен Карлиным и др. (Karlin et al., 1983) [126]. При этом просматривается вся последовательность и используются «слова», составленные из определенных наборов «букв» - оснований.

Основаниям присваиваются номера, например: А=0, Г = 1, Т = 2, Ц = 3. Каждой последовательности или слову, из к букв, Хь Х2,...Хк, придается единственное значение, определяемое как:

к

1 + ZЫ . (6.6)

i=l

Это значение лежит в интервале от 1 до 4к. Слово из пяти букв ГЦААА, например, имеет значение:

1+1 X 44+Зх 43+0 х 42+0 х 4'+0 х4°= 1+1 х 256 + 3 х 64 = 449.

Рассмотрим последовательность состоящую, например, из 20 букв:

ГЦ А АА А АГЦТТТГЦА А АГ АТ

Поиски прямых повторов длиной более двух оснований начинаются с просмотра двухбуквенных повторов.

Таблица 6.4.

Пары

нуклеотидов

Распределение пар нуклеотидов

Численности

оснований

Число

Проценты

АА

18

10,1

Аденин 50 (27,8)

АТ

10

5,6

Гуанин 50 (27,8)

АЦ

2

и

Тимин 50 (27,8)

АГ

20

11,2

Цитозин 30 (16,6)

ЦА

6

3,4

цц

7

4,0

цг

1

0,5

ЦТ

16

9,0

ГА

17

9,6

ГЦ

12

6,7

гг

16

9,0

гт

5

2,8

ТА

9

5,1

ТЦ

8

4,5

ТГ

13

7,3

ТТ

18

10,1

В табл.6.6 представлены двухбуквенные слова со всеми 16 значениями находящихся в соответствующих позициях. Здесь повторяются слова со значениями: 1, 2, 8, 11, 13.

Значения трехбуквенных слов, которые начинаются повтором двухбуквенных слов, и их позиции в этой последовательности из 20 букв представлены в табл. 6.7.

В таблице 6.7. повторяются слова со значениями: 1, 2, 29, 49. Больше всего повторов из числа трехбуквенных имеют слова со значением 1 и расположены они в позициях: 3, 4, 5, 15.

В предположении полной независимости нуклеотидов (цепь Маркова порядка 0) были получены асимптотические выражения для правдоподобия самого длинного повтора длиной п. Ожидаемая длина равна:

  • 0,6359 + 21п п + 1п(1 -Р)
  • --1. (6.7)
  • 1п( 1/Р)

Она пропорциональна логарифму длины последовательности, дисперсия же не зависит от длины последовательности.

Здесь Р — это сумма квадратов частот оснований в последовательности, равная:

Таблица 6.5.

Число различных кодонов, присутствующих в последовательности,

приведенной в табл. 6.3

ААА Лиз 2

ГАА Глу 2

ТАА Стоп 0 ТГА Стоп 0

ААГ Лиз 2

ГАГ Глу 4

ТАГ Стоп 1

1 ТГГ Три 1

ААТ Асн 1

ГАТ Асп 1

ТАТ Тир 2

ТГТ Цис 0

ААЦ Асн 1

ГАЦ Асп 1

ТАЦ Тир 0

ТГЦ Цис 0

АГА Apr 3

ГГ А Гли 0

ТТА Лей 1

ЦАА Глун 0

АГГ Apr 1

ГГГ Гли 1

ТТГ Лей 2

ЦАГ Глун 1

АГТ СерЗ

ГГТ Гли 1

ТТТ Фел 3

ЦАТ Гис 0

АГЦ Сер 2

ГГЦ Гли 0

ТТЦ Фел 0

ЦАЦ Гис 0

АТА Иле 0

ГЦА Ала 3

ГТА Вал 0

ЦТ А Лей 2

АТГ Мет 3

ГЦГ Ала 0

ГТГ Вал 0

ЦТГ Лей 2

ATT Иле 1

ГЦТ Ала 2

ГТТ Вал 1

ЦТТ Лей 2

АТЦ Иле 0

ГЦЦ Ала 2

ГТЦ Вал 0

ЦТЦ Лей 0

АЦА Тре 0

ЦГА Apr 0

ТЦА Сер 0

ЦЦА Про 0

АЦГ Тре 0

ЦГГ Apr 1

ТЦГ Сер 0

ЦЦГ Про 0

ТАЦ Тре 0

ЦГТ АргО

ТЦТ Сер 1

ЦЦТ Про 3

АЦЦ Тре 0

ЦГЦ Apr 0

ТЦЦ Сер 1

ЦЦЦ Про 0

Таблица 6.6.

Значение

Позиция

Значение Позиция

1 (АА)

3,4,5,6,15,16

9 (ТА)

2(АГ)

7,17

10 (ТГ) 12

3 (АТ)

19

11 (ТТ) 10,11

4 (АЦ)

12 (ТЦ)

5 (ГА)

18

13 (ЦА) 2,14

6 (ГГ)

14 (ЦГ) —

7 (ГТ)

15 (ЦТ) 9

8 (ГЦ)

1,8,13

16 (ЦЦ) —

Вычисления можно упростить, если начать реализацию алгоритма Карлина со слова длиной к, значение которого наиболее близко к ожидаемому среднему значению повтора наибольшей длины.

В процессе структурного анализа можно, например, выявить участки цепи, богатые пуринами, пиримидинами или их сочетаниями. При необходимости можно найти характерные особенности в анализируемой последовательности, включая прямые и обратные повторы нуклеотидов или аминокислот.

Таблица 6.7.

Значение

  • 1 (ААА)
  • 2 (ААГ)
  • 5 (АГА) 8 (АГЦ) 29(ГЦА)
  • 31 (ГЦТ)
  • 42 (ТТГ)
  • 43 (ТТТ) 49 (ЦАА)

Позиция

  • 3,4,5, 15
  • 6, 16 17 7
  • 1, 13
  • 11
  • 2, 14

Можно получить данные о гомологии или частичной гомологии различных последовательностей. Такой сравнительный анализ широко используется при изучении эволюции на молекулярном уровне. Для сравнения двух последовательностей между собой или одной последовательности с группой других последовательностей, можно применить описанный выше вероятностный анализ с использованием байесовской процедуры распознавания.

Сравнение различных последовательностей можно проводить различными способами. Самый простой из них — визуальный, с использованием точечных диаграмм. Последовательности, которые нужно сравнивать, располагают на полях таблицы. В местах пересечения строк и столбцов, имеющих одну и ту же букву, ставят точку. Если точки располагаются по диагонали, то это указывает на наличие идентичных подпоследовательностей в данных последовательностях. Чтобы уменьшить число точек, которые могут отвечать случайным совпадениям, используют метод фильтрации. В этом случае точки ставят тогда, когда в небольших последовательностях, совпадает определенная доля оснований. Области высокого сходства двух последовательностей на диаграмме соответствует идущая по диагонали прямая, состоящая из большого числа точек, представляющая к совпадающих оснований. Даже если две последовательности гомологичны, что

подразумевает их происхождение, вряд ли их нуклеотидный состав и длина остаются неизменными. Поэтому при выявлении локального сходства между последовательностями допускаются некоторые отклонения. При поиске соответствия используют все возможные начальные позиции, если наблюдается совпадение, по крайней мере, по а позициям. После того, как выявлено совпадение по первым а основаниям, этот локальный участок может быть увеличен. При этом, если основания, стоящие в обеих последовательностях в следующей позиции, совпадают, то они добавляются к локальному участку. Однако может быть добавлена и позиция с несовпадающими основаниями, если за ней следует определенное число совпадений. Например, может быть принято условие, при котором должны совпадать два из следующих трех оснований. Если это условие

определенное число основании и продолжается поиск совпадении с этого места. Такое отбрасывание одного или двух оснований допустимо лишь при условии, что совпадают два или три из следующих трех оснований. Наконец, к увеличивающемуся участку могут быть добавлены последовательности из несов

падающих основании, за которыми следуют участки с определенным уровнем совпадений, если сходство полученных таким образом последовательностей будет выше некоторой заранее заданной величины. Применение данного алгоритма к двум коротким последовательностям: ЦАААГАТТЦ и ЦААААААГЦ выявляет следующие наиболее длинные сходные участки:

ЦАААГА

ЦААААА.

Здесь за совпадающими группами из четырех нуклеотидов ЦААА/ЦААА и несовпадающими основаниями Г/А идут вновь совпадающие основания. Этот алгоритм допускает одно несовпадение, или одну вставку, или одну делению, за которыми, в следующих трех позициях идут, по крайней мере, два совпадения.

Можно предположить, что анализ белковых последовательностей более информативен, чем анализ последовательностей ДНК. В этом случае не возникает проблем, связанных с вырожденностью генетического кода. Так как белковые последовательности записываются при помощи алфавита из 20 букв, то в двух белках в любой позиции случайно может оказаться одна и та же буква (аминокислота) с меньшей вероятностью, чем в двух нуклеотидных последовательностях. Для анализа аминокислотных последовательностей необходимы более тонкие методы, учитывающие различие в степени сходства аминокислот и связанные с этим различия вероятности эволюционной замены одной аминокислоты другой. Например, удобно разделить аминокислоты на такие группы, как неполярные (гидрофобные): G, А, V, L, I, F, Р, М, полярные (гидрофильные): S, Т, Y, W, N, С, Q, основные (К, R, Н) и кислотные (D, Е). Возможны и другие способы классификации.

Для упрощенного представления трехмерной структуры белка используются контактные карты. Они несут информацию только о расстояниях между аминокислотами в трехмерном пространстве и представляют собой булеву симметричную квадратную матрицу М размерности N х N, в которой элемент M(i, j) = 1, если расстояние между i-м и j-м аминокислотными остатками белка меньше некоторого порогового значения, и M(i, j) = 0 в противном случае, где i = 1,..., N;

j = 1,___, N — порядковые номера аминокислот в первичной структуре белка, N —

количество аминокислот в белке. Разработано много различных методов предсказания контактной карты по известной первичной структуре белка. Их можно разделить на две категории: 1) статистические подходы, использующие метод коррелирующих мутаций; и 2) подходы, использующие методы машинного обучения. Точность предсказания контактных карт, в зависимости от используемого для предсказания подхода, может быть связана с качеством множественного выравнивания последовательностей и точностью предсказания вторичных структур. Две последовательности считаются выравнены, если они расположены друг относительно друга таким образом, чтобы максимально представить их подобие.

С появлением технологий автоматизированного секвенирования существенно возрасло число нуклеотидных последовательностей различных организмоа. Обработка и анализ большого числа таких последовательностей была немыслима без автоматизации процессов их обработки и построения алгоритмов. Компьютерные средства (программы) и алгоритмы позволяют осуществлять деление генетических текстов на функциональные участки. Отсюда можно сделать вывод, что частоты встречаемости моно- и динуклеотидов в кодирующих областях зависят от позиции, отсчитываемой относительно инициирующего кодона.

Анализ частот встречаемости нуклеотидов по разным рамкам считывания разный. Так, уменьшение содержания Т в первой и А в третьей рамках объясняют запретом на кодоны TAT, ТГА и ТАЦ. За относительное увеличение сод ер-жания Т во второй рамке ответственны периодические серии синонимических кодонов. Наконец, увеличение содержания А и уменьшения содержания Г во второй рамке объясняют тем, что 14 кодонам имеющих А во второй позиции, соответствует 7 аминокислотам, в то время, как 15 кодоам, содержащихся во второй позиции Г, кодирует только 5 различных аминокислот. Таблица распределения числа нуклеотидов и аминокислот в генетическом коде в зависимости от положения каждого нуклеотида в триплете примет вид:

Первая позиция нуклеотида в триплете

А

Г

Т

ц

Число случаев

16

16

13

16

Число аминокислот

7

5

6

5

Вторая позиция нуклеотида в триплете

Число случаев

14

15

16

16

Число аминокислот

7

5

5

4

Третья позиция нуклеотида в триплете

Число случаев

14

15

16

16

Число аминокислот

12

13

15

15

Последовательность ДНК можно использовать в качестве обучающей для оценки параметров статистической модели.

А

Г

т

ц

А 18

20

10

2

Г 17

16

5

12

р=

Т 9

13

18

8

Ц 6

1

16

7

Согласно нашему анализу (см. табл.6.4) оказалось, что наблюдаемые подсчеты шестнадцати динуклеотидов 1Чху, следующие:

Методом максимального правдоподобия можно найти оценки вероятностей всех переходов РХу марковской модели первого порядка для фрагмента последовательности ДНК, а также оценки вероятностей РХу марковской модели первого порядка последовательности ДНК комплементарной заданной обучающей последовательности. Так, например, в случае марковской модели первого порядка полученные методом максимального правдоподобия оценки вероятностей переходов определяются по формуле:

Л Идг 20

Раг =-=-= 0,4 (6.9)

I Кхг 50

Х= А,Г,Т,Ц

Динуклеотид АГ в комплементарной цепи соответствует динуклеотиду ТЦ в прямой нити. Поэтому в данном случае используются подсчёты динуклеотидов известные для прямой нити:

л 1+щ 8

РАГ =-=-= 0,27 (6.10)

^ ^ц 29

X— А,Г,Т,Ц

Подобным образом рассчитываются все остальные динуклеотиды.

Для выбранной марковской модели можно вычислить число параметров кодонов, где ген начинается кодоном инициации (стартовый) АТГ и заканчивается одним из трёх стопкодонов: ТАА, ТАГ, ТГА. Рассчитаем, сколько кодонов (триплетов) должна содержать цепь, чтобы оценить её параметры с помощью марковской модели второго порядка. Пусть последовательность триплетов смоделирована марковской цепью первого порядка с состояниями всех смысловых кодонов (их как известно 61) и всех трёх стоп-кодонов.

Для марковской цепи первого порядка получим: 61-61 = 3721 вероятностей переходов между смысловыми кодонами и 61-3 = 183 вероятностей переходов из смысловых кодонов в каждое из трёх конечных состояний. Таким образом, число параметров модели Маркова первого порядка будет равно:

1^ = 3721 + 183 = 3904

Для моделм Маркова второго порядка число параметров будет значительно больше и составит: 6 Тб 1*61 =226981 - число соответствующее числу переходов между смысловысм кодонами. Вероятность переходов из смысловых кодонов в конечное состояние будет: 61-61-3 = 11163. Общее число параметров, необходимых для кодоноя в цепи Маркова второго порядка будет равно:

N2 = 61+ 226981 + 11163 = 238205

Выборка должна иметь по крайней мере на порядок больше триплетов, в противном случае может оказаться так, что многие из 613=226981 различных триплетов не появятся в выборке, и тогда получим нулевые вероятности переходов.

Точности модели Маркова 1-го порядка, когда вероятность символа зависит только от предыдущего нуклеотида, может оказаться недостаточной для удовлетворительного описания кодирующей области генома. Поэтому возникла необходимость повысить порядок используемой цепи путем учета нескольких нуклеотидов перед рассматриваемым. Известно также, что позиционные частоты нуклеотидов в трехбуквенных кодонах имеют довольно разные статистики. Поэтому для построения более точной марковской модели генов используются три различные цепи Маркова для того, чтобы смоделировать кодирующие области. Иногда нуклеотидная последовательность представляется как реализация марковского процесса со скрытыми состояниями. Вероятность того, что цепь Маар-кова в следующем скачке перейдет в определенное состояние зависит только от того, в каком состоянии она находится сейчас. Однако иногда бывает так, что эти состояния мы наблюдать не можем. Та величина, которую мы наблюдаем в момент 1:, зависит от состояния самой цепи в момент X. Поэтому говорят про скрытую марковскую модель (СММ) - что она скрыта, а доступны для наблюдателя только какие-то зависимые от её состояния случайные величины.

СММ легче поддаются преобразованиям при анализе биологических последовательностей, так как позволяют производить одновременное моделирование наблюдаемых и ненаблюдаемых (скрытых) состояний. В кодирующих генах три позиции кодонов имеют различную частоту встречаемости нуклеотидов. В связи с этим, целесообразно использовать неоднородную марковскую модель с тремя позициями. Для цепи Маркова первого порядка можно выделить три периода: р!Х1Х2 р2х2х3р3х3х4, где рк - элементы вероятностной матрицы переходов к. Такую модель можно описать в виде скрытой марковской модели (СММ), которая соответствует неоднородной марковской цепи первого порядка. Набор скрытых состояний СММ может быть определен как: {Аь А2, А3, Гь Г2, Г3, Ть Т2, Т3, Ць Ц2, Цз}, где индекс у каждого нуклеотида обозначает его позицию в кодоне. Наблюдаемые состояния нуклеотидов: А, Г, Т, Ц порождаются скрытыми состояниями с вероятностями: рх(Х) = 1 и рх(У) =0, приУ^Х, где Х,У е {А, Г, Т, Ц}. Для определения такой СММ потребуется 72 параметра: из них 12 начальных вероятностей (рохь Рох2? Рохз), 48 вероятностей переходов между скрытыми параметрами: рХ1у2, рх2у3, рх3у4 и еще 12 вероятностей переходов в конечные

СОСТОЯНИЯ Рхю, Рх20, РхЗО-

Отдельные переходы между скрытыми состояниями невозможны:

РХ1 У1= РХ2 У2= РхзУз= РХ1УЗ = РХ2У1 = РхзУ2=0.

В алгоритмах распознавания (предсказания) вторичной структуры белков так-же

могут быть использованы скрытые марковские модели. Конструкции: «а» — для альфа-спиралей; «р-слой» и «р-изгиб» для бета-структур могут быть представлены в виде скрытых состояний, порождающих наблюдаемые аминокислоты. Для заданной последовательности белка используют алгоритм Витерби. Он определяет наиболее вероятную последовательность скрытых структур состояний. Напомним, что из вероятностных алгоритмов наиболее разработаны алгоритм последовательного декодирования и алгоритм максимального правдоподобия, предложенный А.Витерби.

Для того чтобы учесть в модели зависимость от позиции параметров обычно определяют три матрицы переходных вероятностей: Р;(Ь|а) по

1*(Ь|а)

формуле: Р{(Ь|а) = -; где а, Ь = А, Г, Т, Ц. (6.11)

Н(а)

Анализ показал, что слова в тексте неравноценны и вероятность встретить слова в последовательности нуклеотидов к раз зависит не только от числа букв в слове, но и от вида слова. Зафиксируем некоторое слово 8, ГЦА и рассмотрим распределение {Р'8(п), Р^п)...}, где Р) = Р§(п) - вероятность встретить слово 8 в тексте длиной п раз.

Пусть X - случайная величина, характеризующая число появления слова 8 в тексте фиксированной длины п. Очевидно, что

Х = 1Х;

^1

При анализе генетических текстов функционально значимыми могут оказаться не только непрерывные, но и разделенные несколькими нуклеотидами слова. При предсказаниях частот встречаемости разделенных слов можно использовать частоты встречаемости разделенных частей этих слов. Например для прерывного слова:

Г—Ц—А применяют формулу: Е(Г—Ц--А) - [ДГ—Ц) Д(Ц—А)]ЯЩ);

В работе Певзнера и др [127] было показано, что предсказания частот встречаемости оказываются значительно более надежными, чем для непрерывных слов.

Представляет интерес и размер «щели», при котором возможны надёжные предсказания частот встречаемости (непрерывные слова можно рассматривать как и прерывистые со «щелью» нулевого размера). Выявилась закономерность свидетельствующая о том, что качество предсказания частот встречаемости разделенных слов существенно зависит от размера «щели» - при 1=2(тос13), т.е. при

расстояниями между соседними буквами кратными 3 вида: *—*—*, *-----*-----* и

т.д. получаются значительные отклонения от наблюдаемых частот (строки, соответствующие таким , выделены звёздочками, в то время как при расстоянии, не кратным 3, качество предсказания оказывается очень высоким. Эта тенденция отчетливо проявляется даже при больших размерах «щелей».

Можно предположить, что аномально высокие расхождения, наблюдаемые с периодом 3, связаны с зависимостями, накладываемыми генетическим кодом, при этом «действие через промежуток» таких зависимостей довольно велико. Это, возможно, связано с тем, что различные мутационные замещения по-разному сказываются на строении белка. При рассмотрении очень длинного текста разбитого на короткие слова одинаковой длины можно определить влияние вставок и выпадений символов. При одиночных (+) или ( - ) мутациях, т.е. с внедрением или выпадением одного символа разрушается полностью правильная фаза трансляции. У (++) и ( - - ) мутантов правильная фаза трансляции не восстанавливается, а у (+ -) и (- + ) мутантов - должна восстанавливаться. Если у тройных мутантов (+++) и (—) возможно восстановление правильной фазы трансляции, то это значит, что кодоны триплетны кратны трем, поскольку происходит суммарный сдвиг фазы, кратный трем. Если в генетическом коде есть некодирующие триплеты (нонсенсы), то при сдвиге образуется как бы новая случайная последовательность кодонов, среди которых могут встречаться и нонсенсы.

Для предсказания частот встречаемости слов было предложено [127] использовать статистические характеристики разнесенных групп по формуле:

Е(Г-Ц-А) = (ДГА)Д(ГЦ)) Д(Г), (6.12)

и Е(Г-Ц-А) = (ДГА)Д(ЦА))Д(А), которые имеют ничуть не меньше прав на их использование, чем обычная формула :

Е(Г-Ц-А) = (ЙТЦИ(ЦА)/Щ)

Для трёхбукренных слов предлагается и такая формула:

Е(Г-Ц-А) = [Ш Г11)Ч( 11АГ1ТГА )2)/(Т(Т)-|'( 11)-1ТА))]1/3. (6.13)

Общее число триплетов в генетическом коде, как известно, равно N = 64. Общее число пар триплетов составит 642 = 4096.

Для построения модели можно построить гипотетическую (искусственную) последовательность той же длины и с тем же составом символов, что и в генетическом тетсте. Первую такую последовательность можно построить с помощью случайного потока Бернулли, вторую с помощью марковского процесса определенного порядка, например, второго порядка, соответствующего числу букв в триплете. Для любой конечной последовательности можно выбрать порядок марковского процесса, который обеспечит точное воспроизведение исходной символьной последовательности [128]. Очевидно такой процесс будет по-своему вырожденным: все переходные вероятности там будут равны либо 0, либо 1, однако точное восстановление возможно, и такой процесс можно построить.

В выбираемой марковской модели лучше всего брать последователность порожденную процессом второго порядка. Такой выбор связан с тем, что легче использовать распределение триплетов вдоль всей последовательности (как функциональных элементов - аминокислот). В ряде исследований отмечается, что дисперсия абсолютных значений разностей двух последовательных значений |Де+1) - Т(е)|, е — 1,2... выше, чем для модельных последовательностей процессов Маркова или Бернулли. Для значительного количества триплетов на реальных генетических текстах наблюдаются «двухчастотные» взаимодействия: доля пар с нулевыми расстояниями (т.е. с непостедственно примыкающими друг к другу триплетами) значительно превосходит ожидаемую. Для одних и техже пар триплетов на разных генетических текстах наблюдается различные законно-мерности.

Слово состоящее из букв или цифр (знаков) можно разделить на подслова и фрагменты. Фрагмент - это более широкое понятие слова, чем только под с лова ограниченной длины. Однако подслово - это более структурированная часть слова, чем фрагмент, поэтому будем использовать в процессе последующего анализа именно подслова. Каждое подслово слова несет определенную информацию об этом слове и наша задача оценить эту информацию.

При определении частот встречаемости слова в генетическом тексте используется средняя частота встречаемости подслов. Например ожидаемая частота ДГЦА) слова ГЦА при использовании однородной Марковской модели 1-го порядка будет равна:

ДТЦА) = ДГЦ) • ДЦА)/ДД), где мы используем наблюдвемые частоты встречаемости подслов ГЦ, ЦА и Г слова ГЦА.

Но, использование однородной марковской модели даже больших порядков приведет к появлению систематических ошибок, так как подслова могут быть неравномерно распределены по тексту. Поэтому необходимо использовать неоднородную марковскую модель.

В работе [129] предложена общая модель марковской цепи. Генетический текст разбивается на зоны, при этом каждая зона характеризуется своими переходными вероятностями, которые определяются статистическими характеристиками только этой зоны. Таким образом, при переходе к неоднородной модели вместо рассмотрения одной (общей для всего текста) матрицы переходных вероятностей (Ру) приходится рассматривать 1 переходных вероятностей, где 1 -число частей, на которые разбивается генетический текст. Такой подход показал, что для рада слов наблюдаются большие отклонения от ожидаемых частот встречаемости, которые объясняются неоднородностью генетического текста.

Для анализа неоднородных генетических текстов вводятся понятия сильных и слабых нуклеотидов - к слабым нуклеотидам относятся А и Т , а к сильным Г и Ц, это связано с тем, что в соосветствии со статистикой, там где много генов, там много букв Г и Ц, а где генов мало, там много букв А и Т[130]. В работе [131] анализировались функции рассматриваемых текстов и оказалось, что вид функции существенно зависит от слова. Как для слабых, так и для сильных нуклеотидов вид функции имеет явно выраженный пик, что говорит о функциональной связанности генов. Кроме того отмечается, что в интронах наблюдаются корреляции соседних нуклеотидов, причем сильнее, чем в экзонах.

Можно отметить, что математические и вероятностные метода анализа генетических текстов позволили выявить большое количество закономерностей. Некоторые из закономерностей послужили основой для углубления представления о физико-химическом строении ДНК и деталях механизма переноса генетической информации. Многие компьютерные программы дают возможность осуществлять быструю разметку генетических текстов на функциональные единицы. Задача исследователий состоит в том, чтобы совершенствовать методы исследований, критерии корректности постановок задач и интерпретации их результатов.

Для эукариот и архебактерий часть генов имеет прерывистую структуру и включает в себя как транслируемые, так и нетранслируемые области. За первым кодирующим фрагментом, который всегда начинается с АТГ - инициирующего кодона, следует некодирующий участок- интрон. Далее кодирующие и некодирующие участки чередуются и последний кодирующий фрагмент заканчивается терминирующим кодоном. На границе кодирующего и некодирующего участка имеется каноническая короткая последовательность начинающаяся с ГТ и заканчивающаяся АГ. Во всех трёх рамках считывания встречаемость аминокислот распределена неравномерно для каждого организма. Причем, частоты нуклеотидов в третьей позиции аминокислоты более чем в двух других отклоняются от равномерного распределения. Было показано, что ГЦ содержание (частоты Г и Ц нуклеотидов) в третьей позиции кодона сильнее, чем в двух других позициях, скоррелированы с ГЦ содержанием кодирующей области в целом. Марковские модели можно использовать для распознавания (выделения) кодирующей или некодирующей части генетического текста. Рассмотрим фрагмент последовательности ДНК - Ь, состоящего из п нуклеотидов, т.е. Ь= XI, х2,.. .хп, где Х;=А, Г, Т, Ц. Будем рассматривать условные вероятности Р(К|Ь) и Р(Н|Ь), соответствующие кодирующей и некодирующей области. Для определения вероятностей будем использовать байесовскую процедуру распознавания для заранее выбранной марковской модели. Модель некодирующей области зададим однородной марковской цепью первого порядка. Для вычислений нам необходимо знать величины начальных вероятностей марковской цепи и матрицу переходных вероятностей. Они могут быть заранее определены исходя из анализа генетического текста. Чем больше порядок цепи, тем её характеристики ближе к реальной последователь-ности, но для этого необходимо вводить дополнительные параметры. Для кодирующей области выберем неоднородную марковскую модель первого порядка. Такая цепь задается значениями начальных вероятностей: Р!(х), х = А, Г, Т, Ц и матрицей переходных вероятностей размера 4x4: Р‘(Ь|х), а, Ь = А,Г,Т,Ц. Условная вероятность Р(Ь|Н) определяется по формуле:

Р(Ь|Н) = Р(х1)-Р(х21)-...-Р(хп| хп_0. (6.14)

Условная вероятность Р(Ь|К) определяется по формуле:

Р(Ь|К.) = Р‘(х,)-Р12|)-Р232)...-Р2п| хп.,)

Р(Ь|К2) = Р2(х,)-Р22|х,)-Р332)...-Р3п| х„.,) (6.15)

Р(Щз) = Р31)-Р32|хі)-Р'(хз|х2)...-Р'(х„| Х„.і),

где Р(Ь|К1) есть вероятность случайного обнаружения фрагмента в кодирующей области и в таком положении, что нуклеотид XI оказывается в первой позиции некоторого кодона. Р(Ь|К2) и Р(Ь|К3) определяют вероятности обнаружения фрагмента Ь в кодирующей области и в положении, когда нуклеотид X) занимает вторую или третью позицию некоторого кодона соотвественно.

После этого можно вычислять значения вероятностей Р(Н|Ь) и Р(К|Ь) позволяющие предсказать появление того или иного фрагмента генетического текста в кодирующей или некодирующей области. Причем достаточно будет определить величины Р(К1|Ь), где {= 1,2, 3, для трёх рамок считывания, так как с большой степенью вероятности можно принять, что: Р(Н|Ь) = 1 - Р(К|Ь) для одной (открытой) рамки или: Р(Н|Ь) = 1 - Р(К|Ь1) - Р(К|Ь2) - Р(К|Ь3) для трёх рамок считывания. Значения Р(К^1) находятся по формуле Байеса:

Р(Ь|Кі> Р(Кі)

Р(К|ЬО =-; (6.16)

щь|ко- Р(ко + Р(Ь|Н)Р(Н)

Здесь Р(Н) и РСК), (1=1, 2, 3) являются априорными вероятностями событий Р(Н) и Р(К;). Эти величины дают оценку вероятности принадлежности фрагмента к некодтрующей или кодирующей области еще до того, как становится известна конкретная структура фрагмента Ь. Естественно принять, что Р(Н) =1/2, Р(К;) =1/3. Подобным же образом определяются величины Р(К|Ь1), 1=1, 2, 3. и Р(Н|Ь) в тех случаях, когда моделью кодирующей области является неоднородная марковская цепь нулевого и второго порядка. Величина К зависит от порядка модели, ширины окна и выбранного порогового значения Р. Если Р(К|Е)>Р, то фрагмент относится к кодирующим, если Р(К|Е)<Р, то к неко-дирующим областям генетического текста.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Пред   СОДЕРЖАНИЕ   След >
 

Популярные страницы