Меню
Главная
Авторизация/Регистрация
 
Главная arrow Экология arrow Ключ к генетическому коду в структуре объединенных молекул воды

МАТЕМАТИЧЕСКИЕ МЕТОДЫ В АНАЛИЗЕ ГЕНЕТИЧЕСКИХ ТЕКСТОВ

Первые методы определения последовательностей нуклеотидов в ДНК появились в конце 70-х годов прошлого века. Однако определить законы записи генетических текстов и выявить в них функционально значимые области удалось лишь частично, а алгоритмы поиска функциональных областей в первичных структурах ДНК появились только в начале 80-х годов.

Процедуры распознавания генетических текстов различных организмов строились с учетом особенностей в расположении нуклеотидов. Для этого нужно было хорошо разобраться в принципах кодирования и считывания генетической информации и комбинаторике.

Проводился анализ частоты встречаемости отдельных триплетов в фрагментах эукариотической ДНК. В серии исследований английский биолог Дж. Б.С. Холдейн выступил как пионер нового направления - математической генетики, исследуя изменение частоты встречаемости генов в популяции в ходе естественного и искусственного отбора. Он писал: «Наука почти всегда имеет количественное выражение. Она имеет дело с измерениями, весовыми показателями и счетом» [113]. Однако, не удавалось объяснить изменения частоты встречаемости нуклеотидов в различных последовательностях.

Для решения этой проблемы нужны были обоснованные модели формирования генетических текстов и проверки их оптимальности на реальных примерах. Чтобы можно было автоматически узнавать каждый триплет как слово нужно было ввести дополнительные органичения - сформировать словарь смысловых слов. Эти смысловые слова должны быть расположены так, чтобы при неправильном считывании частей любых двух соседних смысловых триплетов смыслового слова не получилось. Только смысловые слова нуклеотидных триплетов соответствуют амиинокислотам в словаре; все другие триплеты - те, которые могут быть образованы при неправильном считывании соседних смысловых триплетов, - не кодируют вообще никакой аминокислоты и, следовательно, являются бессмысленными (nonsense). Например, если ATT и ГЦА являются смысловыми словами в словаре, то ТТГ, ТГЦ, которые могут быть неправильно считаны с фрагмента АТТГЦА, должны быть обязательно бессмысленными словами. При считывании триплетов в один шаг меняется только одно основание. Два основания неизменны. Таким образом, при трёх кодирующих основаниях (для каждой аминокислоты) на одном шаге считывания повторяются два основания, а одно изменяется. На следующем шаге изменяется еще одно основание. Полная смена оснований наступит только после третьего шага и, в этом случае вся комбинация триплета не будет иметь влияния от предыдущих сочетаний. Такое плавное перемещение одного триплета в другой приводит к ограничению возможности быстрого использования всех перестановок в триплете [114]. Для возможного использования всех 64-х вариантов триплетов потребуется 64x3=192 единичных шага считывания триплетов ДНК.

Следовательно, можно составить код без запятых, который обеспечивает правильное считывание информации без какой-либо необходимости в существовании пускового механизма считывания в начале полинуклеотидной цепи или в запятых между соседними смысловыми триплетами. Кроме того, при построении такого словаря генетического текста необходимо знать какие отклонения частот встречаемости слов от ожидаемых следует считать значимыми, а какие нет. Например, если слово АТТГЦА встретилось в последовательности 100 раз -много это или мало.

Для этого необходимо:

  • - построить саму модель формирования генетического кода;
  • - составить словарь смысловых слов;
  • - выбрать предсказуемые частоты встречаемости слов;
  • - выбрать процедуру оценки статистических параметров модели порождения генетических текстов.

Буквами в кодирующих областях генетического текста можно считать триплеты (кодоны), а словами могут быть достаточно протяженные последовательности, например экзоны.

Нуклеотиды могут быть представлены и бинарным числом: 0 или 1. Присвоив пиримидинам наличие признака, т.е. «1», а пуринам его отсутствие, т.е. «0», комплементарным на основе трех водородных связей - признак «1» и соответственно комплементарным на основе двух водородных связей - «0», примем следующие соответствия нуклеотидов бинарным числам:

А = 00; Т = 10; Г = 01; Ц= 11.

Строчная последовательность этих четырех букв на нитях нуклеиновых кислот содержит генетическую информацию для синтеза белков. Обычно говорят, энциклопедия жизни написана четырьмя буквами. Считают, что данный набор четырех букв является алфавитом генетического кода.

Необходимо учитывать ряд вопросов, например, имеет ли генетический словарь физический, молекулярный смысл или корреляция между кодонами и аминокислотами совершенно случайна? Что можно сказать об эволюции кода в этой связи? Какие факторы влияют на чтение кода, на процессы транскрипции и трансляции? Что и как искажает код? Каковы физико-химические причины мутаций?

Известно, что биологические функции определяются его пространственной структурой. Первичная структура и пространственное строение однозначно связаны между собой. Тем самым, генетически закодирорваны пространственное строение и биологическая функции белка. В то же время естественный отбор идет не по первичной, а по пространственной структуре - по биологическому поведению. Все это надо учесть при составлении модели.

Модель — это копия или аналог изучаемого процесса и класса. Математическая модель должна отвечать определенным требованиям: точности, погрешности, универсальности, экономичности и другим. В реальных условиях принятия решений параметры задачи часто имеют стохастический и нечеткий характер, тогда параметры модели задаются как случайные величины, выбираемые согласно заданному закону распределения вероятностей. Математические модели строятся на основе знаний генетического материала и протекающих биологических процессах. Для аминокислотного анализа последовательности белка строят ее вероятностную модель.

Когда мы говорим о возможных приближенных подходах к решению интересующей нас задачи, определения пространственной структуры молекулы белка, мы должны учитывать, что все эти приближения должны получить солидное теоретическое или экспериментальное обоснование, без которого сами результаты расчета не имеют ценности. Так как в клетках организма ежеминутно выполняются миллионы химических реакций, то в зависимости от концентрации определенных регуляторных белков происходит переключение генов, отвечающих за производство нужных белков. Кроме того, живые организмы имеют дело с неточностью введенной информации. Это может быть связано с тем, что в течение дня меняется освещенность, концентрация белков и т.д.

Любая математическая модель описывает лишь некоторое подмножество свойств задачи. Поэтому точность математической модели определяется степенью совпадения значения переменных реального объекта и значений тех же переменных, полученных на основе исследуемой математической модели. Всякая математическая модель биологических явлений по необходимости приближенная. Никакая модель не учитывает всех факторов. Неотъемлемой частью модели является некоторая совокупность параметров, значения которых находятся из опыта путем сравнения предсказаний теории, основанной на выбранной модели, с экспериментом.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Пред   СОДЕРЖАНИЕ   След >
 

Популярные страницы