Текст книги "Аналогия"
Автор книги: Борис Медников
Жанр: Биология, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 3 (всего у книги 5 страниц)
Глава II.
О ДНК эгоистичной, паразитической, избыточной и мусорной
Порой мне приходится употреблять слово «информация» в журналистском понимании («информация к размышлению»). И каждый раз ловлю себя на том, что пишу и произношу его с неохотой. Это ведь ключевой термин новой науки – теории информации, и его нехорошо поминать всуе. Между информацией, которой посвящена одноименная теория, и расхожим толкованием этого слова общего столько же, сколько между философским понятием материи и той материей, из которой шьют брюки.
Меня коробят выражения вроде «организмы питаются информацией» или же «организмы заключают в себе запас информации». Это по меньшей мере неточно. Организмы не содержат информации: они слагаются из более или менее сложных структур, упорядоченных совокупностей элементов. Вот как раз сложность этих структур можно описать соответствующим объемом информации, и теория, ей посвященная, рассказывает, как это сделать.
Также нельзя говорить, что организмы «питаются информацией». Чужая информация, да и чужая структура, организму не нужна, он по мере сил борется с ней. В этом и заключается причина отторжения пересаженных органов и тканей. Всю сложность своей структуры организм создает сам – за счет химической энергии питательных веществ, как животные, и энергии света, как растения.
Но откуда он берет сведения о своей сложности? Вот тут-то термин «информация» становится необходим. Ведь этот термин, который в наше время у всех на языке и слуху, реже на уме, – характеристика не системы (скажем, живого организма или ежедневной газеты), а сигнала. Точнее, соотношения между передатчиком сигнала и его приемником:
передатчик → канал передачи информации → приемник
Отвлечемся, для начала, от материального воплощения сигнала – будь то радиоволны, звуковые волны, слова на бумаге, рисунки на камне или соответствующие сочетания нуклеотидов в нуклеиновых кислотах. Сначала поговорим о том, как можно измерить информационное содержание сигнала.
Основоположник теории информации К. Шеннон дал формулу, которая в настоящее время во всей человеческой деятельности играет столь же важную роль, как и эйнштейновская Е = mc²:
Н = – k ∑pi log(pi)
Здесь pi – вероятность состояния системы, о котором сообщается в сигнале, log(pi) – логарифм этой вероятности и k – коэффициент пропорциональности, т. е. постоянная, определяющая единицу измерения. Н – принято называть энтропией источника сообщений, иногда просто информацией.
Эта формула очень похожа на формулу энтропии в статистической физике. Однако k там – константа Больцмана (1,37x10-16эрг/градус). В теории информации принято двоичное исчисление и логарифмы при основании 2. Тогда k = 1 и единица измерения Н – биты (сокращенное binary digits, двоичные единицы – не путать с байтами!). Один бит – столько информации содержится в ответе на вопрос: «Кто родился: мальчик или девочка?»
В передаваемой по каналу связи информации выделяются тексты, которые можно разбить на символы, и каждому символу придать значение (энтропия на символ).
Так, если бы в тексте на русском языке все буквы, включая знаки препинания и пробел между словами (32 символа), встречались с равной частотой, информационная емкость русского алфавита равнялась бы:
-∑1/32 log21/32 = log32 = 5 бит/символ
Обычно она гораздо меньше. 5 бит/символ – это предельная величина. Но во всех реальных текстах символы встречаются с разной частотой, и энтропия обычно меньше, примерно в 2,5 раза, и приближается к двум битам на символ. Отсюда можно подсчитать и объем информации в тексте. Например, в авторском листе (единице объема рукописей) 40 000 символов и, значит, 80 000 бит информации. Но опять же это верхний предел, эта цифра имеет значение для наборщика и корректора, но не читателя. Далее мы еще вернемся к этому.
А пока ответим на вопрос: откуда развивающийся организм берет сведения о своей сложности? Ответ однозначен – из своей генетической программы, из ДНК. В ДНК «генетический текст» закодирован четырьмя символами – аденином, гуанином, цитозином и тимином. При равной частоте встречаемости символов энтропия на символ равна:
Н = – 4(0,25 log2 0,25) = 2
То есть тексты, написанные русским языком, и текст нашей генетической программы обладают примерно равной информационной емкостью. В геноме каждого из нас содержится примерно 3,2x109нуклеотидов; соответственно объем содержащейся в нем информации 6,4x109бит. Любители считать могут прикинуть, библиотеке какого объема это соответствует, только пусть помнят, что в выходных данных книги указываются не авторские листы, а печатные.
Значит, им нужно сначала подсчитать число символов на страницу текста книги данного формата и умножить на число страниц. Но все эти подсчеты будут сугубо приближенные: и в случае с ДНК два бита/символ – недостижимый максимум.
Кроме того, надо учесть одно обстоятельство: чтобы превратиться в признаки и свойства организма, генетическая информация перекодируется, проходя по каналу:
ДНК → РНК → белок
Передатчик этой информации – хромосома, приемник – цитоплазма клетки, в которой синтезируется белок. А уж от набора белковых молекул и их количества зависит дальнейшая судьба клетки и всего организма.
Первый этап перекодировки ДНК → РНК не изменяет информационной емкости сигнала. Ведь нуклеотидный текст остается без изменения, только тимин заменяется на урацил. А это тот же тимин, только неметилированный (без группы СН3). Зато перекодировка нуклеотидного текста информационной РНК в аминокислотную последовательность белка весьма существенна.
Сейчас и в школе учат, что одна аминокислота, точнее, один аминокислотный остаток в полипептидной цепи, образующей белок, соответствует трем нуклеотидам в информационной РНК. Возможное число сочетаний из 4 по 3 – это 43, т. е. 64 символа. Если бы в наших белках было 64 аминокислоты, то энтропия на символ равнялась бы:
H = -64(1/64 log2 1/64) = 6,1 бит
Но три символа (тройки нуклеотидов, триплеты, кодоны) – бессмысленны, они аминокислот не кодируют. На них синтез полипептидной цепи обрывается, они соответствуют пробелам между словами в печатной речи и паузам – в устной. А аминокислот в белковом тексте всего 20, причем, каждая из них кодируется разным числом триплетов. Лейцин, серии, аргинин – эти буквы белкового текста кодируются каждый шестью триплетами, а метионин и триптофан – только одним триплетом каждый. Такой код называется вырожденным.
Аналогию можно найти и в человеческих языках. В старой русской орфографии звук «эф» выражался двумя символами – Ф и Θ (ферт и фита), звук «и» – тремя: и, i, (ижица). И в орфографиях других языков встречается вырожденность кода: например, англичане звук «и» выражают через i (в начале слов, заимствованных из других языков), через е (the evening, вечер), через дифтонг ее (the speed, скорость), через еа (dean, декан), через у (prosperity). Я не останавливаюсь здесь на делении гласных на краткие и долгие; для нас это сейчас не имеет значения. Как возникла в процессе эволюции вырожденность генетического кода – неясно. Может быть, на заре жизни аминокислот в белках было больше, чем сейчас? Впоследствии часть из них выпала, а их кодоны захватили другие аминокислоты, близкие по свойствам. Но это только гипотеза, если не спекуляция.
Вернемся, однако, к энтропии на символ для белкового текста. С учетом вырожденности кода эта величина, по моим давним подсчетам, равна 4,21 бит/аминокислотный остаток. Но это опять же с допущением, что все остатки в белке встречаются с одинаковой частотой. А это далеко не так. Если учтем данные по аминокислотному составу белков, получается величина примерно в два раза меньшая – у меня получалось 2,17-2,38 бит. Разумнее все же считать эту цифру завышенной, так как я исходил из того, что, например, все шесть кодонов для аргинина встречаются с одинаковой частотой. Два бита на символ – величина, наиболее подходящая для белка.
А сколько белков может синтезировать наш организм? Решая эту проблему, исследователи столкнулись с парадоксом, получившим название «парадокса лишней ДНК» (она же «эгоистичная, паразитическая, избыточная и мусорная»). О ней-то сейчас и пойдет речь.
О преимуществе вируса перед человеком. Два обстоятельства, на мой взгляд, привели к тому, что значительная часть исследователей по сие время теряет время в пустых вычислениях и бессмысленных спорах.
Первое – то, что мы привыкли считать: ген – это та последовательность нуклеотидов в ДНК, которая кодирует белок. Отсюда стандартное изречение: один ген – один белок.
Второе – то, что по чисто техническим причинам изучение генетических программ и их перекодировки началось с простейших (бактерии) и сверхпростейших, упрощенных организмов (вирусы). А проще – с кишечной палочки и паразитирующих в ней бактериофагов и вируса табачной мозаики.
Исследование этих объектов вроде бы подтверждало прежнюю истину («один ген – один белок»). Правда, нашлись и исключения. Некоторые белки складывались из нескольких полипептидных цепей и кодировались, соответственно, несколькими генами. Другие гены кодировали не белки, а нужные для работы клетки нуклеиновые кислоты – РНК рибосомные и транспортные. Но это все было мелочью, и до сих пор многие полагают, что гены – это та ДНК, которая кодирует белки, а если она их не кодирует, то это не гены. А что же это тогда? Какую функцию выполняет ДНК, не находящая отражения в аминокислотных последовательностях белков?
Пока изучали простейшие объекты, от этой ДНК можно было отмахнуться. Геномы бактерий и фагов построены очень экономно. Там действительно почти каждая нуклеотидная последовательность находит отражение в аминокислотной последовательности белка. Более того, экономия генетического материала у вирусов доходит до того, что один ген может кодировать два, а то и три белка. Как это может получиться? Возьмем для примера кусочек последовательности информационной РНК, кодирующий всего три аминокислотных остатка:
– УЦЦАЦГГАУ —
Это соответствует последовательности в белке:
– сер-тре-асп —
То есть, серин-треонин-аспарагиновая кислота. Тот же ген может быть прочитан со сдвигом на один нуклеотид вправо. Тогда получится совсем другой белок, в нашем примере эта часть будет означать про-арг-иле (пролин-аргинин-изолейцин). Код вирусов перекрывается, одна последовательность нуклеотидов читается по-разному в зависимости от начала считывания. У некоторых фагов отмечено даже тройное перекрытие. Гены высших организмов так экономно не построены, достоверных данных о перекрытии в них нет. Впрочем, геномы ретровирусов, к которым относится печально известный вирус СПИДа, способны к перекрыванию, а во многих геномах высших организмов имеются очень похожие на них последовательности.
Но это все-таки исключение из правила. В целом уже первые исследования показали, что наши геномы построены, по крайней мере на первый взгляд, чрезвычайно неэкономично. Как говорят, у них низкая плотность кодирования генетической информации. Образно выражаясь, геном вируса – речь спешащего спартанца, геном человека – речь заикающегося зануды.
Доказать это очень просто. Сколько белков может синтезировать организм человека? Около 50 тыс. (конечно, в самом грубом приближении). Нуклеотидов в геноме человека 3,2 млрд. Зная молекулярную массу «среднего» белка, нетрудно прикинуть, из скольких аминокислотных остатков он состоит, сколькими кодонами кодируется. Помножив на 50 тыс., мы придем к выводу, что не меньше 95% ДНК в геноме лишние. Более того, теперь мы уже точно знаем, что большая часть ДНК в наших геномах никаких белков не кодирует, с нее не считывается в обычных условиях информационная РНК, а если и считывается, то не находит отражения в аминокислотных последовательностях. Что же делает эта ДНК, какова ее функция?
Самый неожиданный ответ на этот вопрос рискнули дать одновременно и независимо друг от друга У. Ф. Дулиттл со своей сотрудницей К. Сапиенса и классик молекулярной биологии Ф. Крик с Л. Орджелом в 1980 году.
Эпоха бранных слов. Какую же гипотезу они предложили? Теперь за ней устоялось название «гипотезы эгоистичной (selfish) ДНК». Суть ее заключается в том, что или вся ДНК, не перекодирующаяся в белок, или ее значительная часть не имеет смысла. Изменения в ней не затрагивают строение организма (фенетические признаки). Она размножается при каждом делении клеток, не принося организму пользы, но и не причиняя существенного вреда, существуя сама для себя. В геноме это нахлебник или паразит, умеющий довольствоваться малым.
Откуда же среди генов берутся такие эгоисты? Авторы этой концепции исходят из простых предпосылок. Уже давно известны способы, с помощью которых нуклеотидная последовательность, ранее существовавшая в единичном экземпляре, может размножиться, образовав десятки, сотни, тысячи и миллионы копий. Этот процесс назвали амплификацией (размножением).
Существует и обратный процесс – выпадение из генома последовательностей, в том числе и лишних, амплифицированных. Его назвали делецией. Нетрудно сообразить, что, если скорость амплификации последовательностей хоть немного превысит скорость делеции, геном быстро переполнится копиями генов, которые для существования организма попросту не нужны. Разумеется, это не может длиться бесконечно. Как только геном клетки переполнится паразитами, начнет действовать отбор. Медленно растущие носители паразитарных последовательностей будут им отсеиваться. Но сторонники эгоистичной ДНК полагают, что энергетические расходы клетки на содержание ненужной ДНК не столь значительны.
В этом я сомневаюсь. Энергии на синтез уходит, действительно, не так уж много. Но нужен и строительный материал для нуклеотидов. Для чего же мы удобряем растения азотом и фосфором? Уже давно известны не очень хорошо вписывающиеся в классическую генетику факты, что некоторые растения, например махорка, в условиях азотного и фосфорного голодания резко снижают количество ДНК на ядро.
Тут вполне уместна такая аналогия: хотя качество работы нашей полиграфической промышленности оставляет желать лучшего, мощность ее вполне достаточна, чтобы наделить каждую семью в Союзе не только последними детективами, но и полным собранием сочинений Достоевского. Только где бумагу взять? Впрочем, подобные соображения не смущали изобретателей «эгоистичной» ДНК. Статьи по теоретической генетике зарябили формулами, описывающими ее поведение в геноме. Эти дифференциальные уравнения были вполне правильными, да и не столь уж новыми. Схожими уравнениями популяционные генетики описывали изменения частоты генов в популяциях. Еще раньше были известны близкие уравнения Лотка-Вольтерра, описывающие колебания численности хищников и жертв.
Но если уравнения правильные, из этого отнюдь не вытекает верность исходных предпосылок. Ведь математика, подобно жернову, перемалывает все, что в нее засыплют. Но теоретики не дремали: появились расчеты, доказывающие, что «эгоистичные» последовательности, раз возникнув, могут закрепляться в геноме, «даже если их влияние на приспособленность особей в значительной степени отрицательно».
Термин «эгоистичная» ДНК в общем-то не нов, раньше была в ходу ДНК «избыточная» и «ненужная». Теперь ее называли «паразитической» и «мусорной» (junk). Чуть ли не комплиментом звучал термин «несведущая» ДНК (она же «невежественная»). Так называли последовательности, которые в принципе могли выполнять какую-либо деятельность независимо от состава.
Увлекшиеся теоретики не замечали, что грешат против логики. Они требуют доказательств функционального значения ДНК, не кодирующей белок, принимая ее бесполезность как нуль-гипотезу. А на деле обе концепции, пока не получено экспериментальных данных в пользу той или иной, вполне равноправны.
Мне это напомнило давний мой спор с одним коллегой – антидарвинистом, к сожалению, ныне покойным. Он отрицал полезность окраски белого медведя. С его точки зрения, чтобы доказать это, нужно достаточно представительную выборку, скажем 100 или 200 медведей выкрасить в красный или зеленый цвет, а затем выпустить в природу и проследить, снизилась ли у них вероятность выжить и оставить потомство. Он тоже принимал бесполезность, нейтральность структуры за нуль-гипотезу. Я в свою очередь постулировал «презумпцию приспособительности» – пока не будет доказано обратное. Так мы и не смогли убедить друг друга ни в чем.
Здесь ситуация та же, только речь идет о признаках не фенотипа, а генотипа.
В результате у многих молекулярных генетиков сложилось представление о геноме высших, ядерных организмов – эукариот, на мой взгляд, довольно дикое. В их представлении геном, например, человека – куча мусора, в которой ползают паразиты. Это так называемые «прыгающие гены» – мобильные, подвижные последовательности ДНК – потомки вирусов. В эту же массу, как жемчужные зерна в кучу навоза, вкраплены «настоящие» гены, т. е. кодирующие белки и РНК.
Как говаривал друг Винни-Пуха ослик Иа-Иа – «душераздирающее зрелище»! Геном бактерии построен куда рациональнее. Тогда что же такое прогресс?
Моя точка зрения на эту проблему проста: с получением новых экспериментальных данных термин «мусорная» будет применяться не к ДНК, а к той литературе, где он всерьез употребляется. Это я говорил еще в 1980 году, прочитав знаменитый номер «Nature», говорю и сейчас – с гораздо большим основанием. А тогда единственным моим доводом была аналогия с передачей лингвистической информации, и ссылаться приходилось только на самые общие положения теории Шеннона.
Дело в том, что в любом канале передачи информации существуют помехи. Канал без помех – такая же невозможная абстракция, как и двигатель со 100% КПД. Поэтому сигнал на пути от передатчика к приемнику искажается – порой настолько, что не может быть использован в практической деятельности. Информация, в общем, просто теряется, обращаясь в шум. Один из законов Шеннона это постулирует: в процессе передачи информация может только теряться, но не увеличиваться. Этот закон – точный аналог второго начала термодинамики, согласно которому энтропия замкнутой системы может только возрастать.
И в нашем случае возрастает энтропия передаваемого текста и энтропия на символ. Например, энтропия на символ в диктанте второгодника существенно выше соответствующей величины для орфографического словаря. Чтобы сохранить информацию в сигнале, необходимо построить его таким образом, чтобы он был помехоустойчивым.
И теория связи, придуманная людьми, и те закономерности, по которым формирует свои сигналы живая природа, предусматривают немало способов повышения помехоустойчивости информационных каналов. Все их нельзя рассмотреть в общедоступной книге. Но важно подчеркнуть одно – все они в той или иной мере сводятся к удлинению сигнала, увеличению времени его передачи – короче, к понижению плотности кодирования генетической информации. К чему это сводится на практике?
Письмо капитана Гранта. Полагаю, в детстве все вы читали захватывающую историю Жюль Верна, которая начиналась с того, что в брюхе акулы была найдена бутылка, а в той бутылке – три записки. Море смыло часть текста, но можно было догадаться, что они написаны на разных языках – английском, немецком и французском. Остаток английского текста гласил:
… 62… Bri… gow… sink… stra… aland… skipp… Gr…… that monit… of long… and… ssistance… lost…
To же на немецком:
… 7 Juni… Glas… zwei… atrosen… graus… bringt ihnen…
Видимо, Жюль Берн знал немецкий хуже английского. По той же причине лучше всего сохранился французский текст документа:
… troi… ats… tannia… gonie…austral… abor… contin… pr… cruel… indi…jete… ongit et 37°11'… lat…
Казалось бы, немного. Но герои романа во главе с Жаком Паганелем в конце концов, ошибаясь и в процессе кругосветного путешествия исправляя ошибки, уверенно восстановили текст, за исключением одного слова. Вот как выглядел текст в переводе на русский язык:
«27 июня 1862 года трехмачтовое судно «Британия» из Глазго потерпело крушение в тысяче пятистах лье от Патагонии, в Южном полушарии. Два матроса и капитан Грант добрались до острова Табор. Здесь, постоянно терпя жестокие лишения, они бросили этот документ под 153° долготы и 37°11" широты. Придите им на помощь".
Я подчеркнул те слова и части слов, которые сохранило море. Чем для нас примечательна эта выдуманная история? Прежде всего, тем, что текст повторен трижды. Будь копии одноязычными, результат был бы тот же: помехоустойчивость сигнала возросла бы. Примечательно, что Паганель споткнулся на слове «Табор» – оно имелось только во французском тексте и, значит, не обладало трехкратной избыточностью. Впрочем, будь оно расшифровано, героям романа не пришлось бы совершать кругосветное плавание, и роман вообще бы не состоялся.
Сопоставим это с тем фактом, что каждый из нас имеет двойной, диплоидный, набор генов – от отца и от матери. Как говорят генетики, наши организмы на всем протяжении развития от оплодотворенной яйцеклетки, зиготы, находятся в диплофазе. Только наши гаметы – спермии и яйцеклетки гаплоидны, имеют один набор генов.
Но это не общий для всей природы закон. Высшие растения имеют две стадии развития – гаплофазу и диплофазу. Но и у них гаплофаза редуцирована и, в конце концов, паразитирует на диплофазе, являясь частью цветка. Мужской гаплоидный организм цветковых состоит всего-то из трех клеток (пыльцевое зерно). А многие простейшие, грибы и водоросли на протяжении большей части жизни живут в гаплофазе. У них диплоидна только зигота. Гаплоидны и бактерии.
Какой вывод можно сделать из этого? По-видимому, дублирование, а то и многократное повторение генетической информации необходимо для прогрессивной эволюции. И необходимо именно потому, что повышает помехоустойчивость. Если генетический текст повторен трижды, возникают триплоиды. Они бесплодны при половом размножении, но отличаются мощностью роста, высокой жизненной устойчивостью. Таковы гигантская триплоидная осина, бессемянный культурный банан и многие другие сорта растений, а также триплоидные земноводные и рыбы.
Но это не единственный вывод, который можно сделать, анализируя с точки зрения теории информации письмо капитана Гранта. Возьмите русский перевод. В нем 48 слов, из коих можно восстановить 25. Но для понимания смысла текста многие слова лишние, такие как «трехмачтовое судно», «в тысяче пятистах лье от Патагонии» (обрывок последнего слова вынудил Гленарвана со спутниками пересечь Анды и пампасы), «в южном полушарии» (моряк так бы не написал, он ограничился бы аббревиатурой Ю. Ш., точнее s.l.), «здесь они бросили этот документ». Так что для понимания смысла достаточно было 32 слов, многие из которых восстанавливаются по обрывкам: Bri, gow, stra, aland, contin, indi… ongit и т. д.
Получается, что многие символы в тексте письма лишние? Ведь и без них можно обойтись?
Да, лишние. А значит, следуя логике авторов модной гипотезы, их бы следовало назвать «эгоистическими, паразитическими, мусорными» и т. д.
Вы скажете, конечно, что здесь что-то не так. Вот мы и подошли к важному выводу теории информации: все человеческие языки построены со значительной избыточностью. Как оценить степень этой избыточности? Абсолютно точное определение этой величины нереально, хотя бы потому, что избыточность – свойство не языка, а написанного на нем текста. Но, сопоставив много разных текстов, мы можем вывести нечто среднее, характеризующее язык, что-то вроде средней температуры по больнице. Метод определения доступен каждому. Его можно назвать хотя бы методом Паганеля, а суть его – моделирование письма капитана Гранта.
В такую игру удобнее играть вдвоем. Один, по возможности случайно, выбирает кусок текста, неизвестного партнеру. Достаточно примерно тысячи знаков. Затем, пользуясь таблицей случайных чисел, из него вычеркивают 10, 20, 50 и т. д. процентов знаков. Второй игрок должен текст восстановить. Так определяется избыточность текста, выражающаяся в процентах «лишних» символов, без которых задачу можно решить. Хорошо для этой цели использовать персональный компьютер.
Подобные опыты, проведенные в разных странах, на разноязычных текстах, дают близкие цифры: примерно до 80% символов в лингвистической информации оказываются лишними. Мы могли бы говорить и писать в пять раз экономнее – но сколько времени мы бы тогда тратили на расшифровку сообщения?
В принципе, возможно построить совершенно безызбыточный язык, так называемый оптимальный код. В нем каждое случайное сочетание букв означало бы осмысленное слово. Но пользоваться им было бы невозможно. Как в свое время заметил И. А. Полетаев, «никакой аптекарь не рискнул бы выполнить рецепт, написанный типичным врачебным почерком, если бы ошибка в одной букве меняла слово «аспирин» на слово «стрихнин»». Да и жизнь машинисток и наборщиков, телеграфистов и редакторов была бы сплошным мучением.
Конечно, в одном и том же канале можно встретить разные по избыточности тексты. Хорошо бы таким способом сравнить плотность информационного содержания в текстах, например, Хемингуэя и Проскурина. Убежден, что не только теория информации, но и теория литературы почерпнула бы от таких экспериментов немало полезного. Напомню, что Проспер Мериме, отчаявшись перевести пушкинский «Анчар» на французский язык, сделал это по-латыни. Значит ли это, что французский язык избыточнее русского? Вряд ли: в стихотворениях хотя бы Франсуа Вийона плотность информации не меньше пушкинской:
На помощь только враг придет,
Лишь о святом дурная слава,
Всего на свете горше мед,
И лишь влюбленный мыслит здраво.
Но оставим это литературоведам и перейдем к специальным языкам. Строго говоря, к ним нельзя применить это название. Специальные языки – это способы построения текстов, подлежащих передаче по каналу со специфическими свойствами, например, при наличии высокого уровня помех. Особенно часто они используются там, где ошибка в расшифровке сообщения стоит чересчур дорого. С этой точки зрения для нас наиболее интересен язык аэродромных диспетчеров, на котором они общаются по радио с пилотами взлетающих и идущих на посадку самолетов.
Соответствующие исследования показали чудовищную избыточность языка диспетчеров – до 96%! Только столь низкая информационная плотность сигнала позволяет преодолеть высокий уровень помех. И хорошо, что никому в голову не приходит объявить 96% слов в радиопереговорах лишними, мусорными и наказывать пилотов и диспетчеров за многословие.
А каковы условия передачи генетической информации? Не надо забывать, что она передается на молекулярном уровне. Лучше всего эти условия охарактеризовал С. Э. Шноль: «Молекулярная машина существует в оглушительном тепловом шуме, „целесообразные“ движения ее деталей происходят среди теплового беспорядка и являются статистическим итогом разнонаправленного „броунирования“». Впервые об этом сказал Н. И. Кобозев, рассматривая принципы действия молекул ферментов. Но они полностью применимы и к действию генов. Ведь и синтез РНК на ДНК (транскрипция), и синтез белка на РНК (трансляция), и синтез ДНК на ДНК (репликация) – все это химические реакции, катализируемые ферментами. Львиная доля мутаций – изменений структуры наших генетических программ – определяется именно тепловым шумом – хаотическим движением молекул в клетке. С точки зрения теории информации он полностью аналогичен шуму в репродукторе приемника (тот вызывается тепловыми флуктуациями электронов в цепях усилителя).
Согласно теории Шеннона любой механизм повышения помехоустойчивости информационного канала неизбежно приводит к повышению избыточности текста. Стоит ли удивляться, что избыточность наших генетических программ столь велика? И имеем ли мы право называть избыточную ДНК эгоистичной и паразитической?
Иное дело – выяснить, каковы механизмы, с помощью которых избыточность генетического текста превращается в его помехоустойчивость. Несомненно, их несколько. Далеко не все мы успели установить. Наконец, вряд ли мы найдем здесь полную аналогию с каналами передачи мемофондов: слишком уж различается материальная основа обеих каналов. Но на некоторых следует остановиться особо, потому что анализ их приводит к любопытным и важным выводам. Прежде, однако, рассмотрим структуру самих генетических текстов.
Как устроены наши программы. С чего начинает исследователь, если ему в руки попадает закодированный на неизвестном языке текст? Сначала он определяет, сколько в нем знаков (символов, букв), и какова частота встречаемости каждого знака по отдельности и в сочетаниях с другими. Большой удачей считается на этой стадии выявить символ, обозначающий пробел между словами. Но его может и не быть. Древние римляне и греки, средневековые новгородцы писали без пробелов. Вообще открытие пробела было своего рода революцией, чуть ли не вдвое повысившей скорость считывания информации.
Далее наш дешифровщик будет стараться найти устойчивые группы, устойчивые сочетания знаков (слова), которым он будет приписывать какой-либо смысл. На этой же стадии выявляется тип языка – имеет ли он флексии, каковы закономерности изменения начал и окончаний слов, и так далее. Теперь, в эпоху компьютеров, подобные работы проводятся относительно быстро – при условии, что исследуемый текст достаточно велик. Этрусский язык, например, до сих пор не расшифрован, потому что в распоряжении исследователей имеются лишь короткие, неинформативные надгробные надписи.
Казалось бы, этот метод вполне подходит для дешифровки текстов на языке ДНК. К сожалению, перед молекулярными биологами встали трудности, неведомые этрускологам.
Еще двадцать лет назад мы практически не умели читать ДНК-тексты. Было известно лишь, что они «написаны» 4-буквенным алфавитом (А, Т, Г, Ц) и что аминокислоты в белках и пробелы между белковыми «словами» кодируются сочетаниями из этих четырех букв по три. Даже сейчас, когда прочитаны уже миллионы этих букв, в распоряжении расшифровщиков нет ни одного достаточно представительного куска сообщения (ведь в геноме человека 3,2 миллиарда букв). И, тем не менее, о структуре наших программ мы знаем уже немало. Молекулярным биологам помогло то, что ДНК – двойная спираль комплементарных друг другу последовательностей. Между собой нуклеотиды в последовательности связаны довольно устойчивыми фосфодиэфирными связями. А сами цепи ДНК в двойной спирали скрепляются так называемыми водородными связями, неустойчивыми уже при высокой (100°) температуре или рН ~ 11. Используя один из этих факторов, ДНК можно разделить на две комплементарные половинки (денатурировать). Если понизить температуру или рН, начинается обратный процесс – ренатурация. Комплементарные половинки находят друг друга и восстанавливают двойные спирали. Денатурируя и отжигая ДНК, предварительно «поломанную» ультразвуком на куски разной длины, исследователи пришли к важнейшим выводам о структуре генетического текста – не прочитав пока ни единой буквы!
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.