ENCODE (Encyclopedia of DNA Elements) je rozsiahly medzinárodný projekt zameraný na systematické mapovanie a charakterizáciu funkčných prvkov v ľudskom genóme. Projekt bol spustený v roku 2003 Národným inštitútom pre výskum genómu (NHGRI) a viedlo ho viac ako 400 vedcov v 32 laboratóriách v USA, Spojenom kráľovstve, Španielsku, Singapure a Japonsku. Hlavné výsledky veľkej súhrnnej analýzy boli zverejnené v sérii článkov v časopisoch Nature, Genome Biology a Genome Research a predstavujú najpodrobnejšiu mapu rôznych biochemických udalostí v ľudskom genóme doteraz.

Hlavné zistenia

Zjednodušené a doplnené zhrnutie kľúčových zistení projektu ENCODE:

  1. Len približne 1 % genómu kóduje proteíny. To zodpovedá približne 20–21 tisícom proteín‑kódujúcich génov (počet sa upravuje podľa definícií a anotácií génov).
  2. Desiatky tisíc promotérov. ENCODE identifikoval okolo 70 000 sekvencií s charakteristikami promotérov — miest, ktoré sa nachádzajú pri začiatkoch transkripcie a kde sa viažu transkripčné faktory a iné regulačné proteíny, ktoré riadia expresiu génov.
  3. Stovky tisíc enhancerov. Projekt odhadol približne 400 000 potenciálnych enhancer oblastí — sekvencií, ktoré môžu regulovať expresiu génov aj na veľké vzdialenosti.
  4. Milióny regulačných „prepínačov”. ENCODE identifikoval až niekoľko miliónov miest s biochemickou aktivitou (napríklad väzobné miesta transkripčných faktorov či otvorené chromatínové oblasti), ktoré fungujú ako regulačné prvky a môžu zapínať alebo vypínať gény aj vzdialene od ich kódujúcich sekvencií.
  5. Významná časť genómu vykazuje biochemickú aktivitu. Podľa analýz ENCODE má približne 80 % ľudského genómu určitú biochemickú funkciu. Toto vyvolalo širokú diskusiu — ENCODE zistil, že mnoho sekvencií, ktoré nekódujú proteíny, vykazuje špecifické väzby proteínov, modifikácie chromatínu alebo produkuje neproteinové RNA, čo naznačuje úlohu pri regulácii génovej expresie. V pôvodnom znení autori poukazujú na to, že predstava o veľkom množstve „odpadovej DNA” je príliš zjednodušená: „Prevažná väčšina ľudského genómu nekóduje proteíny ... Ukázalo sa však, že existujú dobré dôvody na zachovanie tejto DNA. Výsledky projektu ENCODE ukazujú, že väčšina týchto úsekov DNA ukrýva oblasti, ktoré viažu proteíny a molekuly RNA, čím ich dostávajú do pozícií, z ktorých vzájomne spolupracujú pri regulácii funkcie a úrovne expresie génov kódujúcich proteíny.”
  6. Evolučný význam regulácie. ENCODE zdôraznil, že evolúcia fenotypov môže byť spôsobená nielen zmenami v sekvenciách kódujúcich proteíny, ale aj zmenami v regulačných sekvenciách, ktoré upravujú reguláciu génov.

"Jednou z veľkých výziev evolučnej biológie je pochopiť, ako rozdiely v sekvencii DNA medzi druhmi určujú rozdiely v ich fenotypoch. K evolučným zmenám môže dochádzať tak prostredníctvom zmien v sekvenciách kódujúcich proteíny, ako aj prostredníctvom sekvenčných zmien, ktoré menia reguláciu génov."

Metódy a dáta

ENCODE využíval široké spektrum molekulárno-biologických metód na mapovanie transkripčných a regulačných prvkov. Medzi najčastejšie použité patrili:

  1. Izolovali a sekvenovali RNA prepisovanú z genómu — používali sa metódy ako RNA‑seq a CAGE na detekciu proteín‑kódujúcich aj neproteinových transkriptov a na mapovanie štartovacích miest transkripcie.
  2. Identifikovali väzobné miesta pre približne 120 transkripčných produktov — pomocou ChIP‑seq (chromatin immunoprecipitation sequencing) sa mapovali miesta viazania transkripčných faktorov a proteínov spojených s chromatínom.
  3. Skúmali vzorce chemických modifikácií histónov (histónové modifikácie sú markery aktívnych promotérov, enhancerov a iných chromatínových stavov).
  4. Mapovali otvorené chromatínové oblasti a citlivé miesta na DNázu I (DNase‑seq) a používali ďalšie assay (FAIRE‑seq), ktoré poukazujú na prístupnosť DNA a potenciálne regulačné regióny.
  5. Analyzovali metyláciu DNA a ďalšie epigenetické znaky, ktoré ovplyvňujú reguláciu génov.
  6. Vykonali 1 648 experimentov na 147 typoch buniek.

Dôsledky, využitie a kritika

  • Dôsledky pre biomedicínu: ENCODE pomohol vysvetliť, prečo väčšina variantov spojených s rizikom ochorení (identifikovaných v GWAS) leží v nekódujúcich oblastiach — mnohé z týchto variantov sa nachádzajú v regulátorových prvkoch, ktoré ovplyvňujú expresiu génov.
  • Zlepšenie anotácií genómu: Dáta ENCODE umožňujú presnejšie označiť promotéry, enhancery, miesta viazania transkripčných faktorov a transkripčné jednotky netranslatovanej RNA, čo uľahčuje ďalší výskum génovej funkcie a regulácie.
  • Kritika definície „funkcie“: Najväčšia kontroverzia sa týkala tvrdenia, že 80 % genómu je „funkčné“. Kritici poukazujú, že ENCODE používa definíciu funkcie založenú na biochemickej aktivite (napr. väzba proteínov, produkcia RNA, modifikácie histónov), ktorá neznamená nevyhnutne evolučnú alebo fenotypickú dôležitosť. Mnohé biochemicky aktívne miesta môžu byť vedľajšími produktmi a nemusia mať selektívnu výhodu. Následné štúdie preto rozlišujú medzi „biochemickou aktivitou“ a „konzervovanou/selektívne významnou funkciou”.
  • Pokračovanie projektu: ENCODE prešiel viacerými fázami, pričom neskoršie fázy rozšírili počet činidiel, typov buniek a techník (vrátane detailnejších epigenetických a chromozomálnych konformačných analýz). Dáta sú voľne prístupné a slúžia ako referenčná báza pre mnoho ďalších projektov.

Zhrnutie

Projekt ENCODE výrazne rozšíril naše chápanie ľudského genómu tým, že ukázal rozsiahlu prítomnosť biochemických prvkov v nekódujúcich oblastiach DNA a poskytol mapu potenciálnych regulačných prvkov. Treba však rozlišovať medzi rôznymi typmi „funkcie“ (biochemická, evolučná, fenotypická) a pokračujúce výskumy sú potrebné na určenie, ktoré identifikované prvky majú kritický biologický význam alebo sú relevantné pri chorobách.

S touto prácou súvisia tieto novinky: