presentacion.jpg

INICIO | HERRAMIENTAS I | HERRAMIENTAS II | APÉNDICE

xilosaisomerasadebacillusstearothermophilus.jpg

XILOSA ISOMERASA DE Bacillus stearothermophilus (Gallay et al., 1997)
A la izquierda: modelo de la molecula de DNA en LEGO. Tomado de www.ericharshbarger.org/lego/mini_dna.html

INTRODUCCIÓN

 

            El avance científico en el área de las ciencias biológicas ha alcanzado un nivel notable. Innumerables proyectos han redundado en la ampliación del conocimiento, nuevas aplicaciones y grandes perspectivas hacia el futuro. Todo esto ha llevado a mejorar el nivel de vida del ser humano, y al desarrollo de nuevas formas de proteger el medioambiente, gracias a los adelantos específicos en medicina, biología y biotecnología.

            Grandes proyectos de secuenciación han generado una inmensa cantidad de datos, entre estos se destaca el proyecto genoma humano. Toda esa información debe analizarse y correlacionarse, afín de estructurar los conceptos teóricos del funcionamiento de los seres vivos desde el nivel molecular, con lo que se pueden desarrollar aplicaciones novedosas.

            Es en este punto se hace importante la Bioinformática, una rama de la ciencia que propende por el uso y desarrollo de las tecnologías de la información, para el análisis e interpretación de los datos que arrojan las diferentes investigaciones biológicas. Entre sus principales objetivos se encuentran: el almacenamiento de la información, principalmente secuencias de ácidos nucleicos y aminoácidos, de una manera accesible a los investigadores; herramientas para el estudio, comparación y correlación de datos hallados experimentalmente; predicción de dominios, estructuras y relaciones filogenéticas de las secuencias examinadas; desarrollo de algoritmos y estadística necesaria para la comprensión de la información biológica. Todo esto lleva al desarrollo de nuevas teorías, conceptos y perspectivas que generan diferentes y revolucionarias formas de entender la vida.

            En la actualidad existe un adelanto desmesurado de las tecnologías de la información. Su difusión y aprovechamiento ha sido posible gracias a la globalización, donde un papel muy importante lo ha jugado la Internet. La Web ha permitido conocer y aprovechar muchos de los avances científicos, donde la bioinformática no ha sido la excepción.

            Los nuevos avances han generado que varias disciplinas de la investigación se interrelacionen, como la medicina, la genética, la biología, la bioquímica, la biotecnología y la computación entre otras. Los grandes laboratorios cuentan con grupos multidisciplinarios, que cooperan armónicamente y retroalimentándose constantemente. Es así como, hoy por hoy, no se puede estudiar y comprender un ente fisiológico únicamente desde un solo punto de vista.

            Por ello, todo aquel que desee dedicarse al campo investigativo debe conocer el manejo de las herramientas bioinformáticas, con la finalidad de que sea capaz de analizar y correlacionar la información que obtenga en el laboratorio. Cuando unos datos de laboratorio no son analizados a la luz de lo que otros han obtenido, se pierde la perspectiva de la situación, con el riesgo de caer en errores o inconsistencias.

            Este documento busca un primer acercamiento del investigador, o de quien este interesado en el conocimiento y análisis de datos biológicos, hacia las herramientas bioinformáticas que se encuentran en Internet. Estos recursos poseen las ventajas de una actualización constante en la mayoría de los casos, frecuentemente salen nuevas y mejoradas herramientas para análisis bioinformática, trabajan por medio de potentes servidores que analizan rápida y eficientemente la información ingresada, los resultados son presentados de una manera sencilla y completa los cuales son almacenados por un tiempo variable. La información contenida en este texto fue tomada desde los sitios Web, de literatura especializada  y de algunos cursos que he tenido la oportunidad de realizar (ver sección bibliografía).

Todo lo anterior, implica la necesidad de estar visitando y estudiando constantemente los sitios que administran estos recursos. Cabe la posibilidad de inexactitudes en este documento, ante lo que pido esa retroalimentación que enriquece la ciencia, de parte de quienes visiten este sitio. Espero que estas pocas líneas sean de utilidad, y que sobre todo despierten el interés por conocer y aplicar esta disciplina.

                                                   CONTENIDO

INICIO

INFORMÁTICA

COMPUTADORA

HARDWARE

SOFTWARE

REDES DE COMPUTADORA

TRANSMISIÓN DE DATOS

INTERNET

BIOINFORMÁTICA

BIOLOGÍA MOLECULAR

TECNOLOGIAS DE LA INFORMACIÓN

RECURSOS DE INFORMACIÓN

BANCOS DE PUBLICACIONES.

BASES DE DATOS

 

HERRAMIENTAS I

HERRAMIENTAS PARA BIOLOGÍA MOLECULAR

DISEÑO DE OLIGONUCLEÓTIDOS (PRIMERS)

PCR VIRTUAL

MAPAS DE RESTRICCIÓN

ELECTROFEROGRAMAS (CHROMAS)

COMPARACION DE SECUENCIAS

DESCARGA DE PROGRAMAS DE BIOINFORMÁTICA

 

HERRAMIENTAS II

MODELAMIENTO DE PROTEÍNAS

 

APÉNDICE

OTROS CONCEPTOS

OTROS RECURSOS

PERSPECTIVAS

BIBLIOGRAFÍA

INFORMÁTICA

                       

COMPUTADORA

Es una máquina capaz de procesar o tratar automáticamente, a gran velocidad, cálculos y complicados procesos que requieren una toma rápida de decisiones, mediante la aplicación sistemática de criterios preestablecidos, siguiendo las instrucciones de un programa, la información que se le suministra es procesada para así obtener un resultado deseado.

La computadora es una maquina de propósitos o uso general. Los conceptos de estructura física y de programación constituyen el soporte material y lógico de esa realidad. Es una dualidad solidaria, que también recibe los nombres de Hardware o soporte físico y Software o soporte lógico.

     

HARDWARE

Hardware son todos aquellos componentes físicos de una computadora. El Hardware realiza las 4 actividades fundamentales: entrada, procesamiento, salida y almacenamiento secundario.

 

1. Entrada: Para ingresar los datos a la computadora, se utilizan diferentes dispositivos:

 

-Teclado: Dispositivo de entrada más comúnmente utilizado que encontramos en todos los equipos computacionales. El teclado se encuentra compuesto de 3 partes: teclas de función, teclas alfanuméricas y teclas numéricas.

- Mouse: Es el segundo dispositivo de entrada más utilizado. El mouse o ratón es arrastrado a lo largo de una superficie para maniobrar un apuntador en la pantalla del monitor.

- Lápiz óptico: Este dispositivo es muy parecido a una pluma ordinaria, pero conectada a un cordón eléctrico y requiere de un software especial. Haciendo que la pluma toque el monitor el usuario puede elegir los comandos de las programas.

- Tableta digitalizadora: Es una superficie de dibujo con un medio de señalización que funciona como un lápiz. La tableta convierte los movimientos de este apuntador en datos digitalizados que pueden ser leídos por ciertos paquetes de cómputo. Los tamaños varían desde tamaño carta hasta la cubierta de un escritorio.

- Entrada de voz (reconocimiento de voz): Convierten la emisión vocal de una persona en señales digitales. La mayoría de estos programas tienen que ser "entrenados” para reconocer los comandos que el usuario da verbalmente.

- Pantallas sensibles al tacto (Touch Screen): Permiten dar comandos a la computadora tocando ciertas partes de la pantalla.

- Lectores de código de barras: Son rastreadores que leen las barras verticales que conforman un código.

- Scanner: Convierten texto, fotografías a color ó en Blanco y Negro a una forma que puede leer una computadora. También se puede ingresar información si se cuenta con un Software especial llamado OCR (Reconocimiento óptico de caracteres).

 

2. Procesamiento: El CPU (Central Proccesor Unit) es el responsable de controlar el flujo de datos (Actividades de Entrada y Salida) y de la ejecución de las instrucciones de los programas sobre los datos. Realiza todos los cálculos (suma, resta, multiplicación, división y compara números y caracteres). Es el "cerebro” de la computadora. Se divide en 3 componentes:

 

·        Unidad de control: Es en esencia la que gobierna todas las actividades de la computadora, así como el CPU es el cerebro de la computadora, se puede decir que la UC es el núcleo del CPU. Supervisa la ejecución de los programas Coordina y controla al sistema de cómputo, determina que instrucción se debe ejecutar y pone a disposición los datos pedidos por la instrucción, donde se almacenan los datos y los transfiere desde las posiciones donde están almacenados. Una vez ejecutada la instrucción la Unidad de Control debe determinar donde pondrá el resultado para salida, ó para su uso posterior.

·        Unidad Aritmético/Lógica: Esta unidad realiza cálculos (suma, resta, multiplicación y división) y operaciones lógicas (comparaciones). Transfiere los datos entre las posiciones de almacenamiento. Tiene un registro muy importante conocido como: Acumulador ACC. Al realizar operaciones aritméticas y lógicas, la UAL mueve datos entre ella y el almacenamiento. Los datos usados en el procesamiento se transfieren de su posición en el almacenamiento a la UAL. Los datos se manipulan de acuerdo con las instrucciones del programa y regresan al almacenamiento.

·        Área de almacenamiento Primario: La memoria da al procesador almacenamiento temporal para programas y datos. Todos los programas y datos deben transferirse a la memoria desde un dispositivo de entrada o desde el almacenamiento secundario (disquete), antes de que los programas puedan ejecutarse o procesarse los datos.

Las computadoras usan 2 tipos de memoria primaria:

- ROM (read only memory). Memoria de sólo lectura, en la cual se almacena ciertos programas e información que necesita la computadora las cuales están grabadas permanentemente y no pueden ser modificadas por el programador.

- RAM (Random access memory). Memoria de acceso aleatorio, la utiliza el usuario mediante sus programas, y es volátil. La memoria del equipo permite almacenar datos de entrada, instrucciones de los programas que se están ejecutando en ese momento, los datos resultados del procesamiento y los que se preparan para la salida. Los datos proporcionados a la computadora permanecen en el almacenamiento primario hasta que se utilizan en el procesamiento. La memoria está subdividida en celdas individuales cada una de las cuales tiene una capacidad similar para almacenar datos.

 

3. Almacenamiento Secundario: El almacenamiento secundario es un medio de almacenamiento definitivo (no volátil como el de la memoria RAM). El proceso de transferencia de datos a un equipo de cómputo se le llama procedimiento de lectura. El proceso de transferencia de datos desde la computadora hacia el almacenamiento se denomina procedimiento de escritura. En la actualidad se pueden usar el almacenamiento Magnético y el almacenamiento Óptico.

 

·        Almacenamiento Magnético: Discos Flexibles, Discos Duros y Cintas Magnéticas o Cartuchos.

·        Almacenamiento Óptico: CD ROM (CD Read Only Memory) y WORM (Write Once, Read Many)

·        Medios Magnético-Ópticos: Estos medios combinan las tecnologías de grabación magnética y óptica. Un disco MO tiene la capacidad de un disco óptico, pero puede ser regrabable con la facilidad de un disco magnético.

 

4. Salida: Los dispositivos de salida de una computadora es el hardware, que se encarga de mandar una respuesta hacia el exterior de la computadora, como pueden ser:

 

·        Monitores: El monitor es el dispositivo de salida más común. Pueden ser  que desplieguen sólo 2 colores, monitor a escala de grises y los monitores de color que pueden desplegar de 4 hasta 1 millón de colores diferentes.

·        Impresoras: Dispositivo que convierte la salida de la computadora en imágenes impresas. Se pueden dividir en 2 tipos: las de impacto y las de no impacto.

 

SOFTWARE

El Software es el conjunto de instrucciones que las computadoras emplean para manipular datos. Corresponde al conjunto de programas, documentos, procedimientos, y rutinas asociados con la operación de un sistema de cómputo. El Software asegura que el programa o sistema cumpla por completo con sus objetivos, opera con eficiencia, esta adecuadamente documentado, y suficientemente sencillo de operar. El hardware por si solo no puede hacer nada, pues es necesario que exista el Software, que es el conjunto de instrucciones que hacen funcionar al hardware.

 

Clasificaciones del Software

1. Sistemas Operativos: El sistema operativo (SO) es el gestor y organizador de todas las actividades que realiza la computadora. Marca las pautas según las cuales se intercambia información entre la memoria central y la externa, y determina las operaciones elementales que puede realizar el procesador. El SO despierta a la computadora y hace que reconozca a la CPU, la memoria, el teclado, el sistema de vídeo y las unidades de disco. Además, proporciona la facilidad para que los usuarios se comuniquen con la computadora y sirve de plataforma a partir de la cual se corran programas de aplicación.

El componente más importante del SO es el Kernel, que constituye en su núcleo permitiendo la interacción entre el Hardware y el resto del sistema; el Kernel controla los recursos del hardware, los sistemas perifericos, permite ejecutar programas y proporciona un sistema de archivos.

 

+ Categorías de Sistemas Operativos.

- Multitarea. El término multitarea se refiere a la capacidad del SO para correr mas de un programa al mismo tiempo.

- Multiusuario. Un SO multiusuario permite a mas de un solo usuario acceder una computadora.

- Multiproceso. Las computadoras que tienen más de un CPU son llamadas multiproceso. Un sistema operativo multiproceso coordina las operaciones de las computadoras multiprocesadores. Ya que cada CPU en una computadora de multiproceso puede estar ejecutando una instrucción, el otro procesador queda liberado para procesar otras instrucciones simultáneamente.

 

+ Sistemas Operativos más Comunes.

- MS-DOS. Es el más común y popular de todos los Sistemas Operativos para PC. La razón de su continua popularidad se debe al aplastante volumen de software disponible y a la base instalada de computadoras con procesador Intel.

- OS/2. OS/2 es un sistema operativo de multitarea para un solo usuario que requiere un microprocesador Intel 286 o mejor. Además de la multitarea, la gran ventaja de la plataforma OS/2 es que permite manejar directamente hasta 16 MB de la RAM (en comparación con 1 MB en el caso del MS-DOS).

- UNIX-GNU/LINUX. Unix es un SO multiusuario y multitarea, que corre en diferentes computadoras, desde supercomputadoras, Mainframes, Minicomputadoras, computadoras personales y estaciones de trabajo. Variantes de UNIX llevan en desarrollo o en producción más de tres décadas, haciéndolo uno de los sistemas operativos disponibles hoy más estables, potentes, fiables y constantemente mejorado para servidores de gama alta y supercomputadoras, a la vez que sigue siendo la solución preferida para estaciones de trabajo de alto rendimiento. UNIX fue desarrollado por Thompson y Ritchie en AT&T Laboratories. Debido a que Unix es un Sistema Abierto, cuyo diseño interno es de dominio Público y comercializable, existen varias versiones similares de un mismo Unix tales como Linux, Solaris, AIX, Sinix, SCO OpenServer, SCO Unixware, Sun/OS, HP-UX, DG-UX, A-UX, Ultrix, Xenix, Centix y otros. GNU/Linux inicio con Richard Stallman con la Free Software Foundation (1983) para desarrollar un SO de codigo de acceso libre; a este se unio el Kernel (Linux) desarrollado por Linus Torvalds. Richard Stallman defiende la creación y desarrollo de software libre. Este es un SO muy importante en bioinformática, sobre el cual se han diseñado la mayoría de los programas que se utilizan en esta area.

- SISTEMA OPERATIVO DE MACINTOSH. La Macintosh es una máquina netamente gráfica. De hecho, no existe una interfaz de línea de comando equivalente para ésta. Su estrecha integración de SO, GUI y área de trabajo la hacen la favorita de la gente que no quiere saber nada de interfaces de línea de comando.

- WINDOWS NT DE MICROSOFT. Con Windows NT, Microsoft ha expresado su dedicación a escribir software no sólo para PC de escritorio sino también para poderosas estaciones de trabajo y servidores de red y bases de datos.

Microsoft Windows NT no es necesariamente un sustituto de DOS ni una nueva versión de éste; es, en conjunto, un nuevo SO diseñado desde sus bases para las máquinas más modernas y capaces disponibles.

Windows NT de Microsoft ofrece características ínterconstruidas que ningún otro SO para PC ofrece, con excepción de Unix. Además de las características tradicionales de estricta seguridad de sistema, red ínterconstruida, servicios de comunicación y correo electrónico, herramientas de administración y desarrollo de sistema y una GUI, Windows NT puede correr directamente aplicaciones de Windows de Microsoft y de Unix.

 

2. Lenguajes de Programación: Mediante los programas se indica a la computadora que tarea debe realizar y cómo efectuarla, pero para ello es preciso introducir estas órdenes en un lenguaje que el sistema pueda entender. En principio, el ordenador sólo entiende las instrucciones en código máquina, es decir, el específico de la computadora. Sin embargo, a partir de éstos se elaboran los llamados lenguajes de alto y bajo nivel.

Los lenguajes de programación cierran el abismo entre las computadoras, que sólo trabajan con números binarios, y los humanos, que preferimos utilizar palabras y otros sistemas de numeración.

 

3. Software de Uso General: El software para uso general ofrece la estructura para un gran número de aplicaciones empresariales, científicas y personales. El software de hoja de cálculo, de diseño asistido por computadoras (CAD), de procesamiento de texto, de manejo de Bases de Datos, pertenece a esta categoría.

 

+ Procesadores de Texto

Son utilizados para escribir cartas, memorandos y otros documentos, Ejemplos de procesadores de texto: Word, AmiPro, Wordperfect.

 

- Hojas de Cálculo

Es una herramienta para calcular y evaluar números. También ofrece capacidades para crear informes y presentaciones para comunicar lo que revelan los análisis. Ejemplos de Hojas de Cálculo: Excel, Lotus 123, Quatro.

 

- Bases de Datos

La DBMS (Data Base Management System) es la herramienta que las computadoras utilizan para realizar el procesamiento y almacenamiento ordenado de los datos. Por ejemplo, un a agenda puede ser una base de datos donde se almacenan los nombres, direcciones y números telefónicos de amigos y contactos de negocios. Ejemplos de Bases de Datos: Access, FoxPro, Approach.

 

- Paquetes de Presentación

Software que permite al usuario diseñar presentaciones para desplegarlas a través de la misma computadora o imprimir diapositivas y acetatos. Ejemplos: Presentation, Power Point, Freelance Graphics.

 

4. Software de aplicaciones: El software de aplicación esta diseñado y escrito para realizar tareas específicas personales, empresariales o científicas.

 

REDES DE COMPUTADORA

Una Red es una manera de conectar varias computadoras entre sí, compartiendo sus recursos e información y estando conscientes una de otra.

 

1.       Tipos de redes. Según el lugar y el espacio que ocupen, las redes, se pueden clasificar en dos tipos:

·         Redes LAN (Local Area Network) o Redes de área local. Es un tipo de red que se expande en un área relativamente pequeña.

·         Redes WAN (Wide Area Network) o Redes de área amplia. Es una red comúnmente compuesta por varias LANs interconectadas y se encuentran en una amplia área geográfica. Entre las WAN's mas grandes se encuentran: la ARPANET, que fue creada por la Secretaría de Defensa de los Estados Unidos y se convirtió en lo que es actualmente la WAN mundial: INTERNET, a la cual se conectan actualmente miles de redes universitarias, de gobierno, corporativas y de investigación.

 

TRANSMISIÓN DE DATOS

La transmisión de datos en las redes, puede ser por dos medios:

1. Terrestres: Son limitados y transmiten la señal por un conductor físico.

2. Aéreos: Son "ilimitados" en cierta forma y transmiten y reciben las señales electromagnéticas por microondas o rayo láser.

 

INTERNET

Existen varias teorías relacionadas con el nacimiento de Internet, aunque la mas aceptada es que nace en los años sesenta con el nombre de ARPAnet, como un proyecto militar apoyado por el interés de las universidades que consistía en interconectar computadoras que tuvieran la capacidad de alertar a sus ejércitos en caso de un eventual ataque. En 1972 a las universidades de Standford, UCLA, UCSB y la de Utah se le unieron cuarenta más, dando paso a su masificación ya que se vio beneficiada por las mini-computadoras y el UNIX, en el noventa, ya no dependía del gobierno, lo que permitió que este sistema llegara a los Hogares de la mayoría de la población.

Hoy en día Internet conecta y ofrece servicios, tan esenciales como la propia comunicación, entre los principales encontramos el WWW o telaraña de información mundial, el E-mail, el FTP, el CHAT y hasta el propio comercio electrónico que componen las bases de las tecnologías actuales. Una de las cosas que caracteriza a Internet es la capacidad de autosustentarse, de esta manera y orientados al desarrollo tecnológico de las plataformas que lo componen se crean instancias de descarga de aplicaciones que favorecen por lo general al usuario casero, ya que entregan una alternativa económica a alguna necesidad.

BIOINFORMÁTICA

 

Bioinformática es una disciplina que utiliza las tecnologías de la información para captar, organizar, analizar y distribuir información biológica con el propósito de responder preguntas complejas en biología. La bioinformática se ocupa del tratamiento de los datos en el campo de las biociencias moleculares: biología molecular, bioquímica, medicina y biotecnología.

Según la definición del Centro Nacional para la Información Biotecnológica National Center for Biotechnology Information (NCBI por sus siglas en inglés): “la Bioinformática es un campo de la ciencia en el que confluyen varias disciplinas: la biología, la computación y las tecnologías de la información. Su fin es facilitar el descubrimiento de nuevos conocimientos y el desarrollo de perspectivas globales a partir de las cuales puedan discernirse principios unificadores en el campo de la biología. La bioinformática, por tanto, se ocupa de…la adquisición, almacenamiento, procesamiento, distribución, análisis e interpretación de información biológica, mediante la aplicación de técnicas y herramientas procedentes de las matemáticas, la biología y la informática, con el propósito de comprender el significado biológico de una gran variedad de datos. Al comienzo de la "revolución genómica", el concepto de bioinformática se refería sólo a la creación y mantenimiento de base de datos donde se almacenaba información biológica, como son las secuencias de nucleótidos y aminoácidos. El desarrollo de este tipo de base de datos no sólo significaba su diseño, sino también el desarrollo de interfaces complejas donde los investigadores pudieran acceder los datos existentes y suministrar o revisar datos. Luego toda esa información debía combinarse para formar una idea lógica de las actividades celulares normales, de tal manera que los investigadores pudieran estudiar cómo estas actividades se veían alteradas. De ahí surgió el campo de la bioinformática que se encarga del análisis e interpretación de varios tipos de datos, incluidas las secuencias de nucleótidos y aminoácidos, los dominios de proteínas y su estructura.

 

BIOLOGÍA MOLECULAR

Los organismos presentan una complejidad inherente que los hacen únicos, pero al mismo tiempo comparten la maquinaria básica que les da esas características particulares. Para entender los organismos biológicos es necesario conocer sus constituyentes, las interacciones entre ellos y el medio que los rodea. En las entidades biológicas, los bloques más básicos son las moléculas. La mayoría de estas son moléculas inorgánicas sencillas, como sales o elementos básicos constitutivos. Otro grupo de moléculas son más complejas, como los ácidos grasos o carbohidratos que proporcionan la energía necesaria para cumplir con las funciones vitales. Otras macromoléculas, sin embargo, pueden diversificarse en diversas formas y funciones, desplegando una gran variedad de interacciones y determinan las características de un organismo.

La Biología molecular es la ciencia que busca entender la forma en que los organismos trabajan y están constituidos, desde el nivel más básico: el nivel atómico-molecular. La idea subyacente es que, para entender un organismo, se necesita examinar sus propiedades desde el nivel más básico posible. Esta ciencia inicia con la publicación del modelo estructural del ácido desoxirribonucleico (DNA) por Francis Crick y James Watson en 1953. Este hecho permitió conocer el proceso en el que la información genética se transmite.

            El genoma es el conjunto completo de secuencias en el material genético de un organismo. Las moléculas sobre las cuales se centra la Biología molecular son los ácidos nucleicos, que codifican la información genética, y las proteínas, que son las moléculas que ejecutan dicha información.

            Un ácido nucleico consiste de una larga cadena de nucleótidos. La estructura básica de los ácidos nucleicos es el nucleótido. Este tiene 3 componentes: una base nitrogenada, un azúcar y un grupo fosfato. La base nitrogenada es una purina o una pirimidina. Estas bases se unen a la posición 1, en un azúcar pentosa, por un enlace glicosídico. Los ácidos nucleicos se denominan de acuerdo al tipo de azúcar, el DNA tiene 2-desoxirribosa, en tanto que el ácido ribonucleico (RNA) contiene ribosa. El ácido nucleico se construye por la unión de la posición 5´ de un anillo de pentosa, a la posición 3´ del próximo anillo de pentosa por un grupo fosfato. Cada ácido nucleico contiene 4 tipos de bases: las purinas, adenina y guanina, están presentes en el DNA y el RNA; las 2 pirimidinas en el DNA son citosina y timina. En el RNA se encuentra uracilo en lugar de timina. Las bases se representan por sus iniciales. DNA contiene adenina (A), citosina (C), guanina (G), timina (T), mientras el RNA posee A, G, C, uracilo (U). Las interacciones consisten en el establecimiento de puentes de hidrógeno, los cuales solo se pueden establecer entre T (o U) con A (2 puentes de hidrógeno), y C con G (3 puentes de hidrógeno).

            Las proteínas son cadenas de aminoácidos (compuestos orgánicos que, en los entes biológicos, contienen un grupo amino y un grupo carboxilo) (Tabla 1) que llevan a cabo las funciones vitales de todo organismo. Estas presentan varios tipos de estructura, la más básica es la estructura primaria, o cadena lineal de aminoácidos, determinada por la secuencia de DNA y RNA. De acuerdo a la secuencia aminoácidica será la estructura secundaria, terciaria y cuaternaria de la proteína. Fuerzas como puentes de hidrógeno y disulfuro, la atracción entre cargas positivas y negativas, enlaces hidrófobicos e hidrófilicos, determinan el plegamiento que dará a lugar a hélices alfa o láminas beta, en la estructura secundaria, o intrincados modelos en la estructura terciaria y la formación de complejos proteicos en la estructura cuaternaria.

 

            Tabla 1. Aminoácidos y su símbolo. Están clasificados de acuerdo a su principal característica química.

 

Neutral-No polar

Letra
Glicina

G

L-Alanina

A

L-Valina

V

L-Isoleucina

I

L-Leucina

L

L-Fenilalanina

F

L-Prolina

P

L-Metionina

M

Neutral-Polar

 

L-Serina

S

L-Treonina

T

L-Tirosina

Y

L-Triptofano

W

L-Asparagina

N

L-Glutamina

Q

L-Cisteina

C

Ácidos

 

L-Aspartico

D

L-Glutámico

E

Básicos

 

L-Lisina

K

L-Arginina

R

L-Histidina

H

 

La información genética fluye por 3 procesos básicos: replicación, o copia de la información genética contenida en el DNA; trascripción, que consiste en el traspaso de la información, desde el DNA al RNA, para que esta pueda ser finalmente llevada a proteínas, este ultimo paso denominado traducción.

El DNA es una doble hélice, compuesta por dos cadenas complementarias unidas entre sí por puentes de hidrogeno entre las bases nitrogenadas. La A de una hebra se aparea siempre con la T de la hebra complementaria, y del mismo modo, la G con la C. Durante la replicación, las dos hebras se separan y cada una de ellas forma una nueva hebra complementaria, incorporando bases, la A se unirá a la T de la hebra molde, la G lo hará con la C, obteniéndose otra molécula de DNA idéntica a la original con igual información genética.

La trascripción es llevada a cabo por una enzima, la RNA polimerasa, que reconoce secuencias promotoras (guías moleculares) en el DNA y a partir de ellas copia una cadena de RNA (RNA mensajero o mRNA), la cual corresponde a la región codificante (gen) para una proteína. Este proceso se denomina trascripción.

Una vez que la información genética se encuentra como RNA es necesario llevarla a la formación de proteínas, proceso denominado traducción. Este implica el reconocimiento del mRNA por el ribosoma, y la formación de la secuencia de aminoácidos por RNA transportadores (tRNA) a partir de la secuencia contenida en el mRNA de acuerdo a los tripletes correspondientes en el código genético (Tabla 2).

 

Tabla 2. Código genético.

 

 

UUU

F

UCU

S

UAU

Y

UGU

C

UUC

F

UCC

S

UAC

Y

UGC

C

UUA

L

UCA

S

UAA

Parada

UGA

Parada

UUG

L

UCG

S

UAG

Parada

UGG

W

CUU

L

CCU

P

CAU

H

CGU

R

CUC

L

CCC

P

CAC

H

CGC

R

CUA

L

CCA

P

CAA

Q

CGA

R

CUG

L

CCG

P

CAG

Q

CGG

R

AUU

I

ACU

T

AAU

N

AGU

S

AUC

I

ACC

T

AAC

N

AGC

S

AUA

I

ACA

T

AAA

K

AGA

R

AUG

M

ACG

T

AAG

K

AGG

R

GUU

V

GCU

A

GAU

D

GGU

G

GUC

V

GCC

A

GAC

D

GGC

G

GUA

V

GCA

A

GAA

E

GGA

G

GUG

V*

GCG

A

GAG

E

GGG

G

 

* GUG también puede codificar para M. Este triplete es "ambiguo".

 

La Biología molecular aplica una gran variedad de técnicas moleculares, como la secuenciación de ácidos nucleicos y proteínas, la difracción de rayos X, Reacción en cadena de la polimerasa (PCR) y clonación entre otras, lo que ha llevado a la identificación y caracterízación de los componentes de la información genética tales como regiones promotoras, genes, operones, intrones, reguladores o dominios de proteínas. Por ello, al estudiar todos los procesos que implican los procesos biológicos, se ha generado una gran cantidad de información biológica que es necesario interpretar, correlacionar y difundir.

 

TECNOLOGÍAS DE LA INFORMACIÓN

Las moléculas de la vida están conformadas por una serie de componentes esenciales que, cuando se juntan, generan las propiedades específicas de las más complejas estructuras biológicas. Estos componentes esenciales (nucleótidos o aminoácidos), son letras de un alfabeto muy especial. Estas letras (residuos) producen patrones los cuales reflejan las propiedades de las moléculas que ellos componen, como los tripletes que codifican para un aminoácido por ejemplo.

            Resulta evidente la funcionalidad de un computador para el análisis de datos. Es así como se deduce que las tecnologías de la información se pueden aplicar al análisis de las secuencias biológicas, como están codificadas y como se transmite entre entidades. Las tecnologías de la información aplicadas a la biología molecular ayudan a entender como los organismos manejan la información biológica. Esto se puede lograr determinando los patrones existentes para determinados perfiles biológicos, y la identificación de sus similares en las diversas especies. Este proceso implica una gran atención, detalle y eficiencia. Así, automatizando este proceso se puede generar un gran caudal de conocimiento, y determinar la información más relevante.

            El amplio crecimiento de la biología molecular ha dado como resultado un auge de conocimiento, que sobrepasa la capacidad de cualquier ser humano. Pero, si se unen los métodos computarizados al raciocinio humano, se logrará conseguir una manera eficiente y rápida de analizar los datos existentes para extraer los detalles más significativos. Por ello, las tecnologías de la información, unidas a la biología molecular, se convierten hoy por hoy en una de las principales herramientas para el trabajo del científico. Este el corazón de la bioinformática.

 

* GUG también puede codificar para M. Este triplete es "ambiguo".

 

La Biología molecular aplica una gran variedad de técnicas moleculares, como la secuenciación de ácidos nucleicos y proteínas, la difracción de rayos X, Reacción en cadena de la polimerasa (PCR) y clonación entre otras, lo que ha llevado a la identificación y caracterízación de los componentes de la información genética tales como regiones promotoras, genes, operones, intrones, reguladores o dominios de proteínas. Por ello, al estudiar todos los procesos que implican los procesos biológicos, se ha generado una gran cantidad de información biológica que es necesario interpretar, correlacionar y difundir.

 

TECNOLOGÍAS DE LA INFORMACIÓN

Las moléculas de la vida están conformadas por una serie de componentes esenciales que, cuando se juntan, generan las propiedades específicas de las más complejas estructuras biológicas. Estos componentes esenciales (nucleótidos o aminoácidos), son letras de un alfabeto muy especial. Estas letras (residuos) producen patrones los cuales reflejan las propiedades de las moléculas que ellos componen, como los tripletes que codifican para un aminoácido por ejemplo.

            Resulta evidente la funcionalidad de un computador para el análisis de datos. Es así como se deduce que las tecnologías de la información se pueden aplicar al análisis de las secuencias biológicas, como están codificadas y como se transmite entre entidades. Las tecnologías de la información aplicadas a la biología molecular ayudan a entender como los organismos manejan la información biológica. Esto se puede lograr determinando los patrones existentes para determinados perfiles biológicos, y la identificación de sus similares en las diversas especies. Este proceso implica una gran atención, detalle y eficiencia. Así, automatizando este proceso se puede generar un gran caudal de conocimiento, y determinar la información más relevante.

            El amplio crecimiento de la biología molecular ha dado como resultado un auge de conocimiento, que sobrepasa la capacidad de cualquier ser humano. Pero, si se unen los métodos computarizados al raciocinio humano, se logrará conseguir una manera eficiente y rápida de analizar los datos existentes para extraer los detalles más significativos. Por ello, las tecnologías de la información, unidas a la biología molecular, se convierten hoy por hoy en una de las principales herramientas para el trabajo del científico. Este el corazón de la bioinformática.

RECURSOS DE INFORMACIÓN

 

BANCOS DE PUBLICACIONES.

Los grandes avances en el campo de la genómica, la proteómica y la biotecnología han catapultado a la bioinformática como una herramienta de análisis de los grandes proyectos de secuencias, y de la innumerable cantidad de datos biológicos que se están generando. Por ello es necesario documentarse acerca de las diferentes investigaciones y avances por medio de las publicaciones científicas que se encuentran en Internet.

Las diferentes revistas científicas se han agrupado en varios bancos que facilitan encontrar la información que cada investigador necesite, y en ellos se encuentran clasificadas por temática, tipo de revista, o autor entre otros, lo que unido a poderosos buscadores facilita enormemente su manejo. Algunos permiten acceder a sus publicaciones después de 6 meses sin restricción, pero otros solicitan un pago por artículo (en promedio 30 dólares), generalmente con cargo a tarjeta de crédito. También hay la opción de la afiliación por un periodo de tiempo determinado en el cuál se pueden acceder a todos las revistas del banco en particular. Asimismo, existen en Internet editoriales, por medio de las cuales se pueden adquirir textos específicos del tema de nuestro interés como Amazon.

 

1. PUBMED (www.pubmed.org): Este es el banco de publicaciones del NCBI. La página tiene, en la parte superior, una barra de búsqueda marcada por la palabra SEARCH, donde se coloca el tema a investigar, luego de lo cual se da clic en GO, con lo que se cargara una pagina presentando los artículos que poseen la información que se busca (Figura 1). Los artículos marcados con un logo, que consiste en varias paginas de colores, son de acceso libre; los que tienen un logo de una sola pagina con líneas indica que solo el resumen esta disponible (si se desea el articulo completo se debe ingresar a la pagina de la revista y hacer el pago correspondiente); los artículos marcados con el logo de una pagina en blanco no están disponibles (ni siquiera el resumen) (Figura 1).

imagen1.jpg

Figura 1. Pagina de resultados de publicaciones obtenidos en Pubmed. El logo de paginas de colores es para artículos completos de acceso libre, el logo de la pagina con líneas indica libre acceso al resumen, el logo de una pagina en blanco representa artículos no disponibles.

Cuando una publicación es de acceso libre se accede dando clic en el nombre de los autores, o en el logo (paginas de colores), luego de lo cuál se cargará una pagina con el resumen y un link para acceder a la revista, o a la base de datos de Pubmed (Figura 2). Al hacer clic en cualquiera de las 2 opciones saldrá una ventana emergente, donde se encuentra el artículo en formato html (Figura 3), y un link con la opción para acceder al artículo en formato pdf que se carga automáticamente.

imagen2.jpg

Figura 2. Pagina de Pubmed para un artículo de acceso libre. El icono verde con la leyenda “FREE full text…” en la izquierda indica que la publicación se encuentra disponible al publico libre de pago.

imagen3.jpg

Figura 3. Pagina HTML de artículo completo. El link “full text (PDF)” se utiliza para acceder al mismo articulo en formato pdf (el segundo link en el menú de la derecha, de color violeta).

2. ELSEVIER (www.elsevier.com): es un banco de publicaciones científicas muy amplio, que abarca recursos de gran variedad de temas (Figura 4). Contiene links a ítems como catálogos, libros, revistas, bibliografía especializada y noticias científicas destacadas, entre otros. Un link importante se encuentra en la parte derecha, el cual enlaza al sitio Science Direct, que se puede acceder directamente en la dirección www.sciencedirect.com (Figura 4).

imagen4.jpg

Figura 4. Pagina principal de Elsevier. Contiene links a varios recursos informativos. A la derecha se encuentra el icono de acceso a Science Direct.

 

Por medio del sitio de Science Direct se accede a revistas y artículos científicos (Figura 5). La página tiene una barra  para la búsqueda, por tema, revista o autor. Además, presenta todas las revistas clasificadas alfabéticamente. Es necesario pagar por los artículos o por la suscripción, aunque hay algunas pocas revistas de acceso libre (marcados con un cuadro verde o amarillo).

imagen5.jpg

               Figura 5. Pagina de Science Direct. Contiene una barra de búsqueda (Quick Search), y variados links que dirige a las revistas (journals), libros (books), resúmenes (abstracts), perfil personal (My profile) y alertas (alerts).

 

3. Sociedad Americana de Microbiología (ASM) (www.asm.org): Este sitio Web presenta recursos como el calendario de eventos en microbiología, noticias y acceso a revistas científicas (Figura 6).

imagen6.jpg

                    Figura 6. Pagina principal de la Sociedad Americana de Microbiología. El sitio contiene enlaces a variados recursos. El motor de busqueda se inicia con el link Search en la parte superior a la derecha.

 

En link SEARCH (arriba a la derecha) abre una página con varios enlaces a revistas, junto con un formulario de búsqueda (con opciones como autor o palabras clave) (Figura 7). La opción ASM JOURNALS busca el tema en todas las revistas del formulario. Para iniciar el motor de busqueda se hace clic en el cuadro SEARCH.

imagen7.jpg

              Figura 7. Formulario de busqueda de ASM. Contiene enlaces para revistas científicas.

 
Si se desea acceder a mas opciones de revistas, se da clic en SEARCH MORE JOURNALS y en la ventana que se abre se escoge la revista de interés (Figura 8).

imagen8.jpg

Figura 8. Formulario de busqueda de ASM. Abajo en azul esta el icono “Search more journals…” para acceder a mas opciones de revistas.

 

Para guardar los textos en el computador es aconsejable hacerlo en formato pdf (Figura 9), que permite la visualización de la publicación igual a como aparece en la revista impresa, para lo cuál es necesario bajar el programa Adobe www.adobe.com).

imagen9.jpg

               Figura 9. Articulo científico en formato pdf. La publicación se visualiza igual al impreso.

 

BASES DE DATOS

El gran avance de las ciencias biologicas han generado una gran cantidad de datos, los cuales se necesita que estén disponibles para todos los investigadores, afín de que se pueda lograr enriquecer el conocimiento, analizar la nueva información y poder establecer correlaciones fidedignas. Por ello, desde la década de los 80 se inició la construcción de modernas bases de datos, donde los investigadores podían enviar sus descubrimientos y además tener acceso a los logrados por otros. Inicialmente, estas solo se ocupaban del almacenamiento de la información, pero con el tiempo se han convertido en sitios que, aparte de lograr una eficiente organización de los datos biológicos, tienen una gran cantidad de recursos que ayudan al estudio de la información obtenida experimentalmente. Las bases de datos son sitios de almacenamiento de información biológica de acceso libre. Las bases de datos se han constituido en la base de las herramientas bioinformáticas. Las bases de datos son estructuradas e indexadas lo que permite la fácil búsqueda en ellas; se actualizan periodicamente; poseen referencias cruzadas (hipervinculos) con otras bases de datos; el almacenamiento de los datos se hace por texto plano o tablas vinculadas (flat file and relational data base). Las bases de datos pueden ser primarias si contienen netamente datos experimentales, o secundarias si poseen datos obtenidos a partir de la base de datos primaria.

 

            1. Centro Nacional para la Información Biotecnológica-NCBI (http://www.ncbi.nlm.nih.gov/): Establecido en 1988 como un recurso para la información en biología molecular, el sitio NCBI ha creado bases de datos públicas, dirige investigación en biología computacional, desarrolla software para análisis de datos de genomas, y disemina información biomédica. Todo esto para el  mejor entendimiento de los procesos moleculares que afectan la salud humana y la enfermedad. La ventana principal posee un listado de links (izquierda) que dan acceso a sus diferentes subsecciones, las cuales poseen sus propias características, con la ventaja de una interrelación entre ellas (Figura 10).

imagen10.jpg

              Figura 10. Pagina principal de NCBI. En la parte izquierda se ubica un menú hacia sus principales sitios (azul), el menú que esta desplegado da acceso a diferentes recursos del sitio, el menú de la derecha dirige hacia herramientas recomendadas.

 

Entre otros recursos, NCBI tiene varias bases de datos como GenBank, OMIM (herencia mendeliana del hombre), MMDB (modelos por homología de estructuras tridimensionales de proteínas), UniGene (Colección de secuencias de genes humanos), el mapa del genoma humano, el navegador de taxonomía, y el CGAP (proyecto del genoma del cáncer).

Este sitio Web posee otros recursos entre los que se cuenta el sistema de acceso integrado a secuencias, mapas, taxonomía y datos estructurales, denominado Entrez. La literatura esta disponible a través de Pubmed. Posee el programa BLAST, el cual busca similaridades entre secuencias y es capaz de identificar genes y sus características. También están disponibles software para la identificación de marcos abiertos de lectura (ORF), PCR electrónica y envío de secuencias (Sequin y BankIt). Aquí se describe algunos recursos de NCBI.

NCBI tiene el banco de secuencias biológicas más grande del mundo denominado GenBank (Figura 11), al cual se accede haciendo clic en el icono GENBANK en el menú izquierdo (azul) de la pagina principal. Este banco esta en colaboración con el Proyecto Internacional de Colaboración de Base de Datos de Secuencias de Nucleótidos que se lleva a cabo en el Laboratorio Europeo de Biología Molecular (EMBL), y con el Banco de Datos de DNA del Japón (DDBJ). Con el EMBL y el DDBJ intercambia información diariamente para conseguir que las 3 bases de datos tengan la misma información. El sitio tiene una barra de búsqueda en la parte superior, con un primer menú ubicado al lado de SEARCH, donde escogemos el sitio de NCBI donde se desea que se realice el procedimiento, el cual nos da la opción de ubicar secuencias de proteínas, nucleótidos, estructuras o en Entrez (busqueda combinada), entre otros; luego se procede a colocar el criterio de busqueda (por medio de palabras clave, o con numero de accesión si se conoce). Por medio de GenBank se puede enviar secuencias a la base de datos de NCBI a traves de Bankit (para presentar datos de secuencias de manera rápida) y Sequin (útil para presentaciones complejas y extensas).

imagen11.jpg

                    Figura 11. Pagina de GenBank. En el listado de la izquierda (azul) se encuentran enlaces que dan acceso sitios especializados para el envío de secuencias. 

- NCBI tiene la base de datos OMIM (herencia genética mendeliana del hombre) que es un catalogo de genes y desordenes genéticos (Figura 12). Este recurso es editado frecuentemente por el Dr. Víctor A. McKusick y sus colaboradores en Johns Hopkins y otros. Esta base de datos contiene textos informativos sobre variados temas tales como genes relacionados con diversas enfermedades (hipertensión, cáncer, fibrosis quística, etc.), sus localizaciones o relaciones con otros genes, entre otros. Posee enlaces para referencias bibliograficas, mapas, secuencias y bases de datos relacionadas. Este sitio esta basado en el libro “Mendelian Inheritance in Man”. El link HELP y FAQ (en el listado de la izquierda) envía a sitios que tienen información adicional.

imagen12.jpg

            Figura 12. Pagina de la base de datos OMIM. Los links “Help” y “FAQ” (listado de la izquierda) proveen información detallada acerca de la manera de usar este recurso.

- NCBI tiene la base de datos MMDB (base de datos de modelamiento molecular), que incluye biomoléculas a las cuales se les ha determinado su modelo tridimensional por medio de cristalografía de rayos X, o por espectroscopia de resonancia magnética nuclear (NMR) (Figura 13). Este tipo de modelos genera una gran cantidad de información acerca de la función biológica de la molécula, mecanismos a través de los cuales lleva a cabo su función, su historia evolutiva y la interrelación con otras moléculas. Estas estructuras provienen del Banco de Estructuras de Proteínas (PDB). Se accede a esta base de datos por medio del link STRUCTURE, ubicado en el listado superior horizontal en el extremo derecho, con lo cual se abre una nueva pagina que contiene un menú a la izquierda, cuyo primer link es MMDB, que da acceso a esta base de datos. En MMDB se excluyen modelos teóricos. Esta página tiene el icono Cn3D, en el listado de la izquierda, que conduce al visor de estructuras de proteínas Cn3D (Figura 14), un programa que permite visualizar estructuras de proteínas.

imagen13.jpg

              Figura 13. Pagina de MMDB. En el menú de la izquierda existen varios recursos relacionados entre los que se destaca el programa Cn3D (abajo) para visualización de estructuras.

imagen14.jpg

            Figura 14. Pagina del programa Cn3D. Aquí se encuentran descritas las bondades del software y los links para su descarga e instalación.

- Otro recurso interesante es UniGene (Colección de secuencias de genes humanos), que consiste en un sistema que busca la identificación de clusters tipo gen, en las secuencias de GenBank (Figura 15). Cada cluster contiene secuencias que representan un único gen, y además presenta información relacionada tal como tipo de tejido donde el gen se ha expresado, y mapas de localización. Aquí se encuentran genes bien caracterizados, y muchas secuencias que han sido expresadas recientemente. Se puede ingresar a la pagina por medio del link ALL DATABASES ubicado en la parte izquierda del menú horizontal superior, después de lo cual se abre la pagina de Entrez, donde se escoge el enlace UniGene (esta de cuarto en el listado derecho).

imagen15.jpg

                      Figura 15. Pagina de UniGene.

- Existe la sección de Recursos del Genoma Humano (Human Genome Resources), donde se entrelazan todas las secciones que contienen información relacionada con el proyecto de secuenciación del genoma humano. Aquí hay vínculos a otras bases de datos como OMIM, UniGene o dbSNP (base de datos de polimorfismos de un solo nucleótido). También existen links hacia mapas, citogenética y genómica comparativa. Se accede a través del enlace HUMAN GENOME RESOURCES del listado de la derecha de la página principal de NCBI. En esta sección se encuentra el manual de NCBI, una guía para el uso de sus recursos (menú de la izquierda) (Figura 16).

imagen16.jpg

               Figura 16. Pagina principal de Recursos del Genoma Humano.

- El sitio Map Viewer comprende un conjunto de mapas, físicos y genómicos, interactivos de todos los organismos cuyo genoma se encuentra secuenciado en su totalidad (Figura 17). Map viewer despliega mapas cromosómicos, y tiene la capacidad de enfocarse en varios niveles con gran detalle, lo que permite acceder a los datos de una secuencia en particular para una región y cromosoma de interés. Para iniciar se ubica el link MAP VIEWER en el listado derecho de la pagina y se da clic allí, con esto se abrirá otra pagina donde se encuentra el listado de los genomas de todos los grupos de organismos que ya están terminados. Acto seguido, se escoge uno de los genomas (según el interés particular), después de lo cual se abrirá una página que contiene un mapa cromosómico. Al escoger uno de los cromosomas se da paso a otra ventana que contiene un mapa detallado de este, y los links para los genes identificados en él, que al seleccionarse permiten ver la información relacionada con dichos genes (Figura 18).

imagen17.jpg

                   Figura 17. Sitio de Map viewer. Aparecen los enlaces hacia los genomas clasificados de acuerdo al grupo de organismo al que pertenecen.

imagen18.jpg

                     Figura 18. Cromosoma de Map viewer. Contiene enlaces hacia páginas con información de los genes contenidos en él. 

- NCBI contiene una sección sobre taxonomía, donde se encuentran los datos que proveen información acerca de las relaciones entre organismos (Figura 19). Este sitio se renueva constantemente según aparezcan nuevos descubrimientos que cambien los esquemas en sistemática. Contiene los nombres de los organismos reportados en las bases de datos con al menos una secuencia (nucleótidos o proteínas). Se puede ingresar al sitio seleccionando el enlace MOLECULAR DATABASES, y allí eligiendo el link TAXONOMY que pertenece a Taxonomy Databases en la lista que se despliega en la página.

imagen19.jpg

                    Figura 19. Ventana del sitio Taxonomy de NCBI. Aparecen los nombres de los organismos de la base de datos, que al seleccionarlos y elegir “Display Common Tree”, se generará un árbol que representa sus relaciones.

- El proyecto CGAP (Proyecto de la Anatomía del Genoma del Cáncer) implica la generación de información y herramientas que permitan entender la anatomía molecular de la célula cancerigena. Este es un proyecto cooperativo entre el Instituto Nacional de Cáncer de los Estados Unidos (NCI) y NCBI (Figura 20).

imagen20.jpg

                   Figura 20. Pagina del Proyecto de la Anatomía del Genoma del Cáncer.

- NCBI tiene un sistema de acceso integrado a secuencias, mapas, taxonomía y datos estructurales, denominado Entrez. Cuando se hace una búsqueda a través de Entrez, este integra la literatura científica, bases de datos de secuencias de DNA y proteínas, estructura 3D de proteínas y datos de sus  dominios, datos de estudios poblacionales, datos de expresión, montaje de genomas completos e información taxonómica. Todo en un sistema, donde uno y otro ítem se ligan meticulosamente. Se ingresa por medio del enlace ENTREZ HOME ubicado en el listado derecho de la página principal de NCBI (Figura 21).

imagen21.jpg

               Figura 21. Sitio de Entrez. Se observa un listado que da acceso a los recursos de la base de datos de NCBI.

- Entrez es muy sencillo de manipular, básicamente es un tutor de busqueda. Por ejemplo si escogemos el link NUCLEOTIDE tendremos acceso a una pagina donde, si se conoce el número de accesión de una secuencia en particular (ejemplo: DQ092482) y hacemos clic en GO, se abrirá una ventana que presentará la información acerca de dicha secuencia y links relacionados (números de acceso, autores, revistas donde se encuentra publicado el hallazgo, titulo del articulo, institución responsable y la secuencia) (Figura 22).

imagen22.jpg

                 Figura 22. Resultado emitido por Entrez. Se presenta los detalles de una secuencia.

- NCBI tiene una versión muy completa del programa BLAST (herramienta para búsqueda de alineamiento local básico), el cual busca regiones de similaridad entre secuencias, ya sea de nucleótidos o proteínas. El programa es capaz de identificar genes y sus características gracias a su capacidad de identificar grupos relacionados. El proceso consiste en escoger el programa según la secuencia problema (blastn para nucleótidos, blastp para proteínas), y este comparara dicha secuencia con todas las que se encuentren en la base de datos, indicando cuales son las más similares. El programa ayuda a identificar estructura, función, historia evolutiva y homología de la secuencia en relación a otras, basado en estimativos estadísticamente significativos.

Se accede a través de la página principal de NCBI, haciendo clic en BLAST (en la parte superior), luego de lo cual se abre una ventana, donde se elige el ítem de acuerdo al objetivo que se persiga (búsqueda de similaridades, alineamiento, traducción, genomas, recuperación de datos o expresión génica) y al tipo de secuencia que se desee analizar (Figura 23).

imagen23.jpg

                  Figura 23. Ventana principal del programa BLAST. Existen varias opciones que van desde el tipo de secuencia hasta el tipo de análisis que se desee.

La principal función del programa es la búsqueda de similaridades, con blastn o blastp. Al hacer clic en ellos se abre una ventana con un formulario donde se ingresa la secuencia problema en la casilla SEARCH y se hace clic en BLAST (Figura 24).

imagen24.jpg

               Figura 24. Formulario de ingreso de una secuencia al programa BLAST. Obsérvese que en la casilla junto a “Search” se encuentra una secuencia de aminoácidos.

La pagina que se despliega a continuación indica que la secuencia fue recibida en el servidor exitosamente, el número de caracteres de dicha secuencia y, en el caso de una secuencia de proteína, indicará los dominios que se hayan detectado. Después de esto se hace clic en el link azul FORMAT (Figura 25).

imagen25.jpg

                  Figura 25. Pagina de resultado parcial de BLAST. Aquí se indica que la secuencia enviada fue recibida exitosamente en el servidor, y que se detectaron 3 dominios funcionales.

Luego del paso anterior, se abre una pagina de resultados donde se aprecia un gráfico que representa todas las secuencias de la base de datos que coinciden con la que se envió, con el puntaje obtenido, representado en colores (negro, azul, verde, púrpura y rojo de menor a mayor similitud) (Figura 26).

imagen26.jpg

                Figura 26. Representación gráfica de los resultados arrojados por BLAST. El nivel de identidad se representa con colores. 

Debajo del gráfico se presenta un listado de las secuencias que coinciden, de mayor a menor porcentaje de similaridad, seguido de un resumen de la denominación, número de accesión, y estimados de significancía estadística (Figura 27).

imagen27.jpg

               Figura 27. Listado de las secuencias con algún nivel de homología según los resultados de BLAST. Las secuencias contienen un link de acceso, una breve denominación y los estimativos estadísticos.

Por ultimo, en la pagina se encuentran todas las secuencias que coinciden, con detalles que incluyen su nombre y una corta definición del organismo al cual pertenece una determinada secuencia, numero de acceso en NCBI, porcentaje de identidad, puntajes, estimados estadísticos, gaps (presentados con el símbolo “-“), y alineamiento entre la secuencia problema con las demás (las coincidencias se indican con el símbolo “|”) (Figura 28). BLAST ayuda, por medio de esta información, a identificar una determinada secuencia, clasificarla dentro de una  familia, e inferir sus posibles relaciones evolutivas, entre otros ítem.

imagen28.jpg

                   Figura 28. Detalles y alineamientos entre la secuencia problema y las reportadas en NCBI según el programa BLAST.  Se observa la denominación de la secuencia, el porcentaje de identidad, los gaps que se encontraron, el puntaje obtenido y el alineamiento.

- El software para PCR electrónica es usado para identificar STS (Sequence Tagged Site: Sitio de Secuencia Etiquetada) dentro de secuencias de DNA, mediante la búsqueda de subsecuencias con las cuales primers para PCR se alineen correctamente (Figura 29).

imagen29.jpg

Figura 29. Pagina del software PCR Electrónica.

- En el sitio de NCBI, existe un software para la identificación de marcos abiertos de lectura (ORF) de un tamaño mínimo en una secuencia del usuario, o de la base de datos por medio del uso de un código genético estándar o alternativo. La secuencia de aminoácidos se puede guardar y compararse mediante BLAST (Figura 30).

imagen30.jpg

Figura 30. Pagina del software para la identificación de ORF. 

 

- NCBI tiene otros sitios de mucho interés como son: Genética de la Malaria, Recursos del Genoma del Ratón, o Recursos de Retrovirus. 

En resumen, NCBI es un sitio de referencia para todo investigador. Posee múltiples sitios, con información detallada de los más importantes temas de las biociencias. Cuenta con herramientas de primer orden, que generan una gran cantidad de información, y son fundamentales cuando de sacar conclusiones se habla. Todo esto, unido a la interrelación entre los diferentes vínculos y bases de datos, hace de NCBI el principal recurso Web para investigación.

 

 

2. Laboratorio Europeo de Biología Molecular-EMBL (http://www.embl.org/): El Laboratorio Europeo de Biología Molecular (EMBL) fue establecido en 1974 y es financiado por 8 estados miembros, incluyendo casi toda Europa Oriental e Israel. Sus objetivos son dirigir investigación básica en biología molecular, proveer servicios esenciales a científicos en sus estados miembros, dar entrenamiento de alto nivel a su grupo investigativo, estudiantes y visitantes, además del desarrollo de nuevas herramientas para la investigación (Figura 31).

Al acceder a la subsección de biología computacional, en la sección de servicios, se abre una ventana con enlaces de recursos en Bioinformática que el sitio posee. A través del Instituto Europeo de Bioinformática (EBI), EMBL abastece de servicios de datos biológicos para la academia y la industria. Las bases de datos de EBI son:

·         Banco EMBL. Fuente primaria de información de secuencias de DNA y RNA.

·         UniProt. Base de datos de secuencias de proteínas.

·         Emsembl. Contiene genomas de vertebrados.

·         EMSD. Base de datos de estructuras macromoleculares.

·    ArrayExpress. Datos de expresión genética basados en microarreglos.

      Si se hace click en el link EMBL-EBI Services en el menu a la izquierda de esta pantalla se accede a una ventana con links a todos los recursos del sitio (Figura 32).

imagen31.jpg

                   Figura 31. Pagina principal de EMBL. Aquí se presentan links que dirigen a todos los recursos del sitio.

imagen32.jpg

                      Figura 32. Recursos bioinformáticos de EMBL.

 

 

3. Banco de Datos de DNA del Japón-DDBJ (http://www.ddbj.nig.ac.jp): El Banco de Datos de DNA del Japón comenzó sus actividades desde 1986, en el Instituto Nacional de Genética (NIG). DDBJ es una de las bases de datos de secuencias biológicas internacionales. Aquí se recolecta datos especialmente del Japón, aunque se aceptan los datos de investigadores de otras orbes, y se intercambia esta información con EMBL y NCBI. También se procura el abastecimiento de herramientas para recuperación y análisis de datos (Figura 33).

imagen33.jpg

                     Figura 33. Ventana principal de DDBJ.

 

Entre las principales herramientas del sitio están:

·         SRS (Sistema de Recuperación de Secuencias). software para búsqueda integrada de secuencias.

·         TXSearch. Es un sistema para la recuperación de datos taxonómicos.

·         GTOP. Contiene datos de análisis de proteínas identificadas por varios proyectos de genomas.

·         BLAST. Este sitio posee una versión del programa BLAST similar al que provee NCBI.

·         ClustalW. Esta es una herramienta de bioinformática para la búsqueda de homología entre un grupo dado de secuencias.

·         LIBRA. Es una aplicación para el análisis de secuencias y estructuras de proteínas.

 

 

4. Banco de Datos de Proteínas-PDB (http://www.rcsb.org/pdb/): Este sitio se encarga del mantenimiento de una base de datos de estructuras tridimensionales de proteínas, determinadas experimentalmente por espectroscopia NMR o cristalografía de rayos x. Tiene un formulario para el envio de estructuras por parte de los investigadores, un tutorial para aprender el manejo del sitio y acceso a los modelos por medio de códigos, palabras clave o autor. Las estructuras contienen información completa que incluye autores, fuente, modelo de la estructura (en varios formatos), publicación, descripción de la estructura, método experimental.

5. Recurso Universal de Proteínas (UniProt)(http://www.pir.uniprot.org/): es un catalogo de información de proteínas. Comprende información de secuencias de proteínas y sus funciones, lo cual realiza uniendo la información contenida en Swiss-Prot, TrEMBL, y PIR. UniProt esta compuesta de 3 componentes, cada uno optimizado para diferentes usos: 
- UniProt Knowledgebase (UniProtKB) tiene extensa información curada de proteínas que incluye función, clasificación, y referencias cruzadas.
- UniProt Reference Clusters (UniRef) database combina secuencias cercanamente relacionadas en un record único para busquedas rápidas.
- UniProt Archive (UniParc) es un deposito que refleja la historia de todas las secuencias de proteínas.
 

6. Sistema de Recuperación de Secuencias (Sequence Retrieval System) (http://srs.ebi.ac.uk/): Este es el sitio que contiene enlaces a todas las bases de datos. Es una base de datos que contiene bases de datos. Es el sístema idoneo para la busqueda y recuperación de secuencias de todo tipo ya que contiene indices a todas las principales bases de datos. La busqueda de una secuencia en particular se realiza iniciando en la sección Library Page donde se escoge la base de datos de interes, y en Query Form se introducen las palabras claves que definen la busqueda de interes. Tiene muchos otros links de facil manejo, que con la práctica es de mucha utilidad.
 
En 1988 se reunieron los staff de GenBank, EMBL y DDBJ e hicieron un acuerdo de intercambio de información (International Collaboration of DNA sequence databases or International Nucleotide Sequence Database Collaboration-INSDC). Así estas bases de datos intercambian información diariamente para que las tres posean los mismos datos biológicos.
 
PARA TENER EN CUENTA...
- Cuál es la mejor base de datos para mi proposito?
- Cuál tiene la mejor calidad de datos?
- Cuál es la más completa?
- Cuál es la más actualizada?
- Cuál es la menos redundante?
- Cuál es la más indexada?
- Cuál responde más rápido?
 
Y...
- Las bases de datos pueden tener muchos errores (anotaciones automaticas)
- No todas las bases de datos están disponibles en todos los servidores
- La frecuencia de actualización es diferente en los distintos servidores
- La adición de datos es automatica y depende del investigador y su veracidad

presentacion.jpg