PRACTICA XVII: PREDICCION DE ESTRUCTURA TERCIARIA DE

PRACTICA XVII: PREDICCION DE ESTRUCTURA TERCIARIA DE
PROTEÍNAS POR TÉCNICAS DE ENROLLAMIENTO Y ab-initio.
Evaluación de la calidad de los modelos (Práctica en revisión, no
actualizada)
Objetivo General:
Ø Elaborar modelos de la estructura 3D de proteínas por las técnicas de enrollamiento y
ab-initio y aplicar técnicas para evaluar la confiabilidad de los modelos obtenidos.
Objetivos Particulares:
Ø Elaborar un modelo de la estructura 3D de una proteína utilizando como molde la
estructura de un posible homólogo estructural encontrado por la técnica de
enrrollamiento.
Ø Utilizar la técnica de predicción ab-inito para la obtención de un modelo 3D para una
proteína.
Ø Realizar el análisis de las propiedades estereoquímicas de los modelos 3D de proteínas
obtenidos por diversas técnicas y evaluar la calidad y confiabilidad de los mismos.
Introducción.
Si bien las técnicas de modelación por homología producen los modelos más confiables de
estructuras tridimensionales de proteínas, solo se pueden aplicar cuando se conoce un
homólogo de estructura tridimensional conocida.
La base de datos de estructuras 3D de proteínas del Protein Data Bank (PDB) contiene en la
actualidad cerca de 47,000 estructuras. Estos números contrastan con los contenidos de
otras bases de datos de secuencias tales como la UniProtKB/Swiss-Prot que en la actualidad
contiene 287,000 secuencias de proteínas. Para gran parte de las proteínas en estas bases de
datos, no existe un homólogo con similitud significativa depositado en la base de datos del
PDB.
No obstante, diversos estudios han demostrado que el número de formas en las cuales una
proteína puede plegarse es significativamente limitado y es frecuente encontrar que
proteínas aparentemente no relacionadas adopten plegamientos similares. De este modo,
cuando se determina la estructura 3D de una proteína es muy probable que esta pertenezca
a un tipo de plegamientos ya conocido. Existen diversas bases de datos en las cuales se
clasifican a las proteínas en virtud del tipo de plegamiento que poseen. La base de datos
SCOP (Structural Classification of Proteins) incluye en la actualidad una clasificación
estructural de las proteínas basada en 27,599 estructuras 3D provenientes del PDB, las
cuales se distribuyen en 971 plegamientos distintos, aunque cerca de 100 de estos
plegamientos son muy abundantes e incluyen a la mayoría de las familias de proteínas
depositadas en esta base de datos.
Esto sugiere que muchas proteínas con alineamientos similares están relacionadas
evolutivamente, pero son homólogos tan distantes que las herramientas actuales para el
análisis de similitud de secuencias no son lo suficientemente sensibles para reconocerlas,
aunque no puede descartarse la posibilidad de evolución convergente, en la cual se puede
postular que ciertas funciones tales como la unión a cierto tipo de sustratos, puedan
conducir también a estructuras similares.
En las técnicas de enrollamiento (en inglés threading) se puede evaluar si una se secuencia
de aminoácidos, para la cual se desea predecir su estructura 3D, es “compatible” con un
plegamiento particular. Para esto se pueden realizar alineamientos estructurales mediante
programación dinámica entre la secuencia y diversos plegamientos y además se evalúa si
un plegamiento en particular es apropiado de acuerdo a restricciones energéticas (por
ejemplo potenciales electrostáticos, energías de enrollamiento, contactos incorrectos),
predicciones de la estructura secundaria y restricciones estereoquímicas.
Una vez encontrado el molde apropiado se puede emplear el alineamiento óptimo entre este
y la secuencia problema con las restricciones mencionadas anteriormente y modelar la
estructura utilizando las mismas técnicas empleadas en la modelación por homología.
Las técnicas de enrollamiento han extendido la capacidad de predicción de la estructura
secundaria al permitir encontrar posibles homólogos remotos con escasa similitud a
estructuras ya conocidas, pero su confiabilidad aún es baja comparada con las técnicas de
modelación por homología (es decir, cuando es posible localizar un homólogo de estructura
conocida por su similitud significativa con la secuencia) y aún en varios casos puede no
identificar moldes apropiados para tal fin.
En esta última situación es necesario realizar las predicciones del tipo ab-initio en las
cuales se pretende predecir la estructura a partir de la secuencia de aminoácidos
únicamente. Para esto se requiere desarrollar funciones energéticas que modelen con gran
exactitud los potenciales verdaderos para las proteínas en el estado nativo, el cual será
aquel con la energía libre mínima. No obstante, tales predicciones tienen grandes
dificultades debido a que los parámetros energéticos que se han estimado en la actualidad
aún tienen una exactitud limitada y además el número de conformaciones posibles que
deben ser evaluadas es tan elevado que la complejidad y tiempo computacional requeridos
para resolver este problema de manera óptima son prohibitivos.
En años recientes se han desarrollado algunos métodos simplificados para esta tarea en los
cuales se emplean representaciones reducidas de las cadenas polipeptídicas y funciones de
energía potencial simplificadas que han mejorado enormemente la efectividad aunque los
recursos computacionales que requieren algunos de ellos aún son considerables.
Cualquiera que halla sido el método empleado para la predicción de la estructura debe
recordarse que es esencial la evaluación de algunas de sus propiedades, particularmente las
estereoquímicas, la energía potencial y la energía de enrollamiento, así como posibles
contactos incorrectos. Para este fin existen varias pruebas que se aplican comúnmente para
evaluar la calidad de modelos PDB calculados empíricamente por técnicas tales como
cristalografía de rayos X y Resonancia Magnética Nuclear.
Recursos informáticos utilizados:
1.
2.
3.
4.
5.
6.
7.
8.
BLAST del NCBI (http://www.ncbi.nlm.nih.gov/blast).
Servidor pGenThreader (http://bioinf.cs.ucl.ac.uk/psipred/).
Servidor 3D-PSSM (http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html).
Servidor Phyre2 (http://www.sbg.bio.ic.ac.uk/~phyre/).
Servidor Robetta (http://robetta.bakerlab.org/).
Servidor I-Tasser (http://zhanglab.ccmb.med.umich.edu/I-TASSER/)
Modeller9v2.
Procheck.
Procedimiento.
1. Descargar de la base de datos del NCBI la secuencia con clave de acceso NP_828873 y
guardarla en el formato FASTA.
2. Realizar una búsqueda con blastp contra la base de datos del PDB y determine si existe
alguna proteína para modelar la estructura.
Modelación de la estructura de la proteína por la técnica de enrollamiento
(threading).
Someter a modelación a la proteína NP_828873 en los siguientes servidores:
GenTHREADER (Utilizar la opción pGenTHREADER - Profile Based Fold Recognition)
(http://bioinf.cs.ucl.ac.uk/psipred/). Copiar y pegar la secuencia de aminoácidos
exclusivamente.
3D-PSSM (http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html). Proporcionar dirección de
correo electrónica. Copiar y pegar la secuencia de aminoácidos exclusivamente.
Phyre (http://www.sbg.bio.ic.ac.uk/~phyre/). Proporcionar dirección de correo electrónica.
Copiar y pegar la secuencia de aminoácidos exclusivamente.
Al cabo de unos minutos u horas estos servidores proporcionarán resultados de la
modelación incluyendo los siguientes datos:
a) Una lista de códigos de estructura de PDB indicando cual es la estructura
encontrada (homólogo estructural remoto) para la posible modelación de la
proteína.
b) Valores del índice de certidumbre para el homólogo encontrado.
c) Un alineamiento de la secuencia problema y la secuencia de la estructura. Este
alineamiento se puede proporcionar a programas como Modeller o Swiss-Model
para hacer la modelación por homología entre el molde y la secuencia. El grado de
similitud entre la secuencia problema y la estructura suele ser muy escaso.
Observe las claves de estructuras con las que se ha encontrado similitud y descargarlas de
la base de datos PDB utilizando las primeras cuatro letras de la clave.
Cálculo del modelo 3D en formato PDB.
Convertir manualmente el alineamiento con alguna de las estructuras producida por los
servidores GenThreader, 3D-PSSM o Phyre al formato PIR requerido para el programa
Modeller9.X. (Sugerencia: primero convertir el alineamiento al formato Clustal X o
FASTA y convertirlo a PIR desde el programa Clustal X). Para realizar este ejercicio
deberá revisar los scripts y los alineamientos generados en la práctica anterior de
modelamiento por Homología.
Modificar los códigos para la modelación, evaluación del modelo y evaluación del molde
para generar el modelo y calcular los potenciales DOPE.
Modelación de la estructura por predicciones ab-initio.
Someter la secuencia de la proteína nsp16 a modelación en los siguientes servidores:
Robetta (http://robetta.bakerlab.org/). Este es un servidor que emplea el método de Rosseta
para la predicción de estructura tridimensional por técnicas ab-initio. Utilizar la opción
(Domain Parsing & 3-D Modeling). El usuario deberá darse de alta con una dirección de
correo electrónico académica antes de usar este servicio. Tome en cuenta que la modelación
por esta técnica puede tomar varias semanas.
Descargar el modelo PDB de la estructura generada por estos servidores y compararla con
la estructura calculada por threading.
I-Tasser. I-Tasser (http://zhanglab.ccmb.med.umich.edu/I-TASSER/) es un servidor que
realiza un modelamiento híbrido combinando las técnicas de threading y ab-initio. Se
considera uno de los servidores ab-initio más rápidos y eficientes. Para utilizarlo debe
registrarse empleando una dirección de correo electrónico no comercial. Al concluir el
modelamiento, el programa generará 5 modelos en PDB. El primero de ellos corresponde al
más estable y es que se utiliza normalmente como modelo para análisis posteriores.
Evaluación de la calidad de modelos y estructuras PDB.
Evaluación de las propiedades estereoquímicas con PROCHEK.
1. Copiar en la carpeta c:\Bioinfo la carpeta del programa Procheck del CD del curso.
2. Dentro de la carpeta de Procheck copiar los archivos PDB de las proteínas
Modeladas y los moldes.
3. Abrir una ventana MS-DOS y con CD cambiar de directorio a la carpeta de
PROCHECK.
4. Con un editor de texto abrir el archivo procheck.prm y en la sección Colour all
plots? Modificar la opción por defecto (N) a Y para producir todas las gráficas en
color. Grabar el archivo modificado
5. Desde la ventana de MS-DOS escribir el comando:
Pro TRYPL 1.90
En este ejemplo la estructura de la proteína esta almacenada en un archivo pdb y la
resolución del modelo es de 1.90. Puede observarse que en el comando de Procheck
no se incluye la extensión del archivo. En el caso de estructuras modeladas la
resolución es igual a la del molde.
6. El programa genera 10 gráficas conteniendo un archivo con el análisis de diversas
propiedades estereoquímicas en el formato PS (Postscript). Este formato puede
convertirse a PDF utilizando la Suite completa de Adobe Acrobat (comercial) o bien
puede visualizarse instalando el programa gs que se incluye en la carpeta de
programas del curso (para instalar gs se debe ejecutar primero el programa
gs704w32.exe y después gsv42w32.exe).
7. Adicionalmente el programa genera un archivo con la extensión *.sum en la cual se
marcan con * las propiedades más desfavorables de los modelos examinados.
Verificación de contactos incorrectos con los programas probe y reduce.
1. Copiar las carpetas probe, reduce4win y Mage_Prekin del CD del curso a la carpeta
c:\Bioinfo.
2. Copiar el archivo PDB a examinar en la carpeta del programa reduce4win.
3. Generar los átomos ausentes del modelo PDB con el programa reduce4win para lo
cual ejecutar desde una ventana MSDOS el siguiente comando:
reduce TRYPL.pdb > TRYPL_H.pdb
en donde TRYPL.pdb es el nombre del archivo del modelo original y
TRYPL_H.pdb el nombre del archivo completado (Editar con RasMol ambos
modelos para visualizar las diferencias).
4. Desde la ventana de MS-DOS ejecutar el comando:
probe TRYPL_H.pdb > TRYPL.kin
5. Generar una imagen kin con el programa Prekin contenido en la carpeta
Mage_Prekin. Para esto leer el archivo TRYPL_H.pdb con el programa y guardarlo
con la extensión *.KIN.
6. Agregar al final del archivo anterior el contenido del archivo TYRPL.kin generado
en el paso 4 y grabarlo
7. Visualizar el archivo con la extensión *.kin con el programa mage contenido en la
carpeta Mage_Prekin.
8. Los contactos incorrectos se muestran en rojo en este Modelo.
Guía para el reporte de la práctica.
1. Elegir uno de los modelos producidos en esta práctica por las técnicas de enrollamiento
(threading) y reportar el alineamiento obtenido entre la secuencia problema y el molde
seleccionado.
2. En la base de datos PDB o bases de datos tales como CATH (Protein Structure
Classification url: http://www.cathdb.info/latest/index.html) o SCOP (Structural
Classification of Proteins url: http://scop.mrc-lmb.cam.ac.uk/scop/) buscar información
relativo al molde encontrado en el punto anterior (proteína a la que pertenece,
clasificación).
3. Reportar el modelo producido después de la modelación con modeler.
4. Evaluar con Prochek y Probe/Reduce las propiedades estereoquímica y los contactos
incorrectos para los modelos calculados por las técnicas de modelación por homología
(tome en cuenta que aquí se modeló una proteína distinta) de enrrollamiento (solo uno
de los modelos) y el calculado por las predicciones ab-initio. Evalué también los
contactos incorrectos de estos modelos mediante los programas Probe/Reduce. Resumir
en un cuadro las propiedades destacando cuales fueron satisfactorias y cuales tienen
problemas en el modelo encontrado. ¿Cuál de las predicciones (homología,
enrollamiento o ab-initio) fue más satifactoria?
Preguntas extra.
9. Consulte las bases de datos CATH o SCOP y resuma brevemente en un cuadro la
clasificación de las proteínas basada en su plegamiento.
10. Defina el término homología remota.
11. En cuadro resuma brevemente las características de los métodos de predicción de la
estructura tridmensional por la técnicas de modelación por homología, enrollamiento
(threading) y ab-initio, destacando ventajas y desventajas de estos métodos.
Bibliografía
1.
2.
3.
4.
5.
6.
7.
Chivian D. et al. (2003): AB Initio methods en Structural bioinformatics. Bourne P. E., Weissig H.
(editores). Wiley-Liss. USA. Pp:525-546.
Claverie J.M., Notredame C. (2003): Bioinformatics for dummies. For Dummies Series, Wiley
Publishing New York. USA.
Clote P., Backofen R. (2000): Computational Molecular Biology. An Introduction. Wiley. New York.
USA.
Godzik A (2003): Fold recognition methods en Structural bioinformatics. Bourne P. E., Weissig H.
(editores). Wiley-Liss. USA. Pp:559-587.
Kim, D. E., et al. (2004): "Protein structure prediction and analysis using the Robetta server." Nucleic
Acids Res 32(Web Server issue): W526-531.
Koh, I. Y., et al. (2003): "EVA: Evaluation of protein structure prediction servers." Nucleic Acids Res
31(13): 3311-3315.
Mount DW. (2001): Bioinformatics. Sequence and Genome Analysis. Cold Spring Harbor Laboratory
Press.
APENDICE: DESCRIPCION DE LOS ANALISIS REALIZADOS POR PROCHECK
Plot 1. Ramachandran plot
Description
The Ramachandran plot shows the phi-psi torsion angles for all residues in the structure (except those at the
chain termini). Glycine residues are separately identified by triangles as these are not restricted to the regions
of the plot appropriate to the other sidechain types.
The colouring/shading on the plot represents the different regions described in Morris et al. (1992): the
darkest areas (here shown in red) correspond to the "core" regions representing the most favourable
combinations of phi-psi values.
Ideally, one would hope to have over 90% of the residues in these "core" regions. The percentage of residues
in the "core" regions is one of the better guides to stereochemical quality.
Note that additional Ramachandran plots can also be generated, as follows:Separate plots for each of the 20 different amino acid types (see Plot 2. Ramachandran plots by residue type).
Separate plots for just the Gly & Pro residues (available as an option in Plot 2. Ramachandran plots by residue
type).
Options
The main options for the Ramachandran plot are:Labelling of residues in disallowed regions can be switched off, or alternatively can be extended into the other
regions.
Shading/colouring of the different regions can be switched off.
The plot can be in colour or black-and-white.
A "publication version" of the plot (without the outer border and statistics) can be generated.
Plot 2. Ramachandran plots by residue type
Description
The plot shows separate Ramachandran plots are shown for each of the 20 different amino acid types.
The darker the shaded area on each plot, the more favourable the region. The data on which the shading is
based has come from a data set of 163 non-homologous, high-resolution protein chains chosen from structures
solved by X-ray crystallography to a resolution of 2.0Å or better and an R-factor no greater than 20%.
The numbers in brackets, following each residue name, show the total number of data points on that graph.
The red numbers above the data points are the reside-numbers of the residues in question (ie showing those
residues lying in unfavourable regions of the plot).
Options
The main options for the plot are:Ramachandran plots for Gly & Pro residues only.
The cut-off value for the G-factor defining which points are to be labelled.
The plot can be in colour or black-and-white.
These options can be altered by editing the parameter file, procheck.prm, as described here.
Plot 3. Chi1-Chi2 plots
Description
The Chi1-Chi2 plots show the chi1-chi2 sidechain torsion angle combinations for all residue types whose
sidechains are long enough to have both these angles.
The shading on each plot indicates how favourable each region on the plot is; the darker the shade the more
favourable the region. The data on which the shading is based has come from a data set of 163 nonhomologous, high-resolution protein chains chosen from structures solved by X-ray crystallography to a
resolution of 2.0Å or better and an R-factor no greater than 20%.
The numbers in brackets, following each residue name, show the total number of data points on that graph.
The red numbers above the data points are the reside-numbers of the residues in question (ie showing those
residues lying in unfavourable regions of the plot).
Options
The main options for the plot are:The cut-off value for the G-factor defining which points are to be labelled.
The plot can be in colour or black-and-white.
Plot 4. Main-chain parameters
Description
The six graphs on the main-chain parameters plot show how the structure (represented by the solid square)
compares with well-refined structures at a similar resolution. The dark band in each graph represents the
results from the well-refined structures; the central line is a least-squares fit to the mean trend as a function of
resolution, while the width of the band on either side of it corresponds to a variation of one standard deviation
about the mean. In some cases, the trend is dependent on the resolution, and in other cases it is not.
Note. This plot is intended as a rough guide only and too much reliance should not be placed on getting
results that are "better than structures at the same resolution".
The 6 properties plotted are:
a. Ramachandran plot quality. This property is measured by the percentage of the protein's residues that are in
the most favoured, or core, regions of the Ramachandran plot. For a good model structure, obtained at high
resolution, one would expect this percentage to be over 90%. However, as the resolution gets poorer, so this
figure decreases - as might be expected. The shaded region reflects this expected decrease with worsening
resolution.
b. Peptide bond planarity. This property is measured by calculating the standard deviation of the protein
structure's omega torsion angles. The smaller the value the tighter the clustering around the ideal of 180
degrees (which represents a perfectly planar peptide bond).
c. Bad non-bonded interactions. This property is measured by the number of bad contacts per 100 residues.
Bad contacts are selected from the list of non-bonded interactions found by program NB (see Appendix C).
They are defined as contacts where the distance of closest approach is less than or equal to 2.6Å.
d. Calpha tetrahedral distortion. This property is measured by calculating the standard deviation of the zeta
torsion angle. This is a notional torsion angle in that it is not defined about any actual bond in the structure.
Rather, it is defined by the following four atoms within a given residue: Calpha, N, C, and Cbeta.
e. Main-chain hydrogen bond energy. This property is measured by the standard deviation of the hydrogen
bond energies for main-chain hydrogen bonds. The energies are calculated using the method of Kabsch &
Sander (1983).
f. Overall G-factor. The overall G-factor is a measure of the overall normality of the structure. The overall
value is obtained from an average of all the different G-factors for each residue in the structure.
Options
The main options for the plot are:The plot can be in colour or black-and-white
Plot 5. Side-chain parameters
Description
The five graphs on the side-chain parameters plot show how the structure (represented by the solid square)
compares with well-refined structures at a similar resolution. The dark band in each graph represents the
results from the well-refined structures; the central line is a least-squares fit to the mean trend as a function of
resolution, while the width of the band on either side of it corresponds to a variation of one standard deviation
about the mean. In all cases the trend is dependent on the resolution.
Note. This plot is intended as a rough guide only and too much reliance should not be placed on getting
results that are "better than structures at the same resolution".
The 5 properties plotted are:
a. Standard deviation of the chi-1 gauche minus torsion angles.
b. Standard deviation of the chi-1 trans torsion angles.
c. Standard deviation of the chi-1 gauche plus torsion angles.
d. Pooled standard deviation of all chi-1 torsion angles.
e. Standard deviation of the chi-2 trans torsion angles.
Options
The main options for the plot are:The plot can be in colour or black-and-white
Plot 6. Residue properties
Description
The various graphs and diagrams on this plot show how the protein's geometrical properties vary along its
sequence. This gives a visualization of which regions appear to have consistently poor or unusual geometry
(perhaps because they are poorly defined) and which have more normal geometry.
The properties plotted are:Graphs a-c: Optional properties
The first three graphs at the top of the page, can be selected from 14 possibles by the user. The three default
graphs, which are plotted when you first run PROCHECK, are the first three of:1. Absolute deviation from mean Chi-1 value (excl. Pro)
2. Absolute deviation from mean of omega torsion
3. C-alpha chirality: abs. deviation of zeta torsion
4. Absolute deviation from mean of H-bond energy
5. Gamma atom B-value
6. Average B-value of main-chain atoms
7. Average B-value of side-chain atoms
8. G-factor for phi-psi distribution
9. G-factor for chi1-chi2 distribution
10. Residue-by-residue G-factor
11. Approx. accessibility (estimated by Ooi numbers)
12. Percentage residue main-chain accessibility
13. Standard deviation of main-chain B-values
14. Standard deviation of side-chain B-values
For each graph, unusual values (usually those more than 2.0 standard deviations away from the "ideal" mean
value) are shown highlighted.
Graph d: Secondary structure & average estimated accessibility
The secondary structure plot shows a schematic representation of the Kabsch & Sander (1983) secondary
structure assignments. The key just below the picture shows which structure is which. Beta strands are taken
to include all residues with a Kabsch & Sander assignment of E, helices corresponds to both H and G
assignments, while everything else is taken to be random coil.
The shading behind the schematic picture gives an approximation to the residue accessibilities. The
approximation is a fairly crude one, being based on each residue's Ooi number (Nishikawa & Ooi, 1986). An
Ooi number is a count of the number of other Calpha atoms within a radius of, in this case, 14Å of the given
residue's own Calpha. Although crude, this does give a good impression of which parts of the structure are
buried and which are exposed on the surface. Future versions of PROCHECK will include an accurate
calculation of residue accessibility.
Graph e: Sequence & Ramachandran regions
The next section shows the sequence of the structure (using the 20 standard one-letter amino-acid codes) and
a set of markers that identify the region of the Ramachandran plot in which each residue is located. There are
four marker types, one for each of the four different types of region: core (ie most favoured), allowed,
generous and disallowed.
Graph f: Max. deviation
The small histogram of asterisks and plus-signs shows each residue's maximum deviation from one of the
ideal values given on the residue-by-residue listing in the .out file. Refer to the final column of the .out file to
see which is the parameter that deviates by the amount shown here.
Graph g: G-factors
The shaded squares give a schematic representation of each residue's G-factor values. (Note that the chi-1 Gfactors are shown only for those residues that do not have a chi-2, and hence no chi1-chi2 G-factor).
Regions with many dark squares correspond to regions where the properties are "unusual", as defined by a
low (or negative) G-factor. These may correspond to highly mobile or poorly defined regions such as loops,
or may need further investigation.
Plot 7. Main-chain bond length distributions
Description
The histograms on this plot show the distributions of each of the different main-chain bond lengths in the
structure. The solid line in the centre of each plot corresponds to the small-molecule mean value, while the
dashed lines either side show the small-molecule standard deviation, the data coming from Engh & Huber
(1991).
Highlighted bars correspond to values more than 2.0 standard deviations from the mean, though the value of
2.0 can be changed by editing the procheck.prm file.
If any of the histogram bars lie off the graph, to the left or to the right, a large arrow indicates the number of
these outliers (as in the C-O plot above).
Significant outliers are shown on the Distorted geometry plots.
Options
The main options for the plot are:Number of standard deviations for highlighting outliers (default is 2.0).
The plot can be in colour or black-and-white.
These options can be altered by editing the parameter file, procheck.prm, as described here.
Plot 8. Main-chain bond angle distributions
Description
The histograms on this plot show the distributions of each of the different main-chain bond angles in the
structure. The solid line in the centre of each plot corresponds to the small-molecule mean value, while the
dashed lines either side show the small-molecule standard deviation, the data coming from Engh & Huber
(1991).
Highlighted bars correspond to values more than 2.0 standard deviations from the mean, though the value of
2.0 can be changed by editing the procheck.prm file.
If any of the histogram bars lie off the graph, to the left or to the right, a large arrow indicates the number of
these outliers (as in the CA-C-O and CB-CA-C plots above).
Significant outliers are shown on the Distorted geometry plots.
Options
The main options for the plot are:Number of standard deviations for highlighting outliers (default is 2.0).
The plot can be in colour or black-and-white.
Plot 9. RMS distances from planarity
Description
These histograms show the RMS distances from planarity for the different planar groups in the structure. The
dashed lines indicate different ideal values for aromatic rings (Phe, Tyr, Trp, His) and for planar end-groups
(Arg, Asn, Asp, Gln, Glu). The default values are 0.03Å and 0.02Å, respectively, but these values can be
altered by editing the procheck.prm file.
Histogram bars beyond the dashed lines are shown as highlighted.
Options
The main options for the plot are:RMS distance from planarity for highlighting outliers for ring groups (default is 0.03Å).
RMS distance from planarity for highlighting outliers for other groups (default is 0.02Å).
The plot can be in colour or black-and-white.
Plot 10. Distorted geometry plots
Description
These plots shows all distorted main-chain bond lengths, main-chain bond angles, and planar groups.
The parameters defining how distorted these properties need to be before being plotted here are given in the
procheck.prm parameter file.
For each main-chain bond length and angle plotted, the plot shows the ideal value (as defined by the Engh &
Huber small-molecule data), the actual value, and the difference between the two.
For each distorted planar groups, three orthogonal projections are plotted and the value shown is the RMS
distance of the atoms from the best-fit plane.
Options
The main options for the plot are:Cut-off deviation from ideal bond length (Å).
Cut-off deviation from ideal bond angle (degrees).
Cut-off RMS distances from planarity.
The plot can be in colour or black-and-white.