PRACTICA XVII: PREDICCION DE ESTRUCTURA TERCIARIA DE PROTEÍNAS POR TÉCNICAS DE ENROLLAMIENTO Y ab-initio. Evaluación de la calidad de los modelos (Práctica en revisión, no actualizada) Objetivo General: Ø Elaborar modelos de la estructura 3D de proteínas por las técnicas de enrollamiento y ab-initio y aplicar técnicas para evaluar la confiabilidad de los modelos obtenidos. Objetivos Particulares: Ø Elaborar un modelo de la estructura 3D de una proteína utilizando como molde la estructura de un posible homólogo estructural encontrado por la técnica de enrrollamiento. Ø Utilizar la técnica de predicción ab-inito para la obtención de un modelo 3D para una proteína. Ø Realizar el análisis de las propiedades estereoquímicas de los modelos 3D de proteínas obtenidos por diversas técnicas y evaluar la calidad y confiabilidad de los mismos. Introducción. Si bien las técnicas de modelación por homología producen los modelos más confiables de estructuras tridimensionales de proteínas, solo se pueden aplicar cuando se conoce un homólogo de estructura tridimensional conocida. La base de datos de estructuras 3D de proteínas del Protein Data Bank (PDB) contiene en la actualidad cerca de 47,000 estructuras. Estos números contrastan con los contenidos de otras bases de datos de secuencias tales como la UniProtKB/Swiss-Prot que en la actualidad contiene 287,000 secuencias de proteínas. Para gran parte de las proteínas en estas bases de datos, no existe un homólogo con similitud significativa depositado en la base de datos del PDB. No obstante, diversos estudios han demostrado que el número de formas en las cuales una proteína puede plegarse es significativamente limitado y es frecuente encontrar que proteínas aparentemente no relacionadas adopten plegamientos similares. De este modo, cuando se determina la estructura 3D de una proteína es muy probable que esta pertenezca a un tipo de plegamientos ya conocido. Existen diversas bases de datos en las cuales se clasifican a las proteínas en virtud del tipo de plegamiento que poseen. La base de datos SCOP (Structural Classification of Proteins) incluye en la actualidad una clasificación estructural de las proteínas basada en 27,599 estructuras 3D provenientes del PDB, las cuales se distribuyen en 971 plegamientos distintos, aunque cerca de 100 de estos plegamientos son muy abundantes e incluyen a la mayoría de las familias de proteínas depositadas en esta base de datos. Esto sugiere que muchas proteínas con alineamientos similares están relacionadas evolutivamente, pero son homólogos tan distantes que las herramientas actuales para el análisis de similitud de secuencias no son lo suficientemente sensibles para reconocerlas, aunque no puede descartarse la posibilidad de evolución convergente, en la cual se puede postular que ciertas funciones tales como la unión a cierto tipo de sustratos, puedan conducir también a estructuras similares. En las técnicas de enrollamiento (en inglés threading) se puede evaluar si una se secuencia de aminoácidos, para la cual se desea predecir su estructura 3D, es “compatible” con un plegamiento particular. Para esto se pueden realizar alineamientos estructurales mediante programación dinámica entre la secuencia y diversos plegamientos y además se evalúa si un plegamiento en particular es apropiado de acuerdo a restricciones energéticas (por ejemplo potenciales electrostáticos, energías de enrollamiento, contactos incorrectos), predicciones de la estructura secundaria y restricciones estereoquímicas. Una vez encontrado el molde apropiado se puede emplear el alineamiento óptimo entre este y la secuencia problema con las restricciones mencionadas anteriormente y modelar la estructura utilizando las mismas técnicas empleadas en la modelación por homología. Las técnicas de enrollamiento han extendido la capacidad de predicción de la estructura secundaria al permitir encontrar posibles homólogos remotos con escasa similitud a estructuras ya conocidas, pero su confiabilidad aún es baja comparada con las técnicas de modelación por homología (es decir, cuando es posible localizar un homólogo de estructura conocida por su similitud significativa con la secuencia) y aún en varios casos puede no identificar moldes apropiados para tal fin. En esta última situación es necesario realizar las predicciones del tipo ab-initio en las cuales se pretende predecir la estructura a partir de la secuencia de aminoácidos únicamente. Para esto se requiere desarrollar funciones energéticas que modelen con gran exactitud los potenciales verdaderos para las proteínas en el estado nativo, el cual será aquel con la energía libre mínima. No obstante, tales predicciones tienen grandes dificultades debido a que los parámetros energéticos que se han estimado en la actualidad aún tienen una exactitud limitada y además el número de conformaciones posibles que deben ser evaluadas es tan elevado que la complejidad y tiempo computacional requeridos para resolver este problema de manera óptima son prohibitivos. En años recientes se han desarrollado algunos métodos simplificados para esta tarea en los cuales se emplean representaciones reducidas de las cadenas polipeptídicas y funciones de energía potencial simplificadas que han mejorado enormemente la efectividad aunque los recursos computacionales que requieren algunos de ellos aún son considerables. Cualquiera que halla sido el método empleado para la predicción de la estructura debe recordarse que es esencial la evaluación de algunas de sus propiedades, particularmente las estereoquímicas, la energía potencial y la energía de enrollamiento, así como posibles contactos incorrectos. Para este fin existen varias pruebas que se aplican comúnmente para evaluar la calidad de modelos PDB calculados empíricamente por técnicas tales como cristalografía de rayos X y Resonancia Magnética Nuclear. Recursos informáticos utilizados: 1. 2. 3. 4. 5. 6. 7. 8. BLAST del NCBI (http://www.ncbi.nlm.nih.gov/blast). Servidor pGenThreader (http://bioinf.cs.ucl.ac.uk/psipred/). Servidor 3D-PSSM (http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html). Servidor Phyre2 (http://www.sbg.bio.ic.ac.uk/~phyre/). Servidor Robetta (http://robetta.bakerlab.org/). Servidor I-Tasser (http://zhanglab.ccmb.med.umich.edu/I-TASSER/) Modeller9v2. Procheck. Procedimiento. 1. Descargar de la base de datos del NCBI la secuencia con clave de acceso NP_828873 y guardarla en el formato FASTA. 2. Realizar una búsqueda con blastp contra la base de datos del PDB y determine si existe alguna proteína para modelar la estructura. Modelación de la estructura de la proteína por la técnica de enrollamiento (threading). Someter a modelación a la proteína NP_828873 en los siguientes servidores: GenTHREADER (Utilizar la opción pGenTHREADER - Profile Based Fold Recognition) (http://bioinf.cs.ucl.ac.uk/psipred/). Copiar y pegar la secuencia de aminoácidos exclusivamente. 3D-PSSM (http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html). Proporcionar dirección de correo electrónica. Copiar y pegar la secuencia de aminoácidos exclusivamente. Phyre (http://www.sbg.bio.ic.ac.uk/~phyre/). Proporcionar dirección de correo electrónica. Copiar y pegar la secuencia de aminoácidos exclusivamente. Al cabo de unos minutos u horas estos servidores proporcionarán resultados de la modelación incluyendo los siguientes datos: a) Una lista de códigos de estructura de PDB indicando cual es la estructura encontrada (homólogo estructural remoto) para la posible modelación de la proteína. b) Valores del índice de certidumbre para el homólogo encontrado. c) Un alineamiento de la secuencia problema y la secuencia de la estructura. Este alineamiento se puede proporcionar a programas como Modeller o Swiss-Model para hacer la modelación por homología entre el molde y la secuencia. El grado de similitud entre la secuencia problema y la estructura suele ser muy escaso. Observe las claves de estructuras con las que se ha encontrado similitud y descargarlas de la base de datos PDB utilizando las primeras cuatro letras de la clave. Cálculo del modelo 3D en formato PDB. Convertir manualmente el alineamiento con alguna de las estructuras producida por los servidores GenThreader, 3D-PSSM o Phyre al formato PIR requerido para el programa Modeller9.X. (Sugerencia: primero convertir el alineamiento al formato Clustal X o FASTA y convertirlo a PIR desde el programa Clustal X). Para realizar este ejercicio deberá revisar los scripts y los alineamientos generados en la práctica anterior de modelamiento por Homología. Modificar los códigos para la modelación, evaluación del modelo y evaluación del molde para generar el modelo y calcular los potenciales DOPE. Modelación de la estructura por predicciones ab-initio. Someter la secuencia de la proteína nsp16 a modelación en los siguientes servidores: Robetta (http://robetta.bakerlab.org/). Este es un servidor que emplea el método de Rosseta para la predicción de estructura tridimensional por técnicas ab-initio. Utilizar la opción (Domain Parsing & 3-D Modeling). El usuario deberá darse de alta con una dirección de correo electrónico académica antes de usar este servicio. Tome en cuenta que la modelación por esta técnica puede tomar varias semanas. Descargar el modelo PDB de la estructura generada por estos servidores y compararla con la estructura calculada por threading. I-Tasser. I-Tasser (http://zhanglab.ccmb.med.umich.edu/I-TASSER/) es un servidor que realiza un modelamiento híbrido combinando las técnicas de threading y ab-initio. Se considera uno de los servidores ab-initio más rápidos y eficientes. Para utilizarlo debe registrarse empleando una dirección de correo electrónico no comercial. Al concluir el modelamiento, el programa generará 5 modelos en PDB. El primero de ellos corresponde al más estable y es que se utiliza normalmente como modelo para análisis posteriores. Evaluación de la calidad de modelos y estructuras PDB. Evaluación de las propiedades estereoquímicas con PROCHEK. 1. Copiar en la carpeta c:\Bioinfo la carpeta del programa Procheck del CD del curso. 2. Dentro de la carpeta de Procheck copiar los archivos PDB de las proteínas Modeladas y los moldes. 3. Abrir una ventana MS-DOS y con CD cambiar de directorio a la carpeta de PROCHECK. 4. Con un editor de texto abrir el archivo procheck.prm y en la sección Colour all plots? Modificar la opción por defecto (N) a Y para producir todas las gráficas en color. Grabar el archivo modificado 5. Desde la ventana de MS-DOS escribir el comando: Pro TRYPL 1.90 En este ejemplo la estructura de la proteína esta almacenada en un archivo pdb y la resolución del modelo es de 1.90. Puede observarse que en el comando de Procheck no se incluye la extensión del archivo. En el caso de estructuras modeladas la resolución es igual a la del molde. 6. El programa genera 10 gráficas conteniendo un archivo con el análisis de diversas propiedades estereoquímicas en el formato PS (Postscript). Este formato puede convertirse a PDF utilizando la Suite completa de Adobe Acrobat (comercial) o bien puede visualizarse instalando el programa gs que se incluye en la carpeta de programas del curso (para instalar gs se debe ejecutar primero el programa gs704w32.exe y después gsv42w32.exe). 7. Adicionalmente el programa genera un archivo con la extensión *.sum en la cual se marcan con * las propiedades más desfavorables de los modelos examinados. Verificación de contactos incorrectos con los programas probe y reduce. 1. Copiar las carpetas probe, reduce4win y Mage_Prekin del CD del curso a la carpeta c:\Bioinfo. 2. Copiar el archivo PDB a examinar en la carpeta del programa reduce4win. 3. Generar los átomos ausentes del modelo PDB con el programa reduce4win para lo cual ejecutar desde una ventana MSDOS el siguiente comando: reduce TRYPL.pdb > TRYPL_H.pdb en donde TRYPL.pdb es el nombre del archivo del modelo original y TRYPL_H.pdb el nombre del archivo completado (Editar con RasMol ambos modelos para visualizar las diferencias). 4. Desde la ventana de MS-DOS ejecutar el comando: probe TRYPL_H.pdb > TRYPL.kin 5. Generar una imagen kin con el programa Prekin contenido en la carpeta Mage_Prekin. Para esto leer el archivo TRYPL_H.pdb con el programa y guardarlo con la extensión *.KIN. 6. Agregar al final del archivo anterior el contenido del archivo TYRPL.kin generado en el paso 4 y grabarlo 7. Visualizar el archivo con la extensión *.kin con el programa mage contenido en la carpeta Mage_Prekin. 8. Los contactos incorrectos se muestran en rojo en este Modelo. Guía para el reporte de la práctica. 1. Elegir uno de los modelos producidos en esta práctica por las técnicas de enrollamiento (threading) y reportar el alineamiento obtenido entre la secuencia problema y el molde seleccionado. 2. En la base de datos PDB o bases de datos tales como CATH (Protein Structure Classification url: http://www.cathdb.info/latest/index.html) o SCOP (Structural Classification of Proteins url: http://scop.mrc-lmb.cam.ac.uk/scop/) buscar información relativo al molde encontrado en el punto anterior (proteína a la que pertenece, clasificación). 3. Reportar el modelo producido después de la modelación con modeler. 4. Evaluar con Prochek y Probe/Reduce las propiedades estereoquímica y los contactos incorrectos para los modelos calculados por las técnicas de modelación por homología (tome en cuenta que aquí se modeló una proteína distinta) de enrrollamiento (solo uno de los modelos) y el calculado por las predicciones ab-initio. Evalué también los contactos incorrectos de estos modelos mediante los programas Probe/Reduce. Resumir en un cuadro las propiedades destacando cuales fueron satisfactorias y cuales tienen problemas en el modelo encontrado. ¿Cuál de las predicciones (homología, enrollamiento o ab-initio) fue más satifactoria? Preguntas extra. 9. Consulte las bases de datos CATH o SCOP y resuma brevemente en un cuadro la clasificación de las proteínas basada en su plegamiento. 10. Defina el término homología remota. 11. En cuadro resuma brevemente las características de los métodos de predicción de la estructura tridmensional por la técnicas de modelación por homología, enrollamiento (threading) y ab-initio, destacando ventajas y desventajas de estos métodos. Bibliografía 1. 2. 3. 4. 5. 6. 7. Chivian D. et al. (2003): AB Initio methods en Structural bioinformatics. Bourne P. E., Weissig H. (editores). Wiley-Liss. USA. Pp:525-546. Claverie J.M., Notredame C. (2003): Bioinformatics for dummies. For Dummies Series, Wiley Publishing New York. USA. Clote P., Backofen R. (2000): Computational Molecular Biology. An Introduction. Wiley. New York. USA. Godzik A (2003): Fold recognition methods en Structural bioinformatics. Bourne P. E., Weissig H. (editores). Wiley-Liss. USA. Pp:559-587. Kim, D. E., et al. (2004): "Protein structure prediction and analysis using the Robetta server." Nucleic Acids Res 32(Web Server issue): W526-531. Koh, I. Y., et al. (2003): "EVA: Evaluation of protein structure prediction servers." Nucleic Acids Res 31(13): 3311-3315. Mount DW. (2001): Bioinformatics. Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. APENDICE: DESCRIPCION DE LOS ANALISIS REALIZADOS POR PROCHECK Plot 1. Ramachandran plot Description The Ramachandran plot shows the phi-psi torsion angles for all residues in the structure (except those at the chain termini). Glycine residues are separately identified by triangles as these are not restricted to the regions of the plot appropriate to the other sidechain types. The colouring/shading on the plot represents the different regions described in Morris et al. (1992): the darkest areas (here shown in red) correspond to the "core" regions representing the most favourable combinations of phi-psi values. Ideally, one would hope to have over 90% of the residues in these "core" regions. The percentage of residues in the "core" regions is one of the better guides to stereochemical quality. Note that additional Ramachandran plots can also be generated, as follows:Separate plots for each of the 20 different amino acid types (see Plot 2. Ramachandran plots by residue type). Separate plots for just the Gly & Pro residues (available as an option in Plot 2. Ramachandran plots by residue type). Options The main options for the Ramachandran plot are:Labelling of residues in disallowed regions can be switched off, or alternatively can be extended into the other regions. Shading/colouring of the different regions can be switched off. The plot can be in colour or black-and-white. A "publication version" of the plot (without the outer border and statistics) can be generated. Plot 2. Ramachandran plots by residue type Description The plot shows separate Ramachandran plots are shown for each of the 20 different amino acid types. The darker the shaded area on each plot, the more favourable the region. The data on which the shading is based has come from a data set of 163 non-homologous, high-resolution protein chains chosen from structures solved by X-ray crystallography to a resolution of 2.0Å or better and an R-factor no greater than 20%. The numbers in brackets, following each residue name, show the total number of data points on that graph. The red numbers above the data points are the reside-numbers of the residues in question (ie showing those residues lying in unfavourable regions of the plot). Options The main options for the plot are:Ramachandran plots for Gly & Pro residues only. The cut-off value for the G-factor defining which points are to be labelled. The plot can be in colour or black-and-white. These options can be altered by editing the parameter file, procheck.prm, as described here. Plot 3. Chi1-Chi2 plots Description The Chi1-Chi2 plots show the chi1-chi2 sidechain torsion angle combinations for all residue types whose sidechains are long enough to have both these angles. The shading on each plot indicates how favourable each region on the plot is; the darker the shade the more favourable the region. The data on which the shading is based has come from a data set of 163 nonhomologous, high-resolution protein chains chosen from structures solved by X-ray crystallography to a resolution of 2.0Å or better and an R-factor no greater than 20%. The numbers in brackets, following each residue name, show the total number of data points on that graph. The red numbers above the data points are the reside-numbers of the residues in question (ie showing those residues lying in unfavourable regions of the plot). Options The main options for the plot are:The cut-off value for the G-factor defining which points are to be labelled. The plot can be in colour or black-and-white. Plot 4. Main-chain parameters Description The six graphs on the main-chain parameters plot show how the structure (represented by the solid square) compares with well-refined structures at a similar resolution. The dark band in each graph represents the results from the well-refined structures; the central line is a least-squares fit to the mean trend as a function of resolution, while the width of the band on either side of it corresponds to a variation of one standard deviation about the mean. In some cases, the trend is dependent on the resolution, and in other cases it is not. Note. This plot is intended as a rough guide only and too much reliance should not be placed on getting results that are "better than structures at the same resolution". The 6 properties plotted are: a. Ramachandran plot quality. This property is measured by the percentage of the protein's residues that are in the most favoured, or core, regions of the Ramachandran plot. For a good model structure, obtained at high resolution, one would expect this percentage to be over 90%. However, as the resolution gets poorer, so this figure decreases - as might be expected. The shaded region reflects this expected decrease with worsening resolution. b. Peptide bond planarity. This property is measured by calculating the standard deviation of the protein structure's omega torsion angles. The smaller the value the tighter the clustering around the ideal of 180 degrees (which represents a perfectly planar peptide bond). c. Bad non-bonded interactions. This property is measured by the number of bad contacts per 100 residues. Bad contacts are selected from the list of non-bonded interactions found by program NB (see Appendix C). They are defined as contacts where the distance of closest approach is less than or equal to 2.6Å. d. Calpha tetrahedral distortion. This property is measured by calculating the standard deviation of the zeta torsion angle. This is a notional torsion angle in that it is not defined about any actual bond in the structure. Rather, it is defined by the following four atoms within a given residue: Calpha, N, C, and Cbeta. e. Main-chain hydrogen bond energy. This property is measured by the standard deviation of the hydrogen bond energies for main-chain hydrogen bonds. The energies are calculated using the method of Kabsch & Sander (1983). f. Overall G-factor. The overall G-factor is a measure of the overall normality of the structure. The overall value is obtained from an average of all the different G-factors for each residue in the structure. Options The main options for the plot are:The plot can be in colour or black-and-white Plot 5. Side-chain parameters Description The five graphs on the side-chain parameters plot show how the structure (represented by the solid square) compares with well-refined structures at a similar resolution. The dark band in each graph represents the results from the well-refined structures; the central line is a least-squares fit to the mean trend as a function of resolution, while the width of the band on either side of it corresponds to a variation of one standard deviation about the mean. In all cases the trend is dependent on the resolution. Note. This plot is intended as a rough guide only and too much reliance should not be placed on getting results that are "better than structures at the same resolution". The 5 properties plotted are: a. Standard deviation of the chi-1 gauche minus torsion angles. b. Standard deviation of the chi-1 trans torsion angles. c. Standard deviation of the chi-1 gauche plus torsion angles. d. Pooled standard deviation of all chi-1 torsion angles. e. Standard deviation of the chi-2 trans torsion angles. Options The main options for the plot are:The plot can be in colour or black-and-white Plot 6. Residue properties Description The various graphs and diagrams on this plot show how the protein's geometrical properties vary along its sequence. This gives a visualization of which regions appear to have consistently poor or unusual geometry (perhaps because they are poorly defined) and which have more normal geometry. The properties plotted are:Graphs a-c: Optional properties The first three graphs at the top of the page, can be selected from 14 possibles by the user. The three default graphs, which are plotted when you first run PROCHECK, are the first three of:1. Absolute deviation from mean Chi-1 value (excl. Pro) 2. Absolute deviation from mean of omega torsion 3. C-alpha chirality: abs. deviation of zeta torsion 4. Absolute deviation from mean of H-bond energy 5. Gamma atom B-value 6. Average B-value of main-chain atoms 7. Average B-value of side-chain atoms 8. G-factor for phi-psi distribution 9. G-factor for chi1-chi2 distribution 10. Residue-by-residue G-factor 11. Approx. accessibility (estimated by Ooi numbers) 12. Percentage residue main-chain accessibility 13. Standard deviation of main-chain B-values 14. Standard deviation of side-chain B-values For each graph, unusual values (usually those more than 2.0 standard deviations away from the "ideal" mean value) are shown highlighted. Graph d: Secondary structure & average estimated accessibility The secondary structure plot shows a schematic representation of the Kabsch & Sander (1983) secondary structure assignments. The key just below the picture shows which structure is which. Beta strands are taken to include all residues with a Kabsch & Sander assignment of E, helices corresponds to both H and G assignments, while everything else is taken to be random coil. The shading behind the schematic picture gives an approximation to the residue accessibilities. The approximation is a fairly crude one, being based on each residue's Ooi number (Nishikawa & Ooi, 1986). An Ooi number is a count of the number of other Calpha atoms within a radius of, in this case, 14Å of the given residue's own Calpha. Although crude, this does give a good impression of which parts of the structure are buried and which are exposed on the surface. Future versions of PROCHECK will include an accurate calculation of residue accessibility. Graph e: Sequence & Ramachandran regions The next section shows the sequence of the structure (using the 20 standard one-letter amino-acid codes) and a set of markers that identify the region of the Ramachandran plot in which each residue is located. There are four marker types, one for each of the four different types of region: core (ie most favoured), allowed, generous and disallowed. Graph f: Max. deviation The small histogram of asterisks and plus-signs shows each residue's maximum deviation from one of the ideal values given on the residue-by-residue listing in the .out file. Refer to the final column of the .out file to see which is the parameter that deviates by the amount shown here. Graph g: G-factors The shaded squares give a schematic representation of each residue's G-factor values. (Note that the chi-1 Gfactors are shown only for those residues that do not have a chi-2, and hence no chi1-chi2 G-factor). Regions with many dark squares correspond to regions where the properties are "unusual", as defined by a low (or negative) G-factor. These may correspond to highly mobile or poorly defined regions such as loops, or may need further investigation. Plot 7. Main-chain bond length distributions Description The histograms on this plot show the distributions of each of the different main-chain bond lengths in the structure. The solid line in the centre of each plot corresponds to the small-molecule mean value, while the dashed lines either side show the small-molecule standard deviation, the data coming from Engh & Huber (1991). Highlighted bars correspond to values more than 2.0 standard deviations from the mean, though the value of 2.0 can be changed by editing the procheck.prm file. If any of the histogram bars lie off the graph, to the left or to the right, a large arrow indicates the number of these outliers (as in the C-O plot above). Significant outliers are shown on the Distorted geometry plots. Options The main options for the plot are:Number of standard deviations for highlighting outliers (default is 2.0). The plot can be in colour or black-and-white. These options can be altered by editing the parameter file, procheck.prm, as described here. Plot 8. Main-chain bond angle distributions Description The histograms on this plot show the distributions of each of the different main-chain bond angles in the structure. The solid line in the centre of each plot corresponds to the small-molecule mean value, while the dashed lines either side show the small-molecule standard deviation, the data coming from Engh & Huber (1991). Highlighted bars correspond to values more than 2.0 standard deviations from the mean, though the value of 2.0 can be changed by editing the procheck.prm file. If any of the histogram bars lie off the graph, to the left or to the right, a large arrow indicates the number of these outliers (as in the CA-C-O and CB-CA-C plots above). Significant outliers are shown on the Distorted geometry plots. Options The main options for the plot are:Number of standard deviations for highlighting outliers (default is 2.0). The plot can be in colour or black-and-white. Plot 9. RMS distances from planarity Description These histograms show the RMS distances from planarity for the different planar groups in the structure. The dashed lines indicate different ideal values for aromatic rings (Phe, Tyr, Trp, His) and for planar end-groups (Arg, Asn, Asp, Gln, Glu). The default values are 0.03Å and 0.02Å, respectively, but these values can be altered by editing the procheck.prm file. Histogram bars beyond the dashed lines are shown as highlighted. Options The main options for the plot are:RMS distance from planarity for highlighting outliers for ring groups (default is 0.03Å). RMS distance from planarity for highlighting outliers for other groups (default is 0.02Å). The plot can be in colour or black-and-white. Plot 10. Distorted geometry plots Description These plots shows all distorted main-chain bond lengths, main-chain bond angles, and planar groups. The parameters defining how distorted these properties need to be before being plotted here are given in the procheck.prm parameter file. For each main-chain bond length and angle plotted, the plot shows the ideal value (as defined by the Engh & Huber small-molecule data), the actual value, and the difference between the two. For each distorted planar groups, three orthogonal projections are plotted and the value shown is the RMS distance of the atoms from the best-fit plane. Options The main options for the plot are:Cut-off deviation from ideal bond length (Å). Cut-off deviation from ideal bond angle (degrees). Cut-off RMS distances from planarity. The plot can be in colour or black-and-white.
© Copyright 2025