En esta ocasión quiero hablar de las expresiones regulares, una herramienta muy útil pero también un poco complicado de comprender.
Las expresiones regulares son una manera estándar de buscar y reemplazar de manera opcional apariciones de subcadenas y patrones de texto. Si no conoces las expresiones regulares, sólo piensa en los caracteres comodines que usa el indicador de comandos para indicar un grupo de archivos (como *.txt) o en los caracteres especiales que puede usar con el operador Like en las consultas SQL:
SELECT nombre,ciudad FROM Clientes WHERE nombre LIKE “A%”
Muchos expertos en computación han investigado a fondo las expresiones regulares, y algunos lenguajes de programación están excesivamente basados en ellas. A pesar de su mucha utilidad los programadores de Microsoft Windows rara vez usan las expresiones regulares, tal vez porque su sintaxis no es muy clara.
Aspectos Generales de las expresiones regulares
Microsoft .NET Framework viene con un motor de expresiones regulares muy poderoso al que se puede acceder desde cualquier lenguaje .NET, por lo que podemos usar es poder del análisis sintáctico de lenguajes como Perl sin tener que abandonar nuestro lenguaje favorito.
Fundamentos de las expresiones regulares
Regex es la clase más importante de este grupo, y cualquier código de expresión regular crea una instancia al menos de un objeto de esta clase (o usa uno de los métodos estáticos de Regex). Este objeto representa una expresión regular inmutable. Crearemos una instancia al pasar el patrón de búsqueda:
var re : Regex := new Regex('[aeiou]\d');
El método Matches del objeto Regex aplica la expresión regular a la cadena pasada como parámetro; devuelve un objeto MatchCollection, una colección de sólo lectura que representa todas las coincidencias que no se superponen:
var re : Regex := new Regex('[aeiou]\d');
//Esta cadena de entrada contiene tres grupos
//que coinciden en el Regex
var texto : String:= 'a1:= a1 + e2';
//Obtiene la colección de coincidencias
var mc : MatchCollection := re.Matches(texto);
//¿Cuantas apariciones encontramos?
Console.WriteLine('{0} concidencias',mc.Count);
Console.ReadLine;
También podemos pasarle al método Matches en segundo parámetro, que se interpreta como el índice donde comienza la búsqueda.
El objeto matchCollection contiene objetos Match individuales, que exponen propiedades como:
- Value.- La cadena coincidente que se encontró.
- Index.- La posición de la cadena coincidente en la cadena de entrada.
- Length.- La longitud de la cadena coincidente, que es útil cuando la expresión regular coincide con cadenas de diversas longitudes.
El código anterior despliega estas líneas en la ventana de consola:
a1 en la posición 0
a1 en la posición 5
e2 en la posición 10
El lenguaje de expresiones regulares
En las siguientes tablas presento una lista de todas las construcciones legales como patrones de expresiones regulares, agrupados en las siguientes categorías:
- Caracteres de escape.- Se usan para sustituir caracteres individuales. Los necesitamos para manejar los caracteres que no se imprimen (como los caracteres de nueva línea y de tabulador) y para proporcionar versiones de escape para los caracteres que tienen un significado especial en patrones de expresiones regulares. Junto con las sustituciones, éstas son las únicas secuencias que pueden aparecer en un modelo de reemplazo.
- Clases de caracteres.- Ofrecen una manera de hacer coincidir un carácter de un grupo que se especifica entre corchetes como en el ejemplo de [aeiou]. No necesita tener caracteres especiales de escape cuando aparecen entre corchetes, con excepción de los casos del guión y el corchete de cierre, que son los únicos caracteres que tienen un significado especial entre corchetes. Por ejemplo, [()[\]{}] hace coincidir paréntesis, corchetes y llaves de apertura y cierre. (Hay que observar que el carácter] es de escape, pero el carácter [ no lo es.)
- Aserciones atómicas de ancho cero.- Especifican dónde debe ir la cadena coincidente pero no consumen caracteres. Por ejemplo, la expresión regular abc$ coincide con cualquier palabra abc que esté inmediatamente antes del final de una línea sin coincidir con el final de la línea.
- Cuantificadores.- Especifican que una subexpresión se debe repetir un número de veces determinado. Un cuantificador particular se aplica al carácter, clase de caracteres o grupo que lo precede inmediatamente. Por ejemplo, \w+ corresponde a todas las palabras con uno o más caracteres, mientras que \w{3,} corresponde a todas las palabras con tres caracteres, cuando menos. Los cuantificadores se dividen en dos categorías: expansivos y laxos. Un cuantificador expansivo, como * y +, siempre coincide con la mayor cantidad de caracteres posible, mientras que uno laxo, como *? Y +?, intenta coincidir con la menor cantidad de caracteres que sea posible.
- Construcciones de agrupamiento.- Pueden capturar y nombrar grupos de subexpresiones, además de incrementar la eficiencia de las expresiones regulares con modificadores de búsquedas anticipadas y búsquedas tardías sin captura. Por ejemplo, (abc)+ coincide con secuencias repetidas de la cadena “abc”, (?<total>\d+) coincide con un grupo de uno o más dígitos consecutivos y le asigna el nombre total, que se puede usar después dentro del mismo modelo de expresión regular o para sustitución.
- Sustituciones.- Sólo se pueden usar dentro de un modelo de reemplazo y, junto con los caracteres de escape, son las únicas construcciones que se pueden usar en patrones de reemplazo. Por ejemplo, cuando la secuencia ${total} aparece en un modelo de reemplazo, inserta el valor del grupo llamado total. Los paréntesis no tienen un significado especial en un modelo de reemplazo, así que no necesita caracteres de escape.
- Construcciones de referencia inversa.- Nos permiten hacer referencia a un grupo anterior de caracteres en el modelo de expresión regular usando su número o nombre de grupo. Podemos usar estas construcciones como una manera de decir “coincidir otra vez con los mismo”. Por ejemplo, (?<valor>\d+)=\k<valor> hace coincidir números idénticos separados por un símbolo =, como en la secuencia “123=123”.
- Construcciones de alternancia.- Proporcionan una manera de especificar opciones; por ejemplo, la secuencia “Yo (tengo|tenía)” puede hacer coincidir las cadenas “Yo tengo” y “Yo tenía”.
- Construcciones diversas.- Incluyen que permiten modificar una o más opciones de una expresión regular en medio del modelo. Por ejemplo, A(?i)BC coincide con todas las variantes de la palabra ABC que comienzan con A mayúscula (como Abc, ABc, AbC, y ABC).
|
Categoría |
Secuencia |
Descripción |
| Caracteres de escape | Cualquier carácter | Los caracteres distintos de .$^{[(|)*+?\ equivalen a sí mismos. |
| \a | El carácter de alarma de campana (igual que \x07) | |
| \b | El carácter de retroceso (igual que \x08), pero sólo cuando se usa entre corchetes o en un modelo de reemplazo. De otra manera, coincide con el límite de una palabra. | |
| \t | El carácter de tabulación (igual que \x09) | |
| \r | El retorno de carro (igual que \x0B) | |
| \v | El carácter de tabulación vertical | |
| \f | El carácter de avance de página | |
| \n | El carácter de nueva línea | |
| \e | El carácter de escape | |
| \040 | Un carácter ASCII expresado en notación octal (debe ser de hasta tres dígitos octales). Por ejemplo, \040 es un espacio. | |
| \x20 | Un carácter ASCII expresado en notación hexadecimal (debe tener exactamente dos dígitos). Por ejemplo, \x20 es un espacio. | |
| \cC | Un carácter de control Unicode. Por ejemplo, \cC es control + C. | |
| \u0020 | Un carácter ASCII en notación (debe tener exactamente cuatro dígitos). Por ejemplo, \u0020 es un espacio. | |
| \* | Cuando la diagonal invertida va seguida de un carácter en una manera que no forma una secuencia de escape, coincide con el carácter. Por ejemplo, \* coincide con el carácter *. |
|
Categoría |
Secuencia |
Descripción |
| Clases de caracteres | . | El carácter de punto coincide con cualquier carácter, con excepción del carácter de nueva línea. Coincide con cualquier carácter, incluido el de nueva línea, si se usa la opción Singleline. |
| [aeiou] | Cualquier carácter de la lista entre corchetes de apertura y cierre; [aeiou] coincide con cualquier vocal. | |
| [^aeiou] | Cualquier carácter que no esté en la lista entre corchetes de apertura y cierre; [^aeiou] no coincide con vocal alguna. | |
| [a-zA-Z] | El carácter de guión (-) permite especificar intervalos de caracteres: [a-zA-Z] coincide con cualquier carácter en minúscula o en mayúscula; [^0-9] con cualquier carácter que no sea in dígito. Sin embargo, hay que tomar en cuenta que no coincide con las letras acentuadas. | |
| [a-z-[aeiou]] | Sustracción de clases de caracteres: cuando un par de corchetes está anidado en otro par de corchetes y va precedido de un signo de menos, la expresión regular coincide con todos los caracteres del par externo pero no con los del interno. Por ejemplo, [a-z[aeiou]] coincide con cualquier carácter en minúscula que no sea una vocal. | |
| \w | Un carácter de una palabra, que es un carácter alfanumérico o el carácter de subrayado, igual que [a-zA-Z_0-9] pero también excluye letras acentuadas y otros símbolos alfabéticos. | |
| \W | Un carácter que no es de una palabra; igual que [^a-zA-Z_0-9] pero también excluye letras acentuadas y otros símbolos. | |
| \s | Un carácter de espacio en blanco, que es un espacio en blanco, un tabulador, un avance de página, una nueva línea, un retorno de carro o un carácter de avance vertical; igual que [\f\n\r\t\v]. | |
| \S | Un carácter que no es un espacio en blanco; igual que [^\f\n\r\t\v] | |
| \d | Un dígito decimal; igual que [0-9]. | |
| \D | Un carácter que no es un dígito; igual que [^0-9]. | |
| \p{nombre} | Un carácter incluido en la clase de caracteres con nombre especificado por {nombre}; los nombre soportados son grupos Unicode e intervalos de bloques, por ejemplo, LI Nd o Z. | |
| \P{nombre} | Un carácter no incluido en grupos e intervalos de bloques especificados en {nombre}. |
2 diciembre 2009 a las 5:52 am
I am definitely bookmarking this page and sharing it with my friends.
7 diciembre 2009 a las 22:57 pm
Very extraordinary website.
The information here is genuinely valuable.
I will tell my friends.
Cheers
26 enero 2010 a las 1:56 am
The information here is great. I will invite my friends here.
Thanks
10 marzo 2010 a las 7:52 am
Gracias intiresnuyu iformatsiyu
21 mayo 2010 a las 13:01 pm
Thank you – I liked this post. Anyway the time will pass and we will see if you are right or not. Have a nice day and regards from New Zeland!
Chris
My site about computer alarm
23 mayo 2010 a las 14:01 pm
It’s very good article.
31 mayo 2010 a las 21:28 pm
Just want to say what a great blog you got here!
I’ve been around for quite a lot of time, but finally decided to show my appreciation of your work!
Thumbs up, and keep it going!
Cheers
Christian,Diet Guide!
5 junio 2010 a las 6:50 am
Thank you for your work. I have bookmarked your site and I will definitely read your other posts. Thanks again.
6 junio 2010 a las 20:51 pm
Just want to say what a great blog you got here!
I’ve been around for quite a lot of time, but finally decided to show my appreciation of your work!
Thumbs up, and keep it going!
Cheers
Christian,Earn Free Vouchers / Cash