JCord

Los textos disponibles para usar con JCord son los siguientes. Se trata de materiales hechos por José Ortega y Gasset. Al pinchar sobre cada texto se llevará el texto a la herramienta.

Creer y Pensar (Creer y Pensar en formato ASCII y formato XML)

La idea de la generación (La idea de la generación en formato ASCII y fomato XML)

El sentido histórico de la teoría de Einstein (El sentido histórico de la teoría de Einstein en formato ASCII y formato XML)

Verdad y perspectiva (Verdad y perspectiva en formato ASCII y formato XML)

Además, como se puede ver, hay una versión de cada archivo en formato ASCII y en formato XML (con la etiquetación producida anteriormente por las herramientas MACO+RELAX). Si se está utilizando el navegador Internet Explorer 5.0 o Mozilla se puede ver los códigos XML directamente. 

Notas:

1.    La herramienta JCord y cualquiera de los textos anteriores deberían aparecer en la ventana del navegador unos segundos después de haber pinchado en el enlace. Si se tarda más podría ser por razones de alto número de usuarios conectados al servidor o debido al tráfico en la red.

2.      A continuación hay una breve introducción a la herramienta JCord y algunas instrucciones de uso.

    JCord es una herramienta de concordancias. Una herramienta de este tipo permite a un usuario buscar regularidades léxicas en un texto dado. Es decir, que se puede buscar una palabra dentro de un texto y presentar los resultados de varias maneras, siendo las más típicas el texto completo con la palabra (destacada) cada vez que ocurre y una lista de todas las veces que ocurre la palabra con unas cuantas palabras que aparecen a cada lado.

   A diferencia de otras herramientas de concordancias, JCord no sólo puede hacer búsquedas por palabras dentro del texto sino búsquedas estructurales basadas en la composición lingüística de cada palabra, en concreto los lemas subyacentes. Se puede hacer este tipo de búsqueda porque JCord no trabaja sobre el texto directamente sino sobre una representación (en formato XML) de la información lingüística subyacente al texto producido anteriormente por otras herramientas de procesamiento de lenguaje natural incluidas en este proyecto. Por ejemplo, el siguiente fragmento:

 ‘El libro de los Estados’

    tendría la siguiente estructura:

<WRD VAL="El" >
    <LEX CAT="O" LEM="el" PAR="TDMS0" />
</WRD>
<WRD VAL="libro" >
    <LEX CAT="N" LEM="libro" PAR="NCMS000" />
</WRD>
<WRD VAL="de" >
    <LEX CAT="O" LEM="de" PAR="SPS00" />
</WRD>
<WRD VAL="los" >
    <LEX CAT="O" LEM="el" PAR="TDMP0" />
</WRD>
<WRD VAL="Estados" >
    <LEX CAT="N" LEM="estado" PAR="NCMP000" />
</WRD>

     Por lo tanto, al nivel del texto, a buscar la palabra ‘el’ (en minúscula) indicará: 

El libro de los Estados’

     Pero con la misma búsqueda al nivel de los lemas, la herramienta nos dará:

 El libro de los Estados’

    Como ‘El’ y ‘los’ tienen el mismo lema.

   Además, al pinchar sobre la palabra subrayada dentro de la página Web producida por JCord en la búsqueda, se abrirá una ventana que contiene la información lingüística subyacente a la palabra. En el caso del fragmento de texto anterior:

InfoLing.gif (7960 bytes)   

    La interfaz de JCord es la siguiente:

JCordInterfaz.gif (3808 bytes)

    Se pueden especificar las siguientes propriedades de una búsquda:

 §    La categoría de búsqueda, es decir, si se quiere buscar una palabra, un lema o la combinación de dos palabras o dos lemas separados por un maximo de 9 palabras. Veamos algunos ejemplos:

‘el’, categoría: Palabra (buscará todas las ocurrencias de la palabra ‘el’ dentro del texto).
‘el’, categoría: Lema (buscará todas las palabras en el texto cuyo lema es ‘el’).
‘el gato 3’, categoría DoblePalabra (buscará todas las ocurrencias de la palabra ‘el’ y la palabra ‘gato’ separadas por un maximo de tres palabras o signos de puntuación.
‘el gato 3’, categoría DobleLema (buscará todas las ocurrencias de palabras que tienen los lemas ‘el’ y ‘gato’ separadas por hasta tres palabras o marcas de puntuación. 

§      El modo de presentación, es decir, si se quieren presentar los resultados de la búsqueda dentro del texto original (modo: Texto) o como una lista (modo: KWIC), donde la unidad de texto buscada (Palabra, Lema, DoblePalabra, DobleLema) está presentado con unas cuantas palabras de contexto inmediato a cada lado.

§      Formato de presentación, es decir, si se quieren ver los resultados de la búsqueda indicados por hipervínculos (que, al pinchar, abrirán una ventana del navegador nueva) con la información lingüística subyacente a la palabra (modo: HTML) o como un documento de texto simple donde la información lingüística sobre las palabras está incluida al final del texto (modo: Texto Solo).