Ok, so welcome to this session. In this session we are going to go through the contents of Unit 4 of the coursebook of this course, Aplicaciones Semánticas de la Lengua Inglesa, Diccionarios y Ontologías. And in this unit we talk, well, let me see whether, okay. The title is not correct. The title, as you know, is an introduction to lexicography and lexicology. Well, you can download the PowerPoint, as you know, and any doubts you can ask me now. While we are, while I am presenting or afterwards at the end. Okay. In this PowerPoint there are many links that are very interesting for your studies. This is only additional information, but I really recommend you go through them when you have time or if you have time. So what we are going to see in this session is, well, as you saw on the contents of the book or of the course, some basic notions related to the writing of dictionaries and everything this entails. Okay, the writing of dictionaries is a very complex procedure and we are going to see what it is about and also the different semantic applications that we need to handle in order for lexicography to accomplish the work properly. And also we are going to see distinctions between what lexicography is. As opposed to lexicology and the differences also with terminology and terminography, for instance, and the different lexicological, lexical, logical, lexicographical, terminological applications with the difference between all of them. Okay, so what is the job of the lexicographer basically? And why is it different from a lexicologist? Here you have a web page, unfortunately. Well, in this. Program, I cannot copy paste and introduce the link, but you can, as you, as I said, check on the PowerPoint and access the link. This interesting link where there is a small introduction to lexicography and also lexicology. The main difference we will see later on also is that let's say that everything that comes in logic is more related to the science, the theory. And lexicography, everything that has this suffix graphy has to do more with the practical application with the art and crafts, the arts and crafts of lexical, lexic, the lexicon. Another important difference between lexicography and lexicology is that is considered in this page. Is that in lexicography. Which is, in fact, the art and science of compiling dictionaries. We consider lexical units individual as we will see through the process of lemmatization. However, in lexicology, we consider lexical units as part of a whole compendium of other lexical units. And we analyze them as such. As part of a whole conceptual system, lexical system, et cetera. So we analyze the lexicon more as I said, not as individual words or as individual lexical items, but as part of a whole compendium. So we will need also the science of lexicology to compile our dictionaries, of course. So basically, as I said. Lexicography is considered the science and art of compiling dictionaries. So for lexicography, this scientific part is necessary. The science gives us the method. Let's say a science always has a kind of protocol of systematization procedures. And that's what we do in scientific disciplines. Art is more creative. And. It is. It includes also some part of creativity. It is included in the compiling of dictionaries. Why? As you will have seen, there are different types of dictionaries and there is always the when you see a dictionary. If you compare different dictionaries, also online dictionaries, you will see that that's why you have a practical exercise in the course, which is comparing an entry in different dictionaries because there is always differences. And this has to do with the hands of the compiler, of the lexicographer. Some lexicographers create definitions in a slightly different way. Or maybe they give more weight to the synonyms, to including synonyms or to including words in context. Or maybe they suggest collocations. Other lexicographers will give more strength to think. For instance, the the syntactic classification of words or the grammatical class or the the pronunciation, the derivation or even the etymology. Some in some dictionaries there are no there is no etymological information in other dictionaries. There is etc. So there are some basic parts that the dictionary needs to have all to be considered an adequate dictionary. But also there is always you see differences. And this is part of the. The the element art. OK, so a bit of history, as you have seen in the in the book, in the contents, the word dictionary already. So this is a very old science, a very old discipline because it already started in the 13th century. And the word dictionary was already used in the 14th century. And the first book published under the English title dictionary was Aladdin Latin English Dictionary by Sir Thomas Eliot. In this is the 16th century. So Latin was always present. The first translation, as you know, was the translation of the Bible. And apart from this, we have had Latin, the Latin translation and the Latin English dictionary. So what how was how did it start? Well, for a medievalist scholar for these years, they collected phrases or diction for the pupils that had to study Latin. Latin is also all these is also the meaning of the grammar translation method. In those years, the beginning of the teaching of languages also started in the medieval times with Latin. So in the medieval times, the purpose of dictionaries was glossing text and employing synonyms. So then synonyms were were very important. So what is the connection between lexicography and linguistic theory? Lexicography, as I said, is a practical the practical application of lexicological theory. But of course, it's closely related to linguistics. It is of paramount importance, as you can understand. And he gives oppression in 2009, gave already a certain principles of lexicographical work. I'm going to give some examples of what each of these principles mean. OK, what do we mean by each principle? So we can see this in a more simple way. The first principle reconstructing the pattern of the conceptualization and conceptualization. Underline lexical and grammatical meanings of a given language. This long statement is something very simple, but it is very complex and it's one of the most the biggest challenges in the compilation of dictionaries. It is behind word understanding how this word is conceptualized in a specific language and how how this conceptualization. Has to do with the specific culture and how to express it. This becomes particularly complicated with bilingual or trilingual dictionaries because, as you know, as we all know, language is a conceptual phenomenon. We have seen this in previous lessons in previous units, which means that behind a term or or lexical item or a lexical expression and expression. There is a concept behind it. This concept is created by a culture. And what is existent in a specific culture does not exist in another culture or the concept itself differs from one culture to the other. So how do we express it? What is the idea behind a concept? It is important to establish a frame under this culture. For instance, this is also given in previous units. The example a city media. Well, I wrote Chile media. I think it's also written like this city media. As you know, it's a specific type of rain that that and it's a word used in the past country because it is this type of rain where there are no big drops. But it's like becoming humid, getting humid. It rains, but you don't see the big drops. This type of rain doesn't exist in other parts of the world. So they don't have this this word city media. So if we are going to, for instance, to create a bilingual dictionary, are we going to include this word? How do we establish an explanation or definition for this concept of city media? OK, so this is these are questions without answer now. It's just for you to see what we mean by trying to understand the concepts that are underlying a word, a specific word. For instance, that we saw in previous units, the differences, the different types of bread that exist in France or in Belgium or in the north of Europe where they have 30 types of names for work for bread. And in Spain until very recently, there was only, Pan de Pueblo, Sobado, Hueco. And that was it. So because that was the bread we had until very recently. So then there is no need to include a word that doesn't have a concept that is not existent in our culture. Now we have more words, of course. Well, the second principle is integrated. Linguistic description in dictionary entry so that entries in a dictionary are sensitive to grammatical rules. So this is very simply put introducing certain indications about the lexical item, the grammatical class of the word, for instance, whether it is a verb, a noun, an adjective, an adverb, a preposition, whether it is a locative particle or a time preposition. Whether a verb is transitive, intransitive. This type of information. Okay. So this would be the linguistic description. The basic linguistic description we need to include in a dictionary. The third principle is searching for systematicity. Of course. What does this mean? In lexicon as manifested in various classes of lexemes, et cetera. Systematicity is very important and this is part of the scientific approach. As I said, a scientific discipline always has a system. A system means that we do things according to specific rules and we have a kind of protocol. It's like when you have to do the, you will have to do the bachelor's thesis, which is in Spanish trabajo de fin de grado. And then we will show you the different steps, one step by step of the research work. This is a systematic procedure and we have to do ABCDE. Okay. In different types of papers, there are many, maybe more open ways of writing a paper, of creating an academic work. But in general, we have a system. And the same happens with sciences, with pure sciences. For instance, in labs, they will probably have a very strict protocol on how to investigate certain things. So, systematicity has to do with this. Something systematic means that it is framed within a specific procedure and we always carry out the same procedure. Otherwise, we would get crazy when we analyze a dictionary and we see that each word or each item has different ways of notation, et cetera. That's why we need systematicity. The fourth principle is emphasizing meticulous studies of separate word senses in all of their linguistically relevant properties, explained in more simple words, semantic properties that are grammatically relevant. This has to do also with principle two. Welcome, Diego. For instance, the semantic properties of an adjective. We are going to describe this item according to its semantic properties and these semantic properties will have to do with its lexical class, for instance, whether in this case an adjective has certain properties, which is it goes close to a noun, it can modify a noun phrase or another will modify a verbal phrase, et cetera. And the last principle, it's no problem, the last principle, which is formulating rules governing the interaction of lexical and grammatical meanings in the text means, for instance, some basic rules that we need to know in order to understand how a lexical item is included, codified in a dictionary, for instance, whether the rules of synonymy, antonymy, hyperonymy, hyponymy. Hyponymy and hyperonymy are very important in dictionaries. For instance, scarlet is a hyponym of red because it is a type of red. More specific, so among the red color we have vermilion, scarlet and other reds. And red in turn is also a hyponym of color. It's a type of color. So we will use these lexical interactions to create our entries, to establish our definitions, to establish our word classes, et cetera. So these principles translated in a more simple way, as you have seen, are quite simple, but we need to take all of them into account. I guess a lexicographer after a few practices or years of practice, they do this more or less often. Automatically. But of course there is a lot of work behind, especially with the first principle, with the conceptualization of certain lexical items, especially with bilingual dictionaries as I said. So another important thing I wanted to highlight was this is very basic but it's very important. The difference between lexicology and lexicography as we have seen at the beginning and also the difference between terminology and terminography and also the difference between the first group, lexicology and lexicography, as opposed to terminology and terminography. You probably have already understood this, but just in case I'm just going to review it. The suffixes logi- as opposed to grafi- have to do with the idea of science. Logi has to do more with the theory, the theoretical aspects, and grafi has to do more with the arts and crafts or the practical aspects of a discipline. So, for the application, lexicography. For lexicography and for terminography we will need the theoretical aspects that the disciplines of lexicology and terminology study. Lexicology will have to do with the science of the lexicon. It will analyze lexical items in context in combination with other lexical items, alone, etc. It will create the theoretical framework that will be later on used by the arts and crafts of lexicography. The same for terminology and terminography. And then, what is the difference between lexicology-lexicography and terminology-terminography? In the first place, terminography and terminology have to do with a specific lexicon what we call language for specific purposes. A term is a specialized lexical item that belongs to a specific field. For instance, the terminology of aircrafts, aircraft terminology. If we are going to translate a handbook or an instruction, a manual for a pilot in a plane, for instance, or a helicopter, we need specific terms. And this will be part of the science of terminology. And also, a terminographer will be the one compiling these terms. It has a semaseological approach. We have seen before that onomaseological and semaseological approaches in the end are combined with each other, so they are not independent from each other. But it has to do more with how where we put the emphasis and the focus. In a semaseological approach, we go from the term to the concept. So we first focus on the terms. So which are the terms used in this field? We compile the terms and then we try to give them a definition, a meaning, a sense. We try to identify the concepts that are behind these terms. But what is important is the terms, the compilation of the terms. I mean, it's not the most important over the concepts. What I mean is that that's how we start. First from the term and then to the concepts. In the onomaseological approach that is part of the lexicographical work or in lexicology we go we also focus on the concepts themselves. So we see for these specific concepts what are the terms used? What are the words used for a specific concept? So we are more focused on the meaning, on the contents behind words. We go now to the third point which is meaning and dictionary entries. This is the main point of today. We are going to see the difference between dictionaries, thesaurus and glossaries. Probably you know already but we are going to just review it. The most important is to distinguish between a thesaurus and a dictionary and a glossary because dictionaries and glossaries have similarities let's say. A thesaurus well as I said Diego before that you were not still here the powerpoint that you can download includes links. This is a link but here I cannot access the link but I include it so that you can already navigate through the links or later on when you have the time. There are different links in the powerpoint that are very interesting and very useful. What is a thesaurus? There are many definitions for a thesaurus. What is important is a thesaurus is organized according to a concept, a semantic area. Words are grouped together which are similar in meaning whereas in a dictionary we have words and in a glossary they are organized alphabetically. This is the main difference. In a thesaurus they are associated through semantic relationships and the semantic relationships are as Aitchinson and Azizet point out equivalence, hierarchies, associations. This can be for instance a hierarchical can be hyponyms and hyperonyms. Associations can be for instance I don't know for instance feelings, emotions. Positive emotions maybe are associated with the idea of happiness or maybe with the idea of money and negative emotions can be associated with the idea of death or loss or stress for instance, work. So this can be also associations. This is also something very it's a trend nowadays. Sentiment analysis for instance is based on this type of association. Sentiment analysis there are nowadays programs where you can do text mining and then you can see what is the most the associations that certain words have. For instance, I was in the conference I was talking about before which is the annual conference of the Spanish linguistics Applied Linguistics Association AESLA. Some colleagues from the University of Malaga did a very interesting investigation about the connections we made of happiness. So what are through a corpus? The corpus they analyzed they used I can write them down also in the forum later on that you can investigate the applications. I don't remember now the type of applications but they are available on the web to analyze these associated relationships the words that we use more that we relate to happiness and some words appear in different conceptual areas for instance the idea of precisely satisfaction appears with the area of consumption surprisingly in a consumer society as we have with the idea of having money apparently having money consuming things new things also appear new things or new experiences are also associated to happiness and this is for instance something related to associations ok in a dictionary and in a glossary the list is alphabetical we will see now more on dictionaries the difference between a dictionary and a glossary is that a glossary is just a selection of words that appear in a specific area and a dictionary will include all the words of for instance of a language but in a glossary for instance you have now in the course book it's just an example and you have glossaries in many other specialized works which is selecting the terms that have appeared in a specific word and listing them alphabetically at the end of the word and then including a definition so it's a selection of words according to a specific conceptual area here you have also examples of thesaurus and an interesting one that I like very much is this visual thesaurus because here you also see already these associations that I mentioned in a visual way and nowadays with this with the advance of technologies and the tendency we have in society to eh to become more cognitively focused on visual on the visual there are a lot of um semantic applications that are tending to this not only with thesaurus or terminologies conceptual databases etc so as I said the glossary is a restricted type of dictionary eh um here you have examples of digital glossaries eh a collection of glossaries in this link and also online bilingual and multilingual dictionary resources um and um we have finally the terminal types of dictionaries we have two types of dictionaries basically linguistic dictionaries which are the prototypical dictionaries which are general purpose dictionaries normally eh these prototypical dictionaries are monolingual although as you know we can also have bilingual dictionaries especially for eh language learning purposes but it it's also for translation purposes and interpreting purposes and terminological dictionaries which are eh specific areas of knowledge this has to do with terminology and terminography in terminography they will design terminological dictionaries which are also called as we said language for specific purposes eh dictionaries for instance um a dictionary or law a law dictionary or an economics eh dictionary or a fashion dictionary two other criteria for instance a time perspective we have diachronic and synchronic dictionaries diachronic dictionaries eh are less frequent but they are also very interesting for instance in eh the study of the history of the english language we have the ox for the old english dictionary the bosworth and toller we also have um synchronic dictionaries of a specific period in time for instance middle english dictionaries eh also there are differences according to how eh entries are treated how we arrange the entries how we visualize an entry how we arrange it that's what we were saying before eh what this is part of the arts and crafts of designing a dictionary that's why not all dictionaries are the same and we will choose eh dictionaries according to our purposes or to how we like them that's why sometimes we say oh i prefer the oxford dictionary because in the oxford dictionary the definitions are better or i prefer eh longman dictionary because they give eh diachronic explanations and they they give eh also etymological information and in this other dictionary or things like this you know eh and also the use of certain words we have for instance the maria moliner in spanish which is a dictionary that has to do with the uses of spanish if i'm not mistaken eh and also the grammar eh the grammar it gives grammar rules etc which is eh handy for for instance well spanish translators spanish philologists or people who teach spanish they can be updated through this type of dictionaries and and finally as i said there are monolingual or bilingual dictionaries eh bilingual dictionaries are less common but of course they are also very very important especially they're very important when you start with online bilingual dictionaries we have a lot eh word reference eh lingua is a corpus based eh bilingual dictionary because it also establish frequencies of collocation i don't know if you have any information about but if you don't have any information the language of the language of the language of the language you can find different types of dictionaries and you have probably put that into practice we have the pronunciation with phonological and sometimes even phonetic and sometimes even phonological notation the word citaciones, así que ejemplos en uso, cómo se usa esta palabra en contexto, lo que es muy útil cuando estamos aprendiendo una lengua, por ejemplo. Al menos fue muy útil para mí. Vamos a ver aquí solo un ejemplo, ya que no puedo entrar en los enlaces, pero puedes hacerlo. En los diccionarios de Oxford Learning, esta página web incluye muchos tipos de diccionarios. Este es el diccionario de lenguaje avanzado y, como ves, por ejemplo, no solo incluye el lema, también da una indicación del nivel de la palabra según el nivel de aprendizaje de lenguaje, que es un nuevo tipo de información que no era aplicable hace 20 años, pero ahora está empezando a ser usado, lo cual es bastante interesante. Luego tenemos los diccionarios digitales tienen el gran beneficio de que no sólo tenemos la fonética, los símbolos simbólicos, que a veces para el lema no son entendibles, pero también podemos clicar en el icono y escuchar la pronunciación. Da información gramática de la forma, por ejemplo, información morfológica. Esta es la forma plural de hombre, hombre. También hay idiomas aquí, que es una característica que no estaba incluida o expresiones que se usan, bueno, colocaciones, colocación e información de esta palabra específica, por ejemplo, qué significa el mejor hombre, la sala de hombres, el líder del hombre, etcétera, que es el mejor hombre, tiene un significado en sí mismo, por eso se llama colocación, pero también es mucho más fácil navegar a través de un diccionario digital porque podemos clicar aquí y luego vamos directamente a este tema. Cuando estamos en un diccionario de papel, tenemos que ir a través del papel, etcétera. También, perdón, en cualquier caso, es una cuestión de gusto, si somos más analógicos o digitales, pero como ven, los diccionarios digitales incluyen hoy en día diferentes tipos de información, información adicional a los básicos tipos de información que tenemos. Aquí, por ejemplo, no hay información etimológica. Muy brevemente, pasando por este punto del texto de curso, que es la diferencia entre la definición de significado y la definición de diccionario. Es sólo para que puedas ir a través de ello rápidamente porque no es tan importante, pero lo que es esencial es que distinguimos que hay estos dos tipos de definiciones. ¿Cuál es la diferencia entre los dos tipos de definición? ¿Cuál es la diferencia entre una definición de diccionario y una definición de significado? La definición de significado es normalmente la manera en la que los lingüistas en el pasado, digamos, 40, 50, 60 años han tratado de establecer definiciones de significado para crear un sistema para comprender el fenómeno de lenguas. Es por eso que lo tenemos. Y tú tienes esto. esto en el curso de semántica y probablemente en el curso de síntesis, tenemos diferentes teorías lingüísticas, gramática generativa, gramática funcional, gramática cognitiva, gramática de rol y referencia, gramáticas estructurales, etcétera, y todas ellas tratan de lidiar con esta definición de significado. Crean un aparato notacional, una forma de definición, no solo de palabras, sino también de clases o de sentencias. Tratan de entender los mecanismos semánticos subyacentes dentro de estas expresiones lingüísticas y todas usan diferentes, que para mí, entiendo, es como el gobierno cuando implementa una nueva ley y luego el nuevo gobierno viene e implementa otra nueva ley en lugar de tratar de jugar con la misma ley o mejorarla, simplemente toman la ley anterior y crean una nueva ley. Bueno, esto es lo mismo. Ellos tratan de crear su propio aparato notacional, su propia simbología y todos los lingüistas o las personas que estudian idiomas, tenemos que aprender cómo esto funciona. estructuras de lenguaje que son más sintácticas. Así que podemos entender de una manera que tienen aparatos notacionales. Pero este tipo de significado y hacer sentido de la lengua, que el final en todos los tipos de aparatos notacionales es hacerla crosslingüística, es muy diferente de una aplicación práctica de una definición como en la definición diccionaria. En la definición diccionaria hay una definición más o menos convencionalizada de conceptualización de un objeto. Todos nos acordamos, por ejemplo, que el rojo es una color que es un tipo de color digamos que esta sería una definición o el hombre es una persona masculina. Todos nos acordamos de esto. Creamos definiciones simples que son convencionalizadas y que nos ayudan a entender el significado de esa palabra. Es mucho más, digamos, hacia abajo, ¿de acuerdo? Esa es la diferencia entre una diccionaria, la definición en una diccionaria y entender el significado a través de disciplinas lingüísticas. Y finalmente vamos al punto de escribir una diccionaria y anotación corpus. ¿Por qué tenemos esta sección? Porque necesitamos corpora para escribir una diccionaria. Para compilar una diccionaria. Este es un libro muy interesante. Esta palabra corpora en el PowerPoint va a un enlace que es englishcorpora.org En este enlace tienes un montón de corpora de inglés. Uno de mis favoritos para mi propósito de investigación ha sido el corpus de coca que es el corpus contemporáneo de inglés americano. Pero ahora ha sido por cierto supersedido por otros tipos de corpora con la emergente de la era digital. Tenemos el corpus nacional británico y el corpus de coca que se han convertido, no en obsoletos, pero muy como un duérfano contra el gigante. Hay corporas que tienen billones de palabras y expresiones, etc. Así que corporas gigantescas que incorporan una cantidad increíble de datos. Porque, como vimos en las unidades anteriores, son compiladas no sólo por los humanos como las corporas anteriores, las corporas tradicionales, sino también hay mecanismos, compilaciones de máquinas de corpora. Aunque siempre necesitamos, y todavía lo hacemos hoy en día, siempre necesitamos la revisión humana, pero no es necesaria Por ejemplo, para este tipo de compilaciones. ¿Qué significan las características de un corpus? Bueno, el encodamiento y la anotación del texto. Significa que un corpus es enganchado con diferentes tipos de información lingüística. Dependiendo del tipo de corpus que tengamos y los propósitos de ese corpus, tendremos diferentes formas de taggear la información que tenemos en este corpus para nuestros propósitos. Así que esta anotación tiene diferentes formatos. Bien, por ahora no hay formas de representar la información en el texto, pero hay una tendencia hacia la estandarización. Una práctica estándar, más o menos estándar, es conocida como referencia COCOA. COCOA era un programa de computador que se usó para, así que es un antiguo, se usó para extraer los índices de palabras en el contexto de textos legibles de máquina. Sus convenciones fueron llevadas hacia varios otros programas, por ejemplo, los programas de concordancia de Oxford o el corpus de Lancaster y el corpus de Helsinki, que son muy famosos y los más antiguos comparados con la cantidad actual de corporaciones que tenemos. Así que es una forma de estandarizar la anotación en corpora. Aquí tenemos algunos ejemplos de cómo se puede usar la referencia COCOA, aunque hoy en día hay muchas corporaciones que no aplican este tipo de anotación, pero es bueno ver algunos ejemplos. Por ejemplo, estas agujas de ángulo para incluir, por ejemplo, un autor, el nombre del autor fue usado con estas agujas de ángulo, por ejemplo. Hoy en día este es un enlace muy interesante. Siempre hay una tendencia a la estandarización como dije y el proyecto más popular fue, y aún lo es, la iniciativa de encodamiento de texto que fue un proyecto muy, muy esponsorizado. Trata de implementar implementaciones estandarizadas para intercambios de texto Esto lo haría increíblemente rápido, increíblemente económico en términos de gestión de datos y lo ha hecho en la web semántica. Ha sido especialmente importante. Esta iniciativa de encodamiento de texto es una forma de marcado documental que se conoce desde el principio como lengua de marcado generalizada estándar. La lengua de marcado generalizada estándar es la lengua típica de HTML que todos sabemos. Eso es como empezó. Y en este enlace hay algunos tutoriales sobre esto. Explica en palabras muy simples cómo todo esto empezó con la lengua de HTML y esta iniciativa de encodamiento de texto. Veamos algunos tipos de anotación que podemos encontrar en Corpora. Primero, el tagging. El tagging es lo que llamaremos anotación. Anotación y tagging son casi iguales. El tagging incluye ciertos tags. Y el tagging puede ser usado como sinónimo de anotación y a veces es usado como tipo más específico de anotación porque con los tags incluimos códigos especiales que indican funciones particulares. Pero, por ejemplo, la segunda parte de anotación de lengua también está denominada y encontrarás información sobre esto en la web clickeando en la parte de tagging de lengua. Así que, en este sentido como dije hay una tendencia a usar anotación y tagging intercambiables. La parte de anotación de lengua es la más básica que incluye información sobre el objeto lexical para disinvecuación por instantes no es el mismo y funciona como un verbo. Así que, para disinvecuación es interesante incluir este tipo de información sintáctica. Ya en los años 80 el equipo ucraniano de Lancaster University reportó un 95% de la tasa usando el programa CLOS. CLOS aún está en uso hoy en día con esta parte de tagging de lengua. Lematización todos estos tipos de anotación pueden ser presentes o todos a la vez o dos de ellos depende del corpus. Lematización es la que como vimos usamos en diccionarios necesitamos encontrar la forma de palabra la forma de la palabra esta será la lengua y cómo distinguimos el lexim de la lengua porque el lexim es la idea abstracta de este grupo de variantes de este grupo de lexim que compone todo el lexim. kicks, kicked, kicking esto es todo el lexim con todos estos elementos lexicales y la palabra será la forma de la palabra que usaremos por ejemplo para compilar un diccionario y también para ponerlo en el corpus. Tenemos programas de computación que pueden hacer esto y se llaman lematizadores esto ya ha sido computado Espera, porque no veo en esto necesito parsing Parsing es un tipo de anotación ¿Qué hace? Parsing es muy importante con la terminología y terminografía especialmente Las corporas de parsing también se llaman tres bancos porque hacen marcas de frases tiene que ver con frecuencia de palabras y establece categorías morfosintácticas en relaciones. Por ejemplo las semánticas de relaciones morfológicas describen significados que se agregan cuando un verbo se convierte en una palabra da mucha información por ejemplo el verbo quitar no indica cuántas veces ha quitado la cantidad el verbo no codifica la categoría de cantidad pero la cantidad en este caso es una función semántica de un noun en un parser veremos estas funciones semánticas o funciones sintácticas de entidades semánticas implementadas a la categoría específica por ejemplo en este caso la cantidad sería excluida del parsing semántico de un verbo es como dar información sintáctica de objetos lexicales y luego anotación semántica puede ser realizada con diferentes símbolos hay un ejemplo incluido en el libro por ejemplo un término de contenido bajo tiene muchos números todos nuevos números vida planta en general y luego incluye anotación numérica así que la anotación semántica incluiría conceptualizaciones información semántica como ropa partes del cuerpo esto lo voy a pasar rápido porque está en el libro era sólo mencionar que esto ya se hizo en los 90 fue usado por Schmid y lo usó para crear estructuras jerárquicas para analizar lenguaje, relaciones semánticas, etc y puede ser aplicado a la web semántica para ser usado por computadoras también podría ser un tipo de anotación ontológica y será seguro usado en el diseño de ontologías y hay modelos de anotación semántica diferentes como dije, uno de ellos es el uso de dígitos, números y finalmente tenemos la anotación de discurso la anotación de discurso no es tan común pero también podemos encontrar algunas corporas por ejemplo en español tenemos el Corpus del Español Hablado donde incluimos tags o anotaciones relacionadas con categorías de discurso en este caso por ejemplo, el Corpus Hablado de Londres incluye ya en los 80 16 tags de discurso por ejemplo, Apologies, Greetings, Hedges puede ser muy útil para la análisis de discurso y usaremos una anotación anafórica en este caso una anotación anafórica puede ser relacionada con la anotación de discurso pero también puede ser independiente de la anotación de discurso una anotación anafórica puede ser realizada a través del uso de pronunciamientos, repeticiones o sustituciones todo lo que tenga que ver con referencias cruzadas en un texto ya sea oral o texto escrito tenemos la Anáfora de IBM o la Anáfora de Lancaster esto ha sido menos común por ahora como dije porque es más difícil compilar pero hoy en día con el uso de las tecnologías digitales nada es más difícil y finalmente tenemos colocaciones anotaciones y colocaciones son muy importantes en la corporación porque tiene que ver con frecuencia y frecuencia es muy común y ha sido analizado recientemente no en los últimos años pero en los últimos 20 años tenemos también Word Smith Tools que es un programa de concordancia lo he incluido también aquí en este PowerPoint y también tenemos en el libro de cursos pero en este PowerPoint también diferentes programas de concordancia y programas de alineación estos programas de concordancia son muy útiles por ejemplo también para las tecnologías tecnológicas aquí solo incluí dos bueno escenarios porque como dije no puedo entrar en los links que les di pero es sólo para darles un ejemplo de la cantidad de corporación y esto es sólo el comienzo de la página web si lo pasas verás que hay muchas más corporaciones es llamada News on the Web ahora y tiene 15 millones de textos de palabras incluye 20 países y es sólo de los últimos 12 años el corpus web inteligente que es el segundo corpus más grande es de 14 millones de textos de palabras y está basado en la web así que como puedes ver el corpus coca antes fue tomado de algunas noticias revistas, etc. hoy en día con la web puedes ver la cantidad increíble de textos y palabras que tenemos si lo comparamos con por ejemplo el corpus de televisión o el corpus de películas tenemos 325 millones de palabras o 200 millones de palabras es elaborado de películas y de programas de televisión así que la cantidad de conocimiento que hemos producido en los años 50 desde los años 50 o 30 hasta hace 4 años cuando terminó la compilación esto significa que en los últimos 70 años de producción de películas compilando palabras imagina la diferencia que es en 70 años 320 millones de palabras han sido compiladas comparado con los últimos 12 años 15 millones de palabras la Internet ha cambiado la cantidad de datos que tratamos obviamente como dije estas son algunas instrucciones que tenemos en esta página web tenemos que sugerir cómo usar el corpora están facilitando instrucciones para los leyes para usar el corpora este corpora se usa por todo tipo de empresas lingüistas pero también para la educación para los propósitos comerciales etcétera podemos buscar una lista de frecuencias que es como dije uno de los usos más frecuentes del corpora puedes buscar palabras individuales pero puedes ver colocaciones clústeres temas concordancias casi sentencias y puedes encontrar palabras raras o encontrar la palabra del día estas son solo cuatro sugerencias sobre cómo usar corpora y finalmente aquí he incluido un enlace muy útil que se llama corpus analysis en este enlace tienes 266 herramientas cada año este sitio se vuelve más y más actualizado con nuevas herramientas en realidad aquí como puedes ver puedes sugerir una nueva herramienta y hacer sugerencias correcciones esta es la web la web 3.0 es esto este es un ejemplo claro de la web semántica en el momento de todos contribuyen a la web y incluso sugerir correcciones cambios, etc si vas a hacer tu tesis de doctorado tu tesis de maestro aquí puedes encontrar todo tipo de herramientas para hacer lingüística de corpus pero también puedes encontrar concordancias colocaciones visualizaciones y todo lo que quieras y finalmente para las bases de datos terminológicos están interesados en estas bases de datos que son oficialmente digamos las más institucionales porque han sido desarrolladas la primera UNTERM es la base de terminología de las Naciones Unidas Europa es la base de terminología creada por la Unión Europea y también tenemos MemoQ o Temer Sciences que son también muy interesantes las bases de datos terminológicos con información visual así que eso fue todo por ahora si quieres hacer alguna pregunta puedes hacerlo ahora o usar el foro gracias por ver hasta aquí