El lenguaje y los estudios lingüísticos a menudo necesitarán datos sobre cómo se usan las palabras, especialmente a lo largo del tiempo. Si bien la investigación es una necesidad, es bienvenido contar con herramientas que le proporcionen los datos que necesita. Google Ngram Viewer es una excelente manera de encontrar rápidamente tendencias de palabras en la biblioteca de Google Books.
En esta publicación, le mostramos cómo usar Google Ngram de manera más efectiva. Primero, vamos a presentarle la herramienta.
Presentamos Google Ngram
Google mantiene una base de datos multilingüe del idioma publicado. Al escanear libros en masa, el gigante de las búsquedas puede procesar el texto y proporcionar estadísticas basadas en la frecuencia de las palabras.
Con el Herramienta de búsqueda Google Ngram Viewer, puede buscar a través de estos datos. Al comparar la popularidad relativa de las palabras, puede mapear cómo el idioma y la cultura han cambiado con el tiempo.
Sin embargo, la herramienta Google Ngram puede hacer mucho más que simplemente informar la frecuencia de las palabras, como veremos más adelante.
Cómo realizar búsquedas básicas
Antes de entrar en «tácticas» avanzadas, repasemos cómo realizar una búsqueda básica. Desde la página de Google Ngram, escriba una palabra clave en el cuadro de búsqueda.
Si desea incluir todas las mayúsculas de una palabra, marque el botón No distingue entre mayúsculas y minúsculas. Esta búsqueda incluiría «Tecnología» y «tecnología».
Debajo del cuadro de búsqueda, también puede establecer parámetros como el intervalo de fechas y el «suavizado». El último valor elimina picos y caídas atípicos de sus datos. Los valores de suavizado más bajos son más precisos, mientras que los valores más altos solo revelan tendencias más profundas.
Cómo seleccionar un «Corpus»
El corpus es la colección de texto que examinará Ngram Viewer. El valor predeterminado de «inglés» es aceptable para la navegación informal, pero puede ser muy académico.
“Ficción en inglés” reflejará más de cerca el lenguaje común. El corpus estándar en «inglés» puede ser de no ficción con muchas palabras técnicas.
Si bien el significado más profundo detrás de su elección de corpus está más allá del alcance de este artículo, Google ofrece una breve perspectiva en la elección correcta para usted.
Realización de búsquedas avanzadas
Al usar palabras de búsqueda adicionales, puede crear comparaciones complejas. Para ello, separe cada término con una coma.
El Visor de Ngram mostrará la frecuencia relativa de sus términos de búsqueda en un solo gráfico. Aquí, puede pasar el cursor sobre las líneas del gráfico para ver puntos de datos precisos.
También puede utilizar un asterisco en sus términos de búsqueda como comodín. Por ejemplo, «Licenciatura en *» devolvería resultados para muchos títulos de licenciatura.
Para encontrar todos los inflexiones de un terminoagregue el modificador «_INF».
Si una palabra incluye muchas partes del discurso, puede ser más específico usando operadores de texto. Las partes gramaticales válidas en la base de datos de Google incluyen todas las siguientes:
- _ADJ_: adjetivo (rápido, grande, inteligente)
- _ADV_: adverbio (rápidamente, más tarde, siempre)
- _PRON_: pronombre (su, eso, nosotros)
- _DET_: determinante o artículo (a, an, the)
- _ADP_: adposición (preposiciones y posposiciones)
- _NUM_: número (primero, segundo, quinto)
- _CONJ_: conjunción (y, ni, pero)
- _PRT_: partícula, que es una categoría general, rara vez utilizada para otras funciones de palabras
Cada uno de estos se puede combinar en frases. Por ejemplo, “_ADJ_ boy” devolvería pares de palabras para el adjetivo y “boy”.
Para especificar una parte específica del discurso para un término de búsqueda, añádalo al final. Por ejemplo, «water_VERB» sin un guión bajo al final. Para incluir todas las partes del discurso de una palabra dada, use el operador comodín después del guión bajo.
Variables funcionales, composiciones y dependencias
Las variables funcionales le permiten buscar por la función o ubicación de las palabras.
- _RAÍZ_ es un marcador de posición para la raíz del árbol de análisis de la oración. Este suele ser el sujeto principal o la palabra modificada por el verbo.
- _COMIENZO_ indica el comienzo de una oración. (“_START_ Presidente Obama” devuelve solo oraciones que comienzan con la frase “Presidente Obama”).
- _FINAL_ indica el final de una oración. (“_ADP_ _END_” devuelve oraciones que terminan en preposiciones).
Al combinar términos de búsqueda con operadores aritméticos, puede realizar un análisis matemático simple con valores para la frecuencia de los términos:
- + agrega múltiples expresiones en un término de búsqueda
- – resta la expresión de la derecha de la expresión de la izquierda, proporcionando una forma rápida de comparar el uso relativo de dos términos de búsqueda.
- / divide la expresión de la izquierda por la expresión de la derecha
- * multiplica la expresión para comparar ngramas de frecuencia muy variada. Asegúrese de incluir todo el ngrama entre paréntesis para evitar que el asterisco se analice como un carácter comodín.
- : (dos puntos) busca el ngrama de la izquierda dentro del corpus de la derecha.
Finalmente, puede establecer dependencias con “=>” para buscar relaciones lingüísticas.
Por ejemplo, «car=>fast» arrojaría resultados en los que «fast» dependía gramaticalmente de la palabra «car» o la modificaba. Esto se puede mezclar libremente con cualquiera de las operaciones de búsqueda avanzada.
Conclusión
La búsqueda de tendencias de palabras tiene muchas aplicaciones académicas. Una forma rápida de encontrar la información que necesita es la herramienta Ngram de Google. La buena noticia es que no solo te permite realizar búsquedas básicas. Puede aplicar poderosos modificadores para perfeccionar la información que necesita.
Ninguna de las funciones de Google Ngram sería posible sin el gruñido avanzado del motor de búsqueda bajo el capó. ¿Estás impresionado por lo que puede hacer la herramienta Google Ngram? ¡Háganos saber en la sección de comentarios!