GemaPopera
by on January 5, 2023
114 views

Los grandes modelos de lenguaje generativo como GPT-2 son bien conocidos no solo por su capacidad de generar texto altamente realista sino también por su utilidad para tareas comunes posteriores. Sin embargo, cómo y en qué entornos se puede aprovechar mejor estos poderosos modelos de lenguaje sigue siendo una pregunta incipiente de investigación. En este trabajo, exploramos su uso para predecir la “calidad del lenguaje”, una noción de coherencia y comprensibilidad del texto.

Nuestro hallazgo clave es que, cuando se entrena de manera autodiscriminada, los modelos de lenguaje grande emergen como predictores sin supervisión para dicha calidad del lenguaje. Esto permite el arranque rápido de indicadores de calidad en una configuración de bajos recursos. Realizamos un extenso análisis cualitativo y cuantitativo de más de 500 millones de artículos web, el estudio a mayor escala realizado sobre este tema.

Los primeros trabajos en este ámbito, se han centrado en modelos basados, por ejemplo, en n-gramas. Se han centrado en aprovechar modelos lingüísticos preformados, por ejemplo, explotando las características, de los resultados del modelo lingüístico. GLTR [13] utiliza características de top-???? token Rank, obtenidas a partir del acondicionamiento de un modelo lingüístico en el de entrada.

GLTR, también se puede utilizar en un entorno de disparo cero en el que las probabilidades asignadas, pueden utilizarse como detectores sin ningún tipo de entrenamiento.

Los modelos generativos, como Grover [35] y GPT-2, igualmente, pueden utilizarse para la detección a nivel de secuencia.

Se propone, entrenar un modelo que aprenda a clasificar una secuencia de texto humano por encima, de las mejores generaciones de máquinas, preparadas de texto humano en cualquiera de los extremos de la secuencia. Su modelo, obtiene buenos resultados cuando las distribuciones de entrenamiento y prueba son similares, pero tiene dificultades para generalizar cuando no coinciden.

En la actualidad, un estudio reciente, propone la tarea de detección, de predecir la fuente de un modelo generador (es decir, la arquitectura del modelo generador y los hiperparámetros), a partir de muestras de texto generado. Los autores de este estudio, señalan que la tarea puede ser bastante fácil en determinados casos.

 

¿Mal uso de la IA para la creación de contenido?

Los modelos neuronales generativos, pueden utilizarse de varias maneras. La más directa, es la creación de contenidos con intenciones maliciosas. OpenAI llevó a cabo un estudio para caracterizar el uso y la detección de GPT-2. El estudio informa, que su "monitoreo de amenazas no encontró evidencia de un uso indebido directo de GPT-2 en foros de acceso público, pero sí observaron, discusiones sobre su uso indebido" y que "varios gobiernos han experimentado con GPT-2 y otros modelos lingüísticos".

 

Para qué es buena idea, usar la IA para la creación de contenido.

La idea generalizada es que usar IA, para la generación de contenidos es algo perjudicial o que su calidad, es inferior, con respecto al contenido creado por los humanos. Pero no siempre es así, el contenido generado por IA, tiene aplicaciones muy útiles, como la corrección gramatical, la traducción automática neuronal, que, además, puede considerarse un paso positivo hacia la accesibilidad global, para los videojuegos, ayuda en programación, en escritura, en generación de poesía…

 

Calidad de los textos creados por IA.

En cuanto a la calidad del contenido generado por IA, los estudios deducen que, capta la coherencia local entre las frases y demuestra su uso en tareas de evaluación de legibilidad y puntuación de ensayos, pero tiene dificultades para percibir la diversidad. Por lo tanto, se apuesta por construir modelos, que capten tanto la diversidad como la calidad.

 

Evaluación de la calidad lingüística.

Definimos una calidad lingüística (CL) según los siguientes criterios:

- 0: Calidad lingüística baja. El texto es incomprensible o lógicamente incoherente.

- 1: Calidad lingüística media. El texto es comprensible, pero está mal escrito (errores gramaticales y sintácticos frecuentes).

- 2: LQ alto. El texto es comprensible y está bien escrito (errores gramaticales / sintácticos poco frecuentes).

- No definido: LQ es difícil de evaluar por cualquier motivo.

Evaluamos nuestros modelos IA, frente a los humanos y la línea de base utilizando este criterio. Para evaluar mejor la calidad lingüística, primero filtramos Web500M eliminando todas las muestras con menos de 7,5k caracteres.

A continuación, definimos 3 categorías en el corpus filtrado de Web500M filtrado utilizando los percentiles de la puntuación del clasificador: inferior = [0, 0,5], medio = [50, 50,5], superior = [99,5, 100]. A los documentos, se asignan puntuaciones LQ de 2, 1 y 0, respectivamente, 1 y 0, respectivamente. A continuación, dos evaluadores humanos, utilizando los criterios antes mencionados. Se calcula el coeficiente de correlación de Pearson, entre las puntuaciones LQ, junto con un intervalo de confianza bootstrap del 95%. Para la fiabilidad entre evaluadores, o grado de acuerdo entre dos evaluadores, calculamos el coeficiente kappa de Cohen, junto con un intervalo de confianza bootstrap del 95%.

Se concluye que, los documentos con una puntuación P (escritos por IA) alta, tienden a tener baja calidad lingüística.

Los modelos entrenados para la detección de spam de forma supervisada, la detección automática de la autoría, puede ser un potente indicador de la evaluación de la calidad. No requiere ejemplos etiquetados, sólo un corpus de texto, con el que entrenarse de forma autodiscriminación. Esto, es especialmente valioso, en aplicaciones en las que escasean los datos etiquetados o en las que la distribución, es demasiado compleja para un buen muestreo.

 

 

Rendimiento de los detectores.

Contrariamente a nuestra intuición, encontramos que, el detector OpenAI se generaliza a la distribución Grover, que el detector GLTR, más sencillo. A diferencia de regresión logística GLTR, la distribución de las puntuaciones del detector de OpenAI, está bien separada: las puntuaciones son, o bien, pequeñas o grandes. OpenAI, tiene un mejor rendimiento predictivo, frente a la discriminación humana, así como, una mayor correlación con las etiquetas LQ calificadas por humanos.

Observamos una explosión en la fracción de documentos de baja calidad a principios de 2019. Una posible explicación, está en la madurez de la tecnología para la generación rápida y de aspecto realista de texto.

En función de la longitud del texto, sin truncar, teniendo en cuenta que los documentos más cortos son más comunes en la web, observamos que el contenido de baja calidad, tiende a ser más corto, alcanzando un máximo de 3000 caracteres.

 

Análisis temático.

Analizamos seis categorías temáticas de alto nivel: Noticias, Adultos, Derecho / Gobierno, Gente / Sociedad, Ciencia y Libros / Literatura. Basándonos en nuestros resultados empíricos, comprobamos que, las distribuciones de puntuación varían significativamente en función del tema. Entre todas las distribuciones temáticas, observamos que una gran fracción de documentos de la categoría Adulto, son marcados como de baja calidad.

Los temas de Derecho / Gobierno y Ciencia con menor calidad, lo que sugiere que estos dominios, atraen a creadores de contenidos de mayor calidad. Alimentos, interesante, es naturaleza uniforme, mientras que Salud y Personas / Sociedad siguen una forma convexa, con un gran número de documentos caen claramente cerca de 0 y 1.

Nos parece curioso que el dominio Libros / Literatura como de baja calidad, ya que cabría esperar que consistiera de prosa de alta calidad. Tras una inspección más detallada, encontramos de "granjas de ensayos", sitios web que intentan vender a los estudiantes. Además, el inusual número de documentos cerca de 1 para Salud puede deberse probablemente a sitios web, que venden "productos de salud para adultos".

 

Análisis de términos frecuentes.

Según nuestras observaciones, la actualidad cambia drásticamente en los distintos rangos de puntuación. En las puntuaciones bajas, los términos más frecuentes son aplicaciones web normales. Sin embargo, a medida que las puntuaciones se acercan a 1, observamos una gran presencia de términos NSFW. Para garantizar que las nubes de palabras no lenguaje inapropiado, todas las nubes con puntuaciones > 0,5.

En primer lugar, la aparición de las palabras clave "ensayo", "redacción" y "tesis" coincide con la aparición de documentos de baja calidad en el tema Libros / Literatura y es un indicador de la presencia de granjas de ensayos.

En segundo lugar, encontramos palabras clave como "viagra" que pueden explicar el pico de baja calidad que observamos en la distribución temática Salud.

 

Análisis cualitativo.

En esta sección se presenta información cualitativa clave sobre el tipo de documentos web que nuestro modelo considera de baja calidad.

- Texto traducido automáticamente -Encontramos documentos web, que parecen haber sido traducidos del inglés a otro idioma y luego de vuelta al inglés.

- Granjas de ensayos - Encontramos granjas de ensayos que venden servicios de redacción, la figura 8 muestra la distribución de la puntuación de las páginas, en un conjunto de dominios de servicios de redacción de ensayos. Es concebible, que algunas de estas páginas fueran generadas por máquinas, aunque no necesariamente por modelos neuronales generativos.

- Intentos de optimización para motores de búsqueda (SEO). Los documentos que intentan realizar SEO tienden a ser de muy baja calidad. Esto es intuitivo, ya que los contenidos IA con palabras clave, son mayoritariamente, incoherentes.

Además, encontramos un número moderado de páginas de productos y perfiles profesionales, que también intentan realizar algún tipo de SEO. Observamos que los dominios centrados en los medios de comunicación, como los dominios de alojamiento de imágenes, contienen a menudo texto incrustado incomprensible, posiblemente con fines de SEO.

 

CONCLUSIONES.

Este artículo postula, que los detectores entrenados para discriminar texto humano, frente a los escritos por máquinas, son predictores eficaces de la calidad lingüística de las páginas web. Además, superan a un clasificador de spam supervisado de referencia. Esto se corrobora con una rigurosa evaluación, en la que aplicamos estos detectores, en 500 millones de páginas web.

Observamos interesantes patrones temáticos y temporales de los contenidos de baja calidad y descubrimos que muchos de los infractores son (1) textos traducidos (2) granjas de ensayos, (3) intentos de optimización de buscadores o (4) contenido NSFW.

 

Fuente del artículo.

 

Nos vemos en la próxima entrada del Blog!!

 

2 people like this.
Gastre
Muy pero que muy interesante
Like January 6, 2023