Este artículo de Kalev H. Leetaru en First Monday trata de una manera de predecir hechos humanos a gran escala tomando como entrada el “tono” de las notas de prensa, cosa que obtiene de la aplicación de unos programas de minería de datos que dan connotación positiva o negativa a algunas palabras en los millones de artículos de ciertos medios.
Un poco lanzado el asunto pero Leetaru presenta unos resultados como la probable ubicación de Bin Laden -a posteriori-; sin embargo lo que más atrajo mi (escasa) atención fue la pretensión de extraer de esos inmensos bancos de contenido mediático las civilizaciones del mundo.
La cosa es así: el programa busca nombres de ciudades en cada artículo, cada nombre se convierte en un nodo; se utilizan los artículos que tienen más de un nombre de ciudad, cada par de nombres se convierte en una línea. Posteriormente, se aglutinan todos los pares que pertenecen a un mismo país, y el resultado es algo así:
Las agrupaciones (“civilizaciones”) dependen por supuesto de la fuente de los datos. El autor dice haber utilizado dos: los archivos históricos del New York Times desde 1945-2005 y el Summary of World Broadcasts de la BBC de 1979 a 2010 (excluendo a USA por razones que allí se alegan); por lo tanto su representación gráfica en mapas también varía en consecuencia. De los dos presentados me pareció más “independiente” el de SWB aunque tiene muchos bemoles:
- Hay una región franco-luso-africana, que no luce para nada “civilización”; sino más bien restos del coloniaje
- Hispanoamérica incluye USA (¿no será más bien que el imperio es más dominante en los países hispanos?)
- Medio Oriente, Canadá, Suecia, Marruecos, UK comparten muchas menciones según se ve en azul oscuro
- China, sureste de Asia y Australia, resultado supongo de la cercanía relativa
- El montón de diversidad de la India aparece como una sola unidad
A pesar de las limitaciones antedichas supongo que habrá manera de perfeccionar este tipo de trabajos y con unas miles de variables más es posible que se acerquen a un retrato más fiel de la realidad.