NEWSGAC

NEWSGAC onderzoekt op een transparante manier hoe genres in kranten- en televisienieuws automatisch kunnen worden gedetecteerd met behulp van machine learning.

Project

2017 - 2018

Roeland Ordelman

Productmanager Media Suite en LABS

Thema's

NEWSGAC onderzoekt op een transparante manier hoe genres in kranten- en televisienieuws automatisch kunnen worden gedetecteerd met behulp van machine learning.

Door automatisch genres te detecteren, kunnen we de vaak gehypothetiseerde, maar vanwege de zeer tijdrovende aard van handmatige inhoudsanalyse grotendeels ondergewaardeerde verschuiving van op mening gebaseerde rapportage naar op feiten gebaseerde vastleggen. Bovendien zullen we de zwarte doos van machine learning openen door de effecten van het toepassen van verschillende algoritmen op heterogene gegevens van variërende kwaliteit en genre-kenmerken die in de loop van de tijd veranderen te vergelijken, voorspellen en visualiseren. Dit stelt wetenschappers in staat om grootschalige analyses van historische teksten en andere mediatypen uit te voeren en de methodologische effecten van verschillende benaderingen van machine learning kritisch te evalueren.

Dit project brengt expertise van wetenschappers in journalistiekgeschiedenis (RUG), specialisten in datamodellering, -integratie en -analyse (CWI), experts in digitale collectie (KB & Beeld & Geluid) en e-science engineers (eScience Center) samen. Het zal eerst een grote handmatig geannoteerde dataset (VIDI-project PI) gebruiken om een transparante en reproduceerbare aanpak te ontwikkelen om een automatische classificator te trainen. Hierop voortbouwend zal het project drie resultaten genereren:

Een studie die ons huidige begrip van de samenhangende ontwikkeling van genreconventies in print- en televisiejournalistiek herzien op basis van grootschalige geautomatiseerde inhoudsanalyse via machine learning;
Statistieken en richtlijnen voor het evalueren van de vertekening en fouten van de verschillende benaderingen van voorbewerking en machine learning en van kant-en-klare softwarepakketten;
Een dashboard dat verschillende algoritmen en onderliggende benaderingen van machine learning integreert, vergelijkt en visualiseert die kunnen worden geïntegreerd in de CLARIAH media suite.

Dit project wordt gefinancierd vanuit CLARIAH en het Netherlands eScience Center.

Projectpartners

Rijksuniversiteit Groningen, CWI, Koninklijke Bibliotheek, Beeld & Geluid eScience Center

NEWSGAC

Roeland Ordelman

Thema's

Projectpartners