computers tegen pesten

microscoop op wetenschap
04/04/2016

Software die cyberpesten detecteert: het klinkt als sciencefiction, maar de verwerkelijking is nabij. Dat bewijzen professor Walter Daelemans en zijn collega’s bij CLiPS – voluit Computational Linguistics and Psycholinguistics –, het onderzoekscentrum voor computerlinguïstiek verbonden aan het departement Taalkunde van Universiteit Antwerpen. In het hoofdkwartier in de Lange Winkelstraat worden bruggen geslagen tussen taalkunde en ICT. De missie: zorgen dat computers taal begrijpen op dezelfde manier als mensen dat doen.


In tegenstelling tot mensen kunnen computers enorme hoeveelheden informatie in luttele seconden verwerken, in casu teksten. Kennis extraheren uit tekst gebeurt op drie niveaus. Het eerste is objectieve kennis, waarbij de feiten, relaties en concepten uit een relaas worden blootgelegd. Ten tweede is er sentimentanalyse, waarbij opinies uit de tekst worden gefilterd. Ten slotte verraadt een tekst allerhande informatie over de auteur zelf, die via automatische taalanalyse te detecteren valt. Op dit niveau neemt CLiPS een unieke positie in het onderzoek in. Werd een tekst geschreven door een man of een vrouw? Is die persoon intro- of extravert, jong of oud, hoogopgeleid of laaggeschoold? De profilering gebeurt op basis van datamining, waarbij gezocht wordt naar statistische verbanden binnen grote hoeveelheden informatie, om die dan toe te passen op nieuw materiaal. In dit geval gaat het over factoren als zins- en woordbouw, spelfouten, het gebruik van voornaamwoorden, ... die samenhangen met bepaalde kenmerken van de auteur.

De resultaten geven een impuls aan andere takken van het wetenschappelijk onderzoek: taalkundigen, psychologen en sociologen buigen zich met graagte over nieuwe, statistisch gefundeerde inzichten in ons taalgebruik. Buiten de academische wereld is de computerlinguïstiek relevant door haar concrete toepassingen. In het forensisch onderzoek kan taalanalyse bijvoorbeeld nuttig zijn om auteurs van vermeende zelfmoordbrieven of dreigmails te ontmaskeren.

 

cyberpesten in woord en beeld

Een van de lopende projecten bij CLiPS is AMiCA, dat staat voor Automatic Monitoring for Cyberspace Applications. In samenwerking met KU Leuven en UGent wordt er gewerkt aan een systeem dat veiligheid op het internet garandeert voor jongeren op vlak van seksueel grensoverschrijdend gedrag, cyberpesten en depressie. Hierbij worden de drie niveaus van tekstanalyse gebruikt, in combinatie met beeldanalyse.

De software zoekt automatisch naar beledigingen, grensoverschrijdende voorstellen en abnormaal taalgebruik in chatgesprekken en statusupdates op sociale media. Hij inspecteert daarvoor zinnen en woorden, inclusief emoticons. Het algoritme bepaalt zelf wat relevant is en waarschuwt indien nodig de moderator. Die controleert de geselecteerde inhoud en grijpt eventueel in. Dat doet de software dus niet zelf, daarvoor staat de technologie nog niet genoeg op punt. Of dit ooit wel het geval zal zijn, is onzeker. Met gevoelige onderwerpen als cyberpesten, depressie of zelfs grooming door pedofielen moet je heel voorzichtig omspringen. Het risico bestaat dat de software faalt en een onschuldige aan de schandpaal wordt genageld of dat ouders panikeren omdat het systeem beweert dat hun dochter op het punt staat zelfmoord te plegen. De rol van de moderator de mens achter de machine blijft dus cruciaal.

Doel van het AMiCA-project is het aantal gevallen dat de moderator moet controleren reduceren, wat tijdswinst oplevert bij het oplossen van de problemen. Bijkomend voordeel is dat de verzamelde informatie het onderzoek naar (online) sociale netwerken vooruithelpt. In het huidige basisonderzoek worden verschillende algoritmes getest. Eind dit jaar volgt dan de integratie van de prototypes in de workflow van sociale mediaproviders.

 

‘bitch’ is al lang geen scheldwoord meer

Op basis van taalgebruik achterhaalt de computer redelijk vlot dat twaalfjarige Jana eigenlijk 45-jarige Roger is, maar cyberpesten detecteren is veel complexer. Zoeken naar scheldwoorden en beledigingen volstaat niet, want er speelt meer dan sleutelwoorden en taalkundige aspecten. De pester zal immers ook uitgescholden worden, door de bystanders van het slachtoffer. Daarnaast bepalen de likes voor bepaalde pesterijen mee de ernst van de situatie. Nog een moeilijkheid is dat sommige beledigingen geen beledigingen zijn: als een paar pubers elkaar vriendschappelijk uitschelden voor 'bitches', hoef het systeem de moderator niet te storen.

De kunst is het algoritme slim genoeg te maken zodat het niet te snel alarm slaat en toch serieuze gevallen niet laat passeren. Een cursus begrijpend lezen voor computers bestaat vooralsnog niet, maar via machine learningtechnieken verbetert de software zichzelf. Hij voert miljarden experimenten uit en onderzoekt combinaties die het petje op ons menselijke brein te boven gaan. Zo verandert een computer in een geautomatiseerde taalkundige die zelf modellen uitvindt en niet slechts ingevoerde kennis reproduceert. In de strijd tegen cyberpesten is deze artificiële intelligentie een welkome bondgenoot.