Together with Ronald Poppe, Alice Havrileck, and Aurelien Baillon, we developed the first personalized deception detection model based on linguistic cues (word use) in the tweets by the current US President. Below you will find the abstract in English, and a lay summary in Dutch. The entire paper can be found here.
Abstract
Language use reveals information about who we are and how we feel. One of the pioneers in text analysis, Walter Weintraub, manually counted which types of words people used in medical interviews and showed that the frequency of first-person singular pronouns (i.e., I, me, my) was a reliable indicator of depression, with depressed people using I more often than people who are not depressed. Several studies have demonstrated that language use also differs between truthful and deceptive statements, but not all differences are consistent across people and contexts, making prediction difficult. Here we show how well linguistic deception detection performs at the individual level by developing a model tailored to a single individual: the current US president. Using tweets fact-checked by an independent third party (Washington Post), we found substantial linguistic differences between factually correct and incorrect tweets and developed a quantitative model based on these differences. Next, we predicted whether out-of-sample tweets were either factually correct or incorrect and achieved a 73% overall accuracy. Our results demonstrate the power of linguistic analysis in real-world deception research when applied at the individual level and provide evidence that factually incorrect tweets are not random mistakes of the sender.
Lay summary in Dutch:
Verschillende media beweren over Trump dat hij regelmatig liegt en hun statements worden onderbouwd door fact checkers die aantonen dat een groot deel van zijn statemens feitelijke onjuistheden bevatten. Maar iets zeggen wat niet klopt is niet per se liegen. Voor een leugen moet je weten wat de waarheid is en bewust een onwaarheid/leugen vertellen om de ander/het publiek te misleiden. Als iemand iets zegt wat niet klopt, maar op het moment van spreken zich niet realiseert dat dat statement niet klopt, is dat niet liegen, dan heeft iemand het gewoon fout. En iemand die slecht geïnformeerd is, maar wel over veel verschillende onderwerpen iets moet zeggen, kan best vaak iets zeggen wat niet klopt. In de media wordt er vanuit gegaan dat Trump bewust liegt in plaats van dat hij gewoon heel slecht geïnformeerd is, maar zonder daar bewijs voor te leveren.
Op basis van de verbale leugendetectie literatuur en talloze experimenten weten we dat wanneer mensen liegen, in vergelijking met wanneer ze de waarheid spreken, ze zowel andere soorten details geven, als andere soorten woorden gebruiken om hun ervaring te beschrijven. Ik was wel benieuwd of we aan de hand van deze bestaande verbale leugendetectietechnieken iets kunnen zeggen over de achtergrond van zijn feitelijke onjuistheden: liegt hij bewust, of heeft hij het onbewust fout? Als hij bewust liegt, verwacht je linguïstische verschillen tussen zijn waarheden en leugens, terwijl je die niet verwacht als hij het onbewust fout heeft; als hij zich niet realiseert dat hij het fout heeft op het moment dat hij communiceert, zou hij dus niet zijn taalgebruik aan moeten passen.
Om uit te zoeken of Trump vaker liegt of vaker slecht geïnformeerd is, heb ik 3 maanden aan tweets verzameld (februari – april 2018), deze dataset gescreend en naast de gefactcheckte dataset van de Washington Post gelegd. Vervolgens heb ik zijn taalgebruik van de feitelijke juiste en feitelijk onjuiste tweets vergeleken met behulp van een MANOVA test (82 LIWC variabelen + 2 Twitter variabelen). Hieruit bleek dat 33.3% van de woordcategorieën anders is als Trump tweet over feitelijk juiste, dan over feitelijk onjuiste beweringen. Deze resultaten bevestigen onze hypothese dat Trump zich ervan bewust is dat er verschil is tussen zijn feitelijk juiste en onjuiste tweets op het moment van schrijven. Dat betekent ook dat de kans groter is dat hij bewust liegt dan dat hij onbewust slecht geïnformeerd is wanneer hij een feitelijk onjuiste bewering doet.
Vervolgens hebben we op basis van deze dataset een model getraind om te testen hoe goed we op basis van alleen taalgebruik, de tweets van Trump kunnen classificeren als feitelijk juist of onjuist. Het blijkt dat we ongeveer driekwart (73%) van zijn tweets correct kunnen classificeren op deze manier. Vervolgens hebben we een tweede dataset verzameld en het model (op basis van de training dataset) getest op deze nieuwe test dataset. Wederom konden we 73% van de tweets correct classificeren, maar dus nu met een ‘out of sample classification’.
Hiermee hebben wij het eerste gepersonaliseerde leugendetectie model gemaakt op basis van de gefactcheckte tweets van President Trump. Met een toenemende hoeveelheid aan misinformatie en onjuiste beweringen door mensen in publieke functies, kunnen gepersonaliseerde modellen zoals deze helpen bij het screenen van nieuwe berichten en automatisch die berichten flaggen die interessant zijn om nader te bestuderen. Ook is het goed om je te realiseren dat dit soort analyses uitgevoerd kunnen worden op basis van de informatie die mensen dagelijks online posten.