Tento algoritmus předčí lidi při zjišťování falešných zpráv

Vědci prokázali automatizované řešení založené na algoritmu, které je srovnatelné a někdy lepší než člověk při správné identifikaci falešných zpráv. Systém, který identifikuje výmluvné jazykové podněty ve falešných zprávách, by mohl poskytnout agregátorům zpráv a webům sociálních médií, jako jsou Zprávy Google, novou zbraň v boji proti dezinformacím.

Automatizované řešení by mohlo být důležitým nástrojem pro stránky, které se potýkají s náporem falešných zpráv, často vytvářených za účelem generování kliknutí nebo manipulace veřejného mínění, uvedla Rada Mihalcea, profesorka z Michiganské univerzity za projektem.

Podle studie, která bude představena 24. srpna na Mezinárodní konferenci o počítačové lingvistice v Santa Fe v Novém Mexiku, nový systém úspěšně nalezl padělky až 76 procent času, ve srovnání s mírou 70 procent lidské úspěšnosti..

Vědci se domnívají, že jejich přístup k jazykové analýze by mohl být také použit k identifikaci falešných zpravodajských článků, které jsou příliš nové na to, aby mohly být odhaleny křížovým odkazem na jejich fakta s jinými příběhy. Přístup lingvistické analýzy analyzuje kvantifikovatelné atributy, jako je gramatická struktura, výběr slov, interpunkce a složitost.

Pro studii vytvořil tým Mihalcea vlastní data, která crowdsourcingovala online tým, který zpětně analyzoval ověřené originální zprávy do falešných. Takto vytvářejí nejaktuálnější falešné zprávy jednotlivci, kteří je rychle píší výměnou za peněžní odměnu, uvedli Mihalcea.

Účastníci studie dostali zaplaceno za to, aby z krátkých skutečných zpráv vyprávěli podobné, ale falešné zprávy, napodobující novinářský styl článků. Na konci procesu měl výzkumný tým datovou sadu 500 skutečných a falešných zpráv. Poté tyto označené páry příběhů přiváděli do algoritmu, který provedl jazykovou analýzu a sám naučil rozlišovat mezi skutečnými a falešnými zprávami.

Nakonec tým proměnil algoritmy v datovou sadu skutečných a falešných zpráv vytažených přímo z webu, čímž se dosáhlo 76% úspěšnosti. Podrobnosti o novém systému a datové sadě, kterou tým použil k jeho sestavení, by podle zpravodajských serverů nebo jiných subjektů mohly použít k vytvoření vlastních falešných systémů pro detekci zpráv, uvedla Mihalcea.