Illustrasjon på menn som kontakter unge jenter på nettet. Dette er en chat hentet fra Instagram, den ble vist av politet i Sør-Trøndelag i forbindelse med fengsling av en mann i 40-årene som er siktet for overgrep. Bilde viser at dette er en vanlig framgangngsmåte, men bilde har ikke noe med den aktuelle saken å gjøre.

FAGARTIKKEL

Kan nettprat fra overgrepssaker brukes til å forebygge framtidige nettovergrep?

Nettprat-prosjektet fikk tillatelse til å samle inn materiale fra straffesaker for å utvikle et maskinlæringsverktøy for bruk i forebygging av framtidige nettovergrep mot barn. Den største utfordringen ble imidlertid å finne fram til nettprat-materialet i politiets egne systemer.

Publisert Sist oppdatert

Forventningene til hvordan kunstig intelligens kan bidra til mer effektivt politiarbeid er store. I Nettprat-prosjektet, finansiert av Justis- og beredskapsdepartementet, har Politihøgskolen og Trøndelag politidistrikt undersøkt om data innhentet som bevis i straffesaker om seksuelle overgrep mot barn kan brukes til å utvikle et maskinlæringsverktøy (ML-verktøy) for å forebygge slike overgrep.

ML-systemets autonomi medfører at brukeren ikke vet hvordan løsningen produseres i det enkelte tilfellet. God opptrening er følgelig en første forutsetning for å kunne stole på systemet, og da er kvaliteten på treningsdataene avgjørende. Treningsdataene er så viktige at den foreslåtte europeiske forordningen om kunstig intelligens stiller spesifikke krav om at de må være relevante, representative, komplette, feilfrie og egnet for statistisk analyse. Kravene er en forutsetning for å kunne regne med at ML-systemet vil virke etter hensikten.

Effektiv deteksjon

Nettprat-prosjektet er et første steg i retning av å realisere «Prev- BOT-konseptet». Konseptet gjelder et ML-verktøy i form av en chatbot som kan understøtte politiets patruljering på internett. Formålet er å bidra til effektiv deteksjon av problematiske steder, altså nettsteder hvor det foregår seksualisert prat, og hvor både voksne og barn ferdes.

Bildet viser en samtale i en nett-overgrepssak.

Når disse risikofaktorene identifiseres, gir det politiet grunn til å følge med på nettstedet. En person klarer bare å følge med på noen få samtaler av gangen, men for PrevBOT gjelder ikke denne begrensningen. Siden den er en chatbot, kan den arbeide selvstendig og erstatte innsats som ellers måtte utføres manuelt. PrevBOT kan altså gi mer politikraft på internett.

Mer vesentlig er det likevel at PrevBOT kan utføre oppgaver som mennesker ikke kan utføre, uansett om man har aldri så mye tid til rådighet. Uriktige opplysninger om alder og kjønn er typiske «grooming»-strategier. Ved automatisk analyse av språklig atferd kan PrevBOT anslå både alder og kjønn til deltakere i nettprat, og med dette gi et beslutningsgrunnlag for politiet til å gripe inn med forebyggende eller avvergende tiltak mot nettovergrep, når voksne som utgir seg for å være barn kontakter barn.

Vi ønsket dermed å undersøke muligheten for å trene opp en ML-algoritme til å analysere nettprat for å avdekke disse risikoindikatorene. Gitt kravene til relevans og representativitet må treningsdataene bestå av reelle samtaler mellom overgriper og barn, og være på norsk siden partene i norske overgrepssaker fortrinnsvis bruker norsk. Med tillatelse fra Riksadvokaten og Politidirektoratet startet vi innhenting av nettpratlogger fra straffesaker om seksuelle overgrep mot barn, med ambisjon om å tilrettelegge et datasett for opptrening av en PrevBOT.

Uforutsette problemer

Ambisjonen viste seg å være altfor optimistisk fordi vi støtte på en rekke uforutsette problemer. Problemene må antas å være generelle for ML- utviklingsprosjekter med behov for datasett fra bevis i straffesaker, og reiser spørsmål om behov for endringer i politiets dataforvaltning.

Vårt største problem var å identifisere saker som kunne inneholde relevante data. Siden det ikke kan søkes etter relevante data direkte i straffesakssystemet (BL), måtte vi identifisere saker med utgangspunkt i uttrekk fra STRASAK basert på relevante statistikkgrupper. Dette ga mer enn 20.000 saker. For å avgrense ytterligere brukte vi modusbeskrivelser, noe som reduserte antallet til 2250 antatt relevante saker. Blant politidistriktene var det imidlertid store variasjoner i bruken av modusbeskrivelser, noe som trolig førte til at relevante saker ikke ble fanget opp av søket vårt. Dette gikk ut over kravet til fullstendighet i treningsdataene.

For prosjektet var det logger med nettprat mellom overgriper og barn som var relevante. Politidistriktene har imidlertid ulik praksis også for om loggene lagres i sin helhet, og i så fall hvor de lagres. Mest vanlig er at loggen ligger i en sikringsfil på politiets beslagsnett. Vi hadde adgang til å hente ut nettprat-logger selv fra BL, men ikke fra beslagsnettet, fordi sikringsfilen ikke omfattes av sakens dokumenter.

En direkte forespørsel til politidistriktene om å få tilsendt nettprat-logger viste at bare to av dem fant ressurser til å kunne hjelpe oss. Lagringspraksisen medførte dermed at vi gikk glipp av data i saker som var identifisert og antatt relevant.

Gjennomgående praksis er å legge eksempler fra nettprat-loggene i rapporter i BL, og disse var tilgjengelige for oss. Med tanke på utvikling av et ML-verktøy, er problemet med praksisen mangelen på fullstendighet, noe som også kan gå ut over representativiteten i treningsdataene. I tillegg var eksemplene i BL ofte uegnede som treningsdata. Nettprat kunne være dokumentert i form av etterforskerens mobilfoto av skjermbildet på fornærmedes mobiltelefon, som for eksempel viste en melding på Snapchat. Snapchat er også hyppigst brukt, men lagrer ikke logger, noe som går ut over bevissikringen. Mobilfotografiene kunne være av så dårlig kvalitet at de ikke lot seg behandle maskinelt. Dataene kan da skrives inn manuelt, men det er ressurskrevende og medfører en ikke ubetydelig risiko for tolkningsfeil. Det går ut over kravet til feilfrihet. Dersom nettprat-data derimot hadde vært lagt i sakens dokumenter som rådata, ville de vært maskinlesbare og kunne vært brukt som treningsdata.

Nye problemstillinger

Når formålet med databehandlingen endres fra å opplyse en straffesak til å være treningsdata for maskinlæring, oppstår nye problemstillinger. Hvorvidt politiets databehandling i etterforsking bør innrettes på også å dekke senere utnyttelse for ML-formål, eller om en spesiell prosess for slik utnyttelse bør utarbeides, er en egen diskusjon.

Kilder

Europakommisjonens forslag til en europeisk forordning om kunstig intelligens («Artificial Intelligens Act») av 21. april 2021. PrevBOT-konseptet er beskrevet i N. Sunde & I. M. Sunde, «Conceptualizing an AI-based Police Robot for Preventing Online Child Sexual Exploitation and Abuse: Part I – The Theoretical and Technical Foundations for PrevBOT» (2021).

Det som uansett synes klart er at politiet kan forvalte dataene bedre innenfor etterforskingsformålet, særlig ved å lagre beslaglagte logger fra sikringsfilen som del av saksdokumentene. Etter gjeldende rett skal databeslag i avgjorte saker heves eller slettes, mens bevis i sakens dokumenter skal arkiveres.

Data som er lagt i saken er dermed beskyttet mot sletting og kan være en fremtidig ressurs for teknologiutviklingen i politiet med formål om kriminalitetsbekjempelse.

Powered by Labrador CMS