Lyssnade på ett webinar i går om svårigheter att hantera datumvariabler i forskningsdata. Inte så enkelt som man kan tro.
Jag börjar med frågan Hur många format finns för att skriva datum? 30 oktober 2021, 30 oktober -21, 30-10-2021, 2021-10-30, 30/10/2021, 2021/10/30, 30-10-21, 21-10-30, 30/10/21, 21/10/30, sen de amerikanska systemet med månad-dag-år eller år-dag-månad. Där har vi redan 20 olika format. Hur många format kan du?
Nästa fråga Hur hanterar datorn datum? Vet du det? Många datorprogram räknar om datum till sekunder, andra till dagar. Vidare har olika program olika startår, t ex Excel har 1900, Mac har 1904 som startår. I Excel innebär det att den 30 oktober 2021 får datumtal 44 499.
Det är så Excel gör när programmet ska räkna ut antal dagar mellan två datum. Den 31 december 2021 får datumtal 44 561 och subtraherar man: 44 561 – 44499 = 62, vilket ju stämmer bra. December har 31 dagar och november 30 dagar plus den 31 oktober blir 62 dagar.
Hur ska datorn kunna identifiera vad som är datum? Det gäller således att välja ett datumformat och konsekvent hålla sig till det när man samlar data med en datumvariabel. Vill man jämföra data från olika källor gäller det att konvertera alla datum från alla källor till det format beräkningaprogrammet man använder utnyttjar innan man börjar göra jämförande berkäningar. Vissa dataprogram har konverteringsfunktioner, andra inte. Då får man själv programmera konverteringen och plocka data från celler. Om data har datumformat YYYY-MM-DD blir det enl principen: i cellerna i kolumn X tag tecken 1-4=år, tecken 6-7=månad, tecken 9-10=dag och kopiera till kolumn Y och formatera till beräkningsprogrammets datumformat.
Inte helt snorenkelt!