3.2 Histogrammer

Følger de simulerede tal virkeligt en uniform fordeling? Det kan undersøges visuelt ved at tegne et histogram. Histogrammet af kun tre tal bliver nok noget sølle, men vi kan da simulere tusindvis af udfald og gemme dem i en R variabel. Histogrammet fås så ved at anvende funktionen hist på vores variabel. Når I bruger RStudio, burde plottet dukke op i den nederste højre vindue.

tallene <- runif(10000, 5, 10)
hist(tallene)

På en klog måde opdeler funktionen hist værdiområdet af argumentet i intervaller. For hvert interval tegnes så en kasse, hvis højde som udgangspunkt svarer til antallet af værdier i intervallet. Vi får så en antalshistogram. Til dagligt vil vi nok hellere have en histogram, som direkte kan sammenlignes med tæthedsfunktionen, altså en slags tæthedshistogram. Vi får dette ved at angive et ekstra argument: freq = FALSE. Antallet på intervaller kan ændres ved at angive det som argument breaks:

tallene <- runif(10000, 5, 10)
hist(tallene, breaks = 5, freq = FALSE)

Øvelse 3.1

Leg med histogrammet fra eksemplet ovenfor. Hvordan ændrer sig dens udseende, når du

øger eller mindsker antallet af simulerede tal? (Prøv fx. n=1000000, eller n=1000)
ændrer på antal af intervaller?

Øvelse 3.2

For at simulere fra normalfordelingen bruges funktionen rnorm. Udover antallet af tal, som ønskes simuleret, tager den to argumenter mean og sd, som angiver middelværdien og standardafvigningen af fordelingen. Hvis man altså vil simulere fra en $N(\mu,\sigma^2)$ -fordeling, skal man sætte mean = $\mu$ og sd = $\sigma$ .

Lad R tegne en taethedshistogram fra 100000 vilkårlige tal, trukket fra en $N(\mu,\sigma^2)$ med $\mu=3$ og $\sigma^2=4$ . Vælg en intervaldeling med 20 intervaller.

Øvelse 3.3

Generer igen en vektor af 100000 vilkårlige tal fra en $N(0, 1)$ -fordeling, og gem den i en variabel $a$ . Lav en ny vektor $b$ , der kun indeholder de positive tal fra vektoren $a$ (hvordan det gøres er beskrevet i afsnit 2.4.1 om indeksering ved logiske udtryk). Lav tæthedshistogrammer for begge vektorer, og sammenlign dem. Kan du finde en forklaring på forskellen i $y$ -aksen af de to histogrammer?