Statystyki uczenia się, od prezentacji po środki dystrybucji danych

Statystyka to nauka matematyczna zajmująca się gromadzeniem, przetwarzaniem, analizą i prezentacją danych. Statystyki są szeroko stosowane w towarzystwach ubezpieczeniowych, a jednym z nich jest określenie wysokości składki w polisie ubezpieczeniowej. Każdy posiadacz ubezpieczenia jest zobowiązany do opłacenia składki zwanej składką. Zapłacona składka jest zgodna z uzyskaną ochroną ubezpieczeniową.

W tym przypadku firma ubezpieczeniowa korzysta ze statystyk, aby wysokość składki była zgodna z kwotą ochrony, którą można zapewnić posiadaczowi ubezpieczenia. W ten sposób zyskują na tym obie strony.

Jak wspomniano wcześniej, statystyki nie tylko gromadzą i przetwarzają, ale także prezentują dane. Statystyka wykorzystuje również kilka miar dystrybucji danych w przetwarzaniu danych. Dzisiaj omówimy rodzaje prezentacji, a także rozmiary rozprzestrzeniania się danych w statystykach.

Rodzaje prezentacji danych

Typy prezentacji danych w statystykach obejmują tabele rozkładu częstotliwości, histogramy, wielokąty i ostrołuki.

Pierwsza forma prezentacji danych polega na wykorzystaniu tabeli rozkładu częstotliwości. Jak sama nazwa wskazuje, używamy tabeli, aby wyświetlić rodzaj i ilość uzyskanych danych. Tabela rozkładu częstotliwości ma również kilka typów, a mianowicie tabela rozkładu częstotliwości dla danych pojedynczych i danych grupowych.

(Przeczytaj również: Dwa dane pomiarowe w statystykach)

Pojedyncza tabela rozkładu częstotliwości danych służy do prezentowania niewielkich ilości danych, co najmniej mniej niż 30 danych. Przykład prezentacji danych przy użyciu pojedynczej tabeli rozkładu częstotliwości danych jest następujący.

Poniższe dane to wyniki testów 30 uczniów. Podawaj w jednej tabeli rozkładu częstotliwości danych!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Jeśli zwrócimy uwagę, najniższy uzyskany wynik testu to 3, a najwyższy 10. Następnie z tych wyników obliczana jest liczba uczniów, którzy ją uzyskali. Na przykład dla klasy trzeciej tylko 1 uczeń. W klasie 4 jest 4 uczniów i tak dalej. Liczba ta jest następnie prezentowana w tabeli, jak poniżej.

turbiny na terenie morskiej farmy wiatrowej

Kolejnym typem tabeli rozkładu częstotliwości jest tabela rozkładu częstotliwości danych grupowych. Ta tabela służy do prezentacji dużej ilości danych, czyli ponad 30 danych. Spójrzmy na poniższy przykład.

Poniżej podano wysokość roślin chili (w milimetrach) na plantacji chili. Przedstaw dane w tabeli dystrybucji danych grupowych!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

W przeciwieństwie do pojedynczych danych, tutaj musimy obliczyć liczbę klas i długości klas, które zostaną wyświetlone w tabeli. Korzystając z powyższych danych, oto obliczenia.

Wiele danych (n) = 40

Maksymalna wysokość (xmax) = 135

Minimalna wysokość (xmin) = 120

Zakres (J) = xmax - xmin = 135 – 120 = 15

Liczba klas (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868… ≈ k = 6

Długość klasy (c) = J / k = 15/6 = 2,5 ≈ c = 3

Na podstawie tych wyników możemy wyświetlić tabelę dystrybucji danych grupy w następujący sposób.

turbiny na terenie morskiej farmy wiatrowej

Następnie omówimy inne typy grupowej prezentacji danych, a mianowicie w postaci histogramów, wielokątów częstotliwości i ostrołuków. Spójrz na poniższą tabelę częstotliwości, która zawiera informacje o wadze 80 członków klubów sportowych.

turbiny na terenie morskiej farmy wiatrowej

Aby przedstawić dane za pomocą wykresu histogramu, najpierw konstruujemy wykres kartezjański. Oś X przedstawia górną i dolną granicę każdej klasy, a oś Y przedstawia częstotliwość.

statystyka4 (1)

W przeciwieństwie do histogramu, wykres wielokątów częstotliwości przyjmuje średnią wartość przedziału klasowego i wyświetla ją liniami zgodnie z częstotliwością.

statystyka5 (1)

Wreszcie prezentacja danych wykorzystuje dodatnią skumulowaną lub ujemną krzywą częstotliwości. Najpierw zaznacz skumulowane wartości częstotliwości dla każdej klasy interwału na osi y. Następnie zaznacz współrzędne punktów zgodnie z parami górnej granicy klasy przedziału i częstotliwości skumulowanej. Połącz kropki w gładką krzywą.

Rozmiar rozpowszechniania danych

W statystyce wyróżnia się dwa rodzaje pomiaru danych, a mianowicie wielkość koncentracji danych i wielkość dystrybucji danych. Jakie jest wyjaśnienie i różnica?

Rozmiar centrum danych to wartość reprezentująca lokalizację danych. W pomiarze wyśrodkowanym na danych są: średnia, moda i mediana.

Średnia lub średnia to iloraz sumy wszystkich obserwowanych danych z dużą liczbą danych. Średnią można sformułować w następujący sposób.

Średnia = (Suma wszystkich danych) / (Wiele danych)

Aby lepiej zrozumieć, zajmijmy się następującym przykładowym problemem. Liczba godzin tygodniowych potrzebnych 5 osobom na działania społeczne w ich środowisku to 10, 7, 13, 20 i 15 godzin. Określ średnią liczbę godzin tygodniowo spędzanych na zajęciach towarzyskich!

W oparciu o powyższe problemy możemy wprowadzić liczby do wzoru w następujący sposób.

Średnia = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Oznacza to, że średnia liczba godzin spędzanych na działaniach towarzyskich wynosi 13 godzin.

Oprócz średniej lub średniej istnieją również mody. Tryb to wartość, która pojawia się najczęściej w danych. Spójrzmy na przykład następującego problemu.

Poniżej znajdują się dane wagi (w kilogramach) niektórych uczniów klas 7. Określ tryb danych!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

Przede wszystkim musimy policzyć, ile razy każda wartość pojawia się w danych. Na podstawie tych danych otrzymujemy 31 (x3), 32 (x2), 33 (x1), 34 (x2) i 35 (x4). Ponieważ najczęściej występuje 35, tryb powyższych danych to 35.

Ostatnim typem miary wyśrodkowanej na danych jest mediana. Mediana dzieli dane na dwie równe części, tak aby mediana była środkową wartością posortowanych danych.

Aby określić medianę, musimy najpierw posortować wszystkie dane w porządku malejącym lub rosnącym. Po drugie, zdefiniuj wiele danych i oznacz je jako „n”. Jeśli n jest nieparzyste, wzór, którego używamy, jest następujący.

Mediana = liczba danych - ((n + 1) / 2)

W międzyczasie, jeśli n jest parzyste, użyjemy poniższego wzoru.

Mediana = (dane i-te (n / 2) + dane i-te (n / 2 + 1)) / 2

Drugi pomiar danych w statystyce to miara rozprzestrzeniania się danych. Rozmiar rozrzutu danych to wartość określająca, jak daleko znajdują się dane od centrum danych. Rozmiar dystrybucji danych obejmuje zakres, kwartyl i rozstęp międzykwartylowy.

Zakres jest różnicą między największą a najmniejszą wartością danych. Zasięg możemy uzyskać odejmując największe dane od najmniejszych. Przykładowo, jeśli w jednej klasie najwyższy uczeń ma 160 cm wzrostu, a najniższy 143 cm, to uzyskamy zasięg 23 cm.

Tymczasem kwartyl to grupowanie danych statystycznych w cztery równe części. Kwartyl jest podzielony na 3, czyli dolny kwartyl (Q1), środkowy kwartyl (Q2 lub mediana) i górny kwartyl (Q3). Aby określić każdy kwartyl, musimy wykonać kilka kroków.

Najpierw posortuj dane w kolejności rosnącej lub malejącej. Po drugie, określ wartość środkową lub medianę danych. Po trzecie, znajdź dolny kwartyl (Q1), która jest średnią wartością grupy danych poniżej mediany (Q2). Na koniec znajdź górny kwartyl (Q3), a mianowicie średnia wartość grupy danych powyżej mediany (Q2).

Ostatnim typem miary dystrybucji danych jest rozstęp międzykwartylowy. Przedział międzykwartylowy to różnica między górnym i dolnym kwartylem. Formuła jest następująca.

Qre = Q3 - Q1

Najnowsze posty