Wprowadzenie do języka R
Online
Spotkanie online ma formę warsztatu wprowadzającego do programowania w języku R. Szkolenie koncentruje się na podejściu "Tidyverse first", które stawia na czytelność kodu, szybkość przetwarzania danych i powtarzalność analiz (Reproducible Research). Uczestnicy przejdą kompletną ścieżkę analityczną: od importu surowych danych, przez ich czyszczenie i transformację, aż po profesjonalną wizualizację.
Cele szkolenia:
- Nabycie umiejętności pracy w środowisku RStudio.
- Opanowanie "gramatyki danych" – efektywnego manipulowania tabelami danych (filtrowanie, grupowanie, agregacja).
- Zrozumienie zasad "Tidy Data" i umiejętność restrukturyzacji zbiorów danych (formaty szerokie vs. długie).
- Tworzenie wysokiej jakości wykresów publikacyjnych zgodnie z paradygmatem "Grammar of Graphics".
Program szczegółowy:
1. Środowisko pracy i podstawy składni
- Architektura pracy w RStudio: Konsola vs. Skrypt vs. Środowisko.
- Zarządzanie przestrzenią roboczą: R Projects jako standard pracy badawczej (rozwiązywanie problemów ze ścieżkami dostępu).
- Instalacja i ładowanie pakietów: Rola biblioteki tidyverse.
2. Przetwarzanie i manipulacja danymi – pakiet dplyr)
- Import danych z formatów zewnętrznych (CSV, Excel).
- Operator potoku (%>% / |>) i łańcuchowe przetwarzanie danych.
- Kluczowe transformacje: selekcja zmiennych (select), filtracja obserwacji (filter), tworzenie nowych zmiennych (mutate).
- Agregacja danych: Statystyki opisowe w podgrupach (strategia split-apply-combine z użyciem group_by i summarise).
3. [Opcjonalnie] Architektura i łączenie danych – pakiety tidyr i dplyr
- Koncepcja "Tidy Data": Czystość danych w kontekście analizy statystycznej.
- Restrukturyzacja danych: Konwersja między formatem szerokim (wide) a długim (long) przy użyciu pivot_longer i pivot_wider – przygotowanie danych do analizy zmian w czasie.
- Relacyjne bazy danych w R: Łączenie wielu zbiorów danych po wspólnym kluczu (left_join, inner_join).
4. Wizualizacja danych – pakiet ggplot2
- Logika "Grammar of Graphics": Budowanie wykresu warstwami (Dane, Mapowanie estetyk, Geometrie).
- Typy wizualizacji w nauce: Wykresy rozrzutu (z linią trendu), wykresy pudełkowe (boxplot), histogramy i wykresy liniowe.
- Wizualizacja wielowymiarowa: Technika Facetting (tworzenie paneli wykresów dla podgrup).
- Eksport grafik: Przygotowanie plików do publikacji (formaty wektorowe/rastrowe, kontrola DPI i wymiarów).
5. Podsumowanie i Workflow
- Integracja poznanych narzędzi w jeden spójny skrypt.
- Dobre praktyki pisania czystego kodu (Clean Code).
- Wprowadzenie do raportowania: Prezentacja możliwości R Markdown.
Efekty kształcenia:
Po zakończeniu warsztatu uczestnik potrafi:
- Samodzielnie wczytać i wstępnie przetworzyć dane badawcze.
- Wykonać łączenie i transpozycję tabel danych niezbędną do zaawansowanych analiz.
- Wygenerować statystyki podsumowujące dla grup badawczych.
- Stworzyć i zapisać profesjonalny wykres prezentujący wyniki badań.
Spotkanie poprowadzi: Dr Dominika Czerniawska (ICM UW)
Uwaga: Uprzejmie informujemy, że realizacja zadań praktycznych będzie wymagała dostępu do środowiska RStudio. Zapraszamy tym samym do założenia konta ICM (https://granty.icm.edu.pl/), jednak nie później niż do 14 grudnia włącznie, żeby umożliwić zapewnienie Państwu dostępu z odpowiednim wyprzedzeniem. Dla osób posiadających już konto – ze środowiskiem RStudio można zapoznać się pod adresem https://ondemand.hpc.icm.edu.pl/ – zakładka Interactive Apps -> RStudio Server. Możliwe jest także wykorzystanie własnej instalacji R/RStudio na lokalnym komputerze.
Szkolenie realizowane jest w ramach programu EuroCC 2 i będzie prowadzone w języku polskim. Link do połączenia zostanie przesłany bezpośrednio przed wydarzeniem – wyłącznie do osób zarejestrowanych.

Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego UW