Home

Wprowadzenie do języka R

Europe/Warsaw
Online

Online

Opis

Spotkanie online ma formę warsztatu wprowadzającego do programowania w języku R. Szkolenie koncentruje się na podejściu "Tidyverse first", które stawia na czytelność kodu, szybkość przetwarzania danych i powtarzalność analiz (Reproducible Research). Uczestnicy przejdą kompletną ścieżkę analityczną: od importu surowych danych, przez ich czyszczenie i transformację, aż po profesjonalną wizualizację.

Cele szkolenia:

  • Nabycie umiejętności pracy w środowisku RStudio.
  • Opanowanie "gramatyki danych" – efektywnego manipulowania tabelami danych (filtrowanie, grupowanie, agregacja).
  • Zrozumienie zasad "Tidy Data" i umiejętność restrukturyzacji zbiorów danych (formaty szerokie vs. długie).
  • Tworzenie wysokiej jakości wykresów publikacyjnych zgodnie z paradygmatem "Grammar of Graphics".


Program szczegółowy:

1. Środowisko pracy i podstawy składni

  • Architektura pracy w RStudio: Konsola vs. Skrypt vs. Środowisko.
  • Zarządzanie przestrzenią roboczą: R Projects jako standard pracy badawczej (rozwiązywanie problemów ze ścieżkami dostępu).
  • Instalacja i ładowanie pakietów: Rola biblioteki tidyverse.


2. Przetwarzanie i manipulacja danymi – pakiet
dplyr)

  • Import danych z formatów zewnętrznych (CSV, Excel).
  • Operator potoku (%>% / |>) i łańcuchowe przetwarzanie danych.
  • Kluczowe transformacje: selekcja zmiennych (select), filtracja obserwacji (filter), tworzenie nowych zmiennych (mutate).
  • Agregacja danych: Statystyki opisowe w podgrupach (strategia split-apply-combine z użyciem group_by i summarise).


3. [Opcjonalnie] Architektura i łączenie danych – pakiety
tidyr i dplyr

  • Koncepcja "Tidy Data": Czystość danych w kontekście analizy statystycznej.
  • Restrukturyzacja danych: Konwersja między formatem szerokim (wide) a długim (long) przy użyciu pivot_longer i pivot_wider – przygotowanie danych do analizy zmian w czasie.
  • Relacyjne bazy danych w R: Łączenie wielu zbiorów danych po wspólnym kluczu (left_join, inner_join).


4. Wizualizacja danych – pakiet
ggplot2

  • Logika "Grammar of Graphics": Budowanie wykresu warstwami (Dane, Mapowanie estetyk, Geometrie).
  • Typy wizualizacji w nauce: Wykresy rozrzutu (z linią trendu), wykresy pudełkowe (boxplot), histogramy i wykresy liniowe.
  • Wizualizacja wielowymiarowa: Technika Facetting (tworzenie paneli wykresów dla podgrup).
  • Eksport grafik: Przygotowanie plików do publikacji (formaty wektorowe/rastrowe, kontrola DPI i wymiarów).


5. Podsumowanie i Workflow

  • Integracja poznanych narzędzi w jeden spójny skrypt.
  • Dobre praktyki pisania czystego kodu (Clean Code).
  • Wprowadzenie do raportowania: Prezentacja możliwości R Markdown.


Efekty kształcenia:

Po zakończeniu warsztatu uczestnik potrafi:

  • Samodzielnie wczytać i wstępnie przetworzyć dane badawcze.
  • Wykonać łączenie i transpozycję tabel danych niezbędną do zaawansowanych analiz.
  • Wygenerować statystyki podsumowujące dla grup badawczych.
  • Stworzyć i zapisać profesjonalny wykres prezentujący wyniki badań.

Spotkanie poprowadzi: 
Dr Dominika Czerniawska (ICM UW)

Uwaga
: Uprzejmie informujemy, że realizacja zadań praktycznych będzie wymagała dostępu do środowiska RStudio. Zapraszamy tym samym do założenia konta ICM (https://granty.icm.edu.pl/), jednak nie później niż do 14 grudnia włącznie, żeby umożliwić zapewnienie Państwu dostępu z odpowiednim wyprzedzeniem. Dla osób posiadających już konto – ze środowiskiem RStudio można zapoznać się pod adresem https://ondemand.hpc.icm.edu.pl/ – zakładka Interactive Apps -> RStudio Server. Możliwe jest także wykorzystanie własnej instalacji R/RStudio na lokalnym komputerze.

Szkolenie realizowane jest w ramach programu EuroCC 2 i będzie prowadzone w języku polskim. Link do połączenia zostanie przesłany bezpośrednio przed wydarzeniem – wyłącznie do osób zarejestrowanych.

             

 

Zorganizowane przez

Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego UW