logo
ALPHA
Competitions
thumbnail

Simulare OJIA 3

High-school
Romania
Individual

RO: A treia simulare a Olimpiadei Județene de Inteligență Artificială / EN: The third official simulation for the Romanian Regional Olympiad in Artificial Intelligence

Problems Communication Leaderboard Rules
Problema Admiterii la un liceu de elităPredicția scorului la examen

Predicția scorului la examen

Pentru această problemă trebuie să implementați un model de regresie capabil să prezică scorul obținut la examen (Exam_Score) utilizând un set de date disponibil. Setul de date este organizat într-un fișier CSV, iar performanța modelului se va evalua pe baza Mean Absolute Error (MAE).

Setul de date conține următoarele coloane:

  • ID: Număr unic de identificare al studentului.
  • Hours_Studied: Numărul de ore petrecute studiind.
  • Attendance: Procentul de prezență la cursuri.
  • Parental_Involvement: Nivelul de implicare al părinților în educație (Low, Medium, High).
  • Access_to_Resources: Accesul la resurse educaționale (Low, Medium, High).
  • Extracurricular_Activities: Participarea la activități extracurriculare (Yes/No).
  • Sleep_Hours: Numărul mediu de ore de somn pe noapte.
  • Previous_Scores: Scorurile obținute anterior la examene.
  • Motivation_Level: Nivelul de motivație al elevului (Low, Medium, High).
  • Internet_Access: Accesul la internet pentru studiu (Yes/No).
  • Tutoring_Sessions: Numărul de sesiuni de meditații urmate.
  • Family_Income: Venitul familiei (Low, Medium, High).
  • Teacher_Quality: Calitatea profesorilor percepută de elev (Low, Medium, High).
  • School_Type: Tipul de școală (Public/Private).
  • Peer_Influence: Influența colegilor asupra elevului (Negative, Neutral, Positive).
  • Physical_Activity: Numărul de ore de activitate fizică săptămânal.
  • Learning_Disabilities: Prezența unor dificultăți de învățare (Yes/No).
  • Parental_Education_Level: Nivelul de educație al părinților (High School, College, Postgraduate).
  • Distance_from_Home: Distanța dintre casă și școală (Near, Moderate, Far).
  • Gender: Genul elevului (Male/Female).
  • Exam_Score: Variabila țintă, scorul obținut la examen (valoare numerică, obiectivul predicției).

Task-uri

Pentru primele task-uri, va trebui să încărcați setul de date și să efectuați o serie de analize statistice pentru a înțelege mai bine dataset-ul cu care urmează să lucrați.

Subtask 1 (10 puncte)

Pornind de la setul de date pentru antrenare, calculați media valorilor din coloana Hours_Studied, reprezentând numărul de ore alocate de studenți pentru studiu.

Ulterior, pentru fiecare student din setul de testare, determinați modulul diferenței dintre numărul de ore efectiv studiate (Hours_Studied) și media calculată pe setul de antrenare.

Subtask 2 (10 puncte)

Pe baza valorilor din coloana Sleep_Hours, determinați pentru fiecare student din setul de testare dacă acesta doarme un număr redus de ore. Considerăm că un student doarme puțin dacă are mai puțin de 7 ore de somn. Pentru studenții care dorm puțin vom scrie valoarea True, iar pentru cei care nu dorm puțin vom scrie valoarea False.

Subtask 3 (10 puncte)

Pentru fiecare student din setul de testare, determinați câți studenți din setul de antrenare au avut un scor anterior (Previous_Scores) mai mare sau egal decât al acelui student.

Subtask 4 (10 puncte)

Pentru fiecare student din setul de testare, determinați numărul de studenți din setul de antrenare care au avut același nivel de motivație (Motivation_Level) ca al acelui student.

Subtask 5 (60 puncte)

Scopul principal al acestui subtask este de a construi un model de învățare automată care să prezică Exam_Score pe baza caracteristicilor furnizate în setul de date. Modelul trebuie să fie capabil să generalizeze bine pe date noi și în acest sens o să fie evaluat pe setul de testare utilizând ca metrică Mean Absolute Error (MAE).

Note despre setul de date:

  • Câmpul-țintă este Exam_Score, o valoare numerică ce reprezintă performanța elevului la examen.
  • Modelul trebuie antrenat pe setul train_data.csv și evaluat pe test_data.csv.

Criterii de evaluare:

  • Performanță: Modelul trebuie să aibă o MAE cât mai mică.

Notă

Dacă veți trimite sample_output, atunci veți primi 6 puncte.

Submission

Make sure your source code produces the output you uploaded! Chosen submissions may be rerun with your source code after the competition to get the final score.

My submissions

Only submissions marked as final are counted for the complete leaderboard. Not choosing any final submissions will result in 0 points on this task.

Complete submission scores will be displayed after the competition ends