Simulare OJIA 3
RO: A treia simulare a Olimpiadei Județene de Inteligență Artificială / EN: The third official simulation for the Romanian Regional Olympiad in Artificial Intelligence
Predicția scorului la examen
Pentru această problemă trebuie să implementați un model de regresie capabil să prezică scorul obținut la examen (Exam_Score
) utilizând un set de date disponibil. Setul de date este organizat într-un fișier CSV, iar performanța modelului se va evalua pe baza Mean Absolute Error (MAE).
Setul de date conține următoarele coloane:
- ID: Număr unic de identificare al studentului.
- Hours_Studied: Numărul de ore petrecute studiind.
- Attendance: Procentul de prezență la cursuri.
- Parental_Involvement: Nivelul de implicare al părinților în educație (Low, Medium, High).
- Access_to_Resources: Accesul la resurse educaționale (Low, Medium, High).
- Extracurricular_Activities: Participarea la activități extracurriculare (Yes/No).
- Sleep_Hours: Numărul mediu de ore de somn pe noapte.
- Previous_Scores: Scorurile obținute anterior la examene.
- Motivation_Level: Nivelul de motivație al elevului (Low, Medium, High).
- Internet_Access: Accesul la internet pentru studiu (Yes/No).
- Tutoring_Sessions: Numărul de sesiuni de meditații urmate.
- Family_Income: Venitul familiei (Low, Medium, High).
- Teacher_Quality: Calitatea profesorilor percepută de elev (Low, Medium, High).
- School_Type: Tipul de școală (Public/Private).
- Peer_Influence: Influența colegilor asupra elevului (Negative, Neutral, Positive).
- Physical_Activity: Numărul de ore de activitate fizică săptămânal.
- Learning_Disabilities: Prezența unor dificultăți de învățare (Yes/No).
- Parental_Education_Level: Nivelul de educație al părinților (High School, College, Postgraduate).
- Distance_from_Home: Distanța dintre casă și școală (Near, Moderate, Far).
- Gender: Genul elevului (Male/Female).
- Exam_Score: Variabila țintă, scorul obținut la examen (valoare numerică, obiectivul predicției).
Task-uri
Pentru primele task-uri, va trebui să încărcați setul de date și să efectuați o serie de analize statistice pentru a înțelege mai bine dataset-ul cu care urmează să lucrați.
Subtask 1 (10 puncte)
Pornind de la setul de date pentru antrenare, calculați media valorilor din coloana Hours_Studied
, reprezentând numărul de ore alocate de studenți pentru studiu.
Ulterior, pentru fiecare student din setul de testare, determinați modulul diferenței dintre numărul de ore efectiv studiate (Hours_Studied
) și media calculată pe setul de antrenare.
Subtask 2 (10 puncte)
Pe baza valorilor din coloana Sleep_Hours
, determinați pentru fiecare student din setul de testare dacă acesta doarme un număr redus de ore. Considerăm că un student doarme puțin dacă are mai puțin de 7 ore de somn. Pentru studenții care dorm puțin vom scrie valoarea True
, iar pentru cei care nu dorm puțin vom scrie valoarea False
.
Subtask 3 (10 puncte)
Pentru fiecare student din setul de testare, determinați câți studenți din setul de antrenare au avut un scor anterior (Previous_Scores
) mai mare sau egal decât al acelui student.
Subtask 4 (10 puncte)
Pentru fiecare student din setul de testare, determinați numărul de studenți din setul de antrenare care au avut același nivel de motivație (Motivation_Level
) ca al acelui student.
Subtask 5 (60 puncte)
Scopul principal al acestui subtask este de a construi un model de învățare automată care să prezică Exam_Score
pe baza caracteristicilor furnizate în setul de date. Modelul trebuie să fie capabil să generalizeze bine pe date noi și în acest sens o să fie evaluat pe setul de testare utilizând ca metrică Mean Absolute Error (MAE).
Note despre setul de date:
- Câmpul-țintă este
Exam_Score
, o valoare numerică ce reprezintă performanța elevului la examen. - Modelul trebuie antrenat pe setul
train_data.csv
și evaluat petest_data.csv
.
Criterii de evaluare:
- Performanță: Modelul trebuie să aibă o MAE cât mai mică.
Notă
Dacă veți trimite sample_output, atunci veți primi 6 puncte.
Submission
My submissions
Only submissions marked as final are counted for the complete leaderboard. Not choosing any final submissions will result in 0 points on this task.
Complete submission scores will be displayed after the competition ends
Predicția scorului la examen
Pentru această problemă trebuie să implementați un model de regresie capabil să prezică scorul obținut la examen (Exam_Score
) utilizând un set de date disponibil. Setul de date este organizat într-un fișier CSV, iar performanța modelului se va evalua pe baza Mean Absolute Error (MAE).
Setul de date conține următoarele coloane:
- ID: Număr unic de identificare al studentului.
- Hours_Studied: Numărul de ore petrecute studiind.
- Attendance: Procentul de prezență la cursuri.
- Parental_Involvement: Nivelul de implicare al părinților în educație (Low, Medium, High).
- Access_to_Resources: Accesul la resurse educaționale (Low, Medium, High).
- Extracurricular_Activities: Participarea la activități extracurriculare (Yes/No).
- Sleep_Hours: Numărul mediu de ore de somn pe noapte.
- Previous_Scores: Scorurile obținute anterior la examene.
- Motivation_Level: Nivelul de motivație al elevului (Low, Medium, High).
- Internet_Access: Accesul la internet pentru studiu (Yes/No).
- Tutoring_Sessions: Numărul de sesiuni de meditații urmate.
- Family_Income: Venitul familiei (Low, Medium, High).
- Teacher_Quality: Calitatea profesorilor percepută de elev (Low, Medium, High).
- School_Type: Tipul de școală (Public/Private).
- Peer_Influence: Influența colegilor asupra elevului (Negative, Neutral, Positive).
- Physical_Activity: Numărul de ore de activitate fizică săptămânal.
- Learning_Disabilities: Prezența unor dificultăți de învățare (Yes/No).
- Parental_Education_Level: Nivelul de educație al părinților (High School, College, Postgraduate).
- Distance_from_Home: Distanța dintre casă și școală (Near, Moderate, Far).
- Gender: Genul elevului (Male/Female).
- Exam_Score: Variabila țintă, scorul obținut la examen (valoare numerică, obiectivul predicției).
Task-uri
Pentru primele task-uri, va trebui să încărcați setul de date și să efectuați o serie de analize statistice pentru a înțelege mai bine dataset-ul cu care urmează să lucrați.
Subtask 1 (10 puncte)
Pornind de la setul de date pentru antrenare, calculați media valorilor din coloana Hours_Studied
, reprezentând numărul de ore alocate de studenți pentru studiu.
Ulterior, pentru fiecare student din setul de testare, determinați modulul diferenței dintre numărul de ore efectiv studiate (Hours_Studied
) și media calculată pe setul de antrenare.
Subtask 2 (10 puncte)
Pe baza valorilor din coloana Sleep_Hours
, determinați pentru fiecare student din setul de testare dacă acesta doarme un număr redus de ore. Considerăm că un student doarme puțin dacă are mai puțin de 7 ore de somn. Pentru studenții care dorm puțin vom scrie valoarea True
, iar pentru cei care nu dorm puțin vom scrie valoarea False
.
Subtask 3 (10 puncte)
Pentru fiecare student din setul de testare, determinați câți studenți din setul de antrenare au avut un scor anterior (Previous_Scores
) mai mare sau egal decât al acelui student.
Subtask 4 (10 puncte)
Pentru fiecare student din setul de testare, determinați numărul de studenți din setul de antrenare care au avut același nivel de motivație (Motivation_Level
) ca al acelui student.
Subtask 5 (60 puncte)
Scopul principal al acestui subtask este de a construi un model de învățare automată care să prezică Exam_Score
pe baza caracteristicilor furnizate în setul de date. Modelul trebuie să fie capabil să generalizeze bine pe date noi și în acest sens o să fie evaluat pe setul de testare utilizând ca metrică Mean Absolute Error (MAE).
Note despre setul de date:
- Câmpul-țintă este
Exam_Score
, o valoare numerică ce reprezintă performanța elevului la examen. - Modelul trebuie antrenat pe setul
train_data.csv
și evaluat petest_data.csv
.
Criterii de evaluare:
- Performanță: Modelul trebuie să aibă o MAE cât mai mică.
Notă
Dacă veți trimite sample_output, atunci veți primi 6 puncte.
Submission
My submissions
Only submissions marked as final are counted for the complete leaderboard. Not choosing any final submissions will result in 0 points on this task.
Complete submission scores will be displayed after the competition ends
Predicția scorului la examen
Pentru această problemă trebuie să implementați un model de regresie capabil să prezică scorul obținut la examen (Exam_Score
) utilizând un set de date disponibil. Setul de date este organizat într-un fișier CSV, iar performanța modelului se va evalua pe baza Mean Absolute Error (MAE).
Setul de date conține următoarele coloane:
- ID: Număr unic de identificare al studentului.
- Hours_Studied: Numărul de ore petrecute studiind.
- Attendance: Procentul de prezență la cursuri.
- Parental_Involvement: Nivelul de implicare al părinților în educație (Low, Medium, High).
- Access_to_Resources: Accesul la resurse educaționale (Low, Medium, High).
- Extracurricular_Activities: Participarea la activități extracurriculare (Yes/No).
- Sleep_Hours: Numărul mediu de ore de somn pe noapte.
- Previous_Scores: Scorurile obținute anterior la examene.
- Motivation_Level: Nivelul de motivație al elevului (Low, Medium, High).
- Internet_Access: Accesul la internet pentru studiu (Yes/No).
- Tutoring_Sessions: Numărul de sesiuni de meditații urmate.
- Family_Income: Venitul familiei (Low, Medium, High).
- Teacher_Quality: Calitatea profesorilor percepută de elev (Low, Medium, High).
- School_Type: Tipul de școală (Public/Private).
- Peer_Influence: Influența colegilor asupra elevului (Negative, Neutral, Positive).
- Physical_Activity: Numărul de ore de activitate fizică săptămânal.
- Learning_Disabilities: Prezența unor dificultăți de învățare (Yes/No).
- Parental_Education_Level: Nivelul de educație al părinților (High School, College, Postgraduate).
- Distance_from_Home: Distanța dintre casă și școală (Near, Moderate, Far).
- Gender: Genul elevului (Male/Female).
- Exam_Score: Variabila țintă, scorul obținut la examen (valoare numerică, obiectivul predicției).
Task-uri
Pentru primele task-uri, va trebui să încărcați setul de date și să efectuați o serie de analize statistice pentru a înțelege mai bine dataset-ul cu care urmează să lucrați.
Subtask 1 (10 puncte)
Pornind de la setul de date pentru antrenare, calculați media valorilor din coloana Hours_Studied
, reprezentând numărul de ore alocate de studenți pentru studiu.
Ulterior, pentru fiecare student din setul de testare, determinați modulul diferenței dintre numărul de ore efectiv studiate (Hours_Studied
) și media calculată pe setul de antrenare.
Subtask 2 (10 puncte)
Pe baza valorilor din coloana Sleep_Hours
, determinați pentru fiecare student din setul de testare dacă acesta doarme un număr redus de ore. Considerăm că un student doarme puțin dacă are mai puțin de 7 ore de somn. Pentru studenții care dorm puțin vom scrie valoarea True
, iar pentru cei care nu dorm puțin vom scrie valoarea False
.
Subtask 3 (10 puncte)
Pentru fiecare student din setul de testare, determinați câți studenți din setul de antrenare au avut un scor anterior (Previous_Scores
) mai mare sau egal decât al acelui student.
Subtask 4 (10 puncte)
Pentru fiecare student din setul de testare, determinați numărul de studenți din setul de antrenare care au avut același nivel de motivație (Motivation_Level
) ca al acelui student.
Subtask 5 (60 puncte)
Scopul principal al acestui subtask este de a construi un model de învățare automată care să prezică Exam_Score
pe baza caracteristicilor furnizate în setul de date. Modelul trebuie să fie capabil să generalizeze bine pe date noi și în acest sens o să fie evaluat pe setul de testare utilizând ca metrică Mean Absolute Error (MAE).
Note despre setul de date:
- Câmpul-țintă este
Exam_Score
, o valoare numerică ce reprezintă performanța elevului la examen. - Modelul trebuie antrenat pe setul
train_data.csv
și evaluat petest_data.csv
.
Criterii de evaluare:
- Performanță: Modelul trebuie să aibă o MAE cât mai mică.
Notă
Dacă veți trimite sample_output, atunci veți primi 6 puncte.
Submission
My submissions
Only submissions marked as final are counted for the complete leaderboard. Not choosing any final submissions will result in 0 points on this task.
Complete submission scores will be displayed after the competition ends
Predicția scorului la examen
Pentru această problemă trebuie să implementați un model de regresie capabil să prezică scorul obținut la examen (Exam_Score
) utilizând un set de date disponibil. Setul de date este organizat într-un fișier CSV, iar performanța modelului se va evalua pe baza Mean Absolute Error (MAE).
Setul de date conține următoarele coloane:
- ID: Număr unic de identificare al studentului.
- Hours_Studied: Numărul de ore petrecute studiind.
- Attendance: Procentul de prezență la cursuri.
- Parental_Involvement: Nivelul de implicare al părinților în educație (Low, Medium, High).
- Access_to_Resources: Accesul la resurse educaționale (Low, Medium, High).
- Extracurricular_Activities: Participarea la activități extracurriculare (Yes/No).
- Sleep_Hours: Numărul mediu de ore de somn pe noapte.
- Previous_Scores: Scorurile obținute anterior la examene.
- Motivation_Level: Nivelul de motivație al elevului (Low, Medium, High).
- Internet_Access: Accesul la internet pentru studiu (Yes/No).
- Tutoring_Sessions: Numărul de sesiuni de meditații urmate.
- Family_Income: Venitul familiei (Low, Medium, High).
- Teacher_Quality: Calitatea profesorilor percepută de elev (Low, Medium, High).
- School_Type: Tipul de școală (Public/Private).
- Peer_Influence: Influența colegilor asupra elevului (Negative, Neutral, Positive).
- Physical_Activity: Numărul de ore de activitate fizică săptămânal.
- Learning_Disabilities: Prezența unor dificultăți de învățare (Yes/No).
- Parental_Education_Level: Nivelul de educație al părinților (High School, College, Postgraduate).
- Distance_from_Home: Distanța dintre casă și școală (Near, Moderate, Far).
- Gender: Genul elevului (Male/Female).
- Exam_Score: Variabila țintă, scorul obținut la examen (valoare numerică, obiectivul predicției).
Task-uri
Pentru primele task-uri, va trebui să încărcați setul de date și să efectuați o serie de analize statistice pentru a înțelege mai bine dataset-ul cu care urmează să lucrați.
Subtask 1 (10 puncte)
Pornind de la setul de date pentru antrenare, calculați media valorilor din coloana Hours_Studied
, reprezentând numărul de ore alocate de studenți pentru studiu.
Ulterior, pentru fiecare student din setul de testare, determinați modulul diferenței dintre numărul de ore efectiv studiate (Hours_Studied
) și media calculată pe setul de antrenare.
Subtask 2 (10 puncte)
Pe baza valorilor din coloana Sleep_Hours
, determinați pentru fiecare student din setul de testare dacă acesta doarme un număr redus de ore. Considerăm că un student doarme puțin dacă are mai puțin de 7 ore de somn. Pentru studenții care dorm puțin vom scrie valoarea True
, iar pentru cei care nu dorm puțin vom scrie valoarea False
.
Subtask 3 (10 puncte)
Pentru fiecare student din setul de testare, determinați câți studenți din setul de antrenare au avut un scor anterior (Previous_Scores
) mai mare sau egal decât al acelui student.
Subtask 4 (10 puncte)
Pentru fiecare student din setul de testare, determinați numărul de studenți din setul de antrenare care au avut același nivel de motivație (Motivation_Level
) ca al acelui student.
Subtask 5 (60 puncte)
Scopul principal al acestui subtask este de a construi un model de învățare automată care să prezică Exam_Score
pe baza caracteristicilor furnizate în setul de date. Modelul trebuie să fie capabil să generalizeze bine pe date noi și în acest sens o să fie evaluat pe setul de testare utilizând ca metrică Mean Absolute Error (MAE).
Note despre setul de date:
- Câmpul-țintă este
Exam_Score
, o valoare numerică ce reprezintă performanța elevului la examen. - Modelul trebuie antrenat pe setul
train_data.csv
și evaluat petest_data.csv
.
Criterii de evaluare:
- Performanță: Modelul trebuie să aibă o MAE cât mai mică.
Notă
Dacă veți trimite sample_output, atunci veți primi 6 puncte.
Submission
My submissions
Only submissions marked as final are counted for the complete leaderboard. Not choosing any final submissions will result in 0 points on this task.
Complete submission scores will be displayed after the competition ends