Simulare OJIA
O primă simulare a Olimpiadei Județene de Inteligență Artificială
Credit Score
Prezentare generală
Setul de date utilizat pentru această provocare provine de la o bancă și conține informații despre utilizatori, având ca scop prezicerea dacă un utilizator este un bun platnic. Problema este una de clasificare cu 3 posible etichete asociate unui client: POOR CREDIT SCORE
, codificat prin valoarea -1, STANDARD CREDIT SCORE
, codificat prin valoarea 0 și GOOD CREDIT SCORE
, codificat prin valoarea 1.
Prezentarea setului de date
Setul de date din fișierul train_data.csv
conține următoarele coloane:
- ID: cod de identificare unic în hexazecimal a fiecărei linii
- Customer_ID: cod de identificare unic al clientului
- Month: luna din an
- Name: numele clientului
- Age: vârsta clientului exprimată în ani
- SSN: cod numeric personal al clientului
- Occupation: ocupația clientului
- Annual_Income: venitul anul al clientului
- Monthly_Inhand_Salary: salariul lunar net al clientului
- Num_Bank_Accounts: numărul de conturi bancare ale clientului
- Num_Credit_Card: numărul de carduri de credit pe care le deține clientul
- Interest_Rate: dobânda
- Num_of_Loan: numărul de împrumuturi ale clientului
- Type_of_Loan: o listă care conține tipurile acestor împrumuturi
- Delay_from_due_date: întârzierea față de data scadentă
- Num_of_Delayed_Payment: numărul de plați efectuate cu întârziere
- Changed_Credit_Limit
- Num_Credit_Inquiries
- Credit_Mix
- Outstanding_Debt
- Credit_Utilization_Ratio
- Credit_History_Age
- Payment_of_Min_Amount
- Total_EMI_per_month
- Amount_invested_monthly
- Payment_Behaviour
- Monthly_Balance
- Credit_Score: una dintre cele 3 etichete posibile asociate unui client
Setul de date din fișierul test_data.csv
va conține aceleași coloane fără coloana Credit_Score
.
Cerință
Subtask 1:
Câte linii de intrare sunt in fișierul train_data.csv
?
Subtask 2:
Bazat pe datele fișierul train_data.csv
, care este media pentru "Salariul în mână" (Monthly_Inhand_Salary
) al clienților care au un Credit_Utilization_Ratio
mai mare sau egal cu 25? Afișați partea întreagă inferioară a acestei medii.
Subtask 3:
Bazat pe datele fișierul train_data.csv
, câte valori unice sunt înregistrate pentru atributul Months
?
Subtask 4:
Bazat pe datele fișierul train_data.csv
, câte valori unice ale atributului SSN
care se termină în 20
există?
Subtask 5:
Construiește un model de învățare automată pentru a prezice scorul de credit pentru fiecare înregistrare din setul de date de test (test_data.csv
).
Format de ieșire
Fișierul de ieșire încărcat de tip .csv
trebuie să conțină 6 coloane în această ordine:
- ID: id-ul liniei din fișierul de intrare (in format hexazecimal)
- Subtask 1: răspunsul pentru subtask-ul 1
- Subtask 2: răspunsul pentru subtask-ul 2 (parte întreagă inferioară)
- Subtask 3: răspunsul pentru subtask-ul 3
- Subtask 4: răspunsul pentru subtask-ul 4
- Subtask 5: răspunsul pentru subtask-ul 5
ca în fișierul sample_output.csv
.
Pentru subtask-urile 1-4, la care răspunsul nu depinde de linia pentru care este afișat, toata coloana trebuie să conțină aceeași valoare (răspunsul pentru cerința respectivă).
Pentru subtask-ul 5, fiecare linie trebuie să conțină o valoare din mulțimea { -1, 0, 1 } corespunzătoare etichetei atribuite clientului.
Scor
- Subtask 1: 4 puncte
- Subtask 2: 5 puncte
- Subtask 3: 5 puncte
- Subtask 4: 6 puncte
La subtask-ul 5, veți fi punctați în funcție de acuratețe (notată mai jos acc) după cum urmează:
- acc < 0.4 => 0 puncte
- 0.4 <= acc < 0.5 => 10 puncte
- 0.5 <= acc < 0.6 => 25 puncte
- 0.6 <= acc < 0.7 => 55 puncte
- 0.7 <= acc < 0.75 => 65 puncte
- 0.75 <= acc => 80 puncte
Această problemă nu are scor final diferit de scorul parțial. Scorul din timpul concursului e cel cu care veți rămâne la final.
Submission
My Submissions
This competition allows at most 50 submissions and up to 2 of those submissions can be chosen as final
You didn't make any submission yet
Credit Score
Prezentare generală
Setul de date utilizat pentru această provocare provine de la o bancă și conține informații despre utilizatori, având ca scop prezicerea dacă un utilizator este un bun platnic. Problema este una de clasificare cu 3 posible etichete asociate unui client: POOR CREDIT SCORE
, codificat prin valoarea -1, STANDARD CREDIT SCORE
, codificat prin valoarea 0 și GOOD CREDIT SCORE
, codificat prin valoarea 1.
Prezentarea setului de date
Setul de date din fișierul train_data.csv
conține următoarele coloane:
- ID: cod de identificare unic în hexazecimal a fiecărei linii
- Customer_ID: cod de identificare unic al clientului
- Month: luna din an
- Name: numele clientului
- Age: vârsta clientului exprimată în ani
- SSN: cod numeric personal al clientului
- Occupation: ocupația clientului
- Annual_Income: venitul anul al clientului
- Monthly_Inhand_Salary: salariul lunar net al clientului
- Num_Bank_Accounts: numărul de conturi bancare ale clientului
- Num_Credit_Card: numărul de carduri de credit pe care le deține clientul
- Interest_Rate: dobânda
- Num_of_Loan: numărul de împrumuturi ale clientului
- Type_of_Loan: o listă care conține tipurile acestor împrumuturi
- Delay_from_due_date: întârzierea față de data scadentă
- Num_of_Delayed_Payment: numărul de plați efectuate cu întârziere
- Changed_Credit_Limit
- Num_Credit_Inquiries
- Credit_Mix
- Outstanding_Debt
- Credit_Utilization_Ratio
- Credit_History_Age
- Payment_of_Min_Amount
- Total_EMI_per_month
- Amount_invested_monthly
- Payment_Behaviour
- Monthly_Balance
- Credit_Score: una dintre cele 3 etichete posibile asociate unui client
Setul de date din fișierul test_data.csv
va conține aceleași coloane fără coloana Credit_Score
.
Cerință
Subtask 1:
Câte linii de intrare sunt in fișierul train_data.csv
?
Subtask 2:
Bazat pe datele fișierul train_data.csv
, care este media pentru "Salariul în mână" (Monthly_Inhand_Salary
) al clienților care au un Credit_Utilization_Ratio
mai mare sau egal cu 25? Afișați partea întreagă inferioară a acestei medii.
Subtask 3:
Bazat pe datele fișierul train_data.csv
, câte valori unice sunt înregistrate pentru atributul Months
?
Subtask 4:
Bazat pe datele fișierul train_data.csv
, câte valori unice ale atributului SSN
care se termină în 20
există?
Subtask 5:
Construiește un model de învățare automată pentru a prezice scorul de credit pentru fiecare înregistrare din setul de date de test (test_data.csv
).
Format de ieșire
Fișierul de ieșire încărcat de tip .csv
trebuie să conțină 6 coloane în această ordine:
- ID: id-ul liniei din fișierul de intrare (in format hexazecimal)
- Subtask 1: răspunsul pentru subtask-ul 1
- Subtask 2: răspunsul pentru subtask-ul 2 (parte întreagă inferioară)
- Subtask 3: răspunsul pentru subtask-ul 3
- Subtask 4: răspunsul pentru subtask-ul 4
- Subtask 5: răspunsul pentru subtask-ul 5
ca în fișierul sample_output.csv
.
Pentru subtask-urile 1-4, la care răspunsul nu depinde de linia pentru care este afișat, toata coloana trebuie să conțină aceeași valoare (răspunsul pentru cerința respectivă).
Pentru subtask-ul 5, fiecare linie trebuie să conțină o valoare din mulțimea { -1, 0, 1 } corespunzătoare etichetei atribuite clientului.
Scor
- Subtask 1: 4 puncte
- Subtask 2: 5 puncte
- Subtask 3: 5 puncte
- Subtask 4: 6 puncte
La subtask-ul 5, veți fi punctați în funcție de acuratețe (notată mai jos acc) după cum urmează:
- acc < 0.4 => 0 puncte
- 0.4 <= acc < 0.5 => 10 puncte
- 0.5 <= acc < 0.6 => 25 puncte
- 0.6 <= acc < 0.7 => 55 puncte
- 0.7 <= acc < 0.75 => 65 puncte
- 0.75 <= acc => 80 puncte
Această problemă nu are scor final diferit de scorul parțial. Scorul din timpul concursului e cel cu care veți rămâne la final.
Submission
My Submissions
This competition allows at most 50 submissions and up to 2 of those submissions can be chosen as final
You didn't make any submission yet