logo
ALPHA
Competitions
thumbnail

Nitro NLP

High-school
Romania
2 - 4 Participants

The 4th edition of the 23h Hackathon you've been waiting for! The first competition made specifically for AI beginners in Romania.

Problems Communication Leaderboard Rules
Mickey și DonaldFind the Ducks
TaskEditorial

Mickey și Donald

În viața reală există mai multe tipuri de gândire. Unii oameni gândesc în imagini, unii în cuvinte, unii în concepte etc. De aceea "gândește înainte să spui ceva" nu funcționează pentru toată lumea... Dacă pui un coechipier să își imagineze o rață, cum va arăta rezultatul? (v. aphantasia test)

Mickey a băut mult prea mult lapte după workshopuri asa ca a început să încurce cuvintele între ele. El gândește în concepte, așa că nu observă diferența. Donald, în schimb, e în echipa lui la un hackathon și are nevoie să înțeleagă despre ce vorbește. Donald și Mickey sunt prieteni de foarte mult timp, așa că odată ce a înțeles contextul îi va fi foarte ușor să ghicească și ce a încercat să spună. Ajutați-l pe Donald!

Precizări

Mickey vine din Republica Moldova, așa că în primă instanță Donald o să încerce să își dea seama dacă Mickey vorbește în română sau în moldovenește, iar abia apoi subiectul propoziției.

Cuvintele sunt shuffled în interiorul setului de date.

Pentru a nu supăra pe nimeni, Donald a înlocuit numele de entități din aceste fraze cu $NE$. O entitate reprezintă o persoană, o instituție, un loc etc.

Train Data

Setul de date are 4 coloane:

  • datapointID → ID-ul liniei curente, ca număr întreg
  • sample → textul encrypted
  • dialect → dialectul original:
    • 1 → română
    • 2 → moldovenește
  • category → subiectul propoziției:
    • 1 → cultură
    • 2 → finanțe
    • 3 → politică
    • 4 → știință
    • 5 → sport
    • 6 → tehnologie

Task 1 (40p)

Pentru fiecare datapointID din setul de test va trebui să identifici dialectul textului din coloana sample. Evaluarea se face folosind binary F1

Task 2 (60p)

Pentru fiecare datapointID din setul de test va trebui să identifici subiectul textului din coloana sample. Evaluarea se face folosind weighted F1

Format output

Fișierul .csv pe care îl încarci trebuie să conțină 3 coloane cu coloanele subtaskID, datapointID si answer, reprezentând cerința pe care o rezolvi, ID-ul liniei din test data pe care o rezolvi și raspunsul tău (vezi Sample Output). Toate coloanele trebuie să fie prezente și în ordinea cerută chiar dacă vrei să răspunzi pentru un singur subtask.

Files

Train DataTest DataSample OutputStarter Kit

Submission

Make sure your source code produces the output you uploaded! Chosen submissions may be rerun with your source code after the competition to get the final score.

My Submissions

This competition allows at most 100 submissions and up to 100 of those submissions can be chosen as final

You didn't make any submission yet