Schlechter f1-score - Datenformat korrekt

system · 17. Juni 2019 um 11:28

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

JohnLetter · 17. Juni 2019 um 11:28

Schlechter f1-score - Datenformat korrekt
Hi, leider gehen mir etwas die Ideen aus,
Wenn ich flair laufen lassen kommen eher unterirdische Ergebnisse raus.
Ich zweifel gerade etwas daran ob mein Datenformat so passt.
Mein f1-score ist bei ca 44%
Die “” verwirren mich etwas, hat jemand eine Ahnung ob das so in der Art passt und ich nur die Daten etwas säubern muss,
oder hab ich ein grundlegenden Fehler in meinem Datenformat?

doc ner ner_spacy text
0 O O Pratibha
0 O O P
0 B-Designation B-Designation Principal
0 L-Designation L-Designation Consultant
0 O O at
0 O O Oracle
0 O O Bengaluru
0 O O ,
0 O O Karnataka
0 O O -
0 O O Email
0 O O me
0 O O on
0 O O Indeed
0 O O :
0 O O indeed.com/r/Pratibha-P/b4c1202741d63c6c
0 O O Over
0 O O 14
0 O O years
0 O O of
0 O O experience
0 O O in
0 O O estimation
0 O O ,
0 O O design
0 O O ,
0 O O development
0 O O ,
0 O O implementation
0 O O ,
0 O O testing
0 O O and
0 O O enhancement
0 O O of
0 O O various
0 O O Oracle
0 O O applications
0 "
"
0 O O Currently
0 O O working
0 O O as
0 B-Designation O Principal
0 L-Designation O Consultant
0 O O (
0 O O Oracle
0 O O Applications
0 O O )
0 O O with
0 O O the
0 O O consulting
0 O O group
0 O O Global
0 O O Service
0 O O Delivery
0 O O (
0 O O GSD
0 O O )
0 O O of
0 O O Oracle
0 O O India
0 O O Pvt
0 O O Ltd
0 O O ,
0 O O Bangalore
0 "
"
0 O O Possesses
0 O O excellent
0 O O communication
0 O O ,
0 O O extensive
0 O O functional
0 O O and
0 O O technical
0 O O experience
0 O O in
0 O O implementing
0 O O Oracle
0 O O E
0 O O -
0 O O business
0 O O Suite
0 O O applications
0 "
"

reptor · 17. Juni 2019 um 12:48

Ist vermutlich ein Fehler bei der Behandlung vom Satzende, denn genau an den Stellen kommt in den Originaldaten ein Punkt vor.

nakami · 18. Juni 2019 um 17:00

Ist das der Datei-Inhalt deines Trainings/Test Splits? Geht’s um die Daten für spaCy oder für flair?

falls Flair: Bei mir bestehen die Dateien aus Zeilen der Kombination . Demnach kein Index vorne… Außerdem hab ich nur eine Spalte fürs Label, will ja flair nur mit den ‘wahren’ Daten trainieren und nicht mit den von spaCy-predicted Labes…
Warum sind deine Spalten verdreht?

reptor · 18. Juni 2019 um 20:12

Hm, ich glaube nakamis Beitrag aus meinem Thread https://fsi.cs.fau.de/forum/post/160855 passt vielleicht hier als Erklärung ganz gut, sprich es handelt sich um Zeilenumbrüche in der Token-Spalte im pandas Dataframe.