Ram overflow in Corpus

system · 12. Juni 2019 um 22:03

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

Josef · 12. Juni 2019 um 22:03

Ram overflow in Corpus
Hi,

ich bin gerade dran den Datensatz mithilfe von Flair auf Google-Corpus zu laden. Allerdings habe ich immer einen RAM overflow.
Mein test und dev Dataset ist jeweils 18 MB groß und der train Datensatz 67 MB groß.

Hat jemand zufällig eine Idee, wie ich den massigen Speicherbedarf umgehen kann und kann das auch noch an was anderem liegen?
Wie ist denn die Dateiengröße bei euch und was habt ihr am Schluss bei der Datenaufbereitung noch rausgefiltert außer Whitespaces?

Grüße
Josef

Josef · 12. Juni 2019 um 23:02

Mitlerweile habe ich es selbst lösen können. Ich hatte einen Schleifenfehler, der mir die Zahl der Entries stark in die Höhe geschossen hatte.

Noch eine kleine Anmerkung.
Im aktuellen Github Repo fehlt im File “Resume_NER/flair_nlp_colab.ipynb” fehlt der folgende Import:

from typing import List