Ram overflow in Corpus

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

Ram overflow in Corpus
Hi,

ich bin gerade dran den Datensatz mithilfe von Flair auf Google-Corpus zu laden. Allerdings habe ich immer einen RAM overflow.
Mein test und dev Dataset ist jeweils 18 MB groß und der train Datensatz 67 MB groß.

  • Hat jemand zufällig eine Idee, wie ich den massigen Speicherbedarf umgehen kann und kann das auch noch an was anderem liegen?
  • Wie ist denn die Dateiengröße bei euch und was habt ihr am Schluss bei der Datenaufbereitung noch rausgefiltert außer Whitespaces?

Grüße
Josef


Mitlerweile habe ich es selbst lösen können. Ich hatte einen Schleifenfehler, der mir die Zahl der Entries stark in die Höhe geschossen hatte.

Noch eine kleine Anmerkung.
Im aktuellen Github Repo fehlt im File “Resume_NER/flair_nlp_colab.ipynb” fehlt der folgende Import:

from typing import List