Der Energieverbrauch, die Kosten und der Kohlenstoff-Fußabdruck sollten so bald wie möglich bei der Bewertung der Leistung von auf tiefem Lernen basierenden Systemen berücksichtigt werden. Ich habe darüber auch schon früher hier geschrieben.
Ein aktuelles Beispiel für enorme Kosten ist die GPT-3, das 4,6-Millionen-Dollar-Sprachenmodell, bestehend aus 175 Milliarden Parametern. Das vorherige OpenAI GPT-2-Modell hatte 1,5 Milliarden Parameter und war damals das größte Modell. GPT-3 kann Gedichte schreiben, Texte übersetzen, überzeugend chatten und abstrakte Fragen beantworten.
Einige interessante Mitbringsel:
- GPT-3 zeigt, dass ein auf genügend Daten trainiertes Sprachmodell NLP-Aufgaben lösen kann, die es noch nie gesehen hat. Das heißt, GPT-3 untersucht das Modell als allgemeine Lösung für viele nachgelagerte Aufgaben ohne Feinabstimmung.
- Es würde 355 Jahre dauern, um GPT-3 auf einem Tesla V100, der schnellsten GPU auf dem Markt, zu trainieren.
- Wie oben geschrieben, es würde ~4.600.000 Dollar kosten, GPT-3 auf dem kostengünstigsten GPU-Cloud-Anbieter auszubilden.
Neueste Kommentare