KI-Firmen nutzten Untertitel Tausender YouTube-Videos für Sprachmodell-Training - eviltoast
    • Schmerzbold@feddit.org
      link
      fedilink
      Deutsch
      arrow-up
      3
      ·
      4 months ago

      Laut der Github-Seite vom im Artikel erwähnten Skript sind es nur die nicht maschinell generierten Untertitel. Wobei das Skript natürlich nur erkennen kann, ob die Texte von youtube selbst generiert wurden. Wenn die Uploader selbst ihre Videos maschinell transkribiert und diese Untertitel hochgeladen haben, weiß youtube das nicht, und diese Untertitel könnten noch grottiger sein, als die von youtube generierten.