OpenAI Menggunakan Video YouTube Untuk Melatih GPT-4, Berikut yang Kami Ketahui

Sesuai laporan baru-baru ini, OpenAI menggunakan jutaan jam video YouTube untuk melatih LLM terkuatnya, GPT-4.
openai-menggunakan-video-youtube-untuk-melatih-gpt-4

Tahun lalu, OpenAI meluncurkan model bahasa besar (LLM) yang paling kuat, GPT-4. LLM disebut-sebut sebagai versi ChatGPT yang lebih kuat, cerdas, dan bertenaga dari ChatGPT sebelumnya, yang berjalan pada GPT-3.5. OpenAI, pada saat peluncurannya, juga telah merilis daftar ujian yang telah dilewati GPT-4 dan membagikan skornya juga. Dan skornya cukup bagus. Misalnya, model bahasa lulus LSAT dengan persentil 88 dan SAT Math dengan persentil 89. Ia juga lulus ujian Kuantitatif GRE dengan persentil ke-80 dan ujian lisan dan tulisan GRE dengan persentil ke-99 dan ke-54. Sekarang, laporan baru mengatakan bahwa perusahaan tersebut melatih LLM-nya yang kuat menggunakan jutaan jam di video YouTube.

Menurut laporan terbaru oleh The New York Times, OpenAI menghadapi kelangkaan data pelatihan selama pengembangan model transkripsi audio Whisper. Untuk mengatasi masalah ini, perusahaan tersebut dilaporkan mentranskripsikan lebih dari satu juta jam video YouTube untuk melatih model bahasa GPT-4 miliknya, meskipun terdapat ambiguitas hukum dalam pendekatan ini. Presiden OpenAI Greg Brockman dilaporkan memainkan peran langsung dalam mencari sumber video ini. Laporan tersebut juga menunjukkan bahwa OpenAI telah kehabisan sumber data konvensionalnya pada tahun 2021, sehingga memicu diskusi tentang transkripsi video YouTube, podcast, dan buku audio. Sebelumnya, perusahaan telah melatih modelnya pada beragam kumpulan data, termasuk kode komputer dari GitHub dan konten pendidikan dari Quizlet.

Menanggapi pertanyaan dari The Verge, juru bicara OpenAI Lindsay Held berbicara tentang upaya perusahaan dalam menyusun kumpulan data berbeda untuk setiap model guna meningkatkan pemahaman mereka dan mempertahankan daya saing dalam penelitian global. Held menyebutkan memanfaatkan berbagai sumber, termasuk data publik dan kemitraan, serta menjajaki pembuatan data sintetis.

Perlu diingat, postingan blog OpenAI yang memperkenalkan GPT-4 berbunyi, "Kami telah membuat GPT-4, pencapaian terbaru dalam upaya OpenAI dalam meningkatkan pembelajaran mendalam. GPT-4 adalah model multimodal besar (menerima masukan gambar dan teks, memancarkan teks output) yang, meski kurang mampu dibandingkan manusia dalam banyak skenario dunia nyata, menunjukkan kinerja setara manusia dalam berbagai tolok ukur profesional dan akademis."

Meskipun beberapa laporan tentang GPT-5 telah muncul di masa lalu, sejauh ini belum ada konfirmasi resmi dari OpenAI mengenai jadwal peluncuran LLM. Selain itu, CEO perusahaan Sam Altman berulang kali berbicara tentang kemungkinan menciptakan LLM yang lebih kuat di masa depan.