OpenAI sudah merilis ChatGPT, suatu chatbot AI yang sudah memperoleh atensi luar biasa dari publik. Apalagi seminggu sehabis perilisannya, ChatGPT sukses menggapai 1 juta pengguna. Pasti saja atensi publik ini bukan suatu kebetulan belaka, melainkan oleh karena keahlian ChatGPT yang sanggup membongkar bermacam permasalahan serta mengelaborasikan jawaban semacam manusia.
ChatGPT pada dasarnya merupakan model bahasa yang sanggup berdialog alias diucap chatbot. Cocok namanya, ini didasarkan pada keluarga GPT 3. 5, evolusi GPT3 (Generative Pretrained Transformer 3) yang dilatih pada bacaan serta kode. ChatGPT diturunkan dari InstructGPT, OpenAI lain berperan buat membuat model yang sanggup menjajaki instruksi pengguna memakai metode Reinforcement Learning. Dengan demikian, dia sanggup membagikan asumsi yang mirip manusia terhadap persoalan berbasis bacaan serta bisa diterapkan pada bermacam perihal semacam layanan pelanggan, interaksi pelanggan, manajemen media sosial serta sebagainya.
ChatGPT ialah produk yang diluncurkan oleh industri OpenAI. OpenAI merupakan suatu industri non- profit tentang studi Artificial Intelligence, didirikan pada 2015 oleh Sam Altman, Elon Musk, serta investor Silicon Valley yang lain. Pada tahun 2015, OpenAI mengganti statusnya jadi industri” capped- profit”, yang berarti pengembalian hasil buat investor ataupun karyawan hendak dibatasi buat menaikkan modal dalam rangka pengembangan OpenAI. Elon Musk mengundurkan diri dari dewan pada 2018 sebab konflik kepentingan antara OpenAI serta riset kendaraan otonom yang dicoba dengan Tesla. Tetapi, ia senantiasa jadi investor, serta berbagi kegembiraannya atas peluncuran ChatGPT.
ChatGPT dilatih dengan memakai tata cara Reinforcement Learning from Human Feedback (RLHF), bagian dari Machine Learning yang berfokus membangun model( agent) buat memaksimumkan sasaran (reward). Model dini memakai Supervised Fine-Tuning: Trainer Human AI sediakan obrolan di mana mereka bermain di kedua sisi—pengguna (agent) serta asisten AI, yang mana pelatih diberikan akses anjuran yang hendaknya ditulis model buat menolong mereka menyusun asumsi.
Buat membuat Reward Model pada Reinforcement Learning membutuhkan pengumpulan informasi perbandingan, yang terdiri dari 2 ataupun lebih reaksi model yang diberi peringkat bersumber pada mutu. Informasi ini dikumpulkan dengan melaksanakan obrolan antara pelatih AI dengan chatbot. Sehabis itu, secara acak memilah pesan yang ditulis model serta mengambil ilustrasi sebagian penyelesaian alternatif, serta memohon pelatih AI memeringkatnya. Dengan memakai Reward Model inilah bisa menyempurnakan model lewat Proximal Policy Optimization.