Tarp daugelio naujų „OpenAI“ atnaujinimų, „ChatGPT“ technologijų įmonė paskelbė apie naujos išplėstinės balso režimo funkcijos įdiegimą, leidžiančią vartotojams natūraliai bendrauti su pokalbių robotu.
Bendrovė teigė, kad ji dar nepasiekiama Europos Sąjungos šalyse, įskaitant Islandiją, Lichtenšteiną, Norvegiją, Šveicariją ar Jungtinę Karalystę.
„OpenAI“ įkūrėjas ir generalinis direktorius Samas Altmanas įraše X parašė: „Tikimės, kad manote, kad laukti buvo verta“.
Išplėstinis balso režimo išleidimas prasideda šiandien! (bus baigta per savaitę)
tikiuosi, kad buvo verta laukti 🥺🫶 https://t.co/rEWZzNFERQ
– Samas Altmanas (@sama) 2024 m. rugsėjo 24 d
Štai ką reikia žinoti apie tai ir kaip ChatGPT įjungti išplėstinį balso režimą.
Kas yra išplėstinis balso režimas „ChatGPT“?
Balso pokalbiai leidžia vartotojams kalbėtis su ChatGPT, o tai reiškia, kad galite bendrauti ir kalbėtis natūraliau. Kai galite užduoti klausimus arba diskutuoti naudodami balso įvestį, „ChatGPT“ atsakys žodžiu.
Šiuo metu yra dviejų tipų balso pokalbiai – standartiniai ir išplėstiniai.
„Advanced Voice“ per savaitę bus prieinama visiems „Plus“ ir „Team“ naudotojams „ChatGPT“ programoje.
Kol kantriai laukėte, pridėjome pasirinktines instrukcijas, atmintį, penkis naujus balsus ir patobulintus akcentus.
Jis taip pat gali pasakyti „Atsiprašau, kad vėluoju“ daugiau nei 50 kalbų. pic.twitter.com/APOqqhXtDg
– OpenAI (@OpenAI) 2024 m. rugsėjo 24 d
„ReadWrite“ pranešė, kad praėjusį mėnesį OpenAI pristatė naują standartinį balso režimą. Standartinis balsas naudoja kelis didelius kalbos modelius (LLM), kad sugeneruotų savo atsakymą, įskaitant tai, ką sakote, perrašyti į tekstą prieš siunčiant jį į OpenAI modelius atsakymui. Nors standartinis balsas paprastai nėra daugiarūšis, kaip pažangus balsas, standartiniuose balso pokalbiuose kartu su GPT-4o mini naudojamas ir GPT-4o. Kiekvienas raginimas standartiniu balsu įskaičiuojamas į pranešimų limitą.
Išplėstinis režimas skiriasi tuo, kad jame naudojamos GPT-4o vietinės garso galimybės ir funkcijos. Dėl to OpenAI tikisi sukurti natūralesnius, realiu laiku vykstančius pokalbius, kuriuose atsižvelgiama į neverbalinius signalus, pvz., vartotojo pokalbio greitį ir galintį reaguoti emocijomis.
Tačiau išplėstinio balso naudojimas „Plus“ ir „Team“ naudotojams yra ribotas kasdien.
Kaip suaktyvinti balso režimą „ChatGPT“?
Liepos mėnesį „OpenAI“ nedidelei „ChatGPT Plus“ vartotojų grupei pristatė tik garso patobulintą balso režimą, šį rudenį planuojama išplėsti jį visiems abonentams.
Nors ekrano ir vaizdo įrašų bendrinimas buvo pradinės demonstracinės versijos dalis, šiuo metu jie nepasiekiami šiame alfa versijoje, o „OpenAI“ nepateikė jų įtraukimo laiko juostos.
„Plus“ prenumeratoriai gaus pranešimą el. paštu, kai funkcija jiems bus prieinama. Suaktyvinus, vartotojai gali perjungti standartinį ir išplėstinį balso režimus programos viršuje, naudodami ChatGPT balso funkciją.
Norėdami pradėti pokalbį balsu, apatiniame dešiniajame ekrano kampe palieskite balso piktogramą.
Jei naudojate išplėstinį balsą, prasidėjus pokalbiui ekrano centre pamatysite mėlyną rutulį. Standartiniam balsui rutulys bus juodas.
Pokalbio metu galite nutildyti arba įjungti garsą bakstelėdami mikrofono piktogramą apačioje kairėje. O kai būsite pasiruošę baigti pokalbį, tiesiog paspauskite išėjimo piktogramą apatiniame dešiniajame kampe.
Jei balso pokalbį pradedate pirmą kartą arba pirmą kartą naudojate išplėstinį balsą, jūsų bus paprašyta pasirinkti balsą. Tiesiog perspėjimas, garsumas parinkiklyje gali šiek tiek skirtis nuo to, ką girdite pokalbio metu.
Vėliau visada galėsite pakeisti savo balsą nustatymuose, o pažengę balso naudotojai netgi gali reguliuoti savo balsą tiesiai pokalbio ekrane naudodami tinkinimo meniu viršuje dešinėje.
Įsitikinkite, kad suteikėte ChatGPT programai leidimą naudoti mikrofoną, kad viskas veiktų sklandžiai.
O jei ši funkcija dar nepasiekiama, vietoje nutildymo/įjungimo mygtukų matysite ausinių piktogramą. Naudodami abi versijas galite nutraukti pokalbį ir nukreipti jį taip, kaip jums atrodo tinkamesnė.
Ar pasiekiamas „ChatGPT“ balsas?
Jei esate prisijungę prie „ChatGPT“ naudodami „iOS“, „MacOS“ arba „Android“ programas, jau turite prieigą prie standartinės balso funkcijos. Tačiau šiuo metu išplėstinis balsas pasiekiamas tik „Plus“ ir „Team“ naudotojams.
Yra nustatytas išplėstinio balso naudojimo dienos limitas, kuris laikui bėgant gali keistis, bet gausite įspėjimą, kai priartėsite prie ribos, pradedant nuo 15 minučių įspėjimo. Kai pasieksite ribą, pokalbis automatiškai persijungs į standartinį balsą.
Išplėstinis balsas dar nepalaiko tokių dalykų kaip vaizdai, todėl vartotojai gali tęsti išplėstinį balso pokalbį tik tekstu arba standartiniu balsu, o ne atvirkščiai. Standartiniu balsu pradėtus pokalbius visada galima tęsti naudojant standartinį balsą arba tekstą, bet ne išplėstinį balsą. Išplėstinis balsas taip pat nepasiekiamas naudojant GPT – tam turėsite perjungti į standartinį balsą.
„OpenAI“ taip pat nepristatė tam tikrų prieinamų funkcijų. Todėl pokalbių balsu metu subtitrai nepasiekiami, bet pokalbyje teksto pokalbyje bus rodoma transkripcija. Be to, vienu metu galite turėti tik vieną balso pokalbį.
Išplėstinis balsas gali kurti ir pasiekti prisiminimus bei pasirinktines instrukcijas, kaip ir standartinis balsas, kuris taip pat turi šias funkcijas.
Ar „ChatGPT“ balso pokalbis yra saugus?
Rugpjūčio mėn. „OpenAI“ atskleidė, kad „ChatGPT“ balso režime yra tam tikrų saugumo trūkumų, tačiau patikino, kad jie yra geresni. „OpenAI“ paskelbė ataskaitą apie GPT-4o saugos funkcijas, sprendžiant žinomas problemas, kylančias naudojant modelį.
„ChatGPT“ balso režimo „saugos iššūkiai“ apima tipiškus rūpesčius, pvz., netinkamų atsakymų, pvz., erotinio ar smurtinio turinio, generavimą ir šališkų prielaidų kūrimą. „OpenAI“ išmokė modelį blokuoti tokius išėjimus, tačiau ataskaitoje pabrėžiama, kad neverbaliniai garsai, tokie kaip erotinės dejonės, žiaurūs riksmai ir šūviai, nėra visiškai filtruojami. Tai reiškia, kad raginimai su šiais jautriais garsais vis tiek gali sukelti atsakymus.
Kitas iššūkis – bendravimas su modeliu vokališkai. Bandytojai nustatė, kad GPT-4o gali būti apgautas nukopijuojant kažkieno balsą arba netyčia skambant kaip vartotojo. Kad to išvengtų, OpenAI leidžia tik iš anksto patvirtintus balsus – neįskaitant į Scarlett Johansson panašų balsą, kurį įmonė jau pašalino. Be to, nors GPT-4o gali atpažinti kitus balsus, jis buvo išmokytas atmesti tokias užklausas dėl privatumo, nebent būtų identifikuojama garsi citata.
Red-teamers taip pat pažymėjo, kad GPT-4o gali būti manipuliuojamas kalbant įtikinamai, o tai kelia didesnę riziką skleidžiant dezinformaciją ar sąmokslo teorijas, atsižvelgiant į ištartų žodžių poveikį. Modelis buvo išmokytas atmesti užklausas dėl autorių teisių saugomo turinio ir turi papildomų filtrų, skirtų blokuoti muziką. Ir kaip smagu, tai užprogramuota visai nedainuoti. Tačiau šiame X naudotojo pavyzdyje balsas padeda sureguliuoti jo gitarą niūniuodamas natą.
Advanced Voice in ChatGPT derina mano gitarą. pic.twitter.com/1H6mYZTCq7
– Pietro Schirano (@skirano) 2024 m. rugsėjo 24 d
Kaip nustoti dalytis garso įrašu?
Galite bet kada sustabdyti garso įrašo bendrinimą apsilankę duomenų valdiklių puslapyje „ChatGPT“ nustatymuose. Tiesiog išjunkite nustatymą „Gerinti balsą visiems“.
Jei duomenų valdiklių nustatymuose nematote parinkties „Patobulinti balsą visiems“, tai reiškia, kad nesidalinote garso įrašu su „OpenAI“ ir jis nenaudojamas modeliams mokyti.
Jei nuspręsite nebebendrinti, garsas iš būsimų balso pokalbių nebus naudojamas modelio mokymui. Tačiau garso klipai, kurie anksčiau buvo atsieti nuo paskyros, vis tiek gali būti naudojami mokant OpenAI modelius.
„OpenAI“ taip pat paminėjo, kad net jei nustosite bendrinti garso įrašą, jis „vis tiek gali naudoti tų pokalbių transkripcijas, kad apmokytų mūsų modelį“, jei vis dar įjungtas nustatymas „Patobulinti modelį visiems“. Norėdami visiškai atsisakyti, išjunkite parinktį „Patobulinti modelį visiems“.
Garso klipai iš išplėstinių balso pokalbių bus saugomi tol, kol pokalbis išliks jūsų pokalbių istorijoje. Jei ištrinsite pokalbį, garso klipai taip pat bus ištrinti per 30 dienų, nebent jų prireiks dėl saugumo ar teisinių priežasčių. Jei bendrinote garso klipus su „OpenAI“, kad padėtumėte mokyti modelius, tie klipai vis tiek gali būti naudojami, bet tik tada, kai jie bus atsieti nuo paskyros.
Teminis vaizdas: Ideograma / Canva