Pangunahin Makabago Ang Bagong Text-to-Speech AI ng Google ay Napakahusay na Taya namin Hindi Mo Masasabi Ito Mula sa isang Tunay na Tao

Ang Bagong Text-to-Speech AI ng Google ay Napakahusay na Taya namin Hindi Mo Masasabi Ito Mula sa isang Tunay na Tao

Ang Iyong Horoscope Para Bukas

Maaari mo bang sabihin ang pagkakaiba sa pagitan ng pagsasalita ng computer na binuo ng AI at isang tunay, live na tao? Siguro palagi mong naisip na kaya mo. Marahil ay mahilig ka kina Alexa at Siri ngunit naniniwala na hindi mo malilito ang alinman sa kanila sa isang tunay na babae.

Ang mga bagay ay malapit nang makakuha ng mas kawili-wiling. Ang mga inhinyero ng Google ay naging masipag sa paggawa ng isang sistemang text-to-speech na tinatawag Tacotron 2 . Ayon sa a papel nai-publish nila ngayong buwan, unang lumikha ang system ng isang spectrogram ng teksto, isang visual na representasyon kung paano dapat tunog ang pagsasalita. Ang imaheng iyon ay inilalagay sa pamamagitan ng umiiral nang WaveNet algorithm ng Google, na gumagamit ng imahe upang makagawa ng napaka natural na tunog na pantao.

Gamit ang pamamaraang ito, iniulat ng mga mananaliksik, 'Nakamit ng aming modelo ang isang average na marka ng opinyon (MOS) na 4.53 na maihahambing sa isang MOS na 4.58 para sa propesyonal na naitala na pananalita.' (Ang isang ibig sabihin ng marka ng opinyon ay isang termino sa telekomunikasyon na sumusukat kung gaano katunog ang isang tunay na buhay.)

Tulad ng ipinakita ng mga sample ng audio ng Google, maaaring makita ng Tacotron 2 mula sa konteksto ang pagkakaiba sa pagitan ng pangngalang 'disyerto' at ng pandiwa na 'disyerto,' pati na rin ng pangngalang 'kasalukuyan' at ng pandiwa na 'kasalukuyan,' at baguhin ang pagbigkas nito nang naaayon. Maaari nitong bigyan diin ang mga malalaking titik na salita at mailapat ang wastong pagpapasubo kapag nagtatanong ng isang katanungan sa halip na gumawa ng isang pahayag.

At maaari itong makabuo ng teksto na katulad ng katulad ng pagsasalita ng tao na mahirap o imposibleng malaman ang pagkakaiba. Kung nais mong makita kung gaano kahirap, pumunta sa Google pahina ng mga sample ng audio , at mag-scroll pababa sa huling hanay ng mga sample, na pinamagatang 'Tacotron 2 o Human?' Mahahanap mo doon ang Tacotron 2 at isang totoong tao bawat nagsasabi ng mga pangungusap tulad ng, 'Ang batang babae na iyon ay gumawa ng isang video tungkol sa Star Wars lipstick.'

SPOILER ALERT: Upang subukan ang iyong sarili, pakinggan ang mga sample at hulaan kung alin bago babasahin ang natitirang haligi na ito.

Kaya aling mga sample ang text-to-speech at alin ang tunay na boses ng tao? Hindi sinasabi ng mga inhinyero ng Google ngunit nag-iwan sila ng napakalaking bakas. Ang bawat isa sa mga sample ng .wav file ay may isang filename na naglalaman ng alinman sa term na 'gen' o 'gt.' Batay sa papel, malamang na ang 'gen' ay nagpapahiwatig ng pananalita na binuo ng Tacotron 2, at ang 'gt' ay tunay na pagsasalita ng tao. (Ang 'GT' ay malamang na nangangahulugang 'ground katotohanan,' isang termino sa pag-aaral ng makina na karaniwang nangangahulugang 'ang tunay na pakikitungo.')

Ipagpalagay na ito ay tama, narito ang mga sagot sa pagsubok:

'Ang batang babae na iyon ay gumawa ng isang video tungkol sa Star Wars lipstick.'

Sample 1: Totoong tao

Sample 2: Tacotron 2

'Kumita siya ng titulo ng doktor sa sosyolohiya mula sa Columbia University.'

Sample 1: Tacotron 2

Sample 2: Totoong tao

'Si George Washington ang unang Pangulo ng Estados Unidos.'

Sample 1: Tacotron 2

Sample 2: Totoong tao

'Masyado akong abala sa pag-ibig.'

Sample 1: Totoong tao

Sample 2: Tacotron 2

Ilan ba ang tama mo? At masasabi mo ba talaga ang pagkakaiba, o kailangan mo lang hulaan?