ANG BAGONG TEXT-TO-SPEECH AI NG GOOGLE AY NAPAKAHUSAY NA TAYA NAMIN HINDI MO MASASABI ITO MULA SA ISANG TUNAY NA TAO

Maaari mo bang sabihin ang pagkakaiba sa pagitan ng pagsasalita ng computer na binuo ng AI at isang tunay, live na tao? Siguro palagi mong naisip na kaya mo. Marahil ay mahilig ka kina Alexa at Siri ngunit naniniwala na hindi mo malilito ang alinman sa kanila sa isang tunay na babae.

Ang mga bagay ay malapit nang makakuha ng mas kawili-wiling. Ang mga inhinyero ng Google ay naging masipag sa paggawa ng isang sistemang text-to-speech na tinatawag Tacotron 2 . Ayon sa a papel nai-publish nila ngayong buwan, unang lumikha ang system ng isang spectrogram ng teksto, isang visual na representasyon kung paano dapat tunog ang pagsasalita. Ang imaheng iyon ay inilalagay sa pamamagitan ng umiiral nang WaveNet algorithm ng Google, na gumagamit ng imahe upang makagawa ng napaka natural na tunog na pantao.

Gamit ang pamamaraang ito, iniulat ng mga mananaliksik, 'Nakamit ng aming modelo ang isang average na marka ng opinyon (MOS) na 4.53 na maihahambing sa isang MOS na 4.58 para sa propesyonal na naitala na pananalita.' (Ang isang ibig sabihin ng marka ng opinyon ay isang termino sa telekomunikasyon na sumusukat kung gaano katunog ang isang tunay na buhay.)

Tulad ng ipinakita ng mga sample ng audio ng Google, maaaring makita ng Tacotron 2 mula sa konteksto ang pagkakaiba sa pagitan ng pangngalang 'disyerto' at ng pandiwa na 'disyerto,' pati na rin ng pangngalang 'kasalukuyan' at ng pandiwa na 'kasalukuyan,' at baguhin ang pagbigkas nito nang naaayon. Maaari nitong bigyan diin ang mga malalaking titik na salita at mailapat ang wastong pagpapasubo kapag nagtatanong ng isang katanungan sa halip na gumawa ng isang pahayag.

At maaari itong makabuo ng teksto na katulad ng katulad ng pagsasalita ng tao na mahirap o imposibleng malaman ang pagkakaiba. Kung nais mong makita kung gaano kahirap, pumunta sa Google pahina ng mga sample ng audio , at mag-scroll pababa sa huling hanay ng mga sample, na pinamagatang 'Tacotron 2 o Human?' Mahahanap mo doon ang Tacotron 2 at isang totoong tao bawat nagsasabi ng mga pangungusap tulad ng, 'Ang batang babae na iyon ay gumawa ng isang video tungkol sa Star Wars lipstick.'

SPOILER ALERT: Upang subukan ang iyong sarili, pakinggan ang mga sample at hulaan kung alin bago babasahin ang natitirang haligi na ito.

Kaya aling mga sample ang text-to-speech at alin ang tunay na boses ng tao? Hindi sinasabi ng mga inhinyero ng Google ngunit nag-iwan sila ng napakalaking bakas. Ang bawat isa sa mga sample ng .wav file ay may isang filename na naglalaman ng alinman sa term na 'gen' o 'gt.' Batay sa papel, malamang na ang 'gen' ay nagpapahiwatig ng pananalita na binuo ng Tacotron 2, at ang 'gt' ay tunay na pagsasalita ng tao. (Ang 'GT' ay malamang na nangangahulugang 'ground katotohanan,' isang termino sa pag-aaral ng makina na karaniwang nangangahulugang 'ang tunay na pakikitungo.')

Ipagpalagay na ito ay tama, narito ang mga sagot sa pagsubok:

'Ang batang babae na iyon ay gumawa ng isang video tungkol sa Star Wars lipstick.'

Sample 1: Totoong tao

Sample 2: Tacotron 2

'Kumita siya ng titulo ng doktor sa sosyolohiya mula sa Columbia University.'

Sample 1: Tacotron 2

Sample 2: Totoong tao

'Si George Washington ang unang Pangulo ng Estados Unidos.'

Sample 1: Tacotron 2

Sample 2: Totoong tao

'Masyado akong abala sa pag-ibig.'

Sample 1: Totoong tao

Sample 2: Tacotron 2

Ilan ba ang tama mo? At masasabi mo ba talaga ang pagkakaiba, o kailangan mo lang hulaan?

Ang Bagong Text-to-Speech AI ng Google ay Napakahusay na Taya namin Hindi Mo Masasabi Ito Mula sa isang Tunay na Tao

Ang Iyong Horoscope Para Bukas

Inirerekumendang

Maurice Benard Bio

Paano Nagpunta ang Milk Bar na si Christina Tosi Mula sa empleyado ng Momofuku hanggang sa CEO ng Bakery Chain

Paano Itinayo ng Tagapagtatag ng Lahi ng Spartan na si Joe De Sena ang Pinakamalaking Tatak sa Karera ng Obstacle

Kagiliw-Giliw Na Mga Artikulo

75 Porsyento ng Impormasyon ang Kailangan Mo Bang Magpasya

7 Mga Matalinong Dahilan na Dapat Mong Magsalita ng Mas kaunti at Makinig Pa

Max Schneider Bio

Kirk Frost Bio

Ang 'Milyong Listahan ng Dolyar' Star Ryan Serhant Sinasabi ang Pinakamahusay na Salespeople Gumamit ng Batayang Prinsipyo na Ito upang Maibenta ang Anumang bagay

Beatrice Jean Howard-Gabel Bio

Nais Na Manalo sa Labanan Laban sa Iyong Kumpetisyon? Lumikha ng First-Class War Room

Payo Mula sa 23 Taong-Taong Matanda na Sinabing Hindi kay Mark Cuban

Garth Brooks Bio

Ang Nag-iisang Pinakapangit na Paraan upang Sumagot sa isang Katanungan. May tanong. Lahat ng Katanungan

Mikey Day Bio

Ang Tagapagtatag na Chip Sa Iyong Balikat: Masama o Mabuti?

7 Offbeat TED Talks upang Makatulong sa Iyong Itigil ang Pag-pro

Gemini Hindi Buwanang Horoscope

Paano Tumatalikod sa Pagtanda at Maging Sinumang Nais Mong Maging