Strona w budowie, zapraszamy wkrótce...

Zapraszamy już za:

-1289Dni -21Godzin 00Minut -12Sekund

 

 

Strona w budowie, zapraszamy wkrótce...

Program sztucznej inteligencji Microsoftu potrafi sklonować twój głos na podstawie 3-sekundowego nagrania audio

Krzysztof Bogacki
Krzysztof Bogacki
Redaktor naczelny IT Reseller, pasjonat kawy, technologii i podróży.

Powiązane

Nowe rozwiązanie sztucznej inteligencji od Microsoftu potrafi sklonować twój głos po usłyszeniu, jak się wypowiadasz przez zaledwie 3 sekundy.

Program, nazwany VALL-E, został zaprojektowany do przetwarzania tekstu na mowę. Zespół naukowców z Microsoftu stworzył go, dysponując systemem, który przesłuchał 60 000 godzin narracji angielskich audiobooków z ponad 7 000 różnych głośników w celu uzyskania naturalnie brzmiącej mowy. Ta próbka jest setki razy większa niż to, na czym opierają się inne algorytmy do przetwarzania tekstu na mowę.

Zespół Microsoftu opublikował stronę internetową, która zawiera kilka demówek VALL-E w akcji. Jak można usłyszeć, program AI może nie tylko sklonować czyjś głos za pomocą 3-sekundowego klipu audio, ale także manipulować sklonowanym głosem, aby powiedzieć wszystko, co jest pożądane. Ponadto program może replikować emocje w głosie osoby lub być skonfigurowany do różnych stylów mówienia.

Klonowanie głosu nie jest niczym nowym. Jednak podejście Microsoftu wyróżnia się tym, że umożliwia łatwe odtworzenie głosu dowolnej osoby przy użyciu jedynie krótkiego fragmentu danych audio. Nietrudno więc wyobrazić sobie, że ta sama technologia może być źródłem cyberprzestępczości — co zespół Microsoftu uznaje za potencjalne zagrożenie.

“Ponieważ VALL-E może syntetyzować mowę, która zachowuje tożsamość mówcy, może nieść ze sobą potencjalne ryzyko niewłaściwego wykorzystania modelu, takiego jak spoofing identyfikacji głosu lub podszywanie się pod konkretnego mówcę” – napisali badacze w swoim artykule. Zespół zauważa, że może być możliwe zbudowanie programów, które mogą “odróżnić, czy klip audio został zsyntetyzowany przez VALL-E”.

VALL-E interpretuje mowę audio jako “dyskretne tokeny”, a następnie odtwarza token, aby mówić z innym tekstem. “VALL-E generuje odpowiednie tokeny akustyczne uwarunkowane przez 3-sekundowe nagrania próbek głosu” – napisali badacze. “Wreszcie, wygenerowane tokeny akustyczne są używane do syntezy ostatecznego kształtu fali z odpowiednim dekoderem kodeka neuronowego”.

Technologia ta jest jednak daleka od doskonałości. W swoim artykule badawczym zespół Microsoftu zauważa, że VALL-E może czasami zmagać się lub nie wymawiać pewnych słów. W innych przypadkach, słowa mogą brzmieć jak żargon, sztucznie zsyntetyzowane, robotyczne lub po prostu tonalnie nietrafione.

 

ZOSTAW ODPOWIEDŹ

Please enter your comment!
Please enter your name here

Newsletter

Social media

Najpopularniejsze

Feardemic rozbudowuje portfolio gier, liczy na poszerzenie grona odbiorców.

Feardemic - spółka-córka Bloober Team i wydawca gier z gatunku horror - poszerza swoje portfolio wydawnicze, aby trafić do większej grupy odbiorców, poinformował CEO...

Warszawski Instytut Bankowości/Związek Banków Polskich: 86% Polaków czuje się bezpiecznie, korzystając...

Liderem w obszarze cyberbezpieczeństwa są banki (54%), wyprzedzając tym samym firmy technologiczne (31%) oraz wojsko i policję (30%), wynika z badania "Postawy Polaków wobec...

Rząd planuje powołanie Centralnego Biura Zwalczania Cyberprzestępczości.

Rząd planuje powołanie Centralnego Biura Zwalczania Cyberprzestępczości, które ma zajmować się wyłącznie problemami dotyczącymi cyberbezpieczeństwa, poinformował premier Mateusz Morawiecki. Planowane są zmiany ustawy o...

Biuro Informacji Kredytowej: Wartość pożyczek od firm pożyczkowych wzrosła o 119,9%...

Firmy pożyczkowe udzieliły w czerwcu finansowania na kwotę 661 mln zł (wzrost o 119,9% r/r), wynika z danych Biura Informacji Kredytowej (BIK). Średnia wartość...

Huawei podczas International Automobile Industry Exhibition w Szanghaju ogłosił rozpoczęcie sprzedaży...

Huawei rusza ze sprzedażą na chińskim rynku pierwszego samochodu z technologią Huawei na pokładzie. Od środy 21 kwietnia, elektryczny samochód SERES SF5 będzie dostępny...

Najnowsze

Poważna luka bezpieczeństwa w procesorach Apple

Badacze z kilku amerykańskich uczelni (m.in. University of Texas w Austin i University of California, Berkeley) odkryli poważną lukę w zabezpieczeniach chipów Apple M1...

Cisco i Microsoft transmitują dane z prędkością 800 Gb/s za...

Cisco ogłosiło sukces, jakim jest przesył danych z prędkością 800 Gb/s transatlantyckim kablem komunikacyjnym Amitié, który biegnie przez 6 234 km - z Bostonu...

Snowflake współpracuje z NVIDIA, aby dostarczyć klientom kompleksową platformę AI

Snowflake, firma oferująca Chmurę Danych, ogłosiła na konferencji NVIDIA GTC rozszerzoną współpracę z firmą NVIDIA. Jej efektem będzie wzmocnienie pozycji klientów korporacyjnych dzięki platformie...

Bank BNP Paribas rozpoczął wdrażanie Oracle Fusion ERP Cloud, pierwszym na...

Bank BNP Paribas rozpoczął wdrażanie Oracle Fusion ERP Cloud. Będzie to pierwszy w sektorze bankowym system Enterprise Resource Planning (ERP) działający całkowicie w chmurze....

OVHcloud poszerza portfolio chmury publicznej o usługę Managed Rancher Service inicjując...

Grupa OVHcloud, europejski lider w dziedzinie chmury, podczas konferencji KubeCon Europe 2024 ogłosiła wprowadzenie nowych usług do rosnącej oferty chmury publicznej, liczącej ponad 40...