Information Influx
MENU
  • Actu
  • Bureautique
  • High-Tech
  • Informatique
  • Marketing
  • Sécurité
  • SEO
  • Web
logo
Information Influx
  • Actu
    • Les ports Ethernet
      29 janvier 2023
      0
    • Qu'est-ce qu'un mégabit (Mb) ? Est-ce le même qu'un mégaoctet (Mo) ?
      22 janvier 2023
      0
    • Logo Red Bull : histoire de la marque et origine du symbole
      22 janvier 2023
      0
    • Synchroniser ma boîte mail avec mon téléphone
      7 janvier 2023
      0
    • Quels sont les débouchés après une école de marketing digital ?
      Quels sont les débouchés après une école de marketing digital ?
      3 janvier 2023
      0
    • Youzik, une plateforme musicale française
      2 janvier 2023
      0
    • Ingénieur Big Data : son rôle
      18 décembre 2022
      0
    • Comment contacter le service après-vente ?
      Comment contacter le service après-vente ?
      18 décembre 2022
      0
    • Quel convertisseur YouTube MP3 utiliser ?
      26 novembre 2022
      0
  • Bureautique
    • Comment configurer Edge ?
      29 janvier 2023
      0
    • Comment installer Microsoft Outlook gratuit ?
      29 janvier 2023
      0
    • Quel est le meilleur pack office ?
      22 janvier 2023
      0
    • Comment installer Microsoft Office 2010 avec la clé d'activation ?
      22 janvier 2023
      0
    • Pourquoi Synchroniser Gmail ?
      22 janvier 2023
      0
    • Comment créer une adresse Hotmail gratuitement ?
      22 janvier 2023
      0
    • Quel navigateur pour remplacer Internet Explorer ?
      2 janvier 2023
      0
    • Comment corriger le problème de mon compte Microsoft ?
      20 novembre 2022
      0
    • Faire crédit pour un PC : quelles sont les démarches à suivre ...
      6 mai 2022
      0
  • High-Tech
    • La Californie comblera les lacunes en matière de notification des atteintes à ...
      29 janvier 2023
      0
    • Le Samsung Galaxy S10 peut charger d'autres téléphones sans fil
      29 janvier 2023
      0
    • SoundCloud introduit enfin des tarifs réduits pour les étudiants
      29 janvier 2023
      0
    • Voatz, l'application de vote basée sur la chaîne de blocs, obtient un ...
      29 janvier 2023
      0
    • Comment s'effectue une maintenance Shopify?
      Comment s'effectue une maintenance Shopify?
      29 janvier 2023
      0
    • Utilisez Mobile Tracker Free pour surveiller en temps réel l'utilisation des appareils ...
      29 janvier 2023
      0
    • Comprendre pourquoi le son est insuffisant sur Netflix sous Windows 10
      26 janvier 2023
      0
    • delivery, ecommerce, shipment
      Comment comparer les forfaits box internet ?
      25 janvier 2023
      0
    • Quels sont les avantages de l'utilisation d'un stylet pour écran tactile ?
      24 janvier 2023
      0
  • Informatique
    • WebRip : comment ripper un DVD ?
      29 janvier 2023
      0
    • man using black laptop computer
      Qu'est-ce que le code RNE ou UAI ?
      26 janvier 2023
      0
    • Apprenez à ajouter des sous-titres à vos vidéos Youtube en quelques étapes ...
      25 janvier 2023
      0
    • La formule de conversion pour les millilitres en centilitres
      22 janvier 2023
      0
    • Comment supprimer une conversation sur Teams ?
      22 janvier 2023
      0
    • Comment faire une mise à jour sur Samsung ?
      15 janvier 2023
      0
    • macro photography of black circuit board
      Comment trouver du travail en tant que Freelance en Informatique
      9 janvier 2023
      0
    • Comment configurer ma connexion entre mon téléphone portable et mon imprimante HP ?
      Comment configurer ma connexion entre mon téléphone portable et mon imprimante HP ...
      9 janvier 2023
      0
    • À qui faire appel pour une maintenance informatique près de chez vous
      À qui faire appel pour une maintenance informatique près de chez vous ?
      6 décembre 2022
      0
  • Marketing
    • Tutoriel Personnalisez votre Newsletter avec Mailchimp
      Tutoriel: Personnalisez votre Newsletter avec Mailchimp!
      25 janvier 2023
      0
    • Comment dresser un profil type ?
      15 janvier 2023
      0
    • Comment faire du lead nurturing
      Comment faire du lead nurturing ?
      15 janvier 2023
      0
    • Comment réparer Urlmon.dll introuvable ou les erreurs manquantes ?
      20 novembre 2022
      0
    • Réussir dans le dropshipping
      24 septembre 2022
      0
    • Comment bien choisir son agence digitale ?
      Comment bien choisir son agence digitale ?
      15 septembre 2022
      0
    • Comment joindre une agence marketing ?
      Comment joindre une agence marketing ?
      24 juin 2022
      0
    • Comment réussir sa relation client ?
      20 mai 2022
      0
    • Comment choisir son agence de communication digitale ?
      Comment choisir son agence de communication digitale ?
      31 janvier 2022
      0
  • Sécurité
    • Comment télécharger et installer un logiciel en toute sécurité
      29 janvier 2023
      0
    • portail Securitas
      Comprendre le fonctionnement de mon portail Securitas
      27 janvier 2023
      0
    • Qu'est-ce qu'une signature de virus ?
      22 janvier 2023
      0
    • Le débat au sujet du logiciel antivirus
      15 janvier 2023
      0
    • Comment effacer toute trace des sites visités ?
      23 décembre 2022
      0
    • Les 8 meilleurs logiciels antivirus de 2019
      20 novembre 2022
      0
    • Mettre en quarantaine, Supprimer ou Nettoyer, Quelle est la meilleur option pour ...
      5 juin 2022
      0
    • Comment sécuriser sa navigation sur Internet ?
      Comment sécuriser sa navigation sur Internet ?
      11 avril 2022
      0
    • Protégez votre système informatique des ransomwares !
      Protégez votre système informatique des ransomwares !
      8 avril 2022
      0
  • SEO
    • À quoi sert le référencement SEO ?
      À quoi sert le référencement SEO ?
      15 janvier 2023
      0
    • Micro données et Rich Snippets
      22 septembre 2022
      0
    • X choses à savoir sur Semrush
      3 choses à savoir sur Semrush
      27 juin 2022
      0
    • Quels critères faut-il prendre en compte quand on choisit une agence SEO ...
      27 avril 2022
      0
    • Comment fonctionne le SEO à Marseille ?
      16 avril 2022
      0
    • Meilleure plateforme de netlinking au Maroc
      13 décembre 2021
      0
    • Pourquoi devriez-vous confier le référencement de votre site web à une agence spécialisée ?
      Pourquoi devriez-vous confier le référencement de votre site web à une agence ...
      22 juillet 2021
      0
    • Le netlinking : Définition et importance
      Le netlinking : Définition et importance
      1 juillet 2021
      0
    • Google
      Pourquoi mon site n’est-il pas visible sur Google?
      16 mars 2021
      0
  • Web
    • white ipad on red textile
      Fleets : les stories s'invitent sur Twitter !
      29 janvier 2023
      0
    • Pourquoi suivre des blogs sur les startups ?
      Comment donner de la visibilité à votre entreprise en ligne ?
      29 janvier 2023
      0
    • ZT ZA : c'est quoi Zone-Téléchargement ?
      29 janvier 2023
      0
    • ENT AC Poitiers : se connecter à son compte
      22 janvier 2023
      0
    • Envato Elements : le meilleur endroit pour trouver les éléments dont vous ...
      28 décembre 2022
      0
    • Confiez la création de votre site Internet à des experts
      Confiez la création de votre site Internet à des experts
      3 octobre 2022
      0
    • Pourquoi faut-il faire appel à un professionnel pour produire un contenu optimisé pour votre site ?
      Pourquoi faut-il faire appel à un professionnel pour produire un contenu optimisé ...
      11 juillet 2022
      0
    • Comment connaître son hébergeur ?
      28 juin 2022
      0
    • application mobile
      Application web et application mobile : quelles différences ?
      23 mai 2022
      0
High-Tech
Accueil›High-Tech›WellSaid vise à faire de la parole synthétique à consonance naturelle une alternative crédible aux vrais humains.

WellSaid vise à faire de la parole synthétique à consonance naturelle une alternative crédible aux vrais humains.

By Sophie
7 mars 2019
398
Partager :

Beaucoup de choses sont mieux dites que lues, mais la meilleure technologie vocale semble être réservée aux assistants virtuels, pas aux lecteurs d’écran ou aux livres audio générés automatiquement. WellSaid veut permettre à tout créateur d’utiliser un discours synthétique de qualité au lieu d’une voix humaine – peut-être même une version synthétique d’eux-mêmes.

Il y a eu une série d’avancées majeures dans la synthèse vocale au cours des deux dernières années alors que la technologie des réseaux neuronaux s‘améliore par rapport à l’ancienne approche hautement manuelle. Mais Google, Apple et Amazon ne semblent pas disposés à rendre leur technologie vocale disponible pour autre chose que des pépiements de votre téléphone ou de votre home hub.

A lire en complément : Jusqu'où êtes-vous prêt à aller pour la croissance ?

Dès que j’ai entendu parler de WaveNet, et plus tard de Tacotron, j’ai essayé de contacter l’équipe de Google pour leur demander quand ils se mettraient à produire des livres audio à sonorité naturelle pour tout ce qui se trouve sur Google Books, ou dans le cadre d’AMP, ou pour en faire un service accessible, etc. Je n’ai jamais eu de nouvelles. J’ai considéré qu’il s’agissait d’une occasion manquée, car il y en a beaucoup qui ont besoin d’un tel service.

J’ai donc été heureux d’apprendre que WellSaid s’attaque à ce marché, d’une certaine façon du moins. L’entreprise est la première à lancer le programme d’incubateur de l’Allen Institute for AI (AI2) annoncé en 2017. Ils prennent leur temps !

A lire également : Comment choisir ses accessoires pour gamer ?

L’incubateur AI2 soutenu par Allen vise à mettre en relation les startups AI avec des talents de classe mondiale.

Parlez-en, parlez !

J’ai parlé avec le PDG des cofondateurs, Matt Hocking et le directeur technique, Michael Petrochuk, qui m’ont expliqué pourquoi ils avaient décidé de créer un tout nouveau système de synthèse vocale. Le problème fondamental, disaient-ils, c’est que les systèmes existants reposent non seulement sur beaucoup d’annotations humaines pour sonner correctement, mais qu’ils ” sonnent bien ” de la même façon à chaque fois. Vous ne pouvez pas vous contenter de lui donner quelques heures d’audio en espérant qu’il saura infléchir les questions ou faire une pause entre les éléments de la liste – la plupart de ces choses doivent être expliquées pour eux. Le résultat final est cependant très efficace.

“Leur but est de faire un petit modèle pour bon marché[c’est-à-dire par ordinateur] qui prononce les choses de la même façon à chaque fois. C’est cette voix parfaite, a dit M. Petrochuk, nous avons poussé la recherche comme Tacotron encore plus loin, mais nous n’essayons pas de contrôler la parole et d’y appliquer cette structure arbitraire.

“Quand on pense à la voix humaine, ce qui rend naturel, en quelque sorte, ce sont les incohérences “, dit Hocking.

Et où trouver de meilleures incohérences que chez l’homme ? L’équipe a travaillé avec une poignée d’acteurs vocaux pour enregistrer des dizaines d’heures d’audio à transmettre au système. Il n’est pas nécessaire d’annoter le texte avec un “langage de balisage vocal” pour désigner des parties de phrases et ainsi de suite, a dit Petrochuk : “Nous avons découvert comment nous entraîner à partir de données brutes de livres audio, sans avoir à faire quoi que ce soit d’autre en plus”.

Ainsi, le modèle de WellSaid prononce souvent le même mot différemment, non pas parce qu’un modèle manuel de langage soigneusement manucuré le suggère, mais parce que la personne dont il imite l’empreinte vocale l’a fait.

Et comment ça marche, exactement ? Cette question semble plonger dans la sauce secrète de WellSaid. Leur modèle, comme tout système d’apprentissage profond, prend en compte d’innombrables intrants et produit un résultat, mais il est plus vaste et de plus grande portée que les autres systèmes de synthèse vocale. Des choses comme la cadence et la prononciation ne sont pas spécifiées par ses surveillants mais extraites de l’audio et modélisées en temps réel. C’est un peu magique, mais c’est souvent le cas lorsqu’il s’agit de recherche de pointe en IA.

Il fonctionne sur un CPU en temps réel, pas sur une grappe de GPU quelque part, donc il peut être fait hors ligne aussi bien. C’est un exploit en soi, car de nombreux algorithmes de synthèse vocale sont très gourmands en ressources.

Ce qui compte, c’est que la voix produite puisse parler n’importe quel texte d’une manière très naturelle. Voici la première partie d’un article – hélas, pas l’un des miens, qui aurait employé des circonlocutions plus mélodieuses – lu par WaveNet de Google, puis par deux des voix de WellSaid.

Les deux derniers sont nettement plus naturels que le premier. Sur certaines phrases, les voix peuvent être presque impossibles à distinguer des voix originales, mais dans la plupart des cas, je suis sûr que je pourrais choisir la voix synthétique en quelques mots.

Qu’elle soit proche, cependant, est un accomplissement. Et je peux certainement dire que si je devais faire lire un article par l’une de ces voix, ce serait celui de WellSaid. Naturellement, il peut aussi être modifié et itéré, ou des effets peuvent être appliqués pour manipuler davantage le son, comme avec toute performance vocale. Vous ne pensiez pas que les interviews que vous entendez sur NPR n’étaient pas éditées, n’est-ce pas ?

Le but est d’abord de trouver les créatifs dont le travail serait amélioré ou facilité en ajoutant cet outil à leur boîte à outils.

“Il y a beaucoup de gens qui ont ce besoin, explique Hocking, un producteur vidéo qui n’a pas les moyens d’engager un acteur de voix, quelqu’un avec un grand volume de contenu qui doit être rediffusé rapidement, si l’anglais est une langue seconde, cela ouvre beaucoup de portes, et certaines personnes n’ont pas de voix à la radio.

Ce serait bien de pouvoir ajouter de la voix en un clic plutôt que de simplement avoir du texte en bloc et de la musique libre de droits sur une annonce sociale (pensez à l’admen) :

J’ai posé des questions sur l’accueil des acteurs de la voix, à qui l’on demande bien sûr essentiellement de former leurs propres remplaçants. Ils ont dit que les acteurs étaient en fait positifs à ce sujet, pensant qu’il s’agissait d’une sorte de photographie d’archives pour la voix ; obtenez un produit pré-fabriqué pour pas cher, et si vous l’aimez, payez le créateur pour la vraie chose. Bien qu’ils ne voulaient pas s’enfermer prématurément dans de futurs modèles d’affaires, ils ont reconnu que le partage des revenus avec les acteurs de la voix était une possibilité. Le paiement des représentations virtuelles est un domaine nouveau et en pleine évolution.

Une version bêta fermée est lancée aujourd’hui, à laquelle vous pouvez vous inscrire sur le site de l’entreprise. Ils vont se lancer avec cinq voix pour commencer, avec plus de voix et d’options à venir au fur et à mesure que la place de WellSaid sur le marché devient claire. Une partie de ce processus consistera presque certainement à inclure dans les outils utilisés par les aveugles ou les personnes handicapées, comme je l’espère depuis des années.

Ça me dit quelque chose.

Et qu’est-ce qui vient après ça ? Faire des versions synthétiques des voix des utilisateurs, bien sûr. Pas de problème ! Mais les deux fondateurs ont averti que c’est loin d’être le cas pour plusieurs raisons, même si c’est tout à fait possible.

“À l’heure actuelle, nous utilisons environ 20 heures de données par personne, mais nous entrevoyons un avenir où nous pourrons les réduire à 1 ou 2 heures tout en conservant une qualité de transmission de la voix de première qualité, a déclaré M. Petrochuk.

“Et nous pouvons construire à partir d’ensembles de données existants, comme lorsque quelqu’un a un catalogue de contenu en arrière “, a ajouté Hocking.

Le problème, c’est que le contenu n’est peut-être pas tout à fait adapté à la formation du modèle d’apprentissage approfondi, qui, tel qu’il est avancé, peut sans aucun doute être délicat. Il y a des cadrans et des boutons à ajuster, bien sûr, mais ils ont dit que le réglage fin d’une voix est plus une question d’ajouter un discours correctif, peut-être que l’acteur vocal doit lire un script spécifique qui soutient les sons ou les cadences qui ont besoin d’un coup de pouce.

Ils l’ont comparé à la mise en scène d’un tel acteur plutôt qu’à l’ajustement du code. Après tout, on ne dit pas à un acteur d’augmenter les pauses après les virgules de 8 % ou de 15 millisecondes, selon la durée la plus longue. C’est plus efficace de leur montrer : “Dis-le comme ça.”

Malgré tout, obtenir la bonne qualité avec des données de formation limitées et imparfaites est un défi qui nécessitera un travail sérieux si et quand l’équipe décide de l’entreprendre.

Mais comme certains d’entre vous l’ont peut-être remarqué, il y a aussi des parallèles avec le monde peu recommandable des “deepfakes” : téléchargez une douzaine de podcasts ou de discours et vous avez assez de matériel pour faire une réplique passable de la voix d’une personne, peut-être une personnalité publique. Ceci a bien sûr une synergie inquiétante avec la capacité existante de simuler la vidéo et d’autres images.

Ce n’est pas nouveau pour Hocking et Petrochuk. Si vous travaillez en IA, ce genre de chose est inévitable.

“Nous venons d’AI2, où la devise est ” l’intelligence artificielle pour le bien commun “, ce à quoi nous souscrivons vraiment et qui nous différencie de nos concurrents qui faisaient les voix de Barack Obama avant même d’avoir un MVP (produit minimum viable). Nous allons surveiller de près pour nous assurer qu’il n’y a pas d’utilisation négative, et nous n’allons pas nous lancer avec la possibilité de faire une voix personnalisée, parce que cela permettrait à n’importe qui de créer une voix à partir de n’importe qui”.

La surveillance active est à peu près tout ce à quoi on peut s’attendre d’une personne ayant une technologie d’IA potentiellement troublante – bien qu’elle étudie des techniques d’atténuation qui pourraient aider à identifier les voix synthétiques.

Avec l’accent mis sur la présentation multimédia du contenu et de la publicité plutôt que sur l’écriture, WellSaid semble prêt à jouer un rôle précoce dans un marché en pleine croissance. Au fur et à mesure que le produit évolue et s’améliore, il est facile de l’imaginer se déplacer dans de nouveaux espaces plus restreints, comme les applications à décalage temporel (podcast instantané à 5 voix au choix !) et même reprendre le territoire actuellement réclamé par les assistants vocaux. Ça m’a l’air bien.

Article précédent

Camelot laisse le public de Twitch et ...

Article suivant

Instagram prototypes vidéo co-watching

0
Partages
  • 0
  • +
  • 0
  • 0
  • 0
  • 0

Articles similaires

  • High-Tech

    Huawei poursuit l’Amérique en justice alors que SoftBank dépense plus d’argent

    7 mars 2019
    By Sophie
  • High-Tech

    Un deuxième patient semble guéri du V.I.H., suscitant un nouvel espoir pour un nouveau traitement.

    5 mars 2019
    By Sophie
  • High-Tech

    Facebook étend ses projets d’infrastructure Internet

    25 février 2019
    By Sophie
  • High-Tech

    Voici les premières fuites d’images du nouvel HoloLens de Microsoft

    24 février 2019
    By Sophie
  • High-Tech

    Citymapper annonce un service d’abonnement pour plusieurs modes de transport

    3 janvier 2019
    By Sophie
  • High-Tech

    Tesla arrête les ventes en ligne avant l’annonce d’Elon Musk

    1 mars 2019
    By Sophie

  • High-Tech

    Taxer votre vie privée

  • High-Tech

    Bottomless a une solution pour les amateurs de café paresseux

  • High-Tech

    Le VUS Macan le plus vendu de Porsche, le Macan, devient tout électrique.

Facebook
informationinflux.org
Le smartphone pliable de Huawei ! (Mate X)
https://www.youtube.com/watch?v=euRHun0uhWI
Lettre d’information

Dernières publications
High-Tech

Utilisez Mobile Tracker Free pour surveiller en temps réel l’utilisation des appareils mobiles

De nombreuses personnes pensent que les trackers gratuits ne sont pas capables de fournir des informations précises, mais ce n’est pas vrai. Aujourd’hui, nous sommes ici pour mettre fin à ...
  • white ipad on red textile

    Fleets : les stories s’invitent sur Twitter !

    By Gec007
    29 janvier 2023
  • ZT ZA : c’est quoi Zone-Téléchargement ?

    By Gec007
    29 janvier 2023
  • WebRip : comment ripper un DVD ?

    By smartuser
    29 janvier 2023
  • Comment installer Microsoft Outlook gratuit ?

    By Tangi
    29 janvier 2023
  • Contact
  • Mentions Légales
Informations Influx © 2019