سال گذشته، شرکت DeepMind جزئیاتی درباره WaveNet، یک شبکه عصبی عمیق که قادر به تولید سخنرانی مصنوعی واقعگرایانه بود را به اشتراک گذاشت. در حال حاضر، سیستم به اندازه کافی اصلاح شده تا امکان اجرای کامل برای Google Assistant را در تمامی سیستم عاملها تایید کند. اگر مجموعه دادههای مختلف به این سیستم تغذیه شود، میتواند برای ایجاد هر تعداد صدای متمایز از آن استفاده کرد.
یک سیستم برای ساخت و ترکیب گفتار-به عبارت دیگر به عنوان متن به گفتار (TTS) شناخته میشود-معمولا از یکی از دو تکنیک استفاده میکند.
به هم پیوستگی TTS شامل ترکیب قطعات ضبط شده از یک گوینده است. اشکال این روش این است که هر زمان که ارتقا یا تغییراتی ایجاد شود، باید کتابخانههای صوتی جایگزین شوند. تکنیک دیگر، TTS پارامتری، از مجموعهای از پارامترها برای تولید گفتار کامپیوتری استفاده میکند، اما این سخنرانی گاهی اوقات میتواند غیرطبیعی و روباتیک باشد.
از سوی دیگر، WaveNet، از طریق سیستمی توسعه یافته با استفاده از یک شبکه عصبی پیچیده موجهایی را ابتدا ایجاد میکند. برای شروع، تعداد زیادی از نمونههای گفتاری برای آموزش پلتفرم برای تولید صداها مورد استفاده قرار گرفت، با توجه به این که کدام شکل موج واقعی به نظر میرسد و کدام یک اینگونه نیست. این به ترکیبکننده سخنرانی توانایی تولید یک تلفظ طبیعی حتی جزئیاتی مانند لب زدن را میدهد. بسته به نمونههایی که به سیستم وارد میشوند، میتواند یک لهجه منحصربفرد را توسعه دهد، این بدان معنی است که اگر مجموعه دادههای مختلف به سیستم تغذیه شود، میتواند برای ایجاد هر تعداد صدای متمایز از آن استفاده کرد.
زبان سریع و هوشیار
بزرگترین محدودیت WaveNet این بود که در ابتدا به مقدار قابل توجهی از قدرت محاسباتی نیاز داشت ، خیلی سریع نبود و در زمان ۱ ثانیه تنها ۰۲/۰ ثانیه از صدا را تولید میکرد. پس از بهبود سیستم در یک سال گذشته مهندسان DeepMind، WaveNet را بهبود بخشیدند تا آنجا که اکنون این سیستم میتواند یک موج خام را به جای یک ثانیه در ۵۰ میلیثانیه ،یعنی هزار برابر سریعتر از قبل، تولید کند. علاوه بر این، رزولوشن هر نمونه از ۸ بیت به ۱۶ بیت افزایش یافته است که امتیازش را در آزمایش با شنوندگان انسانی بالا میبرد. این پیشرفتها بدان معنی است که سیستم اکنون میتواند با محصولات مصرفی شبیه Google Assistant یکپارچه شود.
WaveNet در حال حاضر برای تولید صداهای انگلیسی و ژاپنی برای Google Assistant در همه سیستم عاملها مورد استفاده قرار میگیرد. از آنجا که این سیستم میتواند صداهای تخصصی را بر اساس نمونههایی که به آن تغذیه میشوند ایجاد کند، گوگل باید بتواند ازبا استفاده از WaveNet سخنرانی واقعگرایانه انسان را برای زبانها و گویشهای دیگر نیز مهیا کند.
رابطهای صوتی خیلی بیشتر در همه انواع رایانهها متداول هستند اما به دلیل ماهیت سرگردان برخی از سخنرانیهای مصنوعی بسیاری از کاربران آن را کنار گذاشتهاند. تلاشهای DeepMind برای بهبود این فناوری توانسته است توجه گستردهای را به خود جلب کند و مطمئناً به بهبود تجربه موجود کمک خواهد کرد.
#هوش_مصنوعی
#گفتار_کامپیوتری
#سیستم-عامل
#سیستم-توسعه-یافته