تشخیص گفتار قابل اعتماد، قوی، و قابل تعمیم در آینده چالشی برای یادگیری ماشین است. به طور سنتی، آموزش مدلهای فهم زبان طبیعی نیاز به مجموعهای شامل هزاران ساعت صحبت و میلیونها کلمه متن دارد، این به استثنای قوی بودن سختافزارها به اندازهی کافی برای پردازش آنها در چارچوب زمانی قابل قبول است.
به منظور کاهش بار محاسباتی، IBM در مقالهی جدیدی که منتشر کرده، یک معماری پردازش توزیعی را پیشنهاد داد که میتواند به ۱۵ برابر سرعت آموزش بدون از دست دادن دقت برسد. نویسندگان مقاله میگویند، تکنیک جدید میتواند با استقرار بر روی یک سیستم حاوی چندین کارت گرافیک، کل دورهی آموزش را از هفتهها به روزها کاهش دهد.
محققان توضیح میدهند، آموزش سیستم تشخیص صدای خودکار مانند Siri ،Google Assistant، و Alexa نیاز به سیستمهای رمزنگاری پیچیدهای برای تبدیل صداها به ویژگیهای قابل فهم توسط سیستمهای یادگیری عمیق و سیستمهای رمزگشایی دارد که خروجی را به متن قابل خواندن انسان تبدیل میکند.
راه حل موازی این تیم مستلزم افزایش اندازهی دسته یا تعداد نمونههایی است که میتواند در یک زمان، بدون هیچ تفکیکپذیری، پردازش شود که تاثیر منفی بر دقت کار میگذارد. در عوض، آنها از تکنیک پایهای برای افزایش اندازهی دسته به ۲۵۶۰ استفاده میکنند، درحالیکه فناوری یادگیری عمیق توزیعی را به کار میبرد.
به منظور کاهش بار محاسباتی، IBM در مقالهی جدیدی که منتشر کرده، یک معماری پردازش توزیعی را پیشنهاد داد که میتواند به ۱۵ برابر سرعت آموزش بدون از دست دادن دقت برسد. نویسندگان مقاله میگویند، تکنیک جدید میتواند با استقرار بر روی یک سیستم حاوی چندین کارت گرافیک، کل دورهی آموزش را از هفتهها به روزها کاهش دهد.
محققان توضیح میدهند، آموزش سیستم تشخیص صدای خودکار مانند Siri ،Google Assistant، و Alexa نیاز به سیستمهای رمزنگاری پیچیدهای برای تبدیل صداها به ویژگیهای قابل فهم توسط سیستمهای یادگیری عمیق و سیستمهای رمزگشایی دارد که خروجی را به متن قابل خواندن انسان تبدیل میکند.
راه حل موازی این تیم مستلزم افزایش اندازهی دسته یا تعداد نمونههایی است که میتواند در یک زمان، بدون هیچ تفکیکپذیری، پردازش شود که تاثیر منفی بر دقت کار میگذارد. در عوض، آنها از تکنیک پایهای برای افزایش اندازهی دسته به ۲۵۶۰ استفاده میکنند، درحالیکه فناوری یادگیری عمیق توزیعی را به کار میبرد.