Diarization – فرایند بخشبندی یک نمونهی گفتاری به اجزا متمایز و همگن بر اساس اینکه چه شخصی چه چیزی، چه موقع میگوید است – اما این فرایند برای ماشین به اندازهی انسان ساده نیست و آموزش الگوریتم یادگیری ماشین برای انجام آن سختتر از آن چیزی است که تصور میشود. یک سیستم قوی Diarization بایستی قادر به ارتباط با افراد جدید و بخشهای گفتاری باشد که قبلا با آن مواجه نبوده.
اما بخش تحقیقات هوش مصنوعی گوگل فرایند نویدبخشی را در کارا کردن این مدل پیش بردهاند. در مقالهی جدیدی با عنوان "Fully Supervised Speaker Diarization"، محققان سیستم هوش مصنوعی جدیدی را توصیف کردند که "استفاده از برچسبهای اسپیکر تحت نظارت را موثرتر میکند."
الگوریتمهای اصلی که نویسندگان مقاله ادعا میکنند به آن رسیدهاند، نرخ خطای Diarization آنلاین (DER) به قدری پایینی دارد که امکان استفادهی آن را در سامانههای بلادرنگ مهیا میسازد. مقدار جدید خطا ۷.۵ درصد در معیار NIST SRE 2000 CALLHOME در مقایسه با ۸.۸ درصد DER در روش قبلی گوگل است، و به صورت متنباز بر روی Github قابل دسترس است.
در آینده، تیم تحقیقاتی قصد اصلاح این مدل را دارد که میتواند اطلاعات متنی را برای رمزگشایی آفلاین ادغام کند و انتظار میرود DER در آینده کاهش بیشتری داشته باشد.
اما بخش تحقیقات هوش مصنوعی گوگل فرایند نویدبخشی را در کارا کردن این مدل پیش بردهاند. در مقالهی جدیدی با عنوان "Fully Supervised Speaker Diarization"، محققان سیستم هوش مصنوعی جدیدی را توصیف کردند که "استفاده از برچسبهای اسپیکر تحت نظارت را موثرتر میکند."
الگوریتمهای اصلی که نویسندگان مقاله ادعا میکنند به آن رسیدهاند، نرخ خطای Diarization آنلاین (DER) به قدری پایینی دارد که امکان استفادهی آن را در سامانههای بلادرنگ مهیا میسازد. مقدار جدید خطا ۷.۵ درصد در معیار NIST SRE 2000 CALLHOME در مقایسه با ۸.۸ درصد DER در روش قبلی گوگل است، و به صورت متنباز بر روی Github قابل دسترس است.
در آینده، تیم تحقیقاتی قصد اصلاح این مدل را دارد که میتواند اطلاعات متنی را برای رمزگشایی آفلاین ادغام کند و انتظار میرود DER در آینده کاهش بیشتری داشته باشد.