تیمی که بر روی پروژهی تشخیص گفتار Microsoft کار میکرده، به دستاوردی مهم در این حوزه رسیده است. چرا که موفق به تولید سامانهای شدهاند که صدای انسانی را به خوبی تشخیص و پردازش میکند.
البته این سامانه در مقایسه با رونویسی حرفهای انسانی، به میزان ۵.۹ درصد خطا به ازای هر کلمه دارد. حتی اگر این سامانه به خوبی صدا را نشنود، اما دقت ۹۴ درصدی برای یک مکالمه کافی به نظر میرسد.
همه میدانیم که تشخیص گفتار از آن حوزههایی بوده که دههها توسط شرکتهای تحقیقاتی و بازاری تکنولوژی مورد کند و کاو قرار گرفته است. کیفیت این سامانهها به مرور زمان رشد کرده و آخرین پیشرفتها مربوط به حوزهی شبکههای عصبی و یادگیری ماشین میباشد.
به گفتهی تیم گردانندهی این پروژهی Microsoft، به سرانجام رسانی چنین پروژهای، دستاورد مهندسی دقیق و بهینهسازیهای کانولوشنی و شبکههای عصبی میباشد. به نظر میرسد این تیم همچنین از ابزار متنباز Computational Network به خوبی استفاده کرده است.
به طور طبیعی برای ارزیابی سامانههای تشخیص گفتار شرایطی وجود دارد که کیفیت و صحت آن را به خوبی محک میزند. یکی از این شرایط میتواند عدم توانایی شنیدن عامل انسانی و ماشینی در شرایط وجود نویز باشد. و یا حتی وجود لهجههای مختلف کلمات در صوت و گفتار. مورد لهجه و روشهای مختلف ادای یک واژه را میتوان از طریق شبکههای عصبی و تنظیم مجموعه دادههای آموزشی به دست آورد.
به تیم Microsoft بابت این دستاورد تبریک میگوییم و بعید است که کار را در این مرحله رها کنند. باید منتظر پیشرفتهای دوچندان هوشمصنوعی در این حوزه باشیم.
البته این سامانه در مقایسه با رونویسی حرفهای انسانی، به میزان ۵.۹ درصد خطا به ازای هر کلمه دارد. حتی اگر این سامانه به خوبی صدا را نشنود، اما دقت ۹۴ درصدی برای یک مکالمه کافی به نظر میرسد.
همه میدانیم که تشخیص گفتار از آن حوزههایی بوده که دههها توسط شرکتهای تحقیقاتی و بازاری تکنولوژی مورد کند و کاو قرار گرفته است. کیفیت این سامانهها به مرور زمان رشد کرده و آخرین پیشرفتها مربوط به حوزهی شبکههای عصبی و یادگیری ماشین میباشد.
به گفتهی تیم گردانندهی این پروژهی Microsoft، به سرانجام رسانی چنین پروژهای، دستاورد مهندسی دقیق و بهینهسازیهای کانولوشنی و شبکههای عصبی میباشد. به نظر میرسد این تیم همچنین از ابزار متنباز Computational Network به خوبی استفاده کرده است.
به طور طبیعی برای ارزیابی سامانههای تشخیص گفتار شرایطی وجود دارد که کیفیت و صحت آن را به خوبی محک میزند. یکی از این شرایط میتواند عدم توانایی شنیدن عامل انسانی و ماشینی در شرایط وجود نویز باشد. و یا حتی وجود لهجههای مختلف کلمات در صوت و گفتار. مورد لهجه و روشهای مختلف ادای یک واژه را میتوان از طریق شبکههای عصبی و تنظیم مجموعه دادههای آموزشی به دست آورد.
به تیم Microsoft بابت این دستاورد تبریک میگوییم و بعید است که کار را در این مرحله رها کنند. باید منتظر پیشرفتهای دوچندان هوشمصنوعی در این حوزه باشیم.