به گزارش مهر، علیرضا یاری از آزادسازی خروجی دادگان و ابزارهای پردازش خط و زبان فارسی در فضای مجازی خبر داد و گفت: رشد فناوری اطلاعات و گسترش اینترنت، مرزهای تاثیرگذاری خط و زبان را از مرزهای جغرافیایی فراتر برده و پردازش زبان به عنوان یک نیاز ملی/ بینالمللی جهت استفادهی بهینه از منابع اطلاعاتی مطرح شده است.
رئیس پژوهشکدهی فناوری اطلاعات مرکز تحقیقات مخابرات ایران با بیان اینکه کاربردهای مبتنی بر پردازش زبان طبیعی مانند ترجمهی ماشینی و جویشگرها اهمیت زیادی پیدا کرده و کشورهای مختلف سرمایهگذاری زیادی در این حوزه داشتهاند، از اهمیت ارائهی زیرساختهای پردازش خط و زبان فارسی برای نیل به اهداف کلان در فضای مجازی به عنوان دلیل اصلی سرمایهگذاری در این حوزه نام برد.
وی با تشریح برنامهی پیشنهادی برای توسعهی خط و زبان فارسی، محورهای توسعهی خط و زبان را در سه مقوله دادگان و محتوا، ابزارها و کاربردها عنوان کرد و گفت : پژوهشگاه ارتباطات و فناوری اطلاعات (مرکز تحقیقات مخابرات) از چندین سال قبل تاکنون فعالیتهای متعددی را در قالب ۳۰ پروژهی درونسپاری و برونسپاری شامل ۱۲ پروژه توسط شرکتهای دانش بنیان، ۱۳ پروژه توسط دانشگاهها و ۵ پروژه توسط پژوهشگاه ارتباطات و فناوری اطلاعات در این خصوص آغاز کرده است.
یاری با بیان اینکه برخی از این پروژهها خاتمه یافته و برخی نیاز به توسعهی بیشتری دارند، اضافه کرد: نمونههایی از دستاوردهای حاصله از این پروژهها شامل «گراف دانش فارسی» با حدود ۵۰۰ هزار موجودیت، «وردنت عمومی زبان فارسی» با عنوان «فارسنت» شامل ۱۰۰ هزار واژهی عمومی زبان فارسی و نیز «شبکهی تصویری تصویرنت» با حدود ۳۳ هزار واژه و ۸ میلیون تصویر و ابزارهای خطایاب املایی و گرامری و نیز ابزارهای پایهی پردازش زبان فارسی مانند ابزار تشخیص موجودیت ناممند و مرجعگزینی میشوند.
وی با تاکید بر آزادسازی کلیهی دستاوردهای حاصله افزود: در راستای توسعهی خدمات وب بومی فعالیتهای متعددی در حوزهی توسعهی جویشگرهای متنی، تصویری، خبری، نقشه و مستندات علمی و نیز مترجمهای دو زبانهی فارسی/انگلیسی انجام شده است که ابزارها و دادگان خط و زبان فارسی از زیرساختهای ضروری آنها است .
رئیس پژوهشکدهی فناوری اطلاعات مرکز تحقیقات مخابرات ایران برنامهی آتی این پژوهشکده را توسعهی ابزارهای مورد نیاز و بسط حوزههایی نظیر خدمات مبتنی بر صوت، نویسهخوان نوری دستنوشتهی فارسی و همچنین ابزارهای معنایی خط و زبان فارسی و تاثیر آنها در بهبود کیفیت خدمات و کاربردهای بومی عنوان کرد.
رئیس پژوهشکدهی فناوری اطلاعات مرکز تحقیقات مخابرات ایران با بیان اینکه کاربردهای مبتنی بر پردازش زبان طبیعی مانند ترجمهی ماشینی و جویشگرها اهمیت زیادی پیدا کرده و کشورهای مختلف سرمایهگذاری زیادی در این حوزه داشتهاند، از اهمیت ارائهی زیرساختهای پردازش خط و زبان فارسی برای نیل به اهداف کلان در فضای مجازی به عنوان دلیل اصلی سرمایهگذاری در این حوزه نام برد.
وی با تشریح برنامهی پیشنهادی برای توسعهی خط و زبان فارسی، محورهای توسعهی خط و زبان را در سه مقوله دادگان و محتوا، ابزارها و کاربردها عنوان کرد و گفت : پژوهشگاه ارتباطات و فناوری اطلاعات (مرکز تحقیقات مخابرات) از چندین سال قبل تاکنون فعالیتهای متعددی را در قالب ۳۰ پروژهی درونسپاری و برونسپاری شامل ۱۲ پروژه توسط شرکتهای دانش بنیان، ۱۳ پروژه توسط دانشگاهها و ۵ پروژه توسط پژوهشگاه ارتباطات و فناوری اطلاعات در این خصوص آغاز کرده است.
یاری با بیان اینکه برخی از این پروژهها خاتمه یافته و برخی نیاز به توسعهی بیشتری دارند، اضافه کرد: نمونههایی از دستاوردهای حاصله از این پروژهها شامل «گراف دانش فارسی» با حدود ۵۰۰ هزار موجودیت، «وردنت عمومی زبان فارسی» با عنوان «فارسنت» شامل ۱۰۰ هزار واژهی عمومی زبان فارسی و نیز «شبکهی تصویری تصویرنت» با حدود ۳۳ هزار واژه و ۸ میلیون تصویر و ابزارهای خطایاب املایی و گرامری و نیز ابزارهای پایهی پردازش زبان فارسی مانند ابزار تشخیص موجودیت ناممند و مرجعگزینی میشوند.
وی با تاکید بر آزادسازی کلیهی دستاوردهای حاصله افزود: در راستای توسعهی خدمات وب بومی فعالیتهای متعددی در حوزهی توسعهی جویشگرهای متنی، تصویری، خبری، نقشه و مستندات علمی و نیز مترجمهای دو زبانهی فارسی/انگلیسی انجام شده است که ابزارها و دادگان خط و زبان فارسی از زیرساختهای ضروری آنها است .
رئیس پژوهشکدهی فناوری اطلاعات مرکز تحقیقات مخابرات ایران برنامهی آتی این پژوهشکده را توسعهی ابزارهای مورد نیاز و بسط حوزههایی نظیر خدمات مبتنی بر صوت، نویسهخوان نوری دستنوشتهی فارسی و همچنین ابزارهای معنایی خط و زبان فارسی و تاثیر آنها در بهبود کیفیت خدمات و کاربردهای بومی عنوان کرد.