سیستم هایی تشخیص گفتار یکی از چالش های دنیای هوش مصنوعی و یادگیری ماشین هستند با هدف برداشتن قدیمی رو به جلو در این زمینه شرکت OpenAi یه تازگی سیستم هوش مصنوعی تشخیص گفتار خود به نام Whisper را به صورت متن باز منتشر کرد بر طبق ادعای شرکت این سیستم یک هوش مصنوعی "قدرتمند" برای تبدیل متن به گفتار در زبان های مختلف است که قابلیت ترجمه متن از زبان های پشتیبان شده به زبان انگلیسی را هم دارد
شرکت های زیادی سیستمهای تشخیص گفتار بسیار قدرتمندی را توسعه دادهاند که در هسته نرمافزار و خدمات غولهای فناوری مانند گوگل، آمازون و متا قرار دارند. اما طبق گفته OpenAI آنچه Whisper را متفاوت میکند این است که این سیستم یادگیری ماشین با استفاده از 680000 ساعت داده که از زبانه مختلف از سراسر وب جمعآوری گردیده بود آموزش داده شده است، که منجر به تشخیص بهتر لهجه، نویز های پسزمینه و اصطلاحات تخصصی فنی میشود.
کاربران اصلی هوش مصنوعی Whisper، محققان هوش مصنوعی هستند با این حال، Whisper به طور بالقوه به عنوان یک راه حل تشخیص خودکار گفتار برای توسعه دهندگان، بسیار مفید خواهد بود.
مانند هر تکنولوژی دیگری Whisper محدودیت هایی نیز دارد، به ویژه هنگام پیش بینی متن. از آنجایی که سیستم بر روی حجم زیادی از دادههای دارای نویز آموزش داده شده ممکن است در فرآیند تبدیل متن به گفتار کلماتی را تولید کند که وجود نداشته باشند دلیل این امر احتمالاً این است که سیستم هم سعی دارد کلمه بعدی را در صدا موجود پیشبینی کند و هم سعی دارد خود صدا را تبدیل به متن کند. یکی دیگر از محدودیت های این هوش مصنوعی خوب عمل نکردن آن در زبان های است که در داده های آموزشی حضوری شایسته ای نداشته اند.
متأسفانه مورد آخر محدودیت متداولی در سیستم های تشخیص گفتار می باشد سوگیریها مدتهاست که حتی بهترین سیستمها را نیز تحت تأثیر قرار داده است، در مطالعه ای که در سال 2020 توسط دانشگاه استنفورد انجام گرفت مشخص شد سیستمهای هوش مصنوعی آمازون، اپل، گوگل، آیبیام و مایکروسافت خطاهای بسیار کمتری (حدود 19 درصد) در مواجه با صدای افراد سفید پوست نسبت به افراد سیاهپوست داشتند.
در حالی که مدل هوش مصنوعی Whisper را نمیتوان برای تبدیل بیدرنگ گفتار به متن استفاده کرد، سرعت و قابلیت های قدرتمند آن نشان میدهد که ممکن است دیگران بتوانند برنامههایی را با کمک آن توسعه دهند که امکان تشخیص و ترجمه گفتار به صورت بلادرنگ و در لحظه را داشته باشند.
بر طبق گفته شرکت OpenAi برنامههای کاربردی که بر روی مدلهای Whisper ساخته خواهند شد مشخص کننده ارزش واقعی این سیستم هوش مصنوعی می باشند و در آن صورت است که این فن آوری باعث پیامدهای اقتصادی مثبتی میشود آنها امیدوا هستند که این فناوری عمدتاً برای اهداف سودمند مورد استفاده قرار گیرد و فناوری تشخیص خودکار گفتار را در دسترستر سازد و بازیگران بیشتری برای ایجاد فناوری های نظارتی توانمند به میدان بیایند.
انتشار Whisper لزوماً نشان دهنده برنامه های آینده OpenAI نیست. در حالی که تمرکز اصلی آنها بر روی محصولات تجاری مانند DALL-E 2 و GPT-3 است، اما این شرکت چندین موضوع تحقیقاتی صرفا نظری را نیز دنبال می کند، از جمله سیستم های یادگیری ماشین و هوش مصنوعی که با مشاهده ویدیوها آموزش می بینند
Powered by Froala Editor