گوگل، اپل، متا، آمازون و مایکروسافت برای بهبود تشخیص صدا به هم بپیوندند


گوگل اعلام کرد که به پروژه دسترسی به گفتار می‌پیوندد تا به توسعه سیستم‌های تشخیص گفتار پیشرفته کمک کند که می‌تواند نیازهای افراد دارای اختلال گفتار را برآورده کند.

تشخیص گفتار برای دسترسی به وب سایت ها، ترجمه گفتار، دستیارهای صوتی و برای دستگاه های عامل استفاده می شود.

اما اگر الگوی گفتار کاربر تحت تأثیر بیماری لو گهریگ، بیماری پارکینسون یا سندرم داون از جمله دلایل دیگر باشد، کار کردن دستگاه‌ها و سرویس‌های فعال‌شده با صدا ممکن است دشوار باشد.

هدف این پروژه تغییر این وضعیت با ایجاد پروژه‌ای است که پنج شرکت فناوری را گرد هم می‌آورد که می‌توانند با هم همکاری کنند تا چالش ایجاد تشخیص گفتار برای کسانی که الگوهای گفتاری غیر استاندارد دارند را حل کنند.

این پروژه ابتدا با زبان انگلیسی کار می کند و سپس به زبان های دیگر گسترش می یابد.

وب سایت پروژه دسترسی به گفتار توضیح داد:

«…بدون داده‌های متنوع و معرف، مدل‌های ML نمی‌توانند یاد بگیرند که چگونه تنوع گفتار را درک کنند. هدف این پروژه تغییر آن با ایجاد مجموعه داده های مورد نیاز برای آموزش موثرتر این مدل های یادگیری ماشینی است.

پروژه جدید برای پیشبرد دسترسی

پروژه دسترسی به گفتار یک برنامه جدید توسط دانشگاه ایلینویز و پنج شرکت فناوری است که با هم برای ایجاد فناوری کار می کنند که فناوری فعال سازی صوتی را برای گروه وسیع تری از مردم در دسترس قرار می دهد.

شرکت های زیر اعضای ابتکار جدید هستند:

  • آمازون
  • سیب
  • گوگل
  • متا
  • مایکروسافت

وب سایت پروژه مشکلی را که آنها حل خواهند کرد بیان کرد:

«سیستم‌های تشخیص گفتار امروزی، مانند دستیارهای صوتی و ابزارهای ترجمه، همیشه افرادی را با الگوهای گفتاری متنوع که اغلب با ناتوانی‌ها مرتبط هستند، تشخیص نمی‌دهند.

این شامل گفتار تحت تأثیر بیماری لو گریگ یا اسکلروز جانبی آمیوتروفیک، بیماری پارکینسون، فلج مغزی و سندرم داون است.

در واقع، بسیاری از افراد در این جوامع و سایر جوامع ممکن است نتوانند از جدیدترین ابزارهای تشخیص گفتار بهره مند شوند.”

راه حل دسترسی به تشخیص گفتار

پروژه دسترسی به گفتار نمونه هایی از الگوهای صوتی مختلف را جمع آوری می کند و یک مجموعه داده ناشناس ایجاد می کند.

سپس از این مجموعه داده برای ایجاد مدل‌های یادگیری ماشینی استفاده می‌شود که می‌توانند انواع الگوهای صوتی را که در حال حاضر مورد استفاده قرار نمی‌گیرند، بهتر درک کنند.

پروژه Euphonia

گوگل ابتکار دستیابی مبتنی بر هوش مصنوعی خود را در سال 2019 با نام Project Euphonia راه اندازی کرد. این پروژه به Google کمک کرد تا تشخیص گفتار را برای درک گفتاری غیر استاندارد انگلیسی تطبیق دهد.

این پروژه ضبط الگوی گفتار را از بیش از 2000 شرکت کننده در پروژه گوگل جمع آوری کرد.

یکی از کمک‌های Google به پروژه دسترسی به گفتار این است که مشارکت‌کنندگان در پروژه Euphonia را آسان می‌کند تا نمونه‌های الگوی گفتار خود را به‌طور ناشناس در پروژه جدید دسترسی به اشتراک بگذارند.

در اطلاعیه گوگل آمده است:

“امید ما این است که با در دسترس قرار دادن این مجموعه داده ها در اختیار تیم های تحقیق و توسعه، بتوانیم به بهبود سیستم های ارتباطی برای همه از جمله افراد دارای معلولیت کمک کنیم.”

تشخیص گفتار پیشرفته

این پروژه جدید نقطه عطفی در ایجاد فناوری است که می تواند به کسانی که الگوهای گفتاری غیر استاندارد دارند خدمت کند.

چیزی که این پروژه جدید را هیجان انگیز می کند این است که هر پنج شرکت فناوری به جای کار در سیلوهای جداگانه برای حل مشکلات تشخیص گفتار با یکدیگر همکاری خواهند کرد.

بهبود دسترسی به دستگاه ها و اینترنت برای جوامع محروم به نفع همه است.


استناد

اطلاعیه گوگل

روش‌های جدیدی که تشخیص گفتار را برای همه کارآمد می‌کنیم

وب سایت پروژه

وب سایت رسمی پروژه دسترسی به گفتار

تصویر برجسته توسط Shutterstock/Krakenimages.com





منبع