تشخیص گفتار یا تبدیل صوت به متن (speech recognition) به معنای استفاده از رایانه و هوش مصنوعی برای تشخیص کلمات و عبارت موجود در صوت انسان و تبدیل آن ها به متن به عنوان خروجی است.
یک نمونه از سیستم تشخیص گفتار را در تصویر زیر مشاهده می کنید. در این سیستم با دریافت صوت به عنوان ورودی، صوت تحلیل می شود و متن حاصل از آن به عنوان خروجی به کاربر نشان داده می شود.
تاکنون تکنولوژی های تشخیص گفتار متعددی توسعه پیدا کرده اند که از جمله آن ها می توان به Alexa، Cortana، Google Assistant و Siri اشاره کرد که نحوه ی تعامل افراد با ابزارها، خانه ها، ماشین و کارشان را تغییر داده اند. از طریق فناوری تشخیص گفتار می توان با رایانه ها و ابزارها صحبت کرد، در مقابل، این ابزارها مفهوم صحبت شما را متوجه شده و پاسخی به آن می دهند. معرفی دستیارهایی که با صدا کنترل می شوند یا دستیاران دیجیتال به بازارهای تشخیص گفتار منجر به تغییر چشم انداز این تکنولوژی در قرن ۲۱ شد.
کاربردهای تشخیص گفتار
تکنولوژی تشخیص گفتار و دستیاران دیجیتال راه خود را از گوشی های هوشمند به خانه های ما پیدا کرده اند و کاربرد آن ها در زمینه هایی مانند کسب و کارها، بانکداری، بازاریابی، مراکز بهداشتی در حال افزایش است.
محیط کار
تکنولوژی تشخیص گفتار در محیط کار به ترکیب وظایف ساده برای افزایش بهره وری و حتی انجام وظایفی که به صورت سنتی توسط انسان انجام می شد، می پردازد. مثال هایی از کارهای اداری که دستیاران دیجیتال در حال حاضر یا در آینده می توانند انجام دهند. در واقع همه ی این وظایف می توانند با تبدیل صوت به متن و کنترل و هدایت کارها با استفاده از صوت انجام شوند.
- جستجو برای گزارش یا سند در رایانه با استفاده از جستجوی صوتی
- ایجاد نمودار یا جدول با استفاده از داده های صوتی و تبدیل آن ها به متن
- نوشتن اطلاعاتی که باید با سند ترکیب شود
- پرینت اسناد درخواستی
- شروع کنفرانس های ویدئویی
- برنامه ریزی ملاقات ها
- فراهم کردن مقدمات سفر
بانکداری
صنعت بانکداری از تشخیص گفتار برای کاهش ناسازگاری های مشتریان استفاده می کند. این نوع بانکداری نیاز به خدمت رسانی توسط نیروی انسانی به مشتری را کاهش داده در نتیجه هزینه ی نیروی انسان را کم می کند. یک دستیار بانکی شخصی می تواند وفاداری و رضایت مشتری را افزایش دهد. تشخیص گفتار از طریق موارد زیر به بانکداری کمک می کند:
- درخواست اطلاعاتی در مورد باقی مانده ی حساب و تراکنش ها بدون نیاز به باز کردن تلفن همراه
- انجام پرداخت ها
- دریافت اطلاعاتی در مورد تاریخچه ی تراکنش ها
بازاریابی
جستجوی صوتی روش جدیدی برای دسترسی بازاریابان به مشتری ها ایجاد می کند. با تغییر در نحوه ی تعامل مردم با وسایل خود، بازاریاب ها باید به دنبال گرایش های در حال توسعه در داده و رفتار کاربران باشند. تا سال ۲۰۲۰ بسیاری از برندها، سایت های خود را به جستجوی صوتی مجهز می کنند تا سود تجارت دیجیتال خود را تا ۳۰ درصد افزایش دهند.
- داده: با استفاده از تشخیص گفتار نوع جدیدی از اطلاعات برای بازاریابان موجود خواهد شد. لهجه ی افراد، الگوی گفتاری و واژگان را می توان برای تعیین محل زندگی مصرف کنندگان، سن و اطلاعات دیگری در مورد جمعیت شناسی مانند وابستگی های فرهنگی آن ها بدست آورد.
- رفتار: وقتی افراد درخواست دارند یا سوالی را تایپ می کنند، آن را به صورت خلاصه می نویسند اما در هنگام صحبت کردن، این کار به صورت طولانی و محاوره ای انجام می شود. در نتیجه شیوه ی درخواست افراد متفاوت از حالتی خواهد بود که در خواست خود را تایپ می کنند. با توجه به این مسئله، بازاریابان هم احتمالا نیاز به تمرکز بر کلمات کلیدی طولانی تر داشته باشند تا همراه این روند حرکت کنند.
جستجو بر اساس صوت که سرعت بیشتری دارد می تواند کاربران را بی صبر کند و همچنین آن ها را به اینترنت به عنوان منبعی از اطلاعات بیشتر وابسته کند. به همین دلیل مقدار زمان صرف شده برای نگاه کردن به صفحه ممکن است کاهش یابد. بازاریابان باید به این مسئله توجه کنند که این امر ممکن است بر روی استفاده از وسایل بصری تاثیر گذارد و افراد بیشتر به مطالب شنیداری روی بیاورند.
مراکز بهداشتی
در مراکز بهداشت و درمان حتی چند ثانیه هم مهم و حیاتی است و شرایط عملیاتی استریل در اولویت قرار دارد. در نتیجه دسترسی به اطلاعات بدون نیاز به استفاده از دستان و به صورت سریع می تواند تواند تاثیر مثبتی بر ایمنی و بازده عملیات پزشکی داشته باشد. مزایای تشخیص گفتار برای مراکز درمانی:
- یافتن اطلاعات از بین گزارشات پزشکی به صورت سریع
- یادآوری به پرستاران در مورد فرایندها و یا دادن دستورالعمل های خاص به آن ها
- پرستاران می توانند اطلاعات مدیریتی، مانند تعداد بیماران روی زمین و تعداد واحدهای موجود را پرس و جو کنند.
- در خانه، والدین می توانند علائم شیوع بیماری، زمان مراجعه به پزشک و چگونگی مراقبت از یک کودک بیمار را سوال کنند.
- کاهش کاغذبازی
- کاهش زمان ورود اطلاعات
- بهبود جریان کاری
مهم ترین نگرانی در مورد استفاده از تشخیص گفتار در مراکز مراقبت های بهداشتی، محتوایی است که دستیار دیجیتال به آن دسترسی دارد. این محتوا باید توسط موسسات پزشکی تایید و تولید شود تا قابل اعتماد باشد.
اینترنت اشیا
اینترنت اشیا به معنای اتصال اینترنت به ابزارهای فیزیکی و همه ی اشیا است. در واقع از این طریق ما شبکه ای از اشیا خواهیم داشت که همه به هم متصل هستند. با به کارگیری تراشه هایی به منظور اتصال به اینترنت، همه ی اشیا و ابزار می توانند از طریق اینترنت با هم ارتباط و تعامل داشته باشند.یکی از کاربردهای مهم تشخیص گفتار در اینترنت اشیا در خودروها دیده می شود. چنین پیشرفتی منجر به تغییر روش رانندگی و تعامل افراد با خودروهایشان می شود که هدف نهایی آن محدود کردن مداخلات راننده است. کاربردهای دستیار دیجیتال در خودروها:
- گوش دادن به پیام ها بدون نیاز به استفاده از دست
- کنترل کردن رادیو
- راهنمایی و جهت یابی
- پاسخ به درخواست های صوتی
یادگیری زبان
تشخیص گفتار می تواند ابزار سودمندی برای یادگیری زبان دوم باشد به این صورت که تلفظ صحیح را به کاربر آموزش می دهد و در کنار آن، او را در یادگیری مهارت صحبت کردن یاری می رساند. یکی از کاربردهای تشخیص گفتار از دید انسان توانایی آن در از میان برداشتن موانع زبانی و فرهنگی در زندگی اجتماعی و محیط کاری است. دنیایی بدون موانع زبانی، فرصت های زیادی را برای همکاری میان کشورها و فرهنگ های مختلف ایجاد می کند که شاید در نتیجه ی تنوع بیشتر نرخ رشد نیز سریع تر شود.
دانش آموزان نابینا یا کم بینا و یا معلول می توانند از این تکنولوژی برای یادگیری استفاده نمایند. آن ها می توانند بدون نگرانی در مورد تایپ کردن یا انجام تکالیف خود این کار را انجام داده و حتی به راحتی به جستجو در اینترنت بپردازند.
موتورهای جستجو
وقتی شخصی از موتور جستجو برای یافتن پاسخ خود استفاده می کند، اینکه درخواست خود را به صورت متنی یا صوتی بنویسد تفاوت هایی با هم دارد. فرد ممکن است در نوشتن درخواست دچار مشکل شود ولی وقتی به صورت صوتی این کار را انجام می دهد، نتایج بهتری می باید.
ارائه ی خدمات به مشتری
مشتری ها ممکن است به ارتباط با سیستم تشخیص گفتار تمایل بیشتری نسبت به ارتباط با یک انسان داشته باشند. این روش موجب بهبود فرایندها و زمان پاسخگویی می شود. برای مثال یکی کاربرد تشخیص گفتار در فرودگاه ها به منظور تایید برنامه های مسافرتی است.
تشخیص خودکار هویت
برای جلوگیری از دسترس قرار دادن اطلاعات حساس و حیاتی، موسسات ترجیح می دهند از سرویس های تشخیص گفتار برای اعتبار سنجی مشتری ها و کاربران استفاده کنند. این کار موجب مهار تقلب و جرایم تلفنی با استفاده از ویژگی های بیومتریک صدا در برخی موسسات مانند بانک ها شده است.
ارتباطات در ارائه دهنگان خدمات
ارائه دهنده گان خدمات از راه دور از سرویس های تشخیص گفتار برای ارائه خدمات به مشتریان خود استفاده می کنند. سیستم تشخیص گفتار، با پرسیدن سوالات مختلف توسط نرم افزار، نیاز مشتری را شناسایی کرده و آن ها را به اپراتور مناسبی جهت کمک هدایت می کند.
هواپیماهای جنگنده
تلاش زیادی برای استفاده از تشخیص گفتار در هواپیماهای جنگنده در دهه ی اخیر صورت گرفته است. در هواپیماهای جنگنده از تشخیص گفتار برای تنظیم فرکانس رادیویی، دستور دادن به سیستم خودران، تنظیم مختصات و پارامترهای سلاح و کنترل صفحه نمایش پرواز استفاده می شود.
سیستم های صوتی و تصویری داخل خودرو
کاربر می تواند به طور دستی سیستم تشخیص گفتار را در خودروی خود فعال کند. در نتیجه خودرو ورودی صوتی را برای کنترل پخش صدا یا تصویر در نظر می گیرد. یک سیستم ساده ی کنترل صدا می تواند برای شروع تماس تلفنی، انتخاب ایستگاه های رادیویی یا پخش موزیک از گوشی هوشمند، Mp3 player یا فلش مورد استفاده قرار گیرد. توانایی تشخیص صدا در بین خودروهای مختلف، متفاوت است. در برخی از ماشین ها تنها دستورات خاصی توسط سیستم شناخته می شود اما اخیرا خودروها، مجهز به سیستم هایی هستند که توانایی تشخیص جملات و دستورات معمولی را دارند و فرد مجبور به حفظ دستورات خاصی نیست.
کاربردهای آینده
فناوری تشخیص گفتار هنوز تا حدود زیادی در ابتدای راه خود است اما با تمایل بیشتر مردم به استفاده از تکنولوژی ها، به احتمال زیاد به سرعت رشد خواهد کرد. در این مرحله از چرخه حیات فن آوری تشخیص گفتار، داشتن یک ایده ی روشن از پتانسیل آن بسیار مهم است. کسب و کارها باید در رویکرد خود برای معرفی یا ترکیب تکنولوژی تشخیص گفتار در استراتژی های بازاریابی دیجیتال خود دقت لازم را داشته باشند. افراد عادی هم می توانند مزایای تشخیص گفتار در فعالیت های روزمره خود را بررسی کنند. با افزایش میزان دقت و فروش این فناوری، صنایع باید سازگاری بیشتر با آن پیدا کنند تا بیشتر مبتنی بر صوت باشند.