اخبار تکنولوژی و علم قرن 21

سه شنبه ۹۷/۰۷/۲۴

استفاده از هوش مصنوعی برای لب خوانی – 21tech.ir

21 century technology news

اخبار علم و تکنولوژی قرن 21
www.21tech.ir

استفاده از هوش مصنوعی برای لب خوانی

21tech.ir
http://21tech.ir/?p=1351
573 نمایش

محققان Google’s AI division DeepMind و دانشگاه آکسفورد توانستند با استفاده از هوش مصنوعی دقیق ترین نرم افزار لب خوان جهان را طراحی کنند. دانشمندان با کمک گرفتن از هزاران ساعت برنامه های تلویزیون BBC موفق شدند شبکه عصبی مصنوعی را بسازند که می تواند با دقت۴۶٫۸% صحبت های گوینده را درست تشخیص دهد. شاید در نگاه اول به نظر دقت بالایی نباشد اما در مقایسه با یک انسان لب خوان حرفه ای، رقم بسیار بالایی است. در آزمایش صورت گرفته با یک فیلم یکسان، دقت انسان لب خوان حرفه ای تشخیص ۱۲٫۴% درصدی کلمات درست بود.

این تحقیقات بر مبنای تحقیقاتی که چندی پیش توسط گروه دیگری از محققان دانشگاه آکسفورد انجام شده بود، شکل گرفته است. گروه پیشین موفق شده بودند با تکنیک های مشابه ای، نرم افزار لب خوانی به نام LipNet طراحی کنند که می توانست با دقت ۹۳٫۴% صحبت های انسان را به درستی تشخیص دهد که در قیاس با نمونه انسانی یک لب خوان، با تشخیص ۵۲٫۳% درست کلمات، عملکرد قابل تحسینی داشت. اما نرم افزار LipNet فقط با استفاده از افراد یکسانی توسعه داده شده و تست شده بود. همچنین افراد فقط با یک حالت فرموله شده صحبت می کردند. پس اگر مقایسه کنیم نرم افزار DeepMind با نام “نگاه کن، گوش بده، توجه کن و هجی کن” چالش بزرگتری را پشت سر گذاشته است با آزمایش شدن روی اخبار بدون محدودیت یک شبکه سیاسی.

نرم افزار DeepMind با ۵۰۰۰ هزار ساعت برنامه تلویزیونی تربیت داده شده است. برنامه های متفاوت مانند: اخبار شب، وقت سوال و جهان امروز، برای توسعه ی این نرم افزار استفاده شدند. این ویدیوها شامل ۱۱۸,۰۰۰ جمله ی مختلف و همچنین ۱۷,۵۰۰ کلمه متفاوت بودند. در مقایسه با تنها ۵۱ کلمه مجزا در تست LipNet بسیار قابل توجه است.

محققان DeepMind پیشنهاد می کنند از این برنامه برای توسعه ی اپلیکیشن های مختلف استفاده شود  مثلا برای کمک کردن به افرادی که دچار مشکلات شنوایی هستند، برای اینکه درکی از مکالمه داشته باشند، می توان از این نرم افزار استفاده کرد. همچنین کاربردهای جذاب دیگری نیز می تواند داشته باشد، مثلا یک فیلم بی صدا را برای شما تعریف کند و یا در دستیار های صوتی مانند Siri و Alexa بدون اینکه صدای شما شنیده شود، مثلا زمانی که در مکان های عمومی هستید، می توانید با آنها صحبت کنید.

هر فناوری می توانند جنبه ی تاریکی نیز داشته باشد مثلا اینکه اگر یک نرم افزار به راحتی بتواند لب خوانی کند چگونه می توان بر استفاده ی صحیح آن و حفظ حریم شخصی نظارت داشت. محققان می گویند فعلا فاصله ی زیادی هست تا به این مرحله برسیم. چون قطعا تفاوت زیادی با تصاویر رزولوشن بالای استفاده شده برای تعلیم این نرم افزار و یک دوربین مدار بسته با کیفییت پائین وجود دارد. اما با این اوصاف به نظر می رسد هوش مصنوعی به زودی این فاصله را پر می کند.


نوشتن یک نظر

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

عنوان منو