در حال حاضر درمان مسایل زبان اشاره و تولید راهکارهای با کیفیت بالا با توجه به شیوع قابل توجه معلولیت های شنوایی در سراسر جهان توجه محققان و پزشکان را به خود جلب کرده است. ادبیات نشان می دهد که زبان اشاره عربی به دلیل میزان استفاده یکی از محبوب ترین زبان های اشاره است. ارسل به دو گروه تقسیم می شود: گروه اول ارسل است که کلمات با نشانه ها یعنی تصاویر نشان داده می شوند. گروه دوم الفبای ارسل (ارسلا) است که هر حرف عربی با یک علامت نشان داده می شود. این مقاله یک مدل تشخیص زمان واقعی ارسلا را با استفاده از معماری یادگیری عمیق معرفی می کند. به عنوان یک روش, مراحل اقدام به دنبال داشت. ابتدا یک مجموعه داده علمی ارسلا مورد اعتماد قرار گرفت. دوم اینکه بهترین معماری های یادگیری عمیق با بررسی کارهای مرتبط انتخاب شدند. سوم اینکه یک تجربه برای تست معماری های یادگیری عمیق که قبلا انتخاب شده بود انجام شد. چهارم اینکه معماری یادگیری عمیق بر اساس نتایج استخراج شده انتخاب شد. سرانجام, یک سیستم تشخیص زمان واقعی توسعه داده شد. نتایج این تحقیق نشان میدهد که معماری الکسنت به دلیل دقت بالا بهترین است. این مدل بر اساس معماری الکسنت ساخته شد و با موفقیت در زمان واقعی با نرخ دقت 94.81 درصد تست شد.
1. مقدمه و انگیزه
زبان اشاره روشی است که افراد دارای اختلالات شنوایی برای تعامل با دیگران استفاده می کنند. از این رو, تحقیق و توسعه در زمینه تشخیص زبان اشاره دانشمندان را به خود جلب کرده است, محققان, و مهندسان به منظور توسعه نرم افزار برای تسهیل روند برقراری ارتباط با افراد معلول شنوایی [1]. زبان اشاره نوعی ارتباط است که از نشانه های شناخته شده یا حرکات بدن برای انتقال معنا استفاده می کند. بسیاری از افراد کم شنوا هستند که قادر به نوشتن یا خواندن یک زبان نیز نیستند. از این رو ساختن یک ترجمه زبان اشاره یا به عبارتی سیستم تشخیص زبان اشاره میتواند برای زندگیشان بسیار سودمند باشد. این سیستم به دلیل توانایی پر کردن شکاف بین جامعه کم شنوا و سایر نقاط جهان تقاضای زیادی دارد. این یکی از مهمترین زمینه های تحقیقات محاسباتی است که به موضوعات زندگی واقعی می پردازد. طبق گزارش سازمان بهداشت جهانی (2022) بیش از 5 درصد از جمعیت جهان از اختلالات شنوایی رنج می برند. همچنین تخمین زده می شود که این تعداد تا سال 2050 به بیش از 700 میلیون نفر افزایش یابد.
الفبای عربی توسط جمعیت کشورهای عربی استفاده می شود که حدود 1 میلیارد نفر یا 14 درصد از جمعیت جهان را تشکیل می دهد (سازمان بهداشت جهانی, 2015). علاوه بر جمعیت کشورهای عربی, بسیاری از جمعیت اسیایی و افریقایی استفاده از حروف عربی در زبان یا گویش خود, مانند فارسی, مالایی (جاوی), اویغور, کردی, پنجابی, سندی, بالتی, بلوچی, پشتو, کمین, اردو, کشمیری, روهینگیا, سومالی و ماندینکا, بین دیگران [2]. از این رو, حروف عربی توسط تقریبا یک چهارم از جمعیت جهان استفاده می شود, به وضوح نشان اهمیت خود را.
طبق قانون نسبت های چندگانه 5 درصد از جمعیت هایی که از الفبای عربی استفاده می کنند با مشکلات شنوایی روبرو هستند. این تعداد قابل توجهی در نظر گرفته می شود. این امر اهمیت الفبای زبان اشاره عربی (ارسلا) را توجیه می کند. الفبای زبان اشاره عربی (ارسلا) تصویری از حروف عربی به شکل زبان اشاره است. از این رو جامعه کم شنوا از ارسلا برای غلبه بر مانع برخورد با حروف سنتی عربی استفاده می کند. این امکان را فراهم می کند تا در روند سنتی تربیتی و تربیتی شرکت کنند [3].
زبان اشاره عربی به دو قسمت تقسیم می شود: قسمت اول یک زبان کامل است که هر کلمه با یک علامت نشان داده می شود (مثلا کلمه پدر با یک علامت نشان داده می شود). کشورهای مختلف عربی زبان اشاره عربی خاص خود را دارند مانند زبان اشاره مصری یا زبان اشاره سعودی. بخش اول به عنوان زبان اشاره عربی شناخته می شود. در قسمت دوم هر حرف در الفبای عربی با علامت خاصی نشان داده می شود که به الفبای زبان اشاره عربی معروف است (ارسلا). با توجه به اهمیت قبلا توضیح داده شده زبان اشاره عربی چالش توسعه سیستم های تشخیص زبان اشاره عربی توجه محققان و متخصصان را به خود جلب کرده است. در نتیجه ادبیات راه حل های زیادی را برای ارسل و ارسلا پیشنهاد می کند.
یادگیری انتقال [4] به عنوان راه حلی برای غلبه بر این چالش پیشنهاد شده است که تکنیکی است که مدل در یک مجموعه تمرینی بزرگ تمرین می کند. سپس نتایج این تمرین به عنوان نقطه شروع کار هدف در نظر گرفته می شود. ثابت شده است که یادگیری انتقال در زمینه هایی مانند پردازش زبان و بینایی رایانه موفق است. افزایش داده ها [5] روش دیگری است که در کاهش بیش از حد نصب و بهبود عملکرد کلی موثر است. این روش با انجام دگرگونی های هندسی و رنگی مانند چرخش, تغییر اندازه, کشت, و اضافه کردن نویز به یا تار شدن تصویر و غیره باعث افزایش سایز مجموعه تمرینی می شود. در این کار ما از یادگیری انتقال یا تقویت داده ها در هنگام تمرین مدل سی ان ان استفاده نکردیم. در عوض از مجموعه داده ارسلا استفاده کردیم که برای تست و تمرین مناسب است. با استفاده از حدود 1000 تصاویر برای هر حرف به قطار مدل سی ان ان.
این مقاله یک مدل تشخیص الفبای زبان عربی در زمان واقعی با استفاده از تکنیک های یادگیری عمیق را نشان می دهد. همانطور که قبلا بحث شد ما به دلیل محبوبیتش روی ارسلا تمرکز کردیم. هدف اصلی توسعه راه حلی بود که برای همه قابل دسترسی باشد.
2. کارهای مرتبط
این بخش به بررسی کارهای مرتبط می پردازد که با هدف کشف و برجسته سازی هرگونه شکاف تحقیقاتی مورد بررسی و تجزیه و تحلیل قرار گرفته اند. روش مورد استفاده برای جمع بندی کارهای مرتبط انتخاب تحقیقات اخیر بود که از روش های تشخیص زبان اشاره در دوره 10 ساله قبلی استفاده می کرد. به عنوان معیار انتخاب مقالات پژوهشی که به موضوعات مربوط به ارسل یا ارسلا با راه حل های قابل اجرا پرداخته بودند انتخاب شدند. مقالات تحقیقاتی که راه حل های غیر قابل اجرا یا تکرار شده را نادیده گرفتند.
بر اساس [6] سیستم های تشخیص زبان اشاره را می توان به دو گروه تقسیم کرد: سیستم های مبتنی بر دستکش و سیستم های مبتنی بر بینایی. گروه اول مبتنی بر دستگاه های سخت افزاری است که از سنسورهای خاصی تشکیل شده است که می توانند در اشکال مختلف بسته بندی شوند که باید برای استفاده با دست مناسب باشند (زیرا زبان اشاره با دست مشخص می شود). گروه دوم مبتنی بر تکنیک ها و الگوریتم های پردازش تصویر است که منجر به استفاده از دوربین می شود. با وجود دستاوردهای امیدوار کننده در گروه اول, گروه دوم هنوز هم می تواند بهترین انتخاب در نظر گرفته شود به عنوان تنها دستگاه سخت افزاری نیاز به یک دوربین است که در دسترس تقریبا در هر کامپیوتر مدرن است. در ادبیات گروه اول به عنوان راه حل های مبتنی بر حسگر و گروه دوم به عنوان راه حل های مبتنی بر تصویر عنوان می شوند. در این مقاله مفاهیم گروه دوم را دنبال می کنیم. در ادامه مقالات منتخب از کارهای مرتبط مورد بحث و تحلیل قرار گرفته است.
حلاوانی و زیتون [7] سیستمی را برای تبدیل کلمات گفتاری رایج عربی به ارسل با استفاده از موتور تشخیص گفتار ایجاد کرد. این کار استفاده از دستکش داده را برای اندازه گیری حرکت زبان اشاره پیشنهاد می کند. مشخص نیست که کلمات رایج مورد استفاده در سیستم چگونه جمع و اعتبار یافته اند. مهندس ال. [8] یک سیستم چند سطحی برای تشخیص ارسطو ایجاد کرد. در سطح اول از کنترلر جهش حرکتی برای ردیابی و تشخیص حرکت دست استفاده می شود. سطح یک برای دستیابی به تصاویر با هدف ایجاد یک مجموعه داده استفاده می شود. سطح دوم پیش پردازش تصاویر جمع شده است. سطح سوم یک فرایند استخراج ویژگی است. سطح نهایی یک مدل طبقه بندی است. عملکرد چنین سیستم هایی به درجه دقت در تعریف ویژگی های تصویر بستگی دارد. البداوی و همکاران. [9] از یک شبکه عصبی کانولوشن 3 بعدی (سی ان ان) برای توسعه یک سیستم تشخیص ارسل بر اساس 25 تصویر علامت استفاده کرد. نتایج این تحقیق به دقت 85 درصد دست یافت. الزهیری و همکاران. [10] یک سیستم تشخیص ارسلا را با استفاده از یک ماشین بردار پشتیبانی توسعه داد. این دستگاه به صورت یک در مقابل تمام اس ام اس اجرا شده است که هیستوگرام های شیب گرا (گراز) را استخراج می کند. دقت این سیستم از 63 درصد تجاوز نمی کند.
ابراهیم و همکاران. [11] یک سیستم تشخیص خودکار زبان اشاره بصری پیشنهاد شده است که کلمات عربی منفرد را به متن تبدیل می کند. این پیشنهاد محدود به 30 کلمه جدا شده است که در زندگی روزمره مدرسه کودکان با چالش شنوایی استفاده می شود. یک روش پیشنهادی ردیابی لکه های پوستی برای شناسایی و ردیابی دست ها استفاده می شود.
دریچه و همکاران. [12] یک سیستم تشخیص ارس ال بر اساس کنترل کننده های حرکت جهشی دوگانه طراحی شده است. ویژگی های هندسی بهینه از هر دو قسمت جلویی و جانبی گرفته شد. طبقه بندی بر اساس رویکرد ابایزی توسعه داده شد. این سیستم بر روی صد نشانه توسعه یافته اعتبار یافت. دقت این سیستم ذکر نشده است. حسن و همکاران. [13] تجربیات انجام شده برای مقایسه دو روش تشخیص ارسل که عبارتند از: ک-نزدیکترین همسایه و مدل های پنهان مارکوف. تجربیات بر اساس مجموعه داده ای که با استفاده از دستکش های حسگر و مجموعه داده دیگری که توسط ردیاب حرکت جمع شده بود انجام شد. نتایج دقت طبقه بندی مشابهی را نشان داد. این به این معنی است که روش های کسب بر دقت طبقه بندی تاثیر نمی گذارد زیرا یک مجموعه داده به درستی جمع شده است. گانگراد و بهارتی [14] از جنگل تصادفی چند لایه برای تشخیص حرکات ایستا از داده های عمق تهیه شده توسط سنسور کینکت مایکروسافت استفاده کرد. این روش در [14] توسط داده های مصنوعی اعتبار سنجی شد, یک مجموعه داده در دسترس عموم از 24 سیگنال زبان اشاره امریکایی.
کامروزامان [15] سیستم تشخیص ارسلا را با هدف ترجمه نشانه ها به گفتار عربی پیشنهاد کرد. طبقه بندی بر اساس یک شبکه عصبی کانولوشن (سی ان ان) توسعه داده شد. معماری سی ان ان که در این مدل مورد استفاده قرار گرفت مشخص نیست. کار در [16] یک بررسی مقایسه ای برای مطالعه عملکرد طبقه بندی کننده های ارسلان تهیه کرد. در این پژوهش بر روی دستهبندیها و دستهبندیهای انتخابشده سیانان و سیانان و سیانان انتخاب شدند. کارهای موجود در [14, 1] از شبکه های کانولوشن عمیق برای تشخیص حروف و ارقام به زبان اشاره امریکایی استفاده می کردند. نشانه های گمشده (حروف خاص مانند علامت فاصله یا فاصله بین کلمات) در پیکره منبع خطاهای این مدل ها هستند. علاوه بر این, معماری سی ان ان استفاده روشن نیست.
کارهای زیادی وجود دارد که نشان می دهد از یک دستگاه سخت افزاری ویژه برای خواندن تابلوهای دستی استفاده می شود که یک بار اضافی و هزینه اضافی محسوب می شود. این راه حل ها برای همه در دسترس نخواهد بود.
کارهای مرتبط که بر اساس یادگیری ماشین یا الگوریتم های پردازش تصویر توسعه یافته اند وابسته به اجرای تکنیک های استخراج ویژگی هستند. از این رو کیفیت نتایج استخراج شده کاملا تابع ویژگی های انتخاب شده است که احتمالا می تواند یک انتخاب ناقص باشد.
کارهای مرتبط که بر اساس غفلت سی ان ان توسعه یافته اند به خوبی شناخته شده معماری سی ان ان. در حال توسعه یک راه حل مبتنی بر معماری موقت سی ان ان در اعتبار راه حل شک, به عنوان معماری جدید سی ان ان باید تست شده و معتبر در محیط ها و موقعیت های مختلف.
کارهایی که با ارسل سر و کار دارند از مشکلات مقیاس پذیری رنج می برند. همه کلمات را نمی توان به دلیل مقدار زیادی از کلمات مورد استفاده در زبان اشاره پوشش داد.
در بخشهای بعدی توضیح داده شده است که مدل پیشنهادی چگونه بر کاستیهای فوق غلبه کرده است.
3. روش شناسی
در این بخش مراحلی که برای دستیابی به مدل پیشنهادی دنبال شده است معرفی شده است. شناخت ارسلا بر اساس یادگیری ماشین یا یادگیری عمیق یعنی تکنیک های سی ان ان قابل دستیابی است. در این مقاله سی ان ان را به دلیل مزیتی که نسبت به یادگیری ماشین دارد برای توسعه مدل شناخت انتخاب کرده ایم. بر خلاف یادگیری ماشین, مدل سی ان ان پردازد استخراج ویژگی های خود به خود. اصول اولیه طراحی برای سی ان ان ساختن یک معماری و یک الگوریتم یادگیری به گونه ای است که تعداد پارامترها کاهش یابد اما ظرفیت فشرده سازی و پیش بینی الگوریتم های یادگیری به خطر نیفتد. لایه های سی ان ان و فعال سازی های غیرخطی معمولا پس از روش ریاضی خطی کانولوشن استفاده می شوند. بسیاری از اوقات در معماری از ارتباطات محلی بین پیکسل ها استفاده می شود. معرفی یک میدان پذیرای محلی امکان استخراج عناصر مختلف ویژگی را فراهم می کند. لایه های پنهان که بین لایه های کاملا متصل قرار می گیرند می توانند درجه بالاتری از پیچیدگی را تشخیص دهند. سی ان ان موثر تر از تشخیص یادگیری ماشین است, بازسازی, و طبقه بندی به دلیل توابع اتصال پراکنده بین لایه های بعدی, به اشتراک گذاری پارامتر از وزن بین پیکسل های همسایه, و نمایندگی های مشابه.
شکل 1 چارچوب روش شناسی برای توسعه مدل پیشنهادی را نشان می دهد. این چارچوب شامل پنج مرحله است: جستجو برای یک مجموعه داده استاندارد مناسب ارسلا, جستجو برای مدل های مناسب سی ان ان, انتخاب بهترین مدل سی ان ان, توسعه یک سیستم تشخیص زمان واقعی, و اعتبار سنجی سیستم تشخیص زمان واقعی توسعه یافته. در ادامه هر مرحله مورد بحث و بررسی قرار می گیرد.
3.1. جستجوی یک مجموعه داده استاندارد مناسب ارسلا
در این مرحله یک مجموعه داده استاندارد ارسلا مناسب را جستجو کردیم. اگر هیچ مجموعه داده مناسب پیدا شد, هیچ گزینه های دیگر اما برای ایجاد مجموعه داده خود ما وجود دارد. شکل 2 استراتژی انتخاب مجموعه داده را نشان می دهد.
مجموعه داده باید یک مجموعه داده استاندارد باشد که به این معنی است که مجموعه داده انتخاب شده در تحقیقات عمومی با نتایج منتشر شده درگیر شده است.
ما مجموعه داده ارسلا را انتخاب کرده ایم که در [6] منتشر شده است. این مجموعه داده دارای مزایای برچسب گذاری کامل است که در دسترس عموم قرار می گیرد و شامل 54049 تصویر در مقیاس خاکستری با وضوح 64 × 64 و نمایانگر 32 حرف عربی است. شکل 3 مجموعه داده ارسلا انتخاب شده را نشان می دهد.
شکل 3 32 علامت و حروف اساسی عربی را نشان می دهد که شامل 54049 عکس از ارسلا است که توسط بیش از 40 نفر نشان داده شده است. تعداد عکس ها در هر کلاس بسته به کلاس متفاوت است. گرافیک نمونه از تمام نشانه های زبان عربی نیز گنجانده شده است. بر اساس نام فایل تصویر, فایل سی اس وی حاوی برچسب هر تصویر مربوط به زبان عربی اشاره.
3.2. جستجوی معماری مناسب سی ان ان
همانطور که در علوم کامپیوتر شناخته شده است, یادگیری عمیق یا سی ان ان بهترین تکنیک است که می تواند برای یک سیستم تشخیص استفاده شود. با توجه به [1] معماری های یادگیری عمیق مورد استفاده قبلی الکسنت هستند [17], وی جی-16 [18] و شبکه مجدد 50 [19], شبکه موثر [20] در میان دیگران.
سی ان ان می تواند ارزش پیکسل تصویر خام به جای بردار ویژگی های از پیش پردازش تغذیه, بر خلاف برنامه های کاربردی یادگیری ماشین استاندارد. شکل 4 معماری کلی سی ان ان را نشان می دهد [21]. معماری معمول سی ان ان از لایه هایی از واحدهای محاسباتی (دروازه ها) تشکیل شده است که عبارتند از:
لایه های کانولوشن: شبکه ای که ورودی هر دروازه را فراهم می کند. وزن هر دروازه متصل می شود به طوری که هر دروازه همان ویژگی را تشخیص می دهد. مجموعه های مختلفی از دروازه ها مشابه این وجود دارد که در چندین کانال (لایه) برای یادگیری جنبه های مختلف سازماندهی شده اند.
لایه های ادغام: این با کاهش تعداد دروازه ها به عنوان یک لایه نمونه برداری پایین عمل می کند. هر یک از دروازه های شبکه ورودی "ک × ک" معمولا با انتخاب حداکثر مقدار ورودی یا میانگین تمام ورودی ها به یک سلول/دروازه واحد کاهش می یابد. لایه با یک شبکه کوچک اسکن می شود ک و یک گام انتخاب می شود تا شبکه لایه را بدون همپوشانی بپوشاند.
لایه های کاملا مرتبط: خروجی هر دروازه به ورودی دروازه لایه بعدی متصل است. (همچنین به عنوان سطح رمزگذار خودکار نامیده می شود). اینها یک نسخه برداری شده از ورودی را به یک خروجی بردار نرمال شده تبدیل می کنند. بردار خروجی مجموعه ای از احتمالات است که به عنوان امضای طبقه بندی عمل می کند.
لایه های پیچیدگی: در نظر بگیرید 1د پیچیدگی, فرض کنید بردار ورودی است ج و هسته است گرم که طول متر است . معادله زیر نشان می دهد مرکز هسته منتقل شده و ضرب شده است.
به همین ترتیب می توان کانولوشن 2 بعدی را تعریف کرد. اگر ورودی کانولوشن 2 بعدی یک تصویر باشد من (یا, معادل, دبلیو توسط ساعت ماتریس), و متر m متر ماتریس هسته به صورت نشان داده می شود دبلیو, سپس این را می توان با معادله زیر ذکر کرد:
در نظر بگیرید بعدی لایه کانولوشن در یک سی ان ان معمولی. فرض کنید ورودی لایه کانولوشن دارای ابعاد است ح W و × ج, سپس لایه های کانولوشن را می توان به عنوان مجموعه ای از گرفته شده است ج موازی, یا نقشه های ویژگی ماتریس انباشته شده, تشکیل شده توسط پیچاندن هسته های ماتریس با اندازه های مختلف (ردیاب های ویژگی) بر روی ورودی, و عنصر طرح ریزی عاقلانه محصولات نقطه انباشته شده. اگر هسته کانولوشن انتخاب شده باشد ک1× k2× ج و با گشاد گشاد راه رفتن زs(به نمایندگی از هسته کشویی فاصله), و همراه با یک پارامتر صفر بالشتک زهp, به نمایندگی از میزان مرز صفر اطراف تصویر, یکی کنترل اندازه نقشه ویژگی نتیجه. سپس ابعاد خروجی چنین لایه پیچیدگی خواهد بود ساعت1× W1× D1, جایی که:
جایی که علاوه بر این کD: =اندازه عمق گرفتن تعداد لایه های کانولوشن انباشته, (=ج در این مورد).
توابع فعال سازی خروجی یک نورون را بر اساس مجموعه ای از ورودی ها تعریف می کنند. () با شیب خود به شرح زیر است (زانا و بولتون, 2020) [22]:
لایه های تجمع: لایه های تجمع لایه های پایین نمونه برداری هستند که خروجی لایه ها را به یک نورون واحد ترکیب می کنند. اگر نشان دهیم ک به عنوان اندازه هسته (اکنون فرض کنید هسته مربع است), دnبه عنوان تعداد پنجره های هسته و زsبه عنوان گشاد گشاد راه رفتن به توسعه لایه های ادغام, سپس بعد خروجی لایه ادغام خواهد شد (فرض کنید ما ساعت1× W1× D1ورودی) همانطور که نشان داده شده است معادله زیر است: ر