الرؤية الحاسوبيّة وتطبيقاتها Applications of Computer Vision

المحتويات:

  • مقدمة
  • تطبيقات الرؤية الحاسوبيّة.
  • الخاتمة. 
  • المراجع.

المقدمــــة

الرؤية الحاسوبّية (Computer Vision) هي إحدى مجالات علوم الحاسب، تهدف إلى بناء تطبيقات ذكيّة قادرة على فهم محتوى الصور كما يفهمها الإنسان، حيث من الممكن أن تأخذ الصور عدّة أشكال كالصور المتعاقبة (فيديو)، مشاهد من عدّة كاميرات، بيانات ذات عدّة أبعاد مأخوذة من جهاز تصوير طبيّ، لذا فإنّ علم الرؤية الحاسوبيّة يدرس ويصف أنظمة الرؤية الصنعيّة التي يتمّ تنفيذها في البرامج أو الأجهزة، وتعدّ الرؤية الحاسوبيّة أحد أفرع علم الذّكاء الاصطناعي الذي يهدف إلى محاكاة القدرات البشريّة الذكيّة، ويعدّ التعرّف على الأشياء من المهام الأساسيّة ضمن مفهوم الرؤية بالحاسب والتي تعتمد على تحديد وتعريف هذه الأشياء سواءً كانت هذه الأشياء ضمن صور أو فيديوهات.

في هذه المقالة، سيتمّ تقديم تطبيقات مختلفة للرؤية الحاسوبيّة مع توضيحات لكيفيّة معالجة كلٍّ منها باستخدام تعلم الآلة

تطبيقات الرؤية الحاسوبيّة:

  • تصنيف الصور Image Classification.
  • تحديد الكائن واكتشافه Object Localization and Detection.
  • تجزئة الصورة Image Segmentation.
  • نقل نمط الصورة Image Style Transfer.
  • تلوين الصورة Image Colorization.
  • إعادة بناء الصورة Image Reconstruction.
  • دقة الصورة العالية Image Super-Resolution.
  • تركيب الصورة Image synthesis.
  • مشاكل أخرى other Problems.

تصنيف الصور Image Classification

تصنيف الصور هو أوّل تقنية رؤية حاسوبية يتمّ التعامل معها عن طريق تعلم الآلة، وعلى الرّغم من أنّ خوارزميّات تعلم الآلة كانت فعّالة في التعامل مع مشاكل البيانات المنظمة، إلا أنها كانت تعمل بشكلٍ جيد فقط في المهامّ البسيطة مثل تصنيف الأشكال الهندسيّة المختلفة. وبعد عدّة سنوات تمّ تقديم خوارزميّة (Support Vector Machine) التي كانت قادرة على معالجة البيانات عالية الأبعاد بأقلّ قدر من العينات، مثل مجموعات بيانات الصور الصغيرة. وأخيرًا، ما قد أحدث ثورة في الرؤية الحاسوبية هو إدخال شبكات الطيّ العصبونية (Convolutional Neural Networks) بواسطة Yann Lecun في نموذجه LeNet والذي أثبت تفوّقه على تقنيّات تعلم الآلة Machine Learning الأخرى القائمة على الرؤية في عام 2012، وعندها فاز AlexNet كأوّل نموذج قائم على CNN في مسابقة ImageNet الشهيرة (يمكنك مراجعة مقالنا على المدونة بعنوان “LeNet – شبكات الطيّ العصبونية باستخدام بايثون” لمعرفة تفاصيل أكثر عن هذا النموذج) [1].

بعض من أمثلة تصنيف الصور:

  • تصنيف الأشعة السينيّة بأنها سرطانيّة أم لا (تصنيف ثنائيّ).
  • تصنيف رقم مكتوب بخطّ اليد (تصنيف متعدّد الفئات).
  • تخصيص اسم لصورة وجه (تصنيف متعدّد الأصناف).
  • مثال شائع لتصنيف الصور المستخدم كمشكلة معياريّة هو تصنيف مجموعة بيانات MNIST.

مجموعة البيانات Dataset

يتطلب تدريب نماذج Machine Learning كمية كبيرة من بيانات الصور والفيديو الموصوفة بدقة لفهم العالم المرئي لذلك نحتاج مجموعة بيانات لتدريب النموذج واختباره لإعطاء نتائج ذات دقة عالية.

تعدّ مجموعة بيانات MNIST من أشهر مجموعات البيانات التي تستخدم لتصنيف الأرقام المكتوبة بخطّ اليد من 0 حتى 9، حيث تمّ استخدامها في العصور المبكرة من الرؤية الحاسوبية. حالياً، تعدّ ImageNet واحدة من أهمّ مجموعات البيانات حيث أنها تحتوي على مجموعة كبيرة من الصور مرفقة مع وصفها تتألف من أكثر من 14 مليون صورة تنتمي لأكثر من 2000 صنف ويبين الشكل (1) بعضاً من صور ImageNet، أيضاً هناك الكثير من مجموعات البيانات الأخرى لتصنيف الصور التي تمّ استخدامها كثيراً مثل STL-10 وCIFAR-10 وCIFAR-100ولكن ببيانات أقلّ وأحجام صور أصغر.

الشكل(1). أمثلة من مجموعة البيانات MINIST

تحديد موقع الكائن واكتشافه Object Localization and Detection

هي إحدى تقنيات الرؤية الحاسوبية التي تسمح لنا بتحديد نوع وموقع الكائنات في صورة أو فيديو وبالتالي تمكننا هذه التقنية من معرفة عدد الكائنات وتحديد كل عنصر من العناصر المكتشفة ضمن إطار إضافة إلى ذلك تحديد موقع هذا العنصر لذلك تعتبر هذه التقنية مهمة أكثر صعوبة من تصنيف الصور، حيث غالبًا ما توجد كائنات متعدّدة من أنواع مختلفة في الصورة،. تُستخدم هذه التقنية بكثافة في تطبيقات مختلفة مثل السيارات ذاتيّة القيادة والروبوتات والواقع المعزز والتطبيقات الطبيّة.

يوجد العديد من خوارزميات تحديد موقع الكائن واكتشافه مثل شبكة الطّيّ العصبونية المناطقية R-CNN، شبكة الطّيّ العصبونية المناطقية السريعة Fast R-CNN، شبكة الطّيّ العصبونية المناطقية الأسرع Faster R-CNN، شبكة YOLO وهي اختصار لجملة you only look once وغيرها.

 

الشكل(2). آلية عمل تقنية تحديد الكائنات

بعض من أمثلة تحديد الكائن:

  • رسم إطار محيط وتسمية كلّ كائن في مشهد الشارع.
  • رسم مربع محيط وتسمية كلّ كائن في صورة داخليّة.
  • رسم مربع محيط وتسمية كلّ كائن في منظر طبيعيّ.

بعض من مجموعات البيانات المستخدمة في تحديد الكائن:

تتطلب مجموعات البيانات الخاصة بتحديد الكائنات واكتشافها عملاً أكثر من العمل المقدّم في إنشاء مجموعة بيانات لتصنيف الصور، في مجموعات البيانات المخصصة لتحديد الكائنات واكتشافها يتمّ وضع تعليق توضيحيّ، يبين اسم هذا الكائن، وقيمة معامل الدقة على المربع المحيط حول كلّ كائن مستهدف في صورة معينة.

تعتبر مجموعة البيانات COCO واحدة من أهم مجموعات البيانات المستخدمة في تحديد موقع الكائن واكتشافه حيث تحتوي على 320 ألف صورة مع تعليقات توضيحيّة بحيث تصف المربعات المحيطة أصناف الكائنات الموجودة في الصورة. من هذه الكائنات (شخص، عصفور، نظارة، مظلة، حصان، قطة) وغيرها الكثير من الكائنات. أيضاً تعتبر PASCAL وImageNet من مجموعات البيانات الرئيسيّة المستخدمة لتقييم نماذج تحديد الكائنات الجديدة.

تجزئة الصورة Image Segmentation

هي أحد تقنيات الرؤية الحاسوبية التي لها دور في تحرير الصور وفصل الكائنات عنها حيث يتم تقطيع الصورة الرقمية إلى أجزاء من الصور ذات حجم أصغر وعادةً تكون تجزئة الصور إما بالاعتماد على معلومات اللون في الصورة والتي تقوم بتحديد عدد الكائنات اعتماداً على الفروق اللونية أو بالاعتماد على معلومات الحافة والتي تساعد في تحديد الحواف على محيط الكائن

يوجد العديد من خوارزميات تجزئة الصّور مثل خوارزمية التجزئة حسب المنطقة Region-based segmentation، خوارزمية التجزئة المعتمدة على الحواف Edge Detection segmentation، خوارزمية التجزئة المعتمدة على التجمعات Image segmentation based on Clustering، وشبكة الطّيّ العصبونية المناطقّة ذات القناع Grabcut Mask R-CNN وغيرها (يمكنك مراجعة مقالنا على المدونة بعنوان “خوارزمية استخراج وتجزئة المقدمة غرابكات GrabCut”لمعرفة تفاصيل أكثر عن هذا الخوارزمية) [2].

الشكل(3). آلية عمل تقنية تجزئة الصورة

بعض من مجموعات البيانات المستخدمة في تجزئة الصورة

تعتبر مجموعات بيانات COCO وPASCAL من أهم مجموعات البيانات المستخدمة لتجزئة الصور، أيضاً تمّ تصميم مجموعات بيانات أخرى لتطبيقات أكثر تحديدًا مثل التطبيقات الطبيّة، حيث هناك الكثير من مجموعات البيانات منها BraTS وLits والتي تستهدف مهامّ عديدة مثل تجزئة الورم في أجزاء مختلفة من الجسم وأنواع أخرى من الأمراض.

نقل نمط الصورة Image Style Transfer

هي إحدى تقنيات الرؤية الحاسوبية التي تسمح لنا بإجراء تأثيرات معيّنة على صورة بواسطة صورة أخرى تحمل نمطاً معيناً مع المحافظة على معالم الصورة الأصلية وبالتالي في حال كان لدينا صورة ما (صورة الدخل) وصورة أخرى (صورة النمط) فتكون صورة الخرج عبارة عن محتوى صورة الدخل ولكن بنمط جديد وهذا النمط قد يكون شعارًا مميزًا أو ألوانًا مميزة أو نموذجًا معينًا

أو أسلوبًا معينًا أو لوحة مشهورة مرسومة من قبل فنان مشهور، حيث تنتقل لمسات هذا الفنان إلى لوحة أو صورة ما وبذلك نحصل على عمل فنيّ جديد يحمل لمسات رائعة.

يوجد العديد من خوارزميات نقل نمط الصورة منها شبكات الطي العصبونية CNN.

(يمكنك مراجعة مقالنا على المدونة بعنوان “استخدام شبكات الطّيّ العصبونية CNN في نقل النمط وتصميم الصور- إنشاء تأثيرات جميلة للصور” لمعرفة تفاصيل أكثر عن هذا الخوارزمية) [3].

الشكل(3). آلية عمل تقنية نقل نمط الصورة

تتضمن مجموعة البيانات المستخدمة في نقل نمط الصورة الأعمال الفنيّة الشهيرة الموجودة في المجال العام والصور الفوتوغرافيّة من مجموعات بيانات الرؤية الحاسوبية القياسيّة، على سبيل المثال (Pablo Picasso أو Vincent van Gogh) وغيرهم من الفنانين المشهورين.

تلوين الصورة Image Colorization

هي إحدى تقنيات الرؤية الحاسوبية التي تسمح لنا بتحويل صورة ذات تدرّج رماديّ إلى صورة كاملة الألوان، يمكن اعتبار هذه المهمة نوعاً من مرشح الصور.

يوجد العديد من خوارزميات تلوين الصورة مثل شبكة الطّيّ العصبونية CNN، شبكة التنافسية التوليدية GAN.

الشكل(5). آلية عمل تقنية تلوين الصورة

مجموعات البيانات المستخدمة في تلوين الصور

تتطلب مجموعة البيانات المراد استخدامها في تلوين الصور أن تكون مولّدة بتدرّج رماديّ من الصور لكي تتعلم النماذج تلوينها.

 

إعادة بناء الصورة Image Reconstruction

هي أحد تقنيات الرؤية الحاسوبية التي تسمح لنا بملء الأجزاء المفقودة أو التالفة من الصورة، يمكن اعتبار هذه المهمة نوعًا من مرشح الصور. تقسم عمليّة إعادة بناء الصورة إلى فئتين: إعادة بناء صورة عالية الدّقة من عدّة صور منخفضة الدّقة، وإعادة بناء صورة عالية الدّقة من صورة واحدة منخفضة الدّقة.

على سبيل المثال: إعادة بناء الصور الفوتوغرافيّة والأفلام بالأبيض والأسود القديمة والتالفة (مثل استعادة الصور).

يوجد العديد من خوارزميات إعادة بناء الصورة منها شبكة الطّيّ العصبونية CNN

الشكل(6). آلية عمل تقنية إعادة بناء الصورة

مجموعات البيانات المستخدمة في إعادة بناء الصورة

يتطلب إنشاء مجموعات البيانات المستخدمة في إعادة بناء الصورة، استخدام مجموعة بيانات موجودة وإنشاء إصدارات تالفة من الصور التي يجب أن تتعلم النماذج إصلاحها.

 

الصورة عالية الدّقة Image Super-Resolution

هي إحدى تقنيات الرؤية الحاسوبية التي تسمح لنا بإنشاء نسخة جديدة من الصورة بدقة وتفاصيل أعلى من الصورة الأصليّة، حيث أنّ دقة تفاصيل الصورة تعبر عن أكبر مدى من التقارب يمكن أن تكون عليه خطوط الصورة بحيث تبقى مرئيّة وواضحة.

يوجد العديد من خوارزميات الصورة عالية الدّقة مثل شبكة الطّيّ العميقة DCN، شبكة التنافسية التوليدية GAN.

الشكل(7). آلية عمل تقنية صورة عالية الدقة

مجموعة البيانات المستخدمة في الصور عالية الدّقة

تتضمن مجموعات البيانات المستخدمة في الصور عالية الدّقة، مجموعات بيانات صور

موجودة وإصدارات مصغرة منشأة وبتفاصيل أقلّ من الصور التي يجب أن تتعلم النماذج الخاصة بها إنشاء إصدارات عالية الدّقة.

تركيب الصورة Image synthesis

هي إحدى تقنيات الرؤية الحاسوبية تسمح لنا بإنشاء تعديلات على الصور، حيث أنّ تركيب الصورة يكون عن طريق قطع صورتين أو أكثر وتغييرها وإعادة ترتيبها أو تركيب صورتين أو أكثر في صورة جديدة.  في بعض الأحيان يتمّ تصوير الصورة المركبة بحيث تظهر الصورة النهائيّة كصورة فوتوغرافيّة وقد تكون تلك التعديلات هي تعديلات صغيرة على الصورة أو الفيديو (على سبيل المثال الترجمة من صورة إلى صورة).

يوجد العديد من خوارزميات تركيب الصورة أهمها شبكة التنافسية التوليدية GAN.

بعض من أمثلة تركيب الصور:

  • تغيير نمط كائن في مشهد.
  • إضافة كائن إلى مشهد.
  • إضافة وجه إلى مشهد.
  • إنشاء صورة جديدة تماماً (على سبيل المثال توليد الوجوه، توليد الملابس، …).
الشكل(8). آلية عمل تقنية تركيب الصورة

مشاكل أخرى other Problems

هناك مشاكل أخرى مثيرة للاهتمام لم نقم بتغطيتها لأنها فقط ليست مهامّ رؤية حاسوبيّة. وإنما هي مهام يتشارك في حلها أكثر فرع من فروع الذكاء الاصطناعي

على سبيل المثال:

تحويل من صورة إلى صورة Image to Image، تحويل من نصّ إلى صورة Text to Image، تحويل من صورة إلى نصّ Image to Text، التعليق على الصورة Image Captioning، إنشاء وصف نصيّ للصورة Image Describing.

الخاتمة

مع استمرار تطوّر تقنيّة الرؤية الحاسوبيّة Computer Vision وتفوّقها في المهام التي تحتاج إلى دقة عالية في التحليل وسرعة الاستجابة مقارنةً بالرؤية البشريّة، سيركّز العامل البشريّ في المستقبل أكثر على المهام الإداريّة، بينما ستتمّ أتمتة جميع العمليّات التي تعتمد على مفهوم الصور وتحليلها في القطاعات الحكوميّة والخاصة.

المـــراجع

[1].https://aiinarabic.com/lenet-convolutional-neural-network-in python/

[2].https://aiinarabic.com/grabcut-foreground-segmentation-and extraction/

[3].https://aiinarabic.com/styling-images-with-convolutional-neural-networks/

[4].https://machinelearningmastery.com/applications-of-deep-learning-for-computer-vision/

[5].https://heartbeat.fritz.ai/6-significant-computer-vision-problems-solved-by-ml-623eb50544c5

[6]. https://arabicprogrammer.com/tag/image+style+transfer/

[7]. https://arabicprogrammer.com/article/9519181219/

[8. ]https://www.hisour.com/ar/photomontage-35230/

[9]. https://www.hisour.com/ar/photomontage-35230/

0 Shares:
اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

You May Also Like
اقرأ المزيد

معالجة الصورة باستخدام المكتبةُ المفتوحةُ للرُّؤيةِ الحاسُوبيَّةِ (OpenCV)

المحتويــات المقدمة معالجة الصورة باستخدام مكتبة المكتبةُ المفتوحةُ للرُّؤيةِ الحاسُوبيَّةِ (OpenCv )في برمجة البايثون قراءة الصور وعرضها على…