- إعداد: م. نور التّتان
- التّدقيق العلمي: م. رامي عقّاد، م. براءة الجبلي
المحتويات
1- المقدِّمة
الرؤية الحاسوبيّة مجال من مجالات علوم الحوسبة الحديثة، وشكل من أشكال الذّكاء الاصطناعيّ، تساعد على رؤية العالم وتحليل البيانات المرئيّة ثمّ اتخاذ قرارات منها، بالإضافة إلى تحديد ومعالجة الأشياء مثل الصور ومقاطع الفيديو بنفس الطريقة التي يَفعلها البشر. حتى وقتٍ قريبٍ كانت الرؤية الحاسوبيّة تعمل بقدرة محدودة، إلّا أنَّ كمية البيانات الرّقميّة الهائلة التي نُنتجها اليوم مثّلت إحدى العوامل الرئيسيّة الدّافعة وراء تطوّر الرؤية الحاسوبيّة
يحظى مجال معالجة الصّور الرّقميّة باهتمام أغلب الباحثين منذ زمن، حيث ظهرت تطبيقات عديدة تعالج مشاكل بيانات الصّور بأنواعها، كتصنيف الصّور اكتشاف الكائنات في الصّور تجزئة الصّور، تحسين دقّة الصّور وغيرها. سوف نتحدّث اليوم عن تجزئة الصّور وأحدث النّماذج التي تمّ طرحها في هذا المجال. الشكل (1) يمثّل توضيح عملية تجزئة الصورة من أجل اكتشاف واستخلاص السيارات الموجودة فيها.
2- تجزئة الصّورة Image Segmentation
تُعتبر عمليّة التّجزئة واحدة من طرق معالجة الصّور التي تسمح لنا بفصل الأشياء عن بعضها البعض في الصّورة، وتُستخدم بشكل خاصّ في تطبيقات الاستشعار عن بعد، واكتشاف الأورام في الطّبّ الحيويّ، وفي أنظمة المراقبة لتحديد الأشخاص والسيارات داخل تسجيلات الفيديو، وفي برامج تحرير الصّور من أجل اقتطاع أجزاء من الصّورة لإجراء تعديل ما عليها. يوضّح الشّكل (2) بعض تطبيقات تجزئة الصّور.
كما استُخدمت تقنية تجزئة الصورة بشكل واسع في المجال الطبي، حيث استُعملت لاكتشاف وتحديد الآفات الجلدية، ومعرفة وجود الكتل السرطانية في الدماغ أو الصدر أو البطن، إضافة إلى كشف حالات تلف شبكية العين وغيرها الكثير من التطبيقات. ويوضح الشكل (3) بعض التطبيقات على تجزئة الصور الطبية.
على الرّغم من وجود أنواع عديدة لتجزئة الصّور، إلّا أنّ نوعي التّجزئة السّائدين هما التجزئة الدّلالية Semantic Segmentation، وتجزئة المثيل Instance Segmentation وقد تحدثنا في مقال سابق عن نوعي التّجزئة، لمراجعة ذلك قُم بزيارة الرّابط: تجزئة الصّورة باستخدام شبكة الطيّ العصبونيّة المناطقيّة ذات القناع وغرابكت Image Segmentation with Mask R-CNN and GrabCut
في العقود الأخيرة تمّ تقديم دراسات لنماذج تجزئة مختلفة تعتمد على طرق تقليديّة؛ كالطّرق القائمة على اكتشاف الحافة edge detection method، الطرق القائمة على العتبة thresholding، التّجزئة القائمة على المنطقة region-based، التّجميع القائم على البكسل pixel-based clustering ، الطّرق المورفولوجيّة morphological وغيرها.
بعد ظهور تكنولوجيا التّعلم العميق، تمّ تحقيق نجاح كبير في مهامّ تصنيف الصّور وتجزئتها، خاصّة أنّ قدرتها على استخراج البيانات قد حلّت إلى حدّ كبير مشاكل نقص المعلومات الدّلاليّة في طرق تجزئة الصّورة التقليديّة، وقد أثبتت الشّبكات العصبونيّة العميقة قدرتها أيضًا على تمييز التّفاصيل في الصّور التي يواجه الخبراء البشريّون صعوبة في فهمها. تمّ اقتراح عدّة بنى لهذه الشّبكات لملاءمة مهامّ التّجزئة في التّعلم العميق، ووفقًا لدراسة قدّمتها مجلة البحث والابتكار في الهندسة الطّبية الحيويّة IRBM) Innovation and Research in BioMedical engineering)، تمّ اعتماد نماذج شبكات CNN في مهامّ تجزئة الصّور الطّبية؛ وخاصة نموذج شبكة يو – نت U-Net الذي حقّق فعاليّة جيّدة لدى تطبيقه على صور حيويّة ونشره لأوّل مرّة في عام 2015. الشكل (4) يوضّح إحصائيّة لنماذج التعلّم العميق المستخدمة في تجزئة الصّور الطّبية، حيث نلاحظ اعتماد نسبة عالية من الأبحاث على نموذج شبكة U-Net في السنوات ما بين 2016 حتى 2020 والتي قدمت مقارنات واضحة بينه وبين نماذج شبكات أخرى تفوق عليها [7].
3- هيكل شبكة يو – نت U-Net
تُعتبر شبكة يو- نت U-Net نوعًا من أنواع شَبَكَاتُ الطَّيِّ العُصبُونِيَّة CNN، تمّ اقتراحها لأوّل مرّة من قبل أولاف رونبيرجر Olaf Ronneberger وفيليب فيشر Phillip Fischer وتوماس بروكس Thomas Brox في عام 2015 وتمّ استخدامها في مهامّ التّجزئة الدّلاليّة للصّور الطّبيّة؛ حيث تمّ تطبيقها على مجموعة صور قليلة وأعطت فعاليّة جيّدة مقارنة بطرق أُخرى. الشكل (5) يبيّن بُنية شبكة يو – نت U-Net.
نموذج U-Net عبارة عن هيكل FCN محسّن، يستخدم في التجزئة الدلاليّة للصور الطبيّة، سُمِّي على اسم هيكله الذي يشبه الحرف اللاتيني U وهو في الأساس مبني بالاعتماد على تحسين شبكة CNN. ويكون ناتج الشّبكة العصبونية الالتفافية المستخدمة لمهام التصنيف عادةً عبارة عن تصنيف لمصاب أو غير مصاب، ولكن في مهام التجزئة تتطلب العملية معلومات الفئة لكل بكسل من الصورة لذا نحن بحاجة إلى معلومات أكثر عن السياق في الصورة.
تتألف شبكة U-Net من مسار الاختزال Contraction path في النصف الأيسر ويدعى أيضًا (مسار المشفِّر)، ومسار التوسيع Expansion path في النصف الأيمن (مسار فاكّ الشّيفرة)، ووصلات الاتصال Skip Connection بينهما.
في مسار المشفِّر تُكرَّر عملية الطيّ Convolution عبر بناء طبقتين التفافيتين وطبقة تجميع واحدة كحد أقصى، وتتضاعف أبعاد خريطة السمات بعد كل عملية تجميع. أما في مسار فاك الترميز، فتُنفّذ عملية Deconvolution لتقليل أبعاد خريطة السمات بمقدار النصف، ثم تلصق خرائط السمات التي يُحصل عليها من قناة المرمِّز المقابلة لإعادة تشكيل خريطة سمات بحجم ضعفين، ثم استخدام طبقتين التفافيتين متتاليتين، وبتكرار هذا الهيكل نحصل على صورة تحتوي الجزء المراد اقتطاعه من الأصل، كما يوضح الشكل (5).
وتتميز شبكة U-Net بقدرتها على التعامل مع أي شكل وحجم للصور، وهي شبكة عميقة لا تحتوي على أي طبقات متصلة بالكامل في نهايتها، وتعطي في خرجها صورة تُعبر عن الكائن المراد تجزئته.
يُستخدم مسار الاختزال في هذه الشّبكة بشكل أساسي لالتقاط معلومات السياق من صورة الدخل، ويُستخدم مسار التوسيع المماثل في إجراء عملية التجزئة لقسم من الصورة وتحديد الموقع بدقّة. وسنقوم بشرح آلية عمل الشّبكة وفق الشكل (6)
إذا جزأنا بُنية U-Net نلاحظ أن دخل الشّبكة عبارة عن صورة ذات أبعاد 572 × 572 وعدد قنوات 1 كما هو موضّح في الشكل (7).
يتوافق كل مستطيل أزرق في الشكل مع خريطة معالم (سِمات) لكل طبقة، وتمثِّل الأرقام أعلاهُ العدد الحالي للقنوات. ويشير الرقم الموجود في الزاوية السُّفلى اليسرى إلى حجم خريطة السمات (أبعاد الطول والعرض للمصفوفة).
يُمثل السهم الأزرق الصغير عملية الطيّ، وفي كل مرة ينخفض فيها عرض الصورة وارتفاعها بمقدار 2، أما السهم الأحمر الصغير فهو للتعبير عن عملية التجميع Max pooling التي يُصغّر فيها حجم الصورة إلى النصف، وكما هو موضح في السهم الأحمر الأول خُفِّضت الأبعاد من 568 إلى 284. ويُستخرج في طبقات التجميع أفضل القيم الموجودة في مصفوفة السمات التي نتجت عن طبقة الطّي. يبيِّن الشكل (8) الطبقات الأولية لشبكة U-Net.
يمثِّل المستطيل الأبيض ناتج اقتصاص الطبقة الالتفافية المقابلة، حيثُ يُدمج المستطيل الأبيض والمستطيل الأزرق ليتم التعامل معهما كمدخلات لإعادة تكوين الشّبكة اللاحقة. ونظرًا لعدم إضافة المساحة المتروكة في عملية الالتفاف السابقة، سيكون هناك تغيير في حجم خريطة السمات، لذا نحتاج في عملية الاختزال إلى إجراء عملية اقتصاص على ناتج حساب الطيّ لكل مرحلة ثم ضم نتيجة الطيّ عبر تنفيذ عملية Concat (إضافة أبعاد القناة). يبيّن الشكل (9) عملية الضم في شبكة U-Net.
أما السهم الأخضر الصغير فهو يمثل التوسيع ويتوافق مع اللون الأحمر المقابل، حيث يُضاعف عبره حجم الصورة من 512 إلى 1024 كما في الشكل السابق. وفي الوسط يتم نقل خرائط السمات المُختزلة عبر السهم الرمادي. يبيّن الشكل (10) السهم الرمادي لنقل خرائط السمات.
يبيّن الشكل التالي دلالات الأسهم لكل مرحلة، حيث يُعبر السهم الأزرق عن وظيفة الطيّ والتفعيل، ويمثل الرمادي النسخ والاقتصاص، ويمثل الأحمر عملية الاختزال، ويمثل الأخضر عملية التوسعة ثم تُطبّق في النهاية عملية الطيّ conv 1X1التي تُفيد في تقليل الأبعاد والحصول على عُمق الخرج المطلوب. يبيّن الشكل (11) دلالات الأسهم لشبكة U-Net.
يُمكن ملاحظة أن هذه الشّبكة غير متصلة بالكامل، بل هي مجرد طبقات طيّ واختزال مبنية وفق نظام (مرمِّز- فاك ترميز)، يمر عبره وصلات تخطّي تُدعى Skip Connection تُستخدم لحل مشكلة تحديد موضع البكسل وفهم السياق.
ونلاحظ أيضاً أنها شبكة من طرف إلى طرف، أي أن الدخل فيها هو صورة، والخرج هو أيضًا صورة. يُمكننا تعيين نواة (المرشِّح) طبقة الطيّ Conv ومقدار الإزاحة Stride ونسبة حشو الأصفار Padding لنتحكم في حجم الصورة خلال نفس الطبقة، كما يُمكن أيضًا التحكم في حجم الاختزال.
يُظهر الشكل (12) مثال آخر على شبكة U-Net حيث يُعطي تفصيلاً توضيحياً لطريقة حساب حجم خرائط السمات الناتجة عن عمليات الطيّ والتجميع في كل مرحلة، بالإضافة لتحديد حجم المرشحات المُستخدمة والإزاحة المطبقة على صورة دخل حجمها 3 * 128 * 128
يبيّن الشكل (13) عمليّة الطيّ وعمليّة عكس الطّيّ:
4- الاختلافات التي تجعل هيكل يو – نت U-Net مميزًا
في هذه الفقرة سوف نقارن شبكة يو – نت U-Net مع نموذج تقليديّ مشابه يدعى المشفِّر التّلقائيّ Autoencoder وذلك لتوضيح الأسباب التي جعلتها شبكة فريدة من نوعها.
بنية نموذج التشفير التلقائي الكلاسيكية
في بنية نموذج التّشفير التّلقائيّ الكلاسيكيّة، يتمّ تقليل حجم معلومات الإدخال عبر مرورها على عدّة طبقات طيّ متتالية؛ تدعى هذه المرحلة بوحدة التّشفير، بعدها يبدأ جزء وحدة فكّ التّشفير حيث يتمّ التّعرّف على كلّ ميّزة في هذا القسم، ويزداد الحجم تدريجيّا، وفي نهاية البنية يكون حجم الإخراج مساويًا لحجم الإدخال كما هو موضّح في الشكل (14).
قصور التشفير الكلاسيكي
إنَّ بنية نموذج التّشفير التّلقائيّ الكلاسيكيّة مثاليّة في الحفاظ على حجم المخرجات، ولكنّها تعاني من مشكلة ضغط قيم الدّخل خطيّا، ممّا يؤدّي إلى مشكلة تدعى عنق الزّجاجة Bottle-neck حيث لا يمكن نقل جميع الميّزات من المشفّر إلى مفكّك الشّيفرة.
الحل الذي قدمته شبكة يو – نت U-Net
جاءت شبكة يو – نت U-Net لحلّ هذه المشكلة، حيث تمّ تعديل بنيتها عبر إضافة وصلات الاتصال بين وحدة المشفّر وفاكّ الشّيفرة، وبالتّالي أصبح بالإمكان نقل الميّزات دون ضياع للحصول على أفضل خرج ممكن.
تعدّ شبكة يو – نت U-Net أكثر نجاحًا من النّماذج التقليديّة، من حيث الهندسة المعماريّة ومن حيث تجزئة الصّور القائمة على البكسل، بل إنّها فعّالة أيضًا حتى مع مجموعة البيانات المحدودة.
5- معايير التقييم المستخدمة في نماذج التّجزئة
يمكننا تقييم نماذج التّعلم الآليّ والتّعلم العميق وحساب قيم الخسارة وفق أحد المعايير الأكثر شيوعًا في مهامّ تجزئة الصّور، مثل معيار الإنتروبيّة الثنائيّة القياسيّة binary cross-entropy ودرجة النّرد Dice score والتًقاطع على الاجتماع IoU، ولكنّ المعيارَين الأكثر استخدامًا في مهامّ تجزئة الصّور الطّبيّة هما درجة النّرد والتّقاطع على الاجتماع الذي يُشار إليه أيضًا باسم مؤشّر Jaccard؛ يشير هذان المعياران إلى درجة التّشابه بين مجموعات الخرج الحقيقيّة للبيانات T ومجموعات الخرج المتوقّعة P، حيث تعطي القيمة 1 إذا كانت المجموعتان متطابقتين، والقيمة 0 إذا كانتا مختلفتين تمامًا.
يُمثّل معيار درجة النّرد وفق المعادلة (1) والتي تشير إلى مضاعفة مساحة التّقاطع مقسومة على إجماليّ عدد البكسلات في كلا المنطقتين.
حيثُ أنّ {P,T ∈ {0,1
يُمثّل معيار التًقاطع على الاجتماع وفق المعادلة (2) حيث يشير إلى مساحة التّقاطع مقسومة على اجتماع المنطقتين.
حيثُ أنّ {P,T ∈ {0,1
تُظهر شريحة التّصوير بالرّنين المغناطيسيّ للدّماغ في الشكل (15) شرح القيم
P1 هي المنطقة التي يُتوقّع أن تكون آفة، بينما P0 هي المنطقة الطّبيعيّة المتوقّعة.
T1 هي منطقة ورم حقيقيّة تمّ تشخيصها سابقًا، بينما T0 تشير إلى المنطقة الطّبيعيّة.
6- دراسات تطبيقيّة على شبكة يو – نت U-Net
في عام 2015 تمّ اقتراح نظام تجزئة لصور مجهريّة للحبل العصبيّ البطنيّ DIC-HeLa معتمد على شبكة يو-نت U-Net التي قدّمت أداءً جيّدًا بدقّة تجزئة تصل إلى 92%، كما تمّ تطبيقها على صور لورم أروميّ دبقيّ PhC-U373 وحصلت على دقّة 77.5%؛ وهي الدّراسة الأولى التي تمّ فيها إطلاق هذا النّموذج[1]. يبيّن الشّكل (16) تجزئة لصورة مجهريّة للحبل العصبيّ البطنيّ (a,b-12)، وتجزئة لصورة لورم أروميّ دبقيّ (c,d-12).
يوضّح الجدول (1) النّتائج التي حصلت عليها الدّراسة عند تطبيق الشّبكة على صور الحبل العصبيّ البطنيّ وصور الورم الأروميّ الدبقيّ ومقارنتها بالدّراسات السّابقة وفق معيار التًقاطع على الاجتماع: نلاحظ أن شبكة يو- نت تفوقت على الشبكات الأخرى.
الجدول (1) البيانات المستخدمة عند تطبيق شبكة يو – نت U-Net
لم يقتصر استخدام شبكة يو – نت U-Net على المجال الطّبيّ فقط، بل تمّ تطبيقه في مجالات مختلفة من علوم الأرض وأنظمة الاستشعار عن بعد ومراقبة السّيارات وغيرها، حيث تمّ تطبيقها على تحدٍّ لرسم الخرائط باستخدام صور القمر الصّناعيّ، وحصل نموذج يو – نت u-Net على دقّة 0.943 يمكننا استخدام هذه الطّريقة أيضًا في تطبيقات تخطيط المناطق السّكنيّة، حيث تمّ استخدام يو- نت U-Net للكشف عن المباني ضمن مناطق على الكرة الأرضيّة وكانت نتائج التّطبيق كما هو موضّح في الشكل (17):
في دراسة أخرى لتحدٍّ دُعي باسم تحدي الملح TGS salt challenge والذي يدرس حالة وجود أو عدم وجود رواسب كبيرة من الأملاح والنّفط والغاز تحت سطح الأرض، تمّ تطبيق عدّة نماذج لتحديد الهدف الملحيّ ولكن النّتائج ما زالت بحاجة إلى تطوير حتّى الآن، حيث أنّ التّصوير الزلزاليّ الاحترافيّ يتطلّب تفسيرًا متخصّصًا ودقيقًا للأجسام الملحيّة تحت الأرض، تأمل شركة بيانات الجيولوجيا TGS أن يتمكّن مجتمع التّعلم الآليّ في موقع كاجل Kaggle من إنشاء خوارزميّة تحدّد تلقائيّا وبدقّة ما إذا كان الهدف تحت الأرض ملحًا أم لا. إذا كنت مهتمًّا بالأمر عليك زيارة الموقع في الشكل (18) لتجربة ذلك).
7- إلهام يو – نت U-Net لمناهج التّعلم العميق الأخرى
لقد ألهمت فكرة يو – نت U-Net الكثير من البنى المختلفة في التّعلّم العميق والرّؤية الحاسوبيّة، حيث ظهر مفهوم شبكة الرواسب المتبقّية ResNet of ResNet (RoR) الموضّح في الشكل (19) والذي يمكن تعريفه على أنّه النّصف الثّاني من بنية يو – نت u-Net، حيث تمّت إضافة مسارات التّخطّيّ في الشّبكة التقليديّة المتبقّية. لاحظ الاختلاف في البنية ضمن الشّكل التّالي:
نلاحظ من الشّكل رقم (14) أنّ بنية شبكة الرواسب المتبقّية الأصليّة تحتوي على مجموعة من الكتل المتبقّية (الكتل الزّرقاء) والتي تحتوي ضمنها على مسار اتّصال، بتعديل البنية السّابقة وفقًا لمنهج RoR تمّت إضافة وصلات اتّصال جديدة بين دخل وخرج الشّبكة وفقًا لمراحل متعدّدة، أدّى ذلك إلى تحسين في نتائج تلك الشّبكة. للاطّلاع على إصدارات منهج RoR ألقِ نظرة على المراجع في نهاية المنشور.
8- الخاتمة
لقد أثارت شبكات التّعلّم العميق ثورةً في التّكنولوجيا خاصّة في السّنوات الأخيرة الماضية، وذلك انطلاقاً من العديد من التطبيقات المتخصصة في مجال الرؤيّة الحاسوبيّة مثل المَركبات ذاتيّة القيادة القادرة على رؤية وتمييز العوائق التي تعترض مسارها؛ ولكن ومع هذا التّطوّر الكبير مازالت هذه النّماذج مصحوبة بالأخطاء، حيث أنّها لاتزال بحاجة إلى المزيد من التّجربة والتّحسين وخاصّة عند تطبيقها في المجال الطّبيّ؛ حيث أنّ قليلً من الخطأ قد يودي بحياة الكثير. تُعتبر شبكة يو نت U-Net إحدى الشّبكات العصبونيّة العميقة المُهمّة والمستخدمة بكثرة في مهامّ تجزئة الصّور الدّلاليّة، حيث قدّمت نتائج جيّدة عند تطبيقها على عدّة أنواع مختلفة من البيانات. في هذا المقال تعرّفنا على بنية هذه الشّبكة وبعض الأبحاث والتّطبيقات العمليّة التي اعتمدت عليها، كما تحدّثنا عن بعض الطّرق المستخدمة في تقييم نماذج التّجزئة في التّعلّم العميق، وبعض الأفكار الملهمة لشبكة يو – نت U-Net التي أثبتت فعاليّتها حتى مع تجزئة الكائنات الصّغيرة في الصّورة.