Object Detection and Augmentation

मैं क्रोम में [Shape Detection API](https://paul.kinlan.me/face-detection/ https://paul.kinlan.me/barcode-detection/ https://paul.kinlan.me/detecting-text-in-an-image/) साथ बहुत कुछ खेल रहा हूं और मुझे वास्तव में यह पसंद है, उदाहरण के लिए एक बहुत ही सरल QRCode detector मैंने बहुत पहले लिखा था एक JS new BarcodeDetector() , लेकिन उपलब्ध है तो new BarcodeDetector() एपीआई का उपयोग करता है।

आप आकार का पता लगाने की एपीआई की अन्य क्षमताओं का उपयोग करके यहां बनाए गए कुछ अन्य डेमो देख सकते हैं: Face Detection , Barcode Detection और Text Detection

जब मैं सप्ताहांत में Jeeliz से Jeeliz तो मुझे सुखद आश्चर्य हुआ और मैं उनके टूलकिट के प्रदर्शन पर अविश्वसनीय रूप से प्रभावित हुआ - बशर्ते कि मैं Pixel3 XL का उपयोग कर रहा था, लेकिन चेहरे का पता लगाना काफी आसान लग रहा था जो कि FaceDetector API के साथ संभव है।

Checkout some of their demos

इससे मुझे बहुत कुछ सोचने को मिला। ऑब्जेक्ट डिटेक्शन के लिए यह टूलकिट (और इसे पसंद करने वाले) एपीआई का उपयोग करते हैं जो कि वेब पर विशेष रूप से कैमरा एक्सेस, वेबजीएल और डब्ल्यूएएसएम पर उपलब्ध हैं, जो क्रोम के आकृति डिटेक्शन एपीआई के विपरीत है (जो केवल क्रोम में है और सभी प्लेटफार्मों पर संगत नहीं है) ) का उपयोग समृद्ध अनुभवों को आसानी से बनाने और सभी प्लेटफार्मों पर एक सुसंगत अनुभव के साथ अरबों उपयोगकर्ताओं तक पहुंचने के लिए किया जा सकता है।

ऑग्मेंटेशन वह जगह है जहाँ यह दिलचस्प हो जाता है (और वास्तव में मैं इस पोस्ट में क्या दिखाना चाहता था) और जहाँ आपको मिडलवेयर लाइब्रेरी की आवश्यकता होती है जो अब प्लेटफ़ॉर्म पर आ रही है, हम मज़ेदार स्नैपचैट-एस्क फेस फ़िल्टर ऐप बना सकते हैं, जिनके बिना उपयोगकर्ता मैसिव एप्लिकेशन इंस्टॉल कर सकते हैं उपयोगकर्ताओं के डिवाइस से बड़ी मात्रा में डेटा काटा जाता है (क्योंकि सिस्टम में कोई अंतर्निहित पहुंच नहीं है)।

मज़ेदार डेमो के बाहर, उपयोगकर्ता के लिए बहुत उन्नत उपयोग-मामलों को जल्दी और आसानी से हल करना संभव है, जैसे:

  • कैमरा या उपयोगकर्ता से सीधे फोटो का चयन करें
  • कैमरे से भाषाओं का लाइव अनुवाद
  • इनलाइन क्यूआरकोड डिटेक्शन ताकि लोगों को हर समय वीचैट को खोलना न पड़े :)
  • ऑटो एक्सट्रैक्शन वेबसाइट के URL या किसी इमेज से एड्रेस
  • क्रेडिट कार्ड का पता लगाना और नंबर निकालना
  • आपके स्टोर के वेब ऐप में विजुअल प्रोडक्ट सर्च।
  • अपने स्टोर वेब ऐप में अधिक उत्पाद विवरण के लिए बारकोड लुकअप।
  • लोगों के चेहरों पर प्रोफाइल फोटो की त्वरित कटाई।
  • सरल A11Y एक उपयोगकर्ता छवियों में पाया पाठ सुनने के लिए सुविधाएँ।

मैंने इन उपयोग-मामलों के बारे में सोचने में केवल 5 मिनट बिताए हैं - मुझे पता है कि बहुत अधिक हैं - लेकिन इसने मुझे मारा कि हम कैमरे का उपयोग करने वाली बहुत सी साइटें या वेब ऐप नहीं देखते हैं, इसके बजाय हम बहुत सी साइटें पूछ रहे हैं। उपयोगकर्ताओं को एक ऐप डाउनलोड करने के लिए, और मुझे नहीं लगता कि हमें ऐसा करने की आवश्यकता है।

** अद्यतन ** हमारी टीम में थॉमस स्टीनर ने हमारी टीम चैट में उल्लेख किया है कि ऐसा लगता है कि मुझे वर्तमान ShapeDetection एपीआई पसंद नहीं है। मैं इस तथ्य से प्यार करता हूं कि यह एपीआई हमें संबंधित प्रणालियों में से प्रत्येक के मूल शिपिंग कार्यान्वयन तक पहुंच प्रदान करता है, हालांकि जैसा कि मैंने The Lumpy Web में लिखा था, वेब डेवलपर्स प्लेटफॉर्म में निरंतरता को The Lumpy Web हैं और शेप डिटेक्शन एपीआई के साथ कई समस्याएं हैं संक्षेप में प्रस्तुत करें:

  1. एपीआई केवल क्रोम में है
  2. क्रोम में एपीआई हर प्लेटफॉर्म पर बहुत अलग है क्योंकि उनके अंतर्निहित कार्यान्वयन अलग हैं। एंड्रॉइड के पास केवल मुंह और आंखों जैसे स्थलों के लिए अंक हैं, जहां macOS की रूपरेखा है। Android पर TextDetector ने पाया हुआ पाठ लौटाया, जहाँ TextDetector रूप में यह 'पाठ उपस्थिति' सूचक देता है ... यह सूरमा को मिले सभी बगों का उल्लेख नहीं है।

वितरण के लिए एक मंच के रूप में वेब इन जैसे अनुभवों के लिए इतना अधिक समझ में आता है कि मुझे लगता है कि यह हमें ऐसा नहीं करने के लिए याद होगा, लेकिन उपरोक्त मुद्दों के दो समूहों ने मुझे हर सुविधा को लागू करने की दीर्घकालिक आवश्यकता पर सवाल उठाया वेब प्लेटफ़ॉर्म मूल रूप से, जब हम एक पैकेज में अच्छे समाधानों को लागू कर सकते हैं, जिसे आज वेबजीएल, डब्ल्यूएएसएम और भविष्य के वेब जीपीयू जैसे प्लेटफॉर्म की सुविधाओं का उपयोग करके शिप किया गया है।

वैसे भी, मुझे इस तथ्य से प्यार है कि हम वेब पर ऐसा कर सकते हैं और मैं उनके साथ साइटों को देखने के लिए आगे देख रहा हूं।

About Me: Paul Kinlan

I lead the Chrome Developer Relations team at Google.

We want people to have the best experience possible on the web without having to install a native app or produce content in a walled garden.

Our team tries to make it easier for developers to build on the web by supporting every Chrome release, creating great content to support developers on web.dev, contributing to MDN, helping to improve browser compatibility, and some of the best developer tools like Lighthouse, Workbox, Squoosh to name just a few.