Object Detection and Augmentation

నేను Chrome లో చాలా [Shape Detection API](https://paul.kinlan.me/face-detection/ https://paul.kinlan.me/barcode-detection/ https://paul.kinlan.me/detecting-text-in-an-image/) తో ఎంతో ఆడుతూ [Shape Detection API](https://paul.kinlan.me/face-detection/ https://paul.kinlan.me/barcode-detection/ https://paul.kinlan.me/detecting-text-in-an-image/) మరియు నేను కలిగి ఉన్న సంభావ్యతను నిజంగా ఇష్టపడతాను, ఉదాహరణకు చాలా సులభమైన QRCode detector నేను చాలా కాలం క్రితం ఒక JS new BarcodeDetector() , అది అందుబాటులో ఉంటే new BarcodeDetector() API ని ఉపయోగిస్తుంది.

Face Detection , Barcode Detection మరియు Text Detection : Face Detection ఆకృతి గుర్తింపు API యొక్క ఇతర సామర్థ్యాలను ఉపయోగించి ఇక్కడ నిర్మించిన ఇతర డెమో యొక్క Text Detection .

వారాంతంలో నేను Jeeliz లో డెక్కన్ అయినప్పుడు నేను గొలిపే ఆశ్చర్యపోయాను మరియు నేను వారి టూల్కిట్ పనితీరును చాలా ఆకట్టుకున్నాను - నేను Pixel3 XL ను ఉపయోగించాను, కాని ముఖాలను గుర్తించడం FaceDetector API తో సాధ్యమయ్యేదానికంటే గణనీయమైనదిగా అనిపించింది.

Checkout some of their demos .

ఇది నాకు చాలా ఆలోచిస్తూ వచ్చింది. ఆబ్జెక్ట్ డిటెక్షన్ (ఇది వంటివి) కోసం ఈ టూల్కిట్ వెబ్లో ప్రత్యేకంగా కెమెరా యాక్సెస్, WebGL మరియు WASM లలో విస్తృతంగా అందుబాటులో ఉన్న API లను ఉపయోగిస్తుంది, ఇది Chrome యొక్క ఆకారం డిటెక్షన్ API (Chrome లో మాత్రమే ఉంది మరియు Chrome లో ఉన్న అన్ని ప్లాట్ఫారమ్ల్లో స్థిరంగా లేదు ) అన్ని వేదికలపై స్థిరమైన అనుభవంతో గొప్ప అనుభవాలను సులభంగా నిర్మించడానికి మరియు బిలియన్ల మంది వినియోగదారులను చేరుకోవడానికి ఉపయోగించవచ్చు.

అది ఆసక్తికరంగా (మరియు నిజంగా ఈ పోస్ట్లో చూపించాలని కోరుకున్నాను) మరియు అక్కడ ఇప్పుడు వేదికకు వస్తున్న మిడిల్వేర్ గ్రంధాలయాలు అవసరం కావడంతో, వినియోగదారులు సరదాగా స్నాప్చాట్-ఎస్క్ ఫేస్ ఫిల్టర్ అనువర్తనాలను నిర్మించగలరు. వినియోగదారుల పరికరం నుండి భారీ మొత్తంలో డేటాను పెంచుతుంది (ఎందుకంటే వ్యవస్థకు అంతర్లీన యాక్సెస్ ఉండదు).

ఆహ్లాదకరమైన ప్రదర్శనలు వెలుపల, వాడుకదారుల కోసం త్వరగా మరియు సులభంగా అత్యంత అధునాతన వినియోగ సందర్భాలను పరిష్కరించడం సాధ్యపడుతుంది:

వినియోగదారుని నుండి కెమెరా లేదా ఫోటో నుండి నేరుగా టెక్స్ట్ ఎంపిక

  • కెమెరా నుండి భాషల యొక్క ప్రత్యక్ష అనువాదం
  • ఇన్లైన్ QRCode గుర్తింపును కాబట్టి ప్రజలు WeChat అన్ని సమయం తెరిచి లేదు :)
  • చిత్రం నుంచి సేకరించిన ఆటో URL వెబ్సైట్ URL లు లేదా చిరునామా
  • క్రెడిట్ కార్డ్ గుర్తింపును మరియు సంఖ్య వెలికితీత (వినియోగదారులు వేగంగా మీ సైట్ వరకు సైన్ అప్ పొందండి)
  • మీ స్టోర్ వెబ్ అనువర్తనం లో విజువల్ ఉత్పత్తి శోధన. మీ దుకాణాల వెబ్ అనువర్తనంలో మరిన్ని ఉత్పత్తి వివరాలు కోసం బార్కోడ్ శోధన. ప్రజల ముఖాలకు ప్రొఫైల్ ఫోటోల త్వరిత పంట.
  • చిత్రంలో కనిపించే టెక్స్టును యూజర్ వినడానికి అనుమతించే సాధారణ A11Y లక్షణాలు.

నేను ఈ ఉపయోగం కేసుల గురించి ఆలోచిస్తూ 5 నిమిషాలు గడిపాను - నాకు చాలా ఎక్కువ తెలుసు - కానీ నాకు సైట్లు లేదా వెబ్ అనువర్తనాలు చాలా కెమెరాని ఉపయోగించలేదని నాకు తెలీదు, దానికి బదులుగా సైట్లు చాలా అడిగేవి వినియోగదారులు ఒక అనువర్తనాన్ని డౌన్లోడ్ చేసుకోవటానికి మరియు మనం ఏమైనా చేయాలని నేను అనుకోను.

** మా జట్టులో థామస్ స్టినేర్ మా టీమ్ చాట్ లో పేర్కొన్నది నేను ప్రస్తుత ShapeDetection API ShapeDetection కాదు అనిపిస్తుంది. నేను ఈ API ప్రతి సంబంధిత వ్యవస్థల యొక్క స్థానిక షిప్పింగ్ అమలుకు మాకు ప్రాప్తిని ఇచ్చే వాస్తవాన్ని నేను ప్రేమిస్తున్నాను, అయితే The Lumpy Web లో నేను వ్రాసిన The Lumpy Web , వెబ్ డెవలపర్లు ప్లాట్ఫారమ్లో స్థిరత్వం The Lumpy Web మరియు ఆకృతి డిటెక్షన్ API తో సమస్యల సంఖ్యను కలిగి ఉన్నాయి ఇలా సంగ్రహించబడింది:

  1. API మాత్రమే Chrome లో ఉంది
  2. Chrome లో API ప్రతి ప్లాట్ఫారమ్లోనూ భిన్నంగా ఉంటుంది, ఎందుకంటే వాటి అంతర్లీన అమలులు భిన్నంగా ఉంటాయి. Android నోరు మరియు కళ్ళు వంటి మైలురాళ్లకు మాత్రమే పాయింట్లు కలిగివుంటాయి, ఇక్కడ మకాయస్ ఉన్నది. Android లో TextDetector కనుగొనబడిన టెక్స్ట్ను తిరిగి ఇస్తుంది, ఇక్కడ MacOS లో ఇది 'టెక్స్ట్ ప్రెజెన్స్' ఇండికేటర్ను అందిస్తుంది ... ఇది Surma కనిపించే అన్ని దోషాలను పేర్కొనడం లేదు.

పంపిణీ కోసం ఒక ప్లాట్ఫారమ్గా వెబ్ అనేది ఇలాంటి అనుభవాలకు చాలా అర్ధమే, నేను దీనిని చేయకూడదని అనుకుంటున్నాను, కానీ పైన చెప్పిన రెండు సమూహాల సమస్యలు ప్రతి అంశాన్ని అమలు చేయడానికి దీర్ఘకాలిక అవసరాన్ని ప్రశ్నించడానికి నన్ను దారితీస్తుంది. వెబ్ ప్లాట్ఫారమ్ స్థానికంగా, మేము WebGL, WASM మరియు భవిష్యత్తులో వెబ్ GPU వంటి వేదిక యొక్క లక్షణాలను ఉపయోగించి రవాణా చేయబడిన ప్యాకేజీలో మంచి పరిష్కారాలను అమలు చేసేటప్పుడు.

ఏమైనప్పటికి, మేము వెబ్లో దీన్ని చెయ్యగలగాలని నేను ఇష్టపడుతున్నాను మరియు నేను సైట్లు వాటితో నౌకను చూస్తాను.

About Me: Paul Kinlan

I lead the Chrome Developer Relations team at Google.

We want people to have the best experience possible on the web without having to install a native app or produce content in a walled garden.

Our team tries to make it easier for developers to build on the web by supporting every Chrome release, creating great content to support developers on web.dev, contributing to MDN, helping to improve browser compatibility, and some of the best developer tools like Lighthouse, Workbox, Squoosh to name just a few.