सर्च इंजन कैसे काम करता है? सर्च इंजन कैसे काम करते हैं - स्निपेट्स, रिवर्स सर्च एल्गोरिदम, पेज इंडेक्सिंग और सर्च इंजन के साथ काम करने वाले यांडेक्स की विशेषताएं

किसी वेबसाइट को बढ़ावा देने के लिए, आपको यह समझने की आवश्यकता है कि खोज इंजन कैसे काम करते हैं और कीवर्ड की खोज स्थिति में आने के लिए आपको क्या करने की आवश्यकता है।

सर्च इंजन क्या हैं और उनके कार्य क्या हैं?

खोज इंजन कंप्यूटर रोबोट हैं जो आगंतुकों को उनके प्रश्नों के लिए सबसे प्रासंगिक और उपयोगी जानकारी प्रदान करते हैं।

कोई सर्च इंजन जितना अधिक सही उत्तर देता है, इंटरनेट उपयोगकर्ताओं का उस पर भरोसा उतना ही अधिक होता है।

यह सिस्टम के लिए ही महत्वपूर्ण है क्योंकि इससे प्लेसमेंट के लिए लाभ के रूप में लाभ होता है, जो इसका उपयोग करने वाले सभी लोगों को दिखाई देता है।

सही उत्तर प्रदान करने के लिए, जिससे संख्या में वृद्धि हो, खोज इंजन एक निश्चित सिद्धांत के अनुसार काम करते हैं, जिसमें लगातार प्रदर्शित होने वाली साइटों के बारे में डेटा एकत्र करना और उनके पृष्ठों को अनुक्रमित करना शामिल है।

सर्च इंजन कैसे काम करते हैं

कई इंटरनेट उपयोगकर्ताओं का मानना ​​है कि खोज इंजन उन्हें मौजूद सभी साइटों के बारे में जानकारी प्रदान करते हैं। लेकिन वास्तव में, यह पूरी तरह से गलत है, क्योंकि वे केवल उन पेजों पर ध्यान केंद्रित करते हैं जो सर्च इंजन के डेटाबेस में हैं। यदि साइट खोज इंजन में नहीं है, तो न तो Google और न ही Yandex इसे खोजों में दिखाएगा।

जब कोई साइट डेटाबेस में दिखाई देती है, तो खोज इंजन रोबोट इसे स्कैन करते हैं, सभी आंतरिक पृष्ठों के साथ-साथ इस इंटरनेट पोर्टल पर पोस्ट किए गए लिंक की पहचान करते हैं। इस प्रकार, किसी विशिष्ट साइट और उसके द्वारा लोकप्रिय बनाए गए अन्य संसाधनों के बारे में पूरी जानकारी एकत्र की जाती है।

सूचना को एकत्र करने और व्यवस्थित करने की प्रक्रिया किसके माध्यम से होती है। कुछ मामलों में, ऐसा काफी लंबे समय तक नहीं होता है, इसलिए यह समझना आवश्यक है कि यह सर्च इंजन फ़ंक्शन क्या है और यह कैसे काम करता है।

किसी वेबसाइट पर सही टेक्स्ट फ़ॉर्मेटिंग की भूमिका के बारे में हमारा लेख पढ़ें।

परिणाम

किसी वेबसाइट को बढ़ावा देने के लिए, आपको लोकप्रिय खोज इंजनों के काम के सभी पहलुओं को ध्यान में रखना होगा, अपने इंटरनेट संसाधन के संकेतकों को इन प्रणालियों की आवश्यकताओं के अनुरूप समायोजित करना होगा। यदि सब कुछ Google और Yandex द्वारा स्थापित नियमों के अनुसार किया जाता है, तो आप जल्द ही अपनी साइट को कीवर्ड खोजों में पहले स्थान पर देख पाएंगे।

सादर, नास्त्य चेखोवा

इंटरनेट पर खोज के लिए पहला कंप्यूटर प्रोग्राम आर्ची था, जिसे 1990 में मॉन्ट्रियल के छात्रों द्वारा बनाया गया था। इसने सभी उपलब्ध एफ़टीपी सर्वरों से सभी फ़ाइलों की सूचियाँ डाउनलोड कीं और एक डेटाबेस बनाया जिसे फ़ाइल नामों से खोजा जा सकता था। पहला पूर्ण-पाठ खोज इंजन वेबक्रॉलर था, जिसे 1994 में लॉन्च किया गया था और एक रोबोट का उपयोग करके संसाधनों को अनुक्रमित किया जाता था। इसने उपयोगकर्ताओं को किसी भी वेब पेज पर स्थित किसी भी शब्द को खोजने की अनुमति दी। 1998 में, लैरी पेज और सर्गेई ब्रिन ने अपने बैकरब प्रोजेक्ट के आधार पर Google सर्च इंजन बनाया। उनका नवाचार उनके स्वयं के पेजरैंक एल्गोरिदम की शुरूआत थी, जो हाइपरलिंक की संख्या के आधार पर वेब पेजों को रैंक करता है। रूसी आकृति विज्ञान को ध्यान में रखते हुए एक खोज पहली बार 1996 में अल्टाविस्टा सर्च इंजन पर लागू की गई थी, उसी समय रैम्बलर और एपोर्ट लॉन्च किए गए थे। और सितंबर 1997 में Yandex सर्च इंजन खोला गया। सर्च इंजन कैसे काम करता है - आज के एपिसोड में हम इसी पर बात करेंगे.

प्रारंभ में, खोज रोबोट को सामग्री पुनः प्राप्त करने की आवश्यकता होती है और अनुक्रमणिका को एक खोजने योग्य सूचकांक उत्पन्न करने की आवश्यकता होती है। वेब क्रॉलर, या "क्रॉलर", एक प्रोग्राम है जो किसी पृष्ठ पर पाए गए सभी लिंक का स्वचालित रूप से अनुसरण करता है और उन्हें हाइलाइट करता है। पतों की पूर्व निर्धारित सूची के आधार पर, यह नए दस्तावेज़ों की खोज करता है जो अभी तक खोज इंजन को ज्ञात नहीं हैं। खोजे गए नए पृष्ठों का आगे अनुक्रमण के लिए खोज इंजन द्वारा विश्लेषण किया जाता है। यह एक विशेष मॉड्यूल - इंडेक्सर द्वारा किया जाता है, जो पहले लेक्सिकल और मॉर्फोलॉजिकल एल्गोरिदम का उपयोग करके पृष्ठों को भागों में विभाजित करता है। वेब पेजों के बारे में डेटा एक इंडेक्स डेटाबेस में संग्रहीत किया जाता है। सूचकांक आपको उपयोगकर्ता के अनुरोधों के आधार पर तुरंत जानकारी ढूंढने की अनुमति देता है।


खोज इंजन, बदले में, अनुक्रमणिका से प्राप्त फ़ाइलों के साथ काम करता है। जब कोई उपयोगकर्ता किसी खोज इंजन में कोई क्वेरी दर्ज करता है, तो वह उसके सूचकांक की जांच करता है और सबसे प्रासंगिक वेब पेजों की एक सूची लौटाता है।

क्वेरी विश्लेषण भाषा के निर्धारण से शुरू होता है, क्योंकि विभिन्न भाषाओं में एक ही शब्द का अलग-अलग अर्थ हो सकता है। इसलिए, सिस्टम यूजर इंटरफ़ेस की वर्णमाला, क्षेत्र और भाषा पर ध्यान देता है। खोज इंजन फिर आकृति विज्ञान की ओर बढ़ता है और यह निर्धारित करता है कि लिखित शब्द भाषण के किस भाग से संबंधित हैं। यह आपको उन दस्तावेज़ों को ढूंढने की अनुमति देता है जिनमें एक ही शब्द के विभिन्न रूप होते हैं। खोज प्रणाली क्वेरी में विभिन्न वस्तुओं को भी उजागर करती है - भौगोलिक नाम, लोगों के नाम और संगठनों के नाम, और सभी संभावित विकल्पों को ध्यान में रखने के लिए, यह क्वेरी को उसी अर्थ के साथ नए शब्दों के साथ पूरक करता है। इसके अलावा, खोज इंजन स्वचालित रूप से त्रुटियों को ठीक करता है या गलत और सही दोनों प्रकार की क्वेरी के लिए परिणाम दिखाता है।


अधिकांश खोज इंजन "सर्वोत्तम" परिणामों को सूची के शीर्ष पर लाने के लिए रैंकिंग तकनीकों और मशीन लर्निंग का उपयोग करते हैं।

उन्नत खोज इंजनों में, तंत्रिका नेटवर्क खोज क्वेरी और वेब पेज शीर्षकों को संख्याओं के समूहों - सिमेंटिक वैक्टर में परिवर्तित करते हैं। उनकी एक-दूसरे से तुलना की जा सकती है और वे और भी अधिक सटीक परिणाम दे सकते हैं।


ऐसे खोज एल्गोरिदम भी हैं जो प्रश्नों के वैक्टर और संपूर्ण वेब पेजों की तुलना करते हैं - न कि केवल उनके शीर्षकों की। यह सिस्टम को पृष्ठों के अर्थ को समझने और उन्हें सही ढंग से चुनने की अनुमति देता है जब लोग अपने शब्दों में वर्णन करते हैं कि वे क्या खोज रहे हैं। ऐसा करने के लिए, तंत्रिका नेटवर्क पहले से ही अनुक्रमण चरण में पेज टेक्स्ट को सिमेंटिक वैक्टर में बदल देता है। और जब कोई व्यक्ति कोई प्रश्न पूछता है, तो एल्गोरिदम क्वेरी वेक्टर की तुलना पहले से ज्ञात पेज वैक्टर से करता है।

वे मुख्य और सबसे महत्वपूर्ण इंटरनेट सेवाओं में से एक हैं।

खोज इंजनों की सहायता से, अरबों इंटरनेट उपयोगकर्ता अपनी आवश्यक जानकारी प्राप्त कर लेते हैं।

सर्च इंजन क्या है?

एक खोज इंजन एक सॉफ्टवेयर और हार्डवेयर कॉम्प्लेक्स है जो प्रत्येक पृष्ठ तक विभिन्न प्रकार की साइटों, उनकी सामग्री के बारे में बड़ी मात्रा में जानकारी संसाधित करने के लिए विशेष एल्गोरिदम का उपयोग करता है।

सामान्य आगंतुकों के दृष्टिकोण से एक खोज इंजन एक ऐसी स्मार्ट साइट है जिसमें बहुत सारी जानकारी होती है और उपयोगकर्ता के किसी भी प्रश्न का उत्तर प्रदान करती है।

इंटरनेट उपयोगकर्ता अलग-अलग देशों में अलग-अलग सर्च इंजन का उपयोग करते हैं। इंटरनेट के अंग्रेजी भाषी क्षेत्र में सबसे लोकप्रिय सर्च इंजन गूगल है।

RuNet में खोज इंजन

रूस में, आधे से अधिक उपयोगकर्ता यांडेक्स खोज इंजन को पसंद करते हैं, और Google के पास लगभग 35% प्रश्न हैं। अन्य उपयोगकर्ता Rambler, Mail.ru, Nigma और अन्य सेवाओं का उपयोग करते हैं।

यूक्रेन में, लगभग 60% उपयोगकर्ता Google का उपयोग करते हैं, संसाधित अनुरोधों में से 25% से थोड़ा अधिक का योगदान Yandex के पास है।

इसलिए, रूनेट पर साइटों का प्रचार करते समय, विशेषज्ञ खोज इंजन यांडेक्स और Google पर ध्यान केंद्रित करते हुए, साइट को बढ़ावा देने का प्रयास करते हैं।

खोज इंजन कार्य

आगंतुकों के प्रश्नों का यथासंभव सटीक उत्तर देने के लिए, खोज इंजनों को निम्नलिखित कार्य करने होंगे:

  1. विभिन्न साइटों के विभिन्न पृष्ठों के बारे में त्वरित और कुशलतापूर्वक जानकारी एकत्र करें।
  2. इन पृष्ठों के बारे में जानकारी संसाधित करें और निर्धारित करें कि वे किस क्वेरी या प्रश्नों से मेल खाते हैं।
  3. उपयोगकर्ता के अनुरोधों के जवाब में खोज परिणाम उत्पन्न करें और प्रदान करें।

खोज इंजन के घटक

खोज इंजन एक जटिल सॉफ़्टवेयर कॉम्प्लेक्स है जिसमें निम्नलिखित मुख्य ब्लॉक होते हैं:

  1. डेटा संग्रहण।
  2. अनुक्रमणिका।
  3. गणना।
  4. रेंजिंग.

यह विभाजन सशर्त है, क्योंकि विभिन्न खोज इंजनों का कार्य एक-दूसरे से कुछ भिन्न होता है।

1. डेटा संग्रह

इस स्तर पर, कार्य नए दस्तावेज़ ढूंढना, उन्हें देखने और स्कैन करने की योजना बनाना है।

वेबमास्टरों को ऐड-ऑन पेज में पेज का पता डालकर या सोशल नेटवर्क पर पेज की घोषणा प्रसारित करके खोज इंजनों को नई सामग्रियों की उपस्थिति के बारे में बताना होगा।

व्यक्तिगत रूप से, मैं बाद वाली विधि का उपयोग करता हूं और मानता हूं कि यह काफी पर्याप्त है।

एक टिप्पणी।मैं थोड़ा विषयांतर करूंगा और नए वेबसाइट पेजों की अनुक्रमणिका की गति पर सोशल नेटवर्क पर घोषणाएं पोस्ट करने की प्रभावशीलता के बारे में बात करूंगा।

मैं अपनी वेबसाइट के पन्नों पर टेक्स्ट की विशिष्टता को नियंत्रित और रिकॉर्ड करने के लिए text.ru सेवा का उपयोग करता हूं।

यह गुणात्मक रूप से विशिष्टता की जाँच करता है, उसे रिकॉर्ड करता है और आपकी वेबसाइट के पन्नों पर एक विशिष्टता बैनर लगाना संभव बनाता है।

लेकिन कई बार इस सर्विस पर प्रोसेसिंग के लिए लंबी कतार लग जाती है. मेरे पास ऐसे कई मामले हैं जहां मैंने विशिष्टता जांच की प्रतीक्षा नहीं की, साइट पर एक लेख पोस्ट किया और इसे सोशल नेटवर्क पर प्रसारित किया।

यदि विशिष्टता जांच में लगभग एक घंटे या उससे अधिक की देरी होती है, तो विशिष्टता प्रतिशत हमेशा 0% होता है। इसका मतलब यह है कि पोस्ट करने के एक घंटे से भी कम समय में, पेज पहले ही अनुक्रमित हो चुका था और खोज इंजन डेटाबेस में दर्ज हो गया था।

2. अनुक्रमणिका

सर्च इंजन नए वेब पेजों के बारे में डेटा एकत्र करके उन्हें अपने डेटाबेस में रखते हैं। इस मामले में, एक सूचकांक बनता है, यानी, यदि ऐसी आवश्यकता उत्पन्न होती है, तो इस पृष्ठ के बारे में डेटा तक त्वरित पहुंच के लिए एक कुंजी।

3. गणना

डेटाबेस में प्रवेश करने के बाद, हमारी साइटों के पृष्ठ विभिन्न मापदंडों और संकेतकों की गणना के चरण से गुजरते हैं।

खोज इंजन एल्गोरिदम के डेवलपर्स के अलावा कोई भी यह नहीं कह सकता कि इनमें से कितने संकेतक हैं और उनकी गणना कैसे की जाती है।

4. रैंकिंग

फिर, गणना किए गए मापदंडों और संकेतकों के आधार पर, कुछ प्रश्नों के लिए पृष्ठ की प्रासंगिकता निर्धारित की जाती है और पृष्ठ को रैंक किया जाता है।

यह इन प्रश्नों के लिए खोज परिणाम पृष्ठों की त्वरित और उच्च गुणवत्ता वाली पीढ़ी के लिए महत्वपूर्ण होगा।

खोज इंजन उपयोगकर्ता के प्रश्नों के उत्तर उत्पन्न करते हैं और खोज परिणाम पृष्ठ के रूप में उनके लिए परिणाम उत्पन्न करते हैं।

यह ध्यान दिया जाना चाहिए कि पेज डेटा को संसाधित करने, संकेतक उत्पन्न करने और रैंकिंग विधियों के लिए एल्गोरिदम में लगातार सुधार किया जा रहा है। जिन प्राथमिकताओं के आधार पर रैंकिंग होती है वे बदल जाती हैं।
खोज इंजन उपयोगकर्ता के अनुरोधों का यथासंभव सटीक उत्तर देने का प्रयास करते हैं, अनुरोध की प्रकृति, किसी विशेष उपयोगकर्ता के हितों, उसके निवास स्थान, आयु, लिंग, आदतों और झुकाव को ध्यान में रखने का प्रयास करते हैं।

कई उपयोगकर्ताओं के लिए उनके द्वारा दर्ज किए गए प्रश्नों (प्रश्नों) के उत्तर प्राप्त करने के लिए इंटरनेट आवश्यक है।

यदि कोई खोज इंजन नहीं होते, तो उपयोगकर्ताओं को स्वतंत्र रूप से उन साइटों की खोज करनी होती जिनकी उन्हें ज़रूरत है, उन्हें याद रखना होता और उन्हें लिखना होता। कई मामलों में, "मैन्युअल रूप से" कुछ उपयुक्त ढूंढना बहुत मुश्किल होगा, और अक्सर असंभव भी होगा।

हम वेबसाइटों पर जानकारी खोजने, संग्रहीत करने और क्रमबद्ध करने का यह सभी नियमित कार्य करते हैं।

आइए प्रसिद्ध रूनेट सर्च इंजन से शुरुआत करें।

रूसी में इंटरनेट सर्च इंजन

1) आइए घरेलू खोज इंजन से शुरुआत करें। यांडेक्स न केवल रूस में काम करता है, बल्कि बेलारूस और कजाकिस्तान, यूक्रेन और तुर्की में भी काम करता है। अंग्रेजी में Yandex भी है.

2) गूगल सर्च इंजन अमेरिका से हमारे पास आया और इसमें रूसी भाषा का स्थानीयकरण है:

3) घरेलू खोज इंजन मेल आरयू, जो एक साथ सोशल नेटवर्क VKontakte, Odnoklassniki, My World, प्रसिद्ध उत्तर Mail.ru और अन्य परियोजनाओं का प्रतिनिधित्व करता है।

4) बुद्धिमान खोज इंजन

निगमा (निग्मा) http://www.nigma.ru/

19 सितंबर, 2017 से, निगमा "बौद्धिक" ने काम नहीं किया है। इसके रचनाकारों के लिए यह वित्तीय हित का नहीं रहा; उन्होंने CocCoc नामक एक अन्य खोज इंजन पर स्विच कर दिया।

5) प्रसिद्ध कंपनी रोस्टेलकॉम ने स्पुतनिक सर्च इंजन बनाया है।

स्पुतनिक नामक एक खोज इंजन है, जो विशेष रूप से बच्चों के लिए डिज़ाइन किया गया है, जिसके बारे में मैंने लिखा है।

6) रैम्बलर पहले घरेलू खोज इंजनों में से एक था:

दुनिया में अन्य प्रसिद्ध सर्च इंजन हैं:

  • बिंग,
  • याहू!,
  • Baidu,
  • इकोसिया,

आइए यह जानने का प्रयास करें कि एक खोज इंजन कैसे काम करता है, अर्थात् साइटों को कैसे अनुक्रमित किया जाता है, अनुक्रमण परिणामों का विश्लेषण कैसे किया जाता है और खोज परिणाम कैसे उत्पन्न किए जाते हैं। खोज इंजन के संचालन के सिद्धांत लगभग समान हैं: इंटरनेट पर जानकारी खोजना, उसे संग्रहीत करना और उपयोगकर्ता के अनुरोधों के जवाब में डिलीवरी के लिए उसे सॉर्ट करना। लेकिन खोज इंजन द्वारा उपयोग किए जाने वाले एल्गोरिदम बहुत भिन्न हो सकते हैं। इन एल्गोरिदम को गुप्त रखा जाता है और इसका खुलासा करना प्रतिबंधित है।

विभिन्न खोज इंजनों की खोज स्ट्रिंग में एक ही क्वेरी दर्ज करके, आप अलग-अलग उत्तर प्राप्त कर सकते हैं। इसका कारण यह है कि सभी सर्च इंजन अपने-अपने एल्गोरिदम का उपयोग करते हैं।

सर्च इंजन का उद्देश्य

सबसे पहले, आपको यह जानना होगा कि खोज इंजन व्यावसायिक संगठन हैं। उनका लक्ष्य लाभ कमाना है. आप प्रासंगिक विज्ञापन, अन्य प्रकार के विज्ञापन और आवश्यक साइटों को खोज परिणामों के शीर्ष पर प्रचारित करके लाभ कमा सकते हैं। सामान्य तौर पर, कई तरीके हैं।

यह दर्शकों के आकार पर निर्भर करता है, यानी कितने लोग इस खोज इंजन का उपयोग करते हैं। जितनी बड़ी ऑडियंस होगी, विज्ञापन उतने ही अधिक लोगों को दिखाया जाएगा। तदनुसार, इस विज्ञापन की लागत अधिक होगी। खोज इंजन अपने स्वयं के विज्ञापन के माध्यम से, साथ ही अपनी सेवाओं की गुणवत्ता, एल्गोरिदम और खोज सुविधा में सुधार करके उपयोगकर्ताओं को आकर्षित करके अपने दर्शकों को बढ़ा सकते हैं।

यहां सबसे महत्वपूर्ण और कठिन बात पूरी तरह से काम करने वाले खोज एल्गोरिदम का विकास है जो अधिकांश उपयोगकर्ता प्रश्नों के लिए प्रासंगिक परिणाम प्रदान करेगा।

एक खोज इंजन का कार्य और वेबमास्टर्स की गतिविधियाँ

प्रत्येक खोज इंजन का अपना एल्गोरिदम होता है, जिसे उपयोगकर्ता के अनुरोध के जवाब में जानकारी का विश्लेषण और परिणाम संकलित करते समय बड़ी संख्या में विभिन्न कारकों को ध्यान में रखना चाहिए:

  • किसी विशेष साइट की आयु,
  • वेबसाइट डोमेन विशेषताएँ,
  • साइट पर सामग्री की गुणवत्ता और उसके प्रकार,
  • नेविगेशन और साइट संरचना की विशेषताएं,
  • प्रयोज्यता (उपयोगकर्ताओं के लिए सुविधा),
  • व्यवहार संबंधी कारक (खोज इंजन यह निर्धारित कर सकता है कि उपयोगकर्ता को साइट पर वह मिल गया जो वह खोज रहा था या उपयोगकर्ता फिर से खोज इंजन पर लौट आया और वहां फिर से उसी प्रश्न का उत्तर ढूंढ रहा है)
  • वगैरह।

यह सब इसलिए आवश्यक है ताकि उपयोगकर्ता के अनुरोध पर परिणाम यथासंभव प्रासंगिक हों और उपयोगकर्ता के अनुरोधों को संतुष्ट करें। साथ ही, खोज इंजन एल्गोरिदम लगातार बदल रहे हैं और परिष्कृत किए जा रहे हैं। जैसा कि वे कहते हैं, पूर्णता की कोई सीमा नहीं होती।

दूसरी ओर, वेबमास्टर और ऑप्टिमाइज़र अपनी साइटों को बढ़ावा देने के लिए लगातार नए तरीके ईजाद कर रहे हैं, जो हमेशा ईमानदार नहीं होते हैं। खोज इंजन एल्गोरिदम के डेवलपर्स का कार्य इसमें ऐसे बदलाव करना है जो बेईमान ऑप्टिमाइज़र की "खराब" साइटों को टॉप में प्रदर्शित होने की अनुमति नहीं देगा।

सर्च इंजन कैसे काम करता है?

अब बात करते हैं कि सर्च इंजन वास्तव में कैसे काम करता है। इसमें कम से कम तीन चरण होते हैं:

  • स्कैनिंग,
  • अनुक्रमण,
  • लेकर.

इंटरनेट पर साइटों की संख्या बहुत ज़्यादा है। और प्रत्येक साइट सूचना, सूचना सामग्री है जो पाठकों (जीवित लोगों) के लिए बनाई गई है।

स्कैनिंग

यह नई जानकारी एकत्र करने, लिंक का विश्लेषण करने और नई सामग्री की खोज करने के लिए इंटरनेट पर घूमने वाला एक खोज इंजन है जिसका उपयोग उपयोगकर्ता को उसके अनुरोधों के जवाब में वापस करने के लिए किया जा सकता है। स्कैनिंग के लिए सर्च इंजन के पास विशेष रोबोट होते हैं जिन्हें सर्च रोबोट या स्पाइडर कहा जाता है।

खोज रोबोट ऐसे प्रोग्राम हैं जो स्वचालित रूप से वेबसाइटों पर जाते हैं और उनसे जानकारी एकत्र करते हैं। क्रॉल प्राथमिक हो सकता है (रोबोट पहली बार किसी नई साइट पर जाता है)। साइट से जानकारी के प्रारंभिक संग्रह और इसे खोज इंजन डेटाबेस में दर्ज करने के बाद, रोबोट कुछ नियमितता के साथ इसके पृष्ठों पर जाना शुरू कर देता है। यदि कोई परिवर्तन हुआ है (नई सामग्री जोड़ी गई है, पुरानी सामग्री हटा दी गई है), तो ये सभी परिवर्तन खोज इंजन द्वारा रिकॉर्ड किए जाएंगे।

सर्च स्पाइडर का मुख्य कार्य नई जानकारी ढूंढना और उसे प्रोसेसिंग के अगले चरण यानी इंडेक्सिंग के लिए सर्च इंजन को भेजना है।

इंडेक्सिंग

एक खोज इंजन केवल उन्हीं साइटों के बीच जानकारी खोज सकता है जो पहले से ही उसके डेटाबेस में शामिल हैं (इसके द्वारा अनुक्रमित)। यदि क्रॉलिंग किसी विशेष साइट पर उपलब्ध जानकारी को खोजने और एकत्र करने की प्रक्रिया है, तो इंडेक्सिंग इस जानकारी को खोज इंजन डेटाबेस में दर्ज करने की प्रक्रिया है। इस स्तर पर, खोज इंजन स्वचालित रूप से निर्णय लेता है कि इस या उस जानकारी को अपने डेटाबेस में दर्ज करना है या नहीं और इसे कहाँ, डेटाबेस के किस अनुभाग में दर्ज करना है। उदाहरण के लिए, Google इंटरनेट पर अपने रोबोटों द्वारा पाई गई लगभग सभी सूचनाओं को अनुक्रमित करता है, जबकि यांडेक्स अधिक चुनिंदा है और हर चीज़ को अनुक्रमित नहीं करता है।

नई साइटों के लिए, अनुक्रमण चरण लंबा हो सकता है, इसलिए खोज इंजन के विज़िटर नई साइटों के लिए लंबे समय तक प्रतीक्षा कर सकते हैं। और पुरानी, ​​अच्छी तरह से प्रचारित साइटों पर दिखाई देने वाली नई जानकारी को लगभग तुरंत अनुक्रमित किया जा सकता है और लगभग तुरंत ही "सूचकांक" यानी खोज इंजन डेटाबेस में समाप्त किया जा सकता है।

लेकर

रैंकिंग उस जानकारी की व्यवस्था है जिसे पहले अनुक्रमित किया गया था और रैंक के अनुसार किसी विशेष खोज इंजन के डेटाबेस में दर्ज किया गया था, यानी खोज इंजन अपने उपयोगकर्ताओं को पहले स्थान पर कौन सी जानकारी दिखाएगा, और कौन सी जानकारी रखी जाएगी " रैंक” निचला। रैंकिंग का श्रेय उसके ग्राहक - उपयोगकर्ता को खोज इंजन सेवा के चरण को दिया जा सकता है।

खोज इंजन सर्वर पर, प्राप्त जानकारी संसाधित की जाती है और सभी प्रकार की क्वेरी की एक विशाल श्रृंखला के लिए परिणाम तैयार किए जाते हैं। यहीं पर खोज इंजन एल्गोरिदम काम में आते हैं। डेटाबेस में शामिल सभी साइटों को विषय के आधार पर वर्गीकृत किया गया है, और विषयों को अनुरोधों के समूहों में विभाजित किया गया है। अनुरोधों के प्रत्येक समूह के लिए, एक प्रारंभिक अंक संकलित किया जा सकता है, जिसे बाद में समायोजित किया जाएगा।

हमारे समय की सबसे लोकप्रिय वेब सेवा सर्च इंजन है। यहां सब कुछ समझ में आता है, क्योंकि वे दिन लंबे चले गए हैं जब पहले इंटरनेट उपयोगकर्ताओं के प्रतिनिधि इंटरनेट पर नए उत्पादों को देख सकते थे।

इतनी अधिक जानकारी सामने आती है और जमा हो जाती है कि किसी व्यक्ति के लिए वह चीज़ ढूँढ़ना बहुत मुश्किल हो जाता है जिसकी उसे ज़रूरत है। कल्पना करें कि इंटरनेट पर खोज करना कैसा होगा यदि औसत उपयोगकर्ता को भगवान न जाने कहां से जानकारी ढूंढनी पड़े। बस यह समझ में नहीं आता कि कहां, क्योंकि मैन्युअल खोज से आपको अधिक जानकारी नहीं मिलेगी।

खोज इंजन, यह क्या है?

यह अच्छा है यदि उपयोगकर्ता पहले से ही उन साइटों को जानता है जिनमें आवश्यक जानकारी हो सकती है, लेकिन अन्यथा क्या करें? किसी व्यक्ति के लिए इंटरनेट पर आवश्यक जानकारी ढूंढना आसान बनाने के लिए, खोज इंजन या बस खोज इंजन का आविष्कार किया गया था। खोज इंजन एक बहुत ही महत्वपूर्ण कार्य करता है, जिसके बिना इंटरनेट वैसा नहीं होता जैसा हम इसे देखने के आदी हैं - यह इंटरनेट पर जानकारी की खोज है।

खोज प्रणाली- यह एक विशेष वेब साइट है या दूसरे शब्दों में एक साइट है जो उपयोगकर्ताओं को उनके अनुरोध पर, किसी दी गई खोज क्वेरी का जवाब देने वाली साइटों के पृष्ठों के हाइपरलिंक प्रदान करती है।

थोड़ा और सटीक होने के लिए, यह इंटरनेट पर जानकारी की खोज है, जो एक सॉफ्टवेयर और हार्डवेयर कार्यात्मक सेट और उपयोगकर्ताओं के साथ बातचीत के लिए एक वेब इंटरफ़ेस के माध्यम से की जाती है।

खोज इंजन के साथ मानवीय संपर्क के लिए, एक वेब इंटरफ़ेस बनाया गया, यानी एक दृश्यमान और समझने योग्य शेल। खोज इंजन डेवलपर्स का यह दृष्टिकोण कई लोगों के लिए खोज को आसान बनाता है। एक नियम के रूप में, यह इंटरनेट पर है कि खोज इंजन का उपयोग करके खोज की जाती है, लेकिन एफ़टीपी सर्वर, वर्ल्ड वाइड वेब पर कुछ प्रकार के सामान, या समाचार जानकारी या अन्य खोज दिशाओं के लिए खोज सिस्टम भी हैं।

खोज न केवल साइटों की पाठ्य सामग्री द्वारा की जा सकती है, बल्कि अन्य प्रकार की जानकारी द्वारा भी की जा सकती है जिसे कोई व्यक्ति खोज सकता है: चित्र, वीडियो, ध्वनि फ़ाइलें, आदि।

एक सर्च इंजन कैसे सर्च करता है?

वेबसाइटों को ब्राउज़ करने की तरह ही, इंटरनेट ब्राउज़र का उपयोग करके इंटरनेट पर खोज करना भी संभव है। उपयोगकर्ता द्वारा खोज बार में अपनी क्वेरी निर्दिष्ट करने के बाद ही खोज सीधे की जाती है।

किसी भी खोज प्रणाली में एक सॉफ़्टवेयर भाग होता है जिस पर संपूर्ण खोज तंत्र आधारित होता है; इसे खोज इंजन कहा जाता है - यह एक सॉफ़्टवेयर पैकेज है जो जानकारी खोजने की क्षमता प्रदान करता है। खोज इंजन से संपर्क करने के बाद, एक व्यक्ति एक खोज क्वेरी उत्पन्न करता है और उसे खोज बार में दर्ज करता है, खोज इंजन खोज परिणामों की एक सूची के साथ एक पृष्ठ बनाता है, खोज इंजन की राय में सबसे अधिक प्रासंगिक, उच्चतर स्थित होते हैं।

खोज प्रासंगिकता - उपयोगकर्ता के अनुरोध के लिए सबसे अधिक प्रासंगिक सामग्रियों की खोज करना और दूसरों की तुलना में अधिक सटीक परिणामों के साथ खोज परिणाम पृष्ठ पर उन पर हाइपरलिंक डालना। परिणामों के वितरण को ही साइट रैंकिंग कहा जाता है।

तो एक खोज इंजन प्रकाशन के लिए अपनी सामग्री कैसे तैयार करता है और खोज इंजन स्वयं जानकारी कैसे खोजता है? नेटवर्क पर जानकारी का संग्रह प्रत्येक खोज इंजन के लिए एक अद्वितीय रोबोट या बॉट द्वारा सुगम बनाया जाता है, जिसमें क्रॉलर या स्पाइडर जैसे कई अन्य समानार्थी शब्द भी होते हैं, और खोज प्रणाली के काम को तीन चरणों में विभाजित किया जा सकता है:

खोज इंजन के संचालन के पहले चरण में वैश्विक नेटवर्क पर साइटों को स्कैन करना और अपने सर्वर पर वेब पेजों की प्रतियां एकत्र करना शामिल है। इससे बड़ी मात्रा में ऐसी जानकारी तैयार होती है जो अभी तक संसाधित नहीं हुई है और खोज परिणामों के लिए उपयुक्त नहीं है।

खोज इंजन के काम का दूसरा चरण साइटों से पहले चरण में प्राप्त जानकारी को क्रम में रखना है। छँटाई इस तरह से की जाती है कि कम से कम समय में बहुत उच्च गुणवत्ता वाली खोज के लिए अनुकूल हो जो उपयोगकर्ता वास्तव में एक खोज इंजन से उम्मीद करते हैं। चरण को अनुक्रमणिका कहा जाता है, जिसका अर्थ है कि पृष्ठ जारी करने के लिए पहले से ही तैयार हैं, और वर्तमान डेटाबेस को एक सूचकांक माना जाएगा।

यह वास्तव में तीसरा चरण है जो अपने ग्राहक से अनुरोध प्राप्त करने के बाद, अनुरोध में निर्दिष्ट कीवर्ड या निकट कीवर्ड के आधार पर खोज परिणाम निर्धारित करता है। यह अनुरोध के लिए सबसे अधिक प्रासंगिक जानकारी के चयन और उसके बाद की डिलीवरी की सुविधा प्रदान करता है। चूँकि बहुत सारी जानकारी होती है, खोज इंजन अपने एल्गोरिदम के अनुसार रैंकिंग करता है।
सबसे अच्छा खोज इंजन वह माना जाता है जो उपयोगकर्ता के अनुरोध का सबसे सही ढंग से जवाब देने वाली सामग्री प्रदान कर सके। लेकिन यहां भी, ऐसे परिणाम हो सकते हैं जो अपनी साइट को बढ़ावा देने में रुचि रखने वाले लोगों से प्रभावित हों; ऐसी साइटें, हालांकि हमेशा नहीं, अक्सर खोज परिणामों में दिखाई देती हैं, लेकिन लंबे समय तक नहीं।

हालाँकि कई क्षेत्रों में विश्व नेताओं की पहचान पहले ही की जा चुकी है, खोज इंजन अपनी उच्च-गुणवत्ता वाली खोज विकसित करना जारी रखते हैं। वे जितनी बेहतर खोज प्रदान कर सकेंगे, उतने ही अधिक लोग इसका उपयोग करेंगे।

सर्च इंजन का उपयोग कैसे करें?

सर्च इंजन क्या है और यह कैसे काम करता है यह पहले से ही स्पष्ट है, लेकिन इसका सही तरीके से उपयोग कैसे करें? अधिकांश साइटों में हमेशा एक खोज बार होता है, और उसके बगल में एक ढूंढें या खोजें बटन होता है। खोज लाइन में एक क्वेरी दर्ज की जाती है, जिसके बाद आपको खोज बटन दबाना होगा या, जैसा कि अक्सर होता है, कीबोर्ड पर एंटर कुंजी दबाएं और कुछ ही सेकंड में आपको फॉर्म में क्वेरी का परिणाम प्राप्त होता है एक सूची का.

लेकिन पहली बार में किसी खोज क्वेरी का सही उत्तर प्राप्त करना हमेशा संभव नहीं होता है। यह सुनिश्चित करने के लिए कि आप जो चाहते हैं उसकी खोज दर्दनाक न हो जाए, आपको अपनी खोज क्वेरी सही ढंग से लिखनी होगी और नीचे वर्णित अनुशंसाओं का पालन करना होगा।

हम खोज क्वेरी सही ढंग से बनाते हैं

निम्नलिखित खोज इंजन का उपयोग करने के लिए युक्तियाँ प्रदान करेगा। किसी खोज इंजन में जानकारी खोजते समय कुछ तरकीबों और नियमों का पालन करने से वांछित परिणाम बहुत तेजी से प्राप्त करना संभव हो जाएगा। इन दिशानिर्देशों का पालन करें:

  1. शब्दों की सही वर्तनी वांछित सूचना वस्तु के साथ अधिकतम संख्या में मिलान सुनिश्चित करती है (हालाँकि आधुनिक खोज इंजन पहले ही वर्तनी की त्रुटियों को ठीक करना सीख चुके हैं, इस सलाह की उपेक्षा नहीं की जानी चाहिए)।
  2. अपनी क्वेरी में समानार्थक शब्दों का उपयोग करके, आप व्यापक खोज रेंज को कवर कर सकते हैं।
  3. कभी-कभी क्वेरी टेक्स्ट में किसी शब्द को बदलने से क्वेरी को पुन: स्वरूपित करने से बेहतर परिणाम मिल सकते हैं;
  4. अपनी क्वेरी में विशिष्टता लाएं, वाक्यांशों की सटीक घटनाओं का उपयोग करें जो खोज के मुख्य सार को परिभाषित करें।
  5. कीवर्ड के साथ प्रयोग करें. कीवर्ड और वाक्यांशों का उपयोग करने से मुख्य बिंदु की पहचान करने में मदद मिल सकती है, और खोज इंजन अधिक प्रासंगिक परिणाम लौटाएगा।

तो एक खोज इंजन जो है वह रुचि की जानकारी खोजने और आमतौर पर इसे पूरी तरह से नि:शुल्क उपयोग करने, कुछ सीखने, कुछ समझने या अपने लिए सही निष्कर्ष निकालने के अवसर से ज्यादा कुछ नहीं है। बहुत से लोग ध्वनि खोज के बिना अपने जीवन की कल्पना नहीं कर सकते हैं, जिसमें टेक्स्ट टाइप करने की कोई आवश्यकता नहीं है, आपको बस अपना अनुरोध कहने की आवश्यकता है, और यहां सूचना इनपुट डिवाइस एक माइक्रोफ़ोन है। यह सब इंटरनेट पर खोज प्रौद्योगिकियों के निरंतर विकास और उनकी आवश्यकता को इंगित करता है।