כיצד למצוא דפים מוסתרים באתרים

בשנת 2016 טיפלה גוגל בלמעלה מ -3.2 טריליון שאילתות חיפוש, אולם התוצאות שמנוע החיפוש סיפקו היוו רק חלק קטן מהתוכן הזמין באופן מקוון. חלק ניכר מהמידע הקיים ברשת אינו נגיש על ידי מנועי החיפוש, לכן עליך להשתמש בכלים מיוחדים, או לחקור אתרים בעצמך כדי למצוא את הדפים הנסתרים האלה. מידע מוסתר זה, הידוע כאינטרנט העמוק, מהווה עד פי 5,000 מהזמין בטכניקות חיפוש אופייניות.

סוגי תוכן נסתר

הדפים הנסתרים של אתרים מתחלקים לקטגוריות המתארות מדוע הם נותרים בלתי נראים למנועי החיפוש.

חלקם מהווים תוכן דינמי, המוגש רק כאשר מבקר מגיש בקשה ספציפית באתר המשתמש בקוד מבוסס-מסד נתונים כדי להציג תוצאות ממוקדות. כדוגמה, דפים אלה יכולים לכלול תוצאות קניות המבוססות על שילובים ספציפיים של קריטריוני מוצרים. מנועי החיפוש אינם מיועדים לעקוב ולאחסן מידע המאוחסן בבסיסי נתונים אלה. כדי למצוא דפים אלה, יהיה עליך להיכנס לאתר ולחפש את המידע הספציפי שאתה מחפש, או להשתמש בשירות חיפוש מכוון מסד נתונים כמו Bright Planet.

בחלק מהדפים אין קישורים המחברים אותם למקורות הניתנים לחיפוש. משאבים זמניים, כגון גרסאות מרובות של אתרי פיתוח, יכולים להיכנס לקטגוריה זו, כמו גם אתרים המעוצבים בצורה גרועה. לדוגמא, אם מישהו יצר דף אינטרנט והעלה אותו לשרת האתר, אך לא הצליח להוסיף קישור אליו בדפים הנוכחיים של האתר, איש לא היה יודע שהוא שם, כולל מנועי החיפוש.

דפים רבים יותר דורשים אישורי כניסה כדי להציג או להגיע אליהם, כמו אתרי מנוי. מעצבי אתרים מגדירים דפים וקטעי אתרים כבלתי מוגבלים למנועי החיפוש, ובכך מבטלים את הימצאם באמצעים קונבנציונליים. כדי לגשת לדפים אלה, בדרך כלל עליך ליצור חשבון לפני שתינתן הרשאה לגשת אליהם.

שימוש בקבצי Robots.txt

מנועי חיפוש זוחלים בדפים באתר ומוסיפים אינדקס לתוכנו כדי שיוכל להופיע בתגובה לשאילתות. כאשר בעל אתר מעוניין לא לכלול חלקים מהתחום שלה מהליכי האינדקס הללו, היא מוסיפה את הכתובות של ספריות או דפים אלה לקובץ טקסט מיוחד בשם robots.txt, המאוחסן בשורש האתר שלה. מכיוון שרוב האתרים כוללים קובץ רובוטים ללא קשר לשאלה אם הם מוסיפים לו אי הכללות כלשהן, אתה יכול להשתמש בשם הצפוי של המסמך כדי להציג את תוכנו.

אם אתה מקליד "[domain domain] /robots.txt" ללא מרכאות בשורת המיקום של הדפדפן שלך, ומחליף את "[domain domain]" בכתובת האתר, התוכן של קובץ הרובוטים מופיע לעתים קרובות בחלון הדפדפן לאחר אתה לוחץ על מקש "Enter". רשומות שהוקדמו עם "disallow" או "nofollow" מייצגות חלקים באתר שנותרו בלתי נגישים באמצעות מנוע חיפוש.

פריצת אתר עשה זאת בעצמך

בנוסף לקבצי robot.txt, לעתים קרובות אתה יכול למצוא תוכן נסתר אחרת על ידי הקלדת כתובות אינטרנט עבור דפים ותיקיות ספציפיים בדפדפן האינטרנט שלך. לדוגמא, אם היית מסתכל באתר של אמן ושמת לב שכל דף משתמש באותה מוסכמת שמות - כמו gallery1.html, gallery2.html, gallery4.html - ייתכן שתוכל למצוא גלריה מוסתרת על ידי הקלדת העמוד " gallery3.html. " בדפדפן האינטרנט שלך.

באופן דומה, אם אתה רואה שהאתר משתמש בתיקיות כדי לארגן דפים - כמו example.com/content/page1.html, כאשר "/ content" הוא התיקיה - ייתכן שתוכל להציג את התיקיה עצמה על ידי הקלדת האתר והתיקיה , ללא דף, כגון "example.com/content/" בדפדפן האינטרנט שלך. אם הגישה לתיקיה לא הושבתה, ייתכן שתוכל לנווט בין הדפים שהיא מכילה, כמו גם דפים בכל תיקיות המשנה, כדי למצוא תוכן מוסתר.