robots.txt

robots.txt
โรบอตส์เอกซ์คลูชันโพรโทคอล
	ตัวอย่างไฟล์ robots.txt อย่างง่าย
สถานะ	มาตรฐานที่เสนอ
เผยแพร่ครั้งแรก	เผยแพร่ครั้งแรกใน ค.ศ. 1994 และได้รับการกำหนดเป็นมาตรฐานอย่างเป็นทางการใน ค.ศ. 2022
ผู้กำหนด	มาร์ไทน์ คอสเตอร์ (ผู้จัดทำดั้งเดิม); แกรี อียายช์, เฮนเนอร์ เซลเลอร์, ลิซซี แซสแมน (ผู้มีส่วนร่วมจากไออีทีเอฟ);
เว็บไซต์	robotstxt.org, RFC 9309

โรบอตส์เอกซ์คลูชันโพรโทคอล (อังกฤษ: Robots Exclusion Protocol) หรือที่มักเรียกตามชื่อไฟล์ที่ใช้ในการทำงานว่า robots.txt เป็นมาตรฐานที่เว็บไซต์ใช้กำหนดว่าเว็บครอว์เลอร์และเว็บโรบอตอื่น ๆ สามารถเข้าถึงส่วนใดของเว็บไซต์ได้บ้าง

มาตรฐานนี้ ซึ่งถูกพัฒนาขึ้นในปี ค.ศ. 1994 อาศัยการปฏิบัติตามโดยสมัครใจ บอตที่มีเจตนาร้ายอาจใช้ไฟล์นี้เป็นสารบัญของเพจที่ควรสำรวจ แม้ผู้กำหนดมาตรฐานจะไม่สนับสนุนการรับมือด้วยแนวคิดด้านความปลอดภัยแบบปกปิดข้อมูล (security through obscurity) ก็ตาม นอกจากนี้ เว็บไซต์จัดเก็บถาวรบางแห่งยังเพิกเฉยต่อไฟล์ robots.txt มาตรฐานนี้ถูกนำมาใช้ในช่วงคริสต์ทศวรรษ 1990 เพื่อลดภาระของเซิร์ฟเวอร์ และในช่วงคริสต์ทศวรรษ 2020 เว็บไซต์ต่าง ๆ เริ่มปิดกั้นบอตที่รวบรวมข้อมูลเพื่อนำไปฝึกปัญญาประดิษฐ์แบบรู้สร้างมากขึ้น

ไฟล์ "robots.txt" ใช้ร่วมกับไซต์แมปส์ ซึ่งเป็นมาตรฐานสำหรับระบุข้อมูลเกี่ยวกับเว็บไซต์แก่โรบอต

มาตรฐาน

เจ้าของเว็บไซต์ที่ต้องการกำหนดแนวทางให้เว็บโรบอตจะวางไฟล์ข้อความชื่อ robots.txt ไว้ในไดเรกทอรีรากของเว็บไซต์ (เช่น https://www.example.com/robots.txt) ซึ่งมีคำสั่งที่เขียนตามรูปแบบมาตรฐาน เว็บโรบอตที่ปฏิบัติตามมาตรฐานจะเข้าถึงและอ่านคำสั่งเหล่านี้ก่อนรวบรวมข้อมูลจากส่วนอื่นของเว็บไซต์ หากไม่พบไฟล์นี้ เว็บโรบอตจะถือว่าเจ้าของเว็บไซต์ไม่ได้กำหนดข้อจำกัดในการรวบรวมข้อมูล

ไฟล์ robots.txt เป็นไฟล์ที่ใช้กำหนดคำสั่งสำหรับบอต โดยระบุว่าบอตสามารถเข้าถึงเว็บเพจใดได้บ้าง และไม่สามารถเข้าถึงเว็บเพจใดได้บ้าง และใช้เป็นคำขอให้บอตที่ระบุไว้ละเว้นไฟล์หรือไดเรกทอรีที่กำหนดเมื่อรวบรวมข้อมูล อาจเป็นเพราะเจ้าของเว็บไซต์ต้องการรักษาความเป็นส่วนตัวของเนื้อหาบางส่วน ไม่ต้องการให้เสิร์ชเอนจินจัดทำดัชนี หรือเกรงว่าเนื้อหาในไดเรกทอรีบางแห่งอาจทำให้การจัดหมวดหมู่เว็บไซต์คลาดเคลื่อนหรือไม่เกี่ยวข้องกับเนื้อหาหลักของเว็บไซต์ หรืออาจต้องการให้โปรแกรมประยุกต์บางตัวทำงานกับข้อมูลเพียงบางส่วน อย่างไรก็ตาม ลิงก์ไปยังเพจที่ระบุไว้ในไฟล์ robots.txt ยังอาจปรากฏในผลการค้นหาได้ หากเพจนั้นมีลิงก์มาจากเพจอื่นที่เว็บครอว์เลอร์รวบรวมข้อมูล^[1]

ไฟล์ robots.txt มีผลเฉพาะกับแหล่งที่มาหนึ่งแหล่งเท่านั้น สำหรับเว็บไซต์ที่มีหลายซับโดเมน แต่ละซับโดเมนต้องมีไฟล์ robots.txt ของตนเอง ตัวอย่างเช่น หาก example.com มีไฟล์ robots.txt แต่ foo.example.com ไม่มี กฎของ example.com จะไม่มีผลกับ foo.example.com นอกจากนี้ รูปแบบยูอาร์ไอและพอร์ตแต่ละชุดยังต้องมีไฟล์ robots.txt แยกกัน กล่าวคือ ไฟล์ http://example.com/robots.txt ไม่มีผลกับเพจภายใต้ http://example.com:8080/ หรือ https://example.com/

อ้างอิง

↑ "Uncrawled URLs in search results". YouTube. Oct 5, 2009. เก็บจากแหล่งเดิมเมื่อ 2014-01-06. สืบค้นเมื่อ 2013-12-29.

แหล่งข้อมูลอื่น

เว็บไซต์ทางการ

[1] "Uncrawled URLs in search results". YouTube. Oct 5, 2009. เก็บจากแหล่งเดิมเมื่อ 2014-01-06. สืบค้นเมื่อ 2013-12-29.

[1]