robots.txt
| โรบอตส์เอกซ์คลูชันโพรโทคอล | |
ตัวอย่างไฟล์ robots.txt อย่างง่าย | |
| สถานะ | มาตรฐานที่เสนอ |
|---|---|
| เผยแพร่ครั้งแรก | เผยแพร่ครั้งแรกใน ค.ศ. 1994 และได้รับการกำหนดเป็นมาตรฐานอย่างเป็นทางการใน ค.ศ. 2022 |
| ผู้กำหนด |
|
| เว็บไซต์ | robotstxt |
โรบอตส์เอกซ์คลูชันโพรโทคอล (อังกฤษ: Robots Exclusion Protocol) หรือที่มักเรียกตามชื่อไฟล์ที่ใช้ในการทำงานว่า robots.txt เป็นมาตรฐานที่เว็บไซต์ใช้กำหนดว่าเว็บครอว์เลอร์และเว็บโรบอตอื่น ๆ สามารถเข้าถึงส่วนใดของเว็บไซต์ได้บ้าง
มาตรฐานนี้ ซึ่งถูกพัฒนาขึ้นในปี ค.ศ. 1994 อาศัยการปฏิบัติตามโดยสมัครใจ บอตที่มีเจตนาร้ายอาจใช้ไฟล์นี้เป็นสารบัญของเพจที่ควรสำรวจ แม้ผู้กำหนดมาตรฐานจะไม่สนับสนุนการรับมือด้วยแนวคิดด้านความปลอดภัยแบบปกปิดข้อมูล (security through obscurity) ก็ตาม นอกจากนี้ เว็บไซต์จัดเก็บถาวรบางแห่งยังเพิกเฉยต่อไฟล์ robots.txt มาตรฐานนี้ถูกนำมาใช้ในช่วงคริสต์ทศวรรษ 1990 เพื่อลดภาระของเซิร์ฟเวอร์ และในช่วงคริสต์ทศวรรษ 2020 เว็บไซต์ต่าง ๆ เริ่มปิดกั้นบอตที่รวบรวมข้อมูลเพื่อนำไปฝึกปัญญาประดิษฐ์แบบรู้สร้างมากขึ้น
ไฟล์ "robots.txt" ใช้ร่วมกับไซต์แมปส์ ซึ่งเป็นมาตรฐานสำหรับระบุข้อมูลเกี่ยวกับเว็บไซต์แก่โรบอต
มาตรฐาน
[แก้]เจ้าของเว็บไซต์ที่ต้องการกำหนดแนวทางให้เว็บโรบอตจะวางไฟล์ข้อความชื่อ robots.txt ไว้ในไดเรกทอรีรากของเว็บไซต์ (เช่น https://www.example.com/robots.txt) ซึ่งมีคำสั่งที่เขียนตามรูปแบบมาตรฐาน เว็บโรบอตที่ปฏิบัติตามมาตรฐานจะเข้าถึงและอ่านคำสั่งเหล่านี้ก่อนรวบรวมข้อมูลจากส่วนอื่นของเว็บไซต์ หากไม่พบไฟล์นี้ เว็บโรบอตจะถือว่าเจ้าของเว็บไซต์ไม่ได้กำหนดข้อจำกัดในการรวบรวมข้อมูล
ไฟล์ robots.txt เป็นไฟล์ที่ใช้กำหนดคำสั่งสำหรับบอต โดยระบุว่าบอตสามารถเข้าถึงเว็บเพจใดได้บ้าง และไม่สามารถเข้าถึงเว็บเพจใดได้บ้าง และใช้เป็นคำขอให้บอตที่ระบุไว้ละเว้นไฟล์หรือไดเรกทอรีที่กำหนดเมื่อรวบรวมข้อมูล อาจเป็นเพราะเจ้าของเว็บไซต์ต้องการรักษาความเป็นส่วนตัวของเนื้อหาบางส่วน ไม่ต้องการให้เสิร์ชเอนจินจัดทำดัชนี หรือเกรงว่าเนื้อหาในไดเรกทอรีบางแห่งอาจทำให้การจัดหมวดหมู่เว็บไซต์คลาดเคลื่อนหรือไม่เกี่ยวข้องกับเนื้อหาหลักของเว็บไซต์ หรืออาจต้องการให้โปรแกรมประยุกต์บางตัวทำงานกับข้อมูลเพียงบางส่วน อย่างไรก็ตาม ลิงก์ไปยังเพจที่ระบุไว้ในไฟล์ robots.txt ยังอาจปรากฏในผลการค้นหาได้ หากเพจนั้นมีลิงก์มาจากเพจอื่นที่เว็บครอว์เลอร์รวบรวมข้อมูล[1]
ไฟล์ robots.txt มีผลเฉพาะกับแหล่งที่มาหนึ่งแหล่งเท่านั้น สำหรับเว็บไซต์ที่มีหลายซับโดเมน แต่ละซับโดเมนต้องมีไฟล์ robots.txt ของตนเอง ตัวอย่างเช่น หาก example.com มีไฟล์ robots.txt แต่ foo.example.com ไม่มี กฎของ example.com จะไม่มีผลกับ foo.example.com นอกจากนี้ รูปแบบยูอาร์ไอและพอร์ตแต่ละชุดยังต้องมีไฟล์ robots.txt แยกกัน กล่าวคือ ไฟล์ http://example.com/robots.txt ไม่มีผลกับเพจภายใต้ http://example.com:8080/ หรือ https://example.com/
อ้างอิง
[แก้]- ↑ "Uncrawled URLs in search results". YouTube. Oct 5, 2009. เก็บจากแหล่งเดิมเมื่อ 2014-01-06. สืบค้นเมื่อ 2013-12-29.