ว่ากันด้วย PageRank

จากตอนที่ เทคนิดการทำ SEO เบื้องต้นที่ควรรู้ (reloaded) ที่ทิ้งท้ายไว้ใน comment ว่าจะพูดถึงเรื่องนี้วันนี้เราขอพูดถึงเรื่องนี้ซะเลยครับ

PageRank หรือในอีกชื่อคือ PageRank of E เรียกสั้น ๆ ว่า PR หรือ PR(E) เป็น graph analysis algorithm ในทฤษฎี graph รูปแบบหนึ่ง โดยถ้าใครเรียนในวิชาพวก project management, software engineering หรือ software analysis จะได้เจอในส่วนของ Critical Path Analysis และ PERT (Program Evaluation & Review Technique) โดยที่ PageRank นั้นพัฒนาขึ้นที่ Stanford University โดย Larry Page และ Sergey Brin โดยเป็นงานวิจัยในระดับปริญญาเอก เพื่อการค้นคว้าหาวิธีการใหม่ ๆ ในการค้นหาข้อมูล โดยเริ่มต้นงานวิจัยในปี 1995 และต้นแบบก็สามารถใช้งานได้ในชื่อของ Google ในปี 1998 ในความเป็นจริงที่ว่า PageRank เป็นเครื่องหมายทางการค้าของ Google Inc. โดยมีหมายเลขสิทธิบัตรอยู่ที่ U.S. Patent 6,285,999 แต่ว่าสิทธิบัตรไม่ได้เป็นของ Google Inc. แต่เป็นของ Stanford University (The Board of Trustees of the Leland Stanford Junior University, Stanford, CA)

โดยที่ Page Rank ตามความหมายที่ Google ให้ไว้คือ

PageRank relies on the uniquely democratic nature of the web by using its vast link structure as an indicator of an individual page’s value. In essence, Google interprets a link from page A to page B as a vote, by page A, for page B. But, Google looks at more than the sheer volume of votes, or links a page receives; it also analyzes the page that casts the vote. Votes cast by pages that are themselves “important” weigh more heavily and help to make other pages “important”.

โดยถ้าจะให้เข้าใจได้ง่าย ๆ นั้นก็คือว่า (แปลสรุปเป็นไทย)

หน้าใด ๆ บน internet ยิ่งมีการลิงก์ถึงหน้านั้นมาก ๆ ก็ยิ่งได้รับคะแนนสูงขึ้น และถ้าหน้าเหล่านั้นที่มีคะแนนสูง ๆ มีลิงก์ไปหน้าอื่น ๆ หน้าที่ลิงก์ไปปลายทางก็จะได้รับคะแนนตามสัดส่วนไปด้วยและจริง ๆ แล้วเนี่ย แนวคิดนี้เป็นแนวคิดที่ได้จากการอ้างอิงของหนังสือในแวดวงวิชาการ โดยมีแนวคิดที่ว่า “หนังสือเล่มใด มีความน่าเชื่อถือว่าสูงมักจะมีการนำไปใช้อ้างอิงอยู่เสมอ ๆ”

ตัวอย่างเช่น

ตามรูปด้านล่างนี้ครับ

เรามีเว็บ A, B, C และ D โดยที่ทุกหน้ามี PR(E) อยู่ที่ 0.25

โดยที่ B, C และ D นั้นลิงก์ไปที่ A โดยที่ A จะได้คะแนนไป 0.25 จากทุก ๆลิงก์เป็น 0.75

 1

โดยเราจะเขียนเป็นสมการว่า

image

ต่อมาเมื่อ B ทำลิงก์ไปที่ C และ D ทำลิงก์ไปที่ A, B และ C ค่า PR(E) ของตนที่จะให้กับหน้าปลายทางจะถูกหารตามจำนวนลิงก์ที่ลิงก์ออกไป ส่วนหน้า D ตามตัวอย่างที่ไม่มีลิงก์เข้ามาที่หน้านี้ ก็จะยังคงค่าคะแนนที่ 0.25 เท่าเดิม (แต่ในความเป็นจริงแล้วจะเป็น 0 หรือค่าตั้งต้นใด ๆ )

PR(B) / 2 = 0.125 / link

PR(D) / 3 = 0.083 / link

PR(C) / 1 = 0.25

2

จะได้สมการดังนี้

image

เราเรียกวิธีการแบบนี้ว่า link-votes หรือบางครั้งอาจจะเรียกว่า outbound link ก็ได้ โดยใช้ฟังค์ชัน L() แทนด้วยด้วยจำนวน outbound link

image

โดยสรุปให้สั้นได้ว่า

image

จากตัวอย่างด้านบนที่ได้กล่าวไปนั้น เอามาสร้างแบบจำรองได้ดังรูปด้านล่างนี้ครับ

image

Mathematical PageRanks (out of 100) for a simple network (PageRanks reported by google are rescaled logarithmically). Page C has a higher PageRank than Page E, even though it has fewer links to it: the link it has is much higher valued. A web surfer who chooses a random link on every page (but with 15% likelihood jumps to a random page on the whole web) is going to be on Page E for 8.1% of the time. (The 15% likelihood of jumping to an arbitrary page corresponds to a damping factor of 85%.) Without damping, all web surfers would eventually end up on Pages A, B, or C, and all other pages would have PageRank zero. Page A is assumed to link to all pages in the web, because it has no outgoing links.

นั้นหมายความว่ายิ่งเรามีลิงก์กลับมาหน้าของเว็บเรามากเท่าใด ก็ยิ่งได้รับ PR(E) สูงมากขึ้นเท่านั้น แต่เราต้องผสมกับการใช้ SEO เข้าร่วมด้วยเช่นกัน

ถ้าจะให้สรุปง่ายก็คือ SEO นั้นทำให้ Crawler เข้ามา index ข้อมูลของเราได้ง่ายมากขึ้น และนำข้อมูลของเราไปจัดอันดับ โดยอ้างอิงจาก PR(E) ด้วยเช่นกัน โดยการที่จะได้ PR(E) สูง ๆ นั้นเว็บของเราต้องมีลิงก์ที่อยู่บนเว็บที่มี PR(E) ที่สูงกว่ามาก ๆ เพื่อช่วยดึงค่า PR(E) ของเว็บของเราให้สูงขึ้นตามไปด้วย ซึ่งบางเว็บที่อยากให้เว็บตัวเองมีค่า PR(E) สูง ๆ มักทำ spam comment หรือ content ขึ้นมาเพื่อสร้างลิงก์ต่าง ๆ ให้วิ่งเข้าหาเว็บหลักของตัวเอง ซึ่งตาม blog หรือ community มักจะโดย spam กันอยู่ในช่วงหลายปีที่ผ่านมานี้นั้นเองครับ

ปล. ข้อมูลต่าง ๆ ใน entry นี้เป็นระดับเบื้องต้นครับ การจัด PR(E) ของ Google นั้นมีตัวประกอบอื่น ๆ อีกมากมายครับ แต่ที่ผมนำเสนอนี้เป็นส่วนหลักของการทำงานของ PageRank โดยรวมครับผม

เอกสารอ้างอิง

ขอบ่น 1 – “เฮ้ย ทำไมไม่หากันเองก่อนฟร่ะ และหายนะที่จะตามมา”

เดี่ยวนี้เริ่มมีเพื่อนๆ น้องๆ เริ่มขอโน้นขอนี่ทาง IM มากขึ้นไอ้เราก็ไม่มีเวลา แต่เออ ช่วยๆ กันก็ได้เลยหาให้ แต่จนแล้วจนรอดเวลาเราไม่ว่างก็ดันมาถาม โทรหามั้งหล่ะ ทำอย่างกับเราเป็น Technician Support อย่างงั้นหล่ะ ไอ้ช่วยอ่ะช่วยได้ แต่นี่เล่นแม่งเช้าสายบ่ายเย็นก็ไม่ไหวนา …..

หากันเองก่อนได้ไหม Google, Yahoo หรือแม้ต่ MSN Search ใช้หากันก่อนถ้ามันไม่ได้แล้ว ค่อยว่ากันอีกที

ทุกวันนี้มันทำไมเป็นกันแบบนี้ผมก็ไม่เข้าใจว่าที่เค้าเล่นอินเตอร์เน็ตกันเนี่ย เค้าไม่ได้ศึกษาหลักการใช้งาน Search Engine กันเลยหรือไง ถึงได้ใช้กันไม่เป็น

ภาษาก็เหมือนกัน ใช้กันหน่อย ศึกษากันมาตั้งแต่ ป.1 เนี่ยจะม.6 หรือ ม.3 บางคนจะจบ ป.ตรี ยังขี้คร้านจะอ่านมันอีก

ผมเป็นเทวดาหรือไง ถึงให้แปลให้เนี่ย แค่พออ่านออก จับใจความได้ ไม่ได้ถึงขนาดแปลได้เล่าได้เหมือนเจ้าของภาษานะ

เฮ้อ ….. เซง จริงๆ มันเกิดจากอะไรผมไม่แน่ใจนะนิสัย ป้อนเอาๆๆ

แต่สังเกตไหมหล่ะว่า นักเรียนไทย หรือแม้แต่ประชาชน ไทยของเราเข้าร้านหนังสือเป็นอัตราส่วนที่ยังคงน้อยอยู่ ที่อ่านกันจริงจะเป็นหนังสือแนวแฟชั่น มากกว่าส่วนพวกสาระความรู้แบบเต็มๆ ทั้งเล่มแทบจะหาได้ลำบากมาก ส่วนใหญ่จะเอาไปลงแทรกๆ ซะมากแต่ว่าหาคนอ่านได้น้อย เพราะว่ามันไม่น่าสนใจกว่าดาราคนที่เราชื่อชอบเท่าไหร่น่ะซิ

สังคมเรานี่แปลกนะ รายการ Reality Show ตอนนี้ก็ปา ไปหลายรายการแล้วแถมพวกประกวดทางความสวยความงาน ใครได้ก็ดังกันใหญ่ แต่ทีพวกความรู้ โอลิมปิก หรือแข่งขันงานด้านวิชาการต่างๆ เงียบเป็นป่าช้า

“เราไม่ได้ให้ความสำคัญกับการศึกษา งานวิชาการ และความรู้มากเท่ากับสิ่งที่เป็นมายา สังคมเราอ่อนแอลงเพราะภาพมายาที่คนเหล่านั้นสร้างขึ้น มันกำลังบ่อนทำลายสังคมนี้อย่างช้าๆ และกำลังเห็นผลในเร็ววัน”

มันเลยทำให้เราถูกยัดเยียดความสบายจากสิ่งที่ได้มาง่ายๆ ทั้งการประกวดที่ไปยืดๆ แสดงความสามารถปัญญาอ่อน (บางคน) หรือไปเดินส่ายๆ ร้างเพลงปาวๆๆ แล้วก็ได้รางวัลมา นี่หรือสิ่งที่เรียกว่าสังคมที่จะเป็นสังคมอุดมปัญญา(อ่อนนะซิ)

แต่ผมรู้สึกดีนะในบางแง่ บางช่องรายการทีวีของเรา ยังมีรายการดีๆ ให้ดูบาง ถึงแม้มันจะน้อยก็เถอะ มันก็ยังทำให้เราเพิ่มรอยหยักสมองได้มากกว่าที่ควรเป็น

ถึงแม้ผมจะได้ดูพวก UBC Excite หรือแม้แต่ Discovery ซึ่งมันได้ความรู้อย่างมาก แต่ผมกลับสงสารคนที่ไม่ได้ดู เค้ามีทางเลือกอะไรไหมในการได้ความรู้ต่างๆ มามันน่าแปลกที่เรายัดเยียดภาพมายา แต่ไม่เห็นมีใครยัดเยียดความรู้ให้มั่งเลย

ภาพมายาเหล่านั้น ทำให้เราอยากสบายอย่างนั้นบ้าง วันๆ ไม่ต้องทำอะไร เอาแต่หาคนรัก เอาแต่แก้แค้น หรือแม้แต่ทำงานสบายๆ ซึ่งชีวิตจริงๆ มันมีหรือเปล่าหล่ะ

คนไทยเราเลยได้ภาพว่า เฮ้ย จบไปทำงานแล้วสบาย ไม่ต้องคิดเอง มีหนังหรือละครสักเรื่องไหมหล่ะครับ ที่เป็นแนวสาระ หรือบ่งบอกความเป็นคนให้ความรู้แนวต่างๆ ผมว่ามีอยู่ไม่ถึง 10% และส่วนมากจะอยู่ได้ไม่นาน เพราะไปเหยียบหางพวกใหญ่ๆ โตๆ ก็มี

เวรกรรมจริงๆ ส่งที่อยู่ในย่อหน้าที่แล้ว ทำให้เราไม่หาอะไรเอง เพราะ “หวัง” ว่าจะมีคนเอาสิ่งเหล่านั้นมาให้ ทั้งๆ ที่ชีวิตจริงมันไม่มีหรอก จะบ้าเหรอ ถ้ามันมีและเจอกันทุกคน คงไม่มีคนจนหรอกครับ เราไม่ยอมรับความจริงในเรื่องนี้กันหรือย่างไร ทำไมถึงได้เป็นกันแบบนี้

“เราเป็นแต่ผู้รับแต่ไมได้เป็นผุ้ให้ หรือให้มากไป จนคนรับคิดว่าไม่ต้องหาเองก็ได้ มีคนให้อยู่แล้ว “

มันเลยทำให้เกิดปรากฏการณ์ที่ว่า เราไม่ต้องทำอะไรนอกจากนอนรอ ความรู้ที่มันวิ่งชนเรา มีคุณครูสอน มีอาจารย์สอน สิ่งที่เค้าไม่สอน คือสิ่งที่ไม่ออก หรือสิ่งที่ไม่มีประโยชน์ ทั้งๆ ที่บางครั้งมันมีประโยชน์มากในอนาคต

ตอนนี้ผมเริ่มทำใจกับเรื่องนี้แล้ว บางครั้งเพื่อนผมส่งเมลมา มักจะส่ง links กลับไปหาเองซะมาก อ่านเอง เพราะว่ามันจะมีประโยชน์อะไรถ้าไม่มีใครคิดอะไรเอง แล้วต่อไปประเทศไทยจะแย่ เพราะว่าไม่มีคนคิดเป็น มีแต่คนใช้งาน เราจะล่มสลายแน่ในตอนนั้น เพราะว่านวัตกรรมใหม่ไม่เกิด เงินตราต่างประเทศ จะไหลออกไปเรื่อยๆ จนหมด

แล้ววิกฤตเศรษฐกิจ จะกลับมาเยือนเราอีกครั้งแน่นอนในตอนนั้น เพราะเราใช้แต่ของนอก และเงินตราสำรองที่เป็นเงินดอลล่าหมดประเทศ ….

ผมหวังว่ามันจะไม่เป็นแบบนั้นในช่วงชีวิตผมอีก ……