Wednesday, December 4, 2024
AIArticlesData Management

สร้าง Data Availability ด้วย Synthetic Data

Data Availability

อลิส วูดเวิร์ด ผู้อำนวยการอาวุโสของการ์ทเนอร์ ในกลุ่ม CIO research ให้ความเห็นเกี่ยวกับการนำ ข้อมูลสังเคราะห์หรือ Synthetic Data เข้ามาช่วยสร้าง ความพร้อมใช้งานของข้อมูลหรือ Data Availability เพื่อการนำข้อมูลไปใช้กับ Gen AI

ปัญหาสำคัญอย่างหนึ่งของการพัฒนา AI ในปัจจุบันคือ อุปสรรคจากการรวบรวมข้อมูลของโลกความจริงและการติดป้ายกำกับให้กับข้อมูลนั้นๆ ซึ่งในความเป็นจริงความพร้อมใช้งานของข้อมูลหรือ Data Availability เป็นหนึ่งในห้าอุปสรรคหลักในการนำ Generative AI มาใช้งาน 

จากผลการสำรวจของการ์ทเนอร์กับองค์กร 644 แห่ง ช่วงไตรมาสสี่ของปี 2566 ชี้ให้เห็นว่า ข้อมูลสังเคราะห์หรือ Synthetic Data สามารถช่วยแก้ปัญหานี้ได้ เนื่องจากมีความเสี่ยงด้านความเป็นส่วนตัวน้อยกว่าข้อมูลจริงหลายเท่า และ Synthetic Data ยังเปิดโอกาสในด้านการฝึกโมเดลแมชชีนเลิร์นนิ่งและวิเคราะห์ข้อมูลอีกมากมายที่ไม่น่าทำได้ในกรณีที่มีข้อมูลจริงเพียงชุดเดียวให้เลือก

อย่างไรก็ตาม สิ่งสำคัญคือต้องเข้าใจว่า Synthetic Data สามารถก้าวข้ามความท้าทายเรื่องความเป็นส่วนตัว การปฏิบัติตามข้อกำหนดและการไม่เปิดเผยข้อมูลได้อย่างไร รวมถึงปัญหาที่เป็นอุปสรรคต่อการนำเอาไปใช้ในวงกว้าง

จัดการความท้าทายด้านความเป็นส่วนตัว 

Synthetic Data ช่วยองค์กรจัดการความท้าทายด้านความเป็นส่วนตัว พร้อมฝึกอบรมโมเดล AI, ML หรือคอมพิวเตอร์วิชัน (CV)

บทความโดย: อลิส วูดเวิร์ด ผู้อำนวยการอาวุโส, การ์ทเนอร์

Synthetic Data สามารถเชื่อมโยงข้อมูลภายในเข้าด้วยกัน โดยทำหน้าที่แทนข้อมูลจริงและไม่เปิดเผยข้อมูลที่ละเอียดอ่อน อาทิ ข้อมูลส่วนบุคคลและทรัพย์สินทางปัญญา เนื่องจากชุดข้อมูลสังเคราะห์ยังคงคุณสมบัติทางสถิติที่ใกล้เคียงกับข้อมูลต้นฉบับ จึงสามารถสร้างข้อมูลฝึกอบรมและทดสอบที่แม่นยำ ที่มีความสำคัญต่อการพัฒนาแบบจำลอง

การฝึกโมเดล Computer Vision ต้องใช้ชุดข้อมูลที่มีป้ายกำกับจำนวนมากและหลากหลาย เพื่อสร้างโมเดลที่มีความแม่นยำสูง ซึ่งการรับและการใช้ข้อมูลจริงเพื่อจุดประสงค์นี้อาจเป็นเรื่องท้าทาย โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับข้อมูลที่ระบุตัวบุคคลได้หรือ Personally Identifiable Information (PII)

ยูสเคสการใช้งานโดยทั่วไปมี 2 กรณีที่ต้องใช้ข้อมูล PII ได้แก่ การยืนยันตัวตนและระบบช่วยเหลือผู้ขับขี่อัตโนมัติ หรือ Automated Driver Assistance Systems (ADAS) ซึ่งคอยตรวจสอบการเคลื่อนไหวและการกระทำของผู้ขับขี่บนท้องถนน

ซึ่งในสถานการณ์เหล่านี้ Synthetic Data อาจมีประโยชน์ในการสร้างการแสดงออกทางสีหน้า สีผิวและพื้นผิว รวมถึงองค์ประกอบอื่นๆ เพิ่มเติม เช่น หมวก หน้ากาก และแว่นกันแดด นอกจากนี้ ADAS ยังต้องการฝึก AI ให้สามารถทำงานได้ในสภาพแสงน้อย เช่น การขับขี่ในที่มืด

ลดความท้าทายด้านการทำให้ข้อมูลไม่ระบุตัวตน

ความพยายามในการไม่ระบุตัวตนในข้อมูลและปลดข้อมูลประจำตัวของชุดข้อมูลแบบแมนนวล (หรือการลบข้อมูลที่เชื่อมโยงฐานข้อมูลของบุคคลใดบุคคลหนึ่ง) เป็นงานที่ต้องใช้เวลาและกำลังคนจำนวนมากและมีแนวโน้มเกิดข้อผิดพลาด โดยในท้ายที่สุดแนวทางนี้อาจทำให้โครงการเกิดความล่าช้าและต้องต่อเวลาของรอบการวนซ้ำในการพัฒนาอัลกอริทึมรวมถึงโมเดลแมชชีนเลิร์นนิ่ง (ML) 

ซึ่ง Synthetic Data สามารถจัดการกับปัญหาเหล่านี้ได้หลายประการ ด้วยการให้การเข้าถึงข้อมูลที่รวดเร็ว ค่าใช้จ่ายต่ำกว่าและง่ายกว่า โดยข้อมูลดังกล่าวจะคล้ายคลึงกับแหล่งที่มาของข้อมูลดั้งเดิม เหมาะสมต่อการใช้งาน และปกป้องความเป็นส่วนตัว

นอกจากนี้ หากเกิดกรณีข้อมูลที่ไม่ระบุตัวตนไปรวมกับแหล่งข้อมูลสาธารณะอื่นๆ ก็จะเกิดความเสี่ยงที่ข้อมูลถูกเปิดเผยโดยไม่ตั้งใจ และอาจนำไปสู่การระบุข้อมูลที่ซ้ำซ้อนและละเมิดความเป็นส่วนตัวของข้อมูลได้ ผู้บริหารสามารถใช้เทคนิคต่างๆ เช่น ตั้งค่าความเป็นส่วนตัวที่แตกต่างกัน เพื่อให้แน่ใจว่าข้อมูลสังเคราะห์ใดๆ ที่สร้างจากข้อมูลจริงนั้นมีความเสี่ยงต่ำมากเมื่อมีการทำให้ไม่ระบุตัวตน

ความท้าทายที่ขวางการนำไปใช้อย่างแพร่หลาย

การสร้างชุดข้อมูลแบบตารางสังเคราะห์เกี่ยวข้องกับการรักษาสมดุลระหว่างความเป็นส่วนตัวและการนำไปใช้ประโยชน์เพื่อให้แน่ใจว่าข้อมูลยังมีประโยชน์และตรงกับชุดข้อมูลดั้งเดิมอย่างถูกต้อง หากเน้นการใช้ประโยชน์สูงเกินไป ความเป็นส่วนตัวอาจได้รับผลกระทบ โดยเฉพาะอย่างยิ่งข้อมูลที่มีลักษณะเฉพาะไม่เหมือนใคร 

เนื่องจากชุดข้อมูลสังเคราะห์อาจจับคู่กับแหล่งข้อมูลอื่นได้ แต่ในทางกลับกัน วิธีการเพิ่มความเป็นส่วนตัว เช่น การตัดการเชื่อมต่อคุณลักษณะบางอย่างหรือการแนะนำ “สัญญาณรบกวน” ผ่านความเป็นส่วนตัวที่แตกต่างกัน อาจทำให้ประโยชน์ของชุดข้อมูลลดลงโดยปริยาย

ช่วงหลายทศวรรษที่ผ่านมาทั้งการจัดการข้อมูลและคุณภาพข้อมูลธุรกรรมที่ต่ำเป็นความท้าทายที่เกิดขึ้นต่อเนื่อง ตัวอย่างเช่น เจ้าหน้าที่ Call Center ที่อาจไม่สามารถกรอกข้อมูลที่อยู่หรือข้อมูลลูกค้าให้ครบถ้วนได้ โดยข้อมูลที่ขาดหายไปนี้เป็นอุปสรรคต่อการวิเคราะห์ 

ดังนั้นเพื่อแก้ไขปัญหานี้ องค์กรไอทีจำเป็นต้องให้ความรู้แก่ผู้ใช้บริการฝั่งธุรกิจทำความเข้าใจถึงความสำคัญของคุณภาพข้อมูลที่ดีทั้งเพื่อการสมัครใช้และนำมาวิเคราะห์ ซึ่งการใส่ข้อมูลขยะเข้าสู่ระบบจะนำมาสู่ผลลัพธ์ที่เป็นขยะ หรือที่เรียกว่า “Garbage In Garbage Out” ซึ่งเป็นหลักการที่ได้รับการยอมรับโดยทั่วไป 

อย่างไรก็ตาม ณ ปัจจุบัน เรื่องนี้ส่งผลต่อทัศนคติของผู้คนที่มีต่อ Synthetic Data เนื่องจากพวกเขาเชื่อว่า ข้อมูลนั้นด้อยกว่า เพราะมันไม่ใช่ข้อมูลจริงๆ ซึ่งทำให้การนำไปใช้งานล่าช้า ทว่าในความเป็นจริงแล้ว ข้อมูลสังเคราะห์อาจดีกว่าข้อมูลจริงก็ได้ ไม่ใช่ในแง่ที่ว่ามันสะท้อนความจริงในปัจจุบัน แต่คือในแง่ที่ว่ามันสามารถฝึกโมเดล AI ให้ทำงานกับโลกในอุดมคติหรือโลกในอนาคตได้อย่างไรต่างหาก

ชุดข้อมูลสังเคราะห์คือภาพสะท้อนของชุดข้อมูลดั้งเดิม ดังนั้นหากชุดข้อมูลเดิมไม่มีปัญหาในการโปรแกรมคอมพิวเตอร์ หรือมีความผิดปกติที่เรียกว่า “Edge Cases” เหตุการณ์เหล่านี้จะไม่ปรากฏในชุดข้อมูลสังเคราะห์เช่นกัน ดังนั้นข้อมูลสังเคราะห์ที่เป็นภาพและวิดีโอ อาทิ การขับขี่อัตโนมัติ ซึ่งใช้ภาพการขับรถหลายชั่วโมงในการฝึก AI จึงมีความสำคัญเฉพาะอย่างยิ่ง อย่างไรก็ตามยังจำเป็นต้องสร้างสถานการณ์ที่ไม่ปกติ อาทิ รถฉุกเฉิน การขับรถบนหิมะ หรือเจอกับสัตว์บนท้องถนน