วีดีโอ: วิดีโอปลอมที่สมบูรณ์แบบจะได้รับการยอมรับจากปัญญาประดิษฐ์
2024 ผู้เขียน: Richard Flannagan | [email protected]. แก้ไขล่าสุด: 2023-12-16 00:19
ปีที่แล้ว Manish Agrawala แห่งมหาวิทยาลัยสแตนฟอร์ดช่วยพัฒนาเทคโนโลยีลิปซิงค์ที่อนุญาตให้โปรแกรมตัดต่อวิดีโอปรับเปลี่ยนคำพูดของผู้พูดได้แทบมองไม่เห็น เครื่องมือนี้สามารถแทรกคำที่บุคคลไม่เคยพูดได้อย่างง่ายดาย แม้จะอยู่ตรงกลางประโยค หรือลบคำที่เขาพูดออกไป ทุกอย่างจะดูสมจริงด้วยตาเปล่าและแม้แต่กับระบบคอมพิวเตอร์จำนวนมาก
เครื่องมือนี้ช่วยให้แก้ไขข้อผิดพลาดได้ง่ายขึ้นโดยไม่ต้องถ่ายทำฉากใหม่ทั้งหมด และยังได้ดัดแปลงรายการทีวีหรือภาพยนตร์สำหรับผู้ชมที่แตกต่างกันในสถานที่ต่างๆ แต่เทคโนโลยีนี้ยังได้สร้างโอกาสใหม่ๆ ที่รบกวนจิตใจสำหรับวิดีโอปลอมที่หายากด้วย โดยมีเจตนาที่ชัดเจนในการบิดเบือนความจริง ตัวอย่างเช่น วิดีโอล่าสุดของพรรครีพับลิกันใช้เทคนิคที่หยาบกว่านี้ในการสัมภาษณ์โจ ไบเดน
ฤดูร้อนนี้ Agrawala และเพื่อนร่วมงานที่ Stanford และ UC Berkeley ได้เปิดเผยวิธีการใช้เทคโนโลยีลิปซิงค์ที่ใช้ปัญญาประดิษฐ์ โปรแกรมใหม่นี้ตรวจจับของปลอมได้อย่างแม่นยำมากกว่า 80 เปอร์เซ็นต์ โดยตระหนักถึงความคลาดเคลื่อนน้อยที่สุดระหว่างเสียงคนกับรูปร่างปากของพวกเขา
แต่ Agrawala ผู้อำนวยการสถาบัน Stanford Institute for Media Innovation และศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ Forest Baskett ซึ่งเป็นหน่วยงานในเครือของ Stanford Institute for Human-Centered Artificial Intelligence เตือนว่าไม่มีวิธีแก้ปัญหาทางเทคนิคในระยะยาวสำหรับการปลอมแปลงลึก
ของปลอมทำงานอย่างไร
มีเหตุผลที่ถูกต้องสำหรับการจัดการวิดีโอ ตัวอย่างเช่น ใครก็ตามที่ถ่ายทำรายการทีวี ภาพยนตร์ หรือโฆษณาที่สมมติขึ้นสามารถประหยัดเวลาและค่าใช้จ่ายได้โดยใช้เครื่องมือดิจิทัลเพื่อแก้ไขข้อผิดพลาดหรือปรับแต่งสคริปต์
ปัญหาเกิดขึ้นเมื่อเครื่องมือเหล่านี้ถูกใช้โดยเจตนาเพื่อเผยแพร่ข้อมูลเท็จ และเทคนิคหลายอย่างไม่ปรากฏแก่ผู้ชมทั่วไป
วิดีโอปลอมจำนวนมากใช้การสลับใบหน้า โดยซ้อนใบหน้าของบุคคลอื่นเข้ากับวิดีโอของบุคคลอื่น แต่ถึงแม้ว่าเครื่องมือเปลี่ยนใบหน้าจะดูน่าสนใจ แต่ก็ค่อนข้างหยาบและมักจะทิ้งสิ่งประดิษฐ์ดิจิทัลหรือภาพที่คอมพิวเตอร์สามารถตรวจจับได้
ในทางกลับกัน เทคโนโลยีลิปซิงค์จะมองเห็นได้น้อยลงและตรวจจับได้ยากกว่า พวกเขาจัดการส่วนที่เล็กกว่ามากของภาพแล้วสังเคราะห์การเคลื่อนไหวของริมฝีปากที่ตรงกับลักษณะที่ปากของบุคคลจะขยับจริง ๆ หากเขาพูดคำบางคำ อ้างอิงจากส Agrawal ให้ตัวอย่างเพียงพอของภาพและเสียงของบุคคล ผู้ผลิตปลอมสามารถทำให้คน "พูด" อะไรก็ได้
การตรวจจับของปลอม
กังวลเกี่ยวกับการใช้เทคโนโลยีดังกล่าวอย่างผิดจรรยาบรรณ Agrawala ทำงานร่วมกับ Ohad Freed นักศึกษาปริญญาเอกที่ Stanford เพื่อพัฒนาเครื่องมือตรวจจับ Hani Farid ศาสตราจารย์แห่ง University of California, Berkeley School of Information; และ Shruti Agarwal นักศึกษาปริญญาเอกที่ Berkeley
ในตอนแรก นักวิจัยได้ทดลองด้วยเทคนิคแบบใช้มือล้วนๆ ซึ่งผู้สังเกตการณ์ได้ศึกษาภาพวิดีโอ ใช้งานได้ดี แต่ในทางปฏิบัติต้องใช้แรงงานจำนวนมากและใช้เวลานาน
จากนั้นนักวิจัยได้ทดสอบโครงข่ายประสาทเทียมที่ใช้ปัญญาประดิษฐ์ ซึ่งจะทำการวิเคราะห์แบบเดียวกันได้เร็วกว่ามาก หลังจากฝึกวิดีโอกับอดีตประธานาธิบดีบารัค โอบามา โครงข่ายประสาทเทียมตรวจพบการลิปซิงค์ของโอบามามากกว่า 90 เปอร์เซ็นต์ แม้ว่าความแม่นยำของผู้พูดคนอื่นๆ จะลดลงเหลือประมาณ 81 เปอร์เซ็นต์
บททดสอบแห่งความจริง
นักวิจัยกล่าวว่าแนวทางของพวกเขาเป็นเพียงส่วนหนึ่งของเกมแมวและเมาส์ เมื่อเทคนิคการปลอมแปลงอย่างล้ำลึกพัฒนาขึ้น พวกเขาจะทิ้งกุญแจไว้น้อยลง
ในท้ายที่สุด Agrawala กล่าวว่าปัญหาที่แท้จริงไม่ได้มากเท่ากับการต่อสู้กับวิดีโอปลอมอย่างลึกซึ้งเท่ากับการต่อสู้กับการบิดเบือนข้อมูล อันที่จริง เขาตั้งข้อสังเกต ข้อมูลที่ผิดส่วนใหญ่เกิดจากการบิดเบือนความหมายของสิ่งที่ผู้คนพูดจริงๆ
“เพื่อลดข้อมูลที่ผิด เราต้องปรับปรุงการรู้เท่าทันสื่อและพัฒนาระบบความรับผิดชอบ” เขากล่าว "นี่อาจหมายถึงกฎหมายที่ห้ามการผลิตข้อมูลที่ผิดโดยเจตนาและผลที่ตามมาของการละเมิดตลอดจนกลไกในการกำจัดอันตรายที่เกิดขึ้น"