Open Access. Powered by Scholars. Published by Universities.®

Physical Sciences and Mathematics Commons

Open Access. Powered by Scholars. Published by Universities.®

Statistics and Probability

Chulalongkorn University

Theses/Dissertations

Articles 1 - 30 of 56

Full-Text Articles in Physical Sciences and Mathematics

An Analysis On Trends Of Research Topics In Civic Education Using Dynamic Topic Model, Poon Thongsai Jan 2022

An Analysis On Trends Of Research Topics In Civic Education Using Dynamic Topic Model, Poon Thongsai

Chulalongkorn University Theses and Dissertations (Chula ETD)

The aim of this thesis is to study the trend of civic and citizenship education research from 2000 to 2020 and the influence the regional background of researches has on the research discussion. Relevant data is collected from ERIC and SCOPUS database. This includes abstracts, published year, regional background of researchers, and author h-index. The keywords used are “civic education” or “citizenship education” or “civics”. There are 4917 papers extracted in total. Upon doing further preparation, 4854 articles are prepared for analysis. We apply Structural Topic model (STM) technique to the abstracts with covariates including the published year and the …


การเปรียบเทียบอัลกอริทึมระหว่างการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน สำหรับการเรียนรู้แบบเสริมแรงในเกมเป่ายิ้งฉุบ, ธันยวุฒิ อักขระสมชีพ Jan 2022

การเปรียบเทียบอัลกอริทึมระหว่างการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน สำหรับการเรียนรู้แบบเสริมแรงในเกมเป่ายิ้งฉุบ, ธันยวุฒิ อักขระสมชีพ

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพระหว่างอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน ในตัวแบบการเรียนรู้แบบเสริมแรงกับการตัดสินใจเชิงพฤติกรรมของมนุษย์ ทั้งสองอัลกอริทึมเป็นอัลกอริทึมที่มีประสิทธิภาพในการแก้ไขปัญหาแบนดิทหลายแขน แต่ไม่ชัดเจนว่าทั้งสองอัลกอริทึมจะมีประสิทธิภาพอย่างไรกับปัญหาการตัดสินใจเชิงพฤติกรรมของมนุษย์ที่ความซับซ้อนทางด้านพฤติกรรม งานวิจัยนี้จำลองเกมเป่ายิ้งฉุบแทนปัญหาการตัดสินใจของมนุษย์ โดยมีองค์ประกอบเชิงพฤติกรรม 2 องค์ประกอบ คือ พฤติกรรมการใช้กลยุทธตามเข็มนาฬิกาแบบผสม และพฤติกรรมการใช้กลยุทธยุติการสูญเสีย โดยตัวแบบเกมเป่ายิ้งฉุบถูกจำลองขึ้นตามกระบวนการตัดสินใจแบบมาร์คอฟ ตัวแทนตัวแบบจากทั้งสองอัลกอริทึมจะแก้ไขปัญหาดังกล่าวและวัดประสิทธิภาพด้วยผลรางวัลสะสมภายใต้เงื่อนไขการจำลองในรูปแบบต่าง ๆ ผลการเปรียบเทียบประสิทธิภาพพบว่า ตัวแทนตัวแบบจากอัลกอริทึมความเชื่อมั่นขอบเขตบนมีประสิทธิภาพดีกว่าตัวแทนตัวแบบจากอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันในการจำลองส่วนใหญ่ ยกเว้นกรณีการจำลองที่รูปแบบพฤติกรรมของมนุษย์มีความชัดเจนเป็นระยะเวลายาว ตัวแทนตัวแบบจากอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันมีประสิทธิภาพดีกว่าตัวแทนตัวแบบจากอัลกอริทึมความเชื่อมั่นขอบเขตบน


การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง, ชานนท์ วรโชติสืบตระกูล Jan 2022

การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง, ชานนท์ วรโชติสืบตระกูล

Chulalongkorn University Theses and Dissertations (Chula ETD)

แบบจำลองโครงข่ายคอนโวลูชัน หรือ ซีเอ็นเอ็น (Convolutional Neural Networks หรือ CNN) ได้รับการนำมาใช้กันอย่างแพร่หลายในการจำแนกภาพ โดยเฉพาะในทางการแพทย์ ซึ่งปกติการจำแนกภาพทางการแพทย์นิยมใช้โครงข่ายคอนโวลูชั่น 2 มิติ แต่เนื่องจากข้อมูลภาพบางประเภท เช่น ภาพการฉายรังสีเอกซเรย์สมองมีลักษณะมองภาพ 3 มิติ ให้เป็นภาพ 2 มิติ ดังนั้นในงานวิจัยนี้จึงมีแนวคิดในการใช้โครงข่ายคอนโวลูชัน 3 มิติมาใช้ในการจำแนกภาพเพื่อนำเอาจุดเด่นจากความสามารถในการดึงคุณลักษณะความสัมพันธ์ในชั้นความลึกที่เพิ่มเข้ามาซึ่งมีความแตกต่างจากรูปแบบ 2 มิติ เพื่อเพิ่มประสิทธิภาพให้แบบจำลองสามารถดึงคุณลักษณะสำคัญของภาพให้มีความหลากหลายมากขึ้น งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพโครงข่ายคอนโวลูชัน 3 มิติ ร่วมกับแบบจำลองที่ถูกฝึกมาเรียบร้อยแล้ว (pre-trained model) 4 แบบจำลอง ประกอบไปด้วย อเล็กซ์เน็ต (Alexnet) วีจีจี-16 (Vgg-16) กูเกิลเน็ต (Googlenet) และเรสเน็ต (Resnet) เพื่อจำแนกข้อมูลภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง และผู้ป่วยที่มีสุขภาพปกติ จากภาพฉายรังสีเอกซเรย์สมอง (CT-Scan) จากฐานข้อมูลเว็บไซด์ Kaggle ชุดข้อมูลประกอบด้วยภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง 950 ภาพ จาก 40 คน และภาพผู้ป่วยสุขภาพปกติ 1551 ภาพ จาก 82 คน ซึ่งงานวิจัยนี้มีการปรับรายละเอียดโดยการนำจุดเด่นของแต่ละแบบจำลองมาใช้ และเพิ่มชั้นความลึกที่เป็นจุดเด่นของการค้นหาคุณลักษณะสำคัญของรูปแบบ 3 มิติ ร่วมกับการประมวลผลภาพล่วงหน้า (Image Preprocessing) และการทำการเพิ่มจำนวนข้อมูล (Data augmentation) เพื่อเพิ่มประสิทธิภาพของแบบจำลอง จากนั้นเพื่อไม่ให้การทดลองโน้มเอียงต่อแต่ละแบบจำลอง มีการนำเทคนิค K-Fold Cross validation (K=5) มาเพื่อแก้ปัญหาในงานวิจัยชิ้นนี้ ในส่วนของการวัดประสิทธิภาพผลการทดลองใช้ Confusion matrix เป็นเครื่องมือในการประเมินประสิทธิภาพของแบบจำลอง ซึ่งพบว่าสมรรถนะแบบจำลองโครงข่ายคอนโวลูชันกูเกิลเน็ต 3 มิติ ให้ผลลัพธ์ที่ดีที่สุด โดยผลการทดสอบการจำแนกภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมองจากภาพฉายรังสีเอกซเรย์ ให้ค่าความแม่นยำ ความเที่ยงตรง ค่าความครบถ้วน และ F1-Score ที่ 92.00% 94.01% 83.96% และ 88.70% …


ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง, มนัสพร ตรีรุ่งโรจน์ Jan 2022

ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง, มนัสพร ตรีรุ่งโรจน์

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิเคราะห์การรอดชีพไม่ต่อเนื่องจะศึกษาบนข้อมูลตามยาวซึ่งชุดข้อมูลตามยาวมักถูกจัดเก็บเป็นตารางโดยข้อมูลแต่ละแถวแสดงถึงการจัดเก็บข้อมูลของบุคคลหนึ่ง ณ เวลาหนึ่งๆ ดังนั้น ข้อมูลจากบุคคลเดียวกันจึงประกอบไปด้วยข้อมูลหลายแถวซึ่งมีความสัมพันธ์กัน การใช้อัลกอริทึมการเรียนรู้ของเครื่องสำหรับการวิเคราะห์ชุดข้อมูลดังกล่าวมักมองข้ามความสัมพันธ์ของข้อมูลที่เกิดจากคนเดียวกัน แต่จะสมมติว่าข้อมูลแต่ละแถวเป็นอิสระต่อกัน งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการวิเคราะห์การรอดชีพไม่ต่อเนื่องโดยเปรียบเทียบผลลัพธ์จากการพิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกัน โดยใช้ตัวแบบการสุ่มป่าไม้, CatBoost และโครงข่ายประสาทเทียม ที่พิจารณาเฉพาะอิทธิพลคงที่ และตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมที่พิจารณาทั้งอิทธิพลคงที่และอิทธิพลสุ่ม เพื่อพยากรณ์การเกิดเหตุการณ์บนข้อมูลการรอดชีพ 2 ชุด คือ ข้อมูลท่อน้ำดีอักเสบปฐมภูมิ และข้อมูลการคัดกรองและผลการคัดกรองโรคเบาหวานของประชากรไทย ซึ่งเป็นข้อมูลที่ขาดความสมดุลสูง ผลการศึกษาพบว่าสำหรับตัวแบบอิทธิพลคงที่ การพิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกันให้ประสิทธิภาพการพยากรณ์ที่ดีขึ้นเฉพาะเมื่อใช้ตัวแบบ CatBoost ในขณะที่ตัวแบบอิทธิพลผสมไม่ได้ให้ประสิทธิภาพการพยากรณ์ที่ดีขึ้นเสมอไปเมื่อเทียบกับตัวแบบที่พิจารณาเฉพาะอิทธิพลคงที่ โดยสรุป งานวิจัยนี้ได้แสดงให้เห็นว่าการพิจารณาความสัมพันธ์ของข้อมูลไม่ได้ส่งผลให้ประสิทธิภาพการพยากรณ์ดีขึ้นเสมอไป ทั้งบนตัวแบบอิทธิพลคงที่และตัวแบบอิทธิพลผสม ขึ้นอยู่ข้อจำกัดและปัจจัยต่างๆ เช่น ลักษณะข้อมูล ตัวแบบ การกำหนดตัวแปรอิทธิพลสุ่ม และวิธีการสกัดอิทธิพลคงที่จากตัวแบบ อย่างไรก็ตาม การใช้ตัวแบบอิทธิพลผสมร่วมกับการเรียนรู้ของเครื่องเป็นอีกหนึ่งวิธีการที่น่าลอง และสามารถทำให้ประสิทธิภาพการทำงานดีขึ้นจากการใช้เทคนิคการเรียนรู้ของเครื่องเพียงอย่างเดียว


การจำลองข้อมูลเพื่อประเมินประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบชนิดผสม, นภสร รัตนวุฒิขจร Jan 2022

การจำลองข้อมูลเพื่อประเมินประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบชนิดผสม, นภสร รัตนวุฒิขจร

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของตัวประมาณค่าเฉลี่ยที่ได้จากการเลือกตัวอย่างแบบมีระบบชนิดผสม (Mixed Systematic Random Sampling : MRSS) กับการเลือกตัวอย่างแบบมีระบบชนิดวงกลม (Circular Systematic Sampling : CSS) และการเลือกตัวอย่างแบบมีระบบโดยใช้ช่วงเศษส่วน (Fractional Interval) สำหรับกรณีช่วงของการเลือกตัวอย่างไม่เป็นจำนวนเต็ม เมื่อประชากรมีแนวโน้มเชิงเส้น ด้วยค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (Mean Square Error : MSE) และเปรียบเทียบประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบทั้ง 3 วิธีด้วยค่าประสิทธิภาพสัมพัทธ์ (Relative Efficiency : RE) โดยการจำลองข้อมูลของประชากรเป็น 3 ขนาด แบ่งเป็น ขนาดเล็กหลักร้อย ได้แก่ 300, 500 และ 700 ขนาดกลางหลักพัน ได้แก่ 3,000, 5,000 และ 7,000 ขนาดใหญ่หลักหมื่น ได้แก่ 30,000, 50,000 และ 70,000 ด้วยโปรแกรม R กำหนดขนาดตัวอย่างที่ทำให้สัดส่วนระหว่างขนาดประชากรและขนาดตัวอย่างไม่เป็นจำนวนเต็ม ทำซ้ำทั้งหมด 1,000 ครั้ง พบว่าการเลือกตัวอย่างแบบมีระบบด้วยวิธี MRSS มีค่า MSE สูงกว่าการเลือกตัวอย่างอีกทั้ง 2 วิธี แต่เมื่อค่า g = 2 จะทำให้ค่าของ MSE ของการเลือกตัวอย่างทั้ง 3 วิธีมีค่ามากขึ้น โดยที่ค่า MSE ของการเลือกตัวอย่างแบบมีระบบชนิดผสมมีค่าต่ำกว่าการเลือกตัวอย่างแบบมีระบบชนิดวงกลมและวิธีใช้ช่วงเศษส่วน ทั้งนี้เป็นผลเนื่องมาจากค่า g เป็นค่าที่กำหนดความเป็นเชิงเส้น เมื่อค่า g เพิ่มมากขึ้น ความเป็นเชิงเส้นของประชากรจะลดลง ทำให้ตัวประมาณค่าเฉลี่ยตัวอย่างที่คำนวณได้มีค่าต่างจากค่าเฉลี่ยประชากรมากตามไปด้วย จึงสามารถสรุปได้ว่าตัวประมาณค่าเฉลี่ยที่ได้จากวิธีการเลือกตัวอย่างแบบมีระบบชนิดผสม มีแนวโน้มที่จะให้ค่า MSE สูงที่สุด เมื่อเทียบกับการเลือกตัวอย่างแบบมีระบบชนิดวงกลมและการเลือกตัวอย่างแบบมีระบบโดยใช้ช่วงเศษส่วน


สมรรถนะดิจิทัลขององค์กรทหาร: การวิเคราะห์องค์ประกอบเชิงสำรวจและเชิงยืนยันพหุระดับ, รัมณรา สมประสงค์ Jan 2022

สมรรถนะดิจิทัลขององค์กรทหาร: การวิเคราะห์องค์ประกอบเชิงสำรวจและเชิงยืนยันพหุระดับ, รัมณรา สมประสงค์

Chulalongkorn University Theses and Dissertations (Chula ETD)

สมรรถนะดิจิทัลขององค์กรทหารในปัจจุบันมีความสำคัญต่อการปฏิบัติงานในยุคของการเปลี่ยนแปลงทางดิจิทัลที่เกิดขึ้นอย่างรวดเร็ว งานวิจัยนี้เป็นงานวิจัยเชิงบรรยาย มีวัตถุประสงค์ดังนี้ 1) เพื่อสังเคราะห์ตัวชี้วัดสมรรถนะดิจิทัลขององค์กรทหาร 2) เพื่อสำรวจองค์ประกอบพหุระดับสมรรถนะดิจิทัลขององค์กรทหาร 3) เพื่อตรวจสอบความสอดคล้องเชิงประจักษ์ขององค์ประกอบพหุระดับสมรรถนะดิจิทัลขององค์กรทหาร ตัวอย่างวิจัย เป็นบุคลากรระดับปฏิบัติการในองค์กรทหารสังกัดกระทรวงกลาโหม 50 หน่วยงาน จำนวน 860 คน สำหรับใช้ในการวิเคราะห์องค์ประกอบเชิงสำรวจพหุระดับ และจำนวน 863 คน สำหรับใช้ในการวิเคราะห์องค์ประกอบเชิงยืนยันพหุระดับ เครื่องมือที่ใช้ในการวิจัยเพื่อการวิเคราะห์องค์ประกอบพหุระดับ คือแบบวัดสมรรถนะดิจิทัลขององค์กรทหาร ประกอบไปด้วย 2 ตอน คือ ข้อมูลพื้นฐานของกำลังพลผู้ตอบแบบสอบถาม และแบบวัดสมรรถนะดิจิทัลขององค์กรทหาร จำนวน 69 ข้อคำถาม วิเคราะห์ข้อมูลด้วยโปรแกรม IBM SPSS Statistics 22 และ MPlus6 ผลการวิจัยพบว่า (1) ตัวชี้วัดสมรรถนะดิจิทัลขององค์กรทหาร ประกอบไปด้วย 16 ตัวชี้วัด ได้แก่ 1) การวางแผนการใช้งานอุปกรณ์เทคโนโลยีดิจิทัลแบบบูรณาการ 2) การสืบค้นข้อมูลทางดิจิทัล 3) การประเมินความน่าเชื่อถือของข้อมูล 4) การใช้งานเทคโนโลยีเบื้องต้น 5) การแก้ปัญหาจากการใช้เทคโนโลยีดิจิทัล 6) การใช้อินทราเน็ตขององค์กร 7) การรักษาความลับในโลกไซเบอร์ 8) การจัดการไฟล์ดิจิทัลทางการทหาร 9) การเข้าถึงไฟล์ดิจิทัลในกรณีปฏิบัติงานนอกสถานที่ 10) การจัดการฐานข้อมูลทางการทหาร 11) การใช้สื่อดิจิทัลทางไกลเพื่อการสื่อสารทางการทหาร 12) การนำเสนอข้อมูลทางทหารในรูปแบบดิจิทัล 13) การสร้างสิ่งแวดล้อมทางดิจิทัลเพื่อการทำงาน 14) การตระหนักถึงความปลอดภัยบนโลกไซเบอร์ 15) การรักษามารยาทในสังคมดิจิทัล 16) เจตคติต่อการใช้เทคโนโลยีดิจิทัลในองค์กร (2) องค์ประกอบเชิงสำรวจพหุระดับสมรรถนะดิจิทัลขององค์กรทหาร มีจำนวน 3 โมเดล คือ 1) องค์ประกอบระดับระดับบุคคล 4 องค์ประกอบ ระดับองค์กร 1 องค์ประกอบ 2) องค์ประกอบระดับบุคคล 4 องค์ประกอบ ระดับองค์กร 2 องค์ประกอบ 3) องค์ประกอบระดับบุคคล …


การศึกษาเปรียบเทียบตัวแบบจำลองการถดถอยโดยความไม่แน่นอนเพื่อลดเวลาในกระบวนการทดสอบวัดค่ากระแสไฟฟ้าเขียนที่เหมาะสมที่สุดของฮาร์ดไดรฟ์, ภัทรดิศ ดำรงค์ศักดิ์ Jan 2022

การศึกษาเปรียบเทียบตัวแบบจำลองการถดถอยโดยความไม่แน่นอนเพื่อลดเวลาในกระบวนการทดสอบวัดค่ากระแสไฟฟ้าเขียนที่เหมาะสมที่สุดของฮาร์ดไดรฟ์, ภัทรดิศ ดำรงค์ศักดิ์

Chulalongkorn University Theses and Dissertations (Chula ETD)

ฮาร์ดไดรฟ์ (HDD) เป็นอุปกรณ์บันทึกข้อมูลแม่เหล็กที่มีความแม่นยำสูง ดังนั้นจึงมีค่าใช้จ่ายสูง และเสียเวลาในการวัดค่ากระแสไฟฟ้าเขียนที่เหมาะสมที่สุดฮาร์ดไดรฟ์ หากจ่ายกระแสไฟฟ้าเขียนไม่เหมาะสมจะส่งผลกระทบต่อประสิทธิภาพการทำงานของฮาร์ดไดรฟ์ ซึ่งเราใช้วิธีการเงื่อนไขการทดสอบแบบปรับตัว (Adaptive Test Condition) เป็นเทคนิคที่ปรับวิธีการทดสอบแบบดั้งเดิม ตามรูปแบบข้อมูลพารามิเตอร์ เพื่อปรับปรุงวิธีการทดสอบปัจจุบัน และลดเวลาการทดสอบ งานวิทยานิพนธ์นี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการใช้ตัวแบบจำลองการถดถอยโดยความไม่แน่นอนสำหรับการลดช่วงการวัดค่ากระไฟฟ้าเขียนที่เหมาะสมที่สุด สำหรับการลดเวลาการทดสอบวัคค่ากระแสไฟฟ้าเขียน (write current test) โดยการคำนวณช่วงความเชื่อมั่นของผลทำนายที่ระดับความเชื่อมั่นที่ยอมรับได้ โดยใช้ค่าความไม่แน่นอนของข้อมูล (Data uncertainty) ที่ผ่านวิธีปรับการเทียบมาตรฐาน (Recalibration) แล้วนำมาลดช่วงวัดที่ได้จากการทดสอบฮาร์ดไดรฟ์ จากนั้นนำช่วงเชื่อมั่นของผลทำนายนั้นมาลดช่วงการวัดค่ากระแสไฟฟ้าเขียน โดยการศึกษา และเปรียบเทียบใช้ตัวแบบจำลองการถดถอยโดยความไม่แน่นอน ได้แก่ NGBoost, XGB-Distribution และ CatBoost ซึ่งผลลัพธ์ของงานวิทยานิพนธ์คือ CatBoost สามารถลดเวลาในการทดสอบวัคค่ากระแสไฟฟ้าเขียนสูงสุดที่ช่วงความเชื่อมั่นของผลทำนาย ณ ระดับความเชื่อมั่นที่ยอมรับได้ ซึ่งครอบคลุมสัดส่วน 0.9 ของทุกชุดการทดสอบ


ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน, กาญธนา ลออสิริกุล Jan 2022

ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน, กาญธนา ลออสิริกุล

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยนี้มีจุดประสงค์เพื่อศึกษาปฏิสัมพันธ์ของวิธีการปรับสมดุลข้อมูลกับเงื่อนไขด้านขนาดตัวอย่าง เทคนิคการจำแนกข้อมูล จำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง อัตราออด และร้อยละของจำนวนข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรองที่มีต่อประสิทธิภาพของการจำแนกกลุ่ม การปรับสมดุลของข้อมูลแบ่งออกเป็น 3 วิธี ได้แก่ (1) ไม่ปรับสมดุล (2) วิธี random oversampling และ (3) วิธีผสมผสานระหว่างรูปแบบสุ่มเกินและสุ่มลด (hybrid) โดยใช้แพคเกจ ROSE ส่วนเงื่อนไขด้านขนาดตัวอย่างแบ่งออกเป็น ขนาดตัวอย่างเท่ากับ 100 300 และ 500 หน่วย ด้านเทคนิคการจำแนกข้อมูล แบ่งออกเป็น 4 วิธี ได้แก่ (1) เคเนียร์เรสเนเบอร์ (2) การถดถอยโลจิสติก (3) แรนดอมฟอร์เรส และ (4) ซัพพอร์ตเวกเตอร์แมชชีน ตัวแปรจากการจำลองแบ่งออกเป็นตัวแปรตามซึ่งจำลองด้วยการถดถอยโลจิสติก ส่วนตัวแปรอิสระในการจำลองข้อมูลครั้งนี้จะกำหนดให้ใช้ตัวแปรอิสระจำลองทั้งหมด 8 ตัว โดยกำหนดให้มีจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง 3 กรณี คือ 4:4 5:3 และ 6:2 ในขณะที่ระดับของอัตราออด จะสุ่มค่าจากช่วง [1,2) หรือ [2,3) และร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง แบ่งออกเป็น 2 กรณี ได้แก่ 60:40 และ 70:30 พิจารณาเกณฑ์ประสิทธิภาพของข้อมูลด้วยตัวชี้วัดความถูกต้องในการจำแนก ความไว และความจำเพาะ การจำลองแต่ละสถานการณ์จะทำซ้ำสถานการณ์ละ 500 รอบ การวิเคราะห์ปฏิสัมพันธ์ระหว่างวิธีการปรับสมดุลข้อมูลกับเงื่อนไขต่าง ๆ ใช้การวิเคราะห์ความแปรปรวนพหุคูณหลายทาง (n-way MANOVA) ผลการวิจัยพบว่า วิธีการปรับสมดุลข้อมูลมีปฏิสัมพันธ์แบบสองทางกับเงื่อนไขด้านขนาดตัวอย่าง ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง อัตราออด และเทคนิคการจำแนกข้อมูล และพบปฏิสัมพันธ์แบบสามทางกับเงื่อนไขต่อไปนี้ (1) ขนาดตัวอย่างและจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง (2) ขนาดตัวอย่างและเทคนิคการจำแนกข้อมูล และ (3) ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง และเทคนิคการจำแนกข้อมูล ดังนั้นนักวิเคราะห์ข้อมูลควรเลือกใช้วิธีการปรับสมดุลข้อมูลโดยพิจารณาให้เหมาะสมกับสภาพของข้อมูลที่ใช้ในการวิเคราะห์


Spatio-Temporal Copula-Based Graph Neural Networks For Traffic Forecasting, Pitikorn Khlaisamniang Jan 2022

Spatio-Temporal Copula-Based Graph Neural Networks For Traffic Forecasting, Pitikorn Khlaisamniang

Chulalongkorn University Theses and Dissertations (Chula ETD)

Modern cities heavily rely on complex transportation, making accurate traffic speed prediction crucial for traffic management authorities. Classical methods, including statistical techniques and traditional machine learning techniques, fail to capture complex relationships, while deep learning approaches may have weaknesses such as error accumulation, difficulty in handling long sequences, and overlooking spatial correlations. Graph neural networks (GNNs) have shown promise in extracting spatial features from non-Euclidean graph structures, but they usually initialize the adjacency matrix based on distance and may fail to detect hidden statistical correlations. The choice of correlation measure can have a significant impact on the resulting adjacency matrix …


การเปรียบเทียบวิธีการคัดเลือกตัวแปรแบบรวมกลุ่ม สำหรับข้อมูลที่มีลักษณะการจำแนกแบบไบนารี, กรชนก ชมเชย Jan 2022

การเปรียบเทียบวิธีการคัดเลือกตัวแปรแบบรวมกลุ่ม สำหรับข้อมูลที่มีลักษณะการจำแนกแบบไบนารี, กรชนก ชมเชย

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานศึกษานี้เปรียบเทียบวิธีการคัดเลือกตัวแปรแบบเดียว (Single-Feature Selection) และแบบรวมกลุ่ม (Ensemble Feature Selection) ซึ่งแบ่งเป็น 2 รูปแบบคือ รูปแบบการรวมลำดับความสำคัญของตัวแปรแล้วตามด้วยการเลือกจำนวนตัวแปรที่มีความสำคัญตามเกณฑ์ที่ระบุ (Design CT: Combination followed by Thresholding) และรูปแบบการการเลือกจำนวนตัวแปรที่มีความสำคัญตามเกณฑ์ที่ระบุแล้วตามด้วยการรวมเซตของตัวแปรที่มีความสำคัญดังกล่าว (Design TC: Thresholding followed by Combination) ผู้ศึกษาได้ใช้การคัดเลือกตัวแปรจากประเภท Filter Wrapper และ Embedded โดยใช้ 10-fold cross validation ในการเปรียบเทียบค่าเฉลี่ยของ F1-score แทนประสิทธิภาพการทำนายและค่าเบี่ยงเบนของ F1-score แทนค่าความเสถียรของการทำนาย ผ่านข้อมูล 3 ชุดได้แก่ Parkinson's Disease dataset (จำนวนตัวแปรต้น(P)=ขนาดข้อมูล(N)), LSVT Voice Rehabilitation dataset (P>N) และ Colon Cancer dataset (P>>N) ใช้ XGBoost เป็นตัวแบบทำนาย จากการศึกษาภายใต้ขอบเขตดังกล่าวพบว่า การคัดเลือกตัวแปรแบบวิธีเดียวด้วย RFE จะให้ผลดีในชุดข้อมูลที่มีมิติมาก P>>N ในเกณฑ์ 2.5% 5% และ 10% แต่การคัดเลือกแบบรวมกลุ่มจะให้ผลการทำนายที่ต่างกันภายใต้ลักษณะมิติของชุดข้อมูลและเกณฑ์ที่เลือกใช้ สำหรับการรวมลำดับความสำคัญของตัวแปรในรูปแบบ Design CT ด้วยค่ากลางและค่าเฉลี่ยเลขคณิตที่เกณฑ์ log2(P) จะให้ผลการทำนายดีกว่าวิธีอื่นใน Design CT ในชุดข้อมูล P>>N แต่สำหรับชุดข้อมูล P=N และ P>N ผลการทำนายจากแต่ละวิธีใน Design CT เพิ่มประสิทธิภาพการทำนายเล็กน้อย และสำหรับ Design TC การรวมเซตของตัวแปรต้นที่มีความสำคัญด้วยวิธีอินเตอร์เซกและมัลติอินเตอร์เซกจะให้ผลดีกว่าวิธียูเนียน สำหรับชุดข้อมูล P>>N ในทุกเกณฑ์ …


การปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย, ธารินทร์ สุขเนาว์ Jan 2022

การปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย, ธารินทร์ สุขเนาว์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาปัจจัยที่มีความสัมพันธ์กับความยากจนในระดับครัวเรือนและเสนอวิธีการเปรียบเทียบและปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับจากการคำนวนค่าถ่วงน้ำหนักวิธีที่ดีที่สุดสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย โดยนำเสนอวิธีการสองขั้นตอน คือนำตัววัดประสิทธิภาพการทำนายมาใช้ในการคำนวณค่าถ่วงน้ำหนักแบบปรับ ซึ่งนำมาใช้เสมือนเป็นค่าถ่วงน้ำหนักเริ่มต้นที่ให้กับแต่ละตัวแบบ จากนั้นจึงทำนายผลด้วยวิธีการวิเคราะห์การถดถอยลอจิสติกอีกขั้นตอนหนึ่ง งานวิจัยนี้ศึกษาการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพการทำนายใน 3 กรณี ได้แก่ 1. การใช้ค่า AUC 2. การใช้ค่า F1-Score โดยพิจารณาจุดตัด 0.5 และ 3. การใช้ค่า F1-Score โดยพิจารณาค่าจุดตัดที่เหมาะสมที่สุดจากดัชนีโยเดนที่สูงสุด นอกจากนี้ เนื่องจากชุดข้อมูลสำรวจประชากรรายครัวเรือนในระดับพื้นที่มีความไม่สมดุลของระดับความยากจน จึงใช้เทคนิค SMOTE ในการจัดการกับข้อมูลที่ไม่สมดุล ทั้งนี้ ผู้วิจัยได้ทำการเปรียบเทียบผลลัพธ์จากชุดข้อมูลก่อนและหลังใช้เทคนิค SMOTE ผลการศึกษาพบว่า ปัจจัยที่มีความสัมพันธ์กับความยากจนในระดับครัวเรือนสูงมีหลายปัจจัย อาทิ อายุของหัวหน้าครัวเรือน จำนวนผู้ที่ได้รับบัตรสวัสดิการแห่งรัฐในครัวเรือน,ค่าใช้จ่ายเพื่อการบริโภคในครัวเรือน เป็นต้น และวิธีการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพ F1-Score ที่จุดตัด 0.5 มีประสิทธิภาพสูงสุดจากการพิจารณาด้วยค่าความแม่นยำในชุดข้อมูลตั้งต้นก่อนใช้เทคนิค SMOTE อย่างไรก็ตาม จากการทดสอบในชุดข้อมูลที่มีการจัดการกับข้อมูลที่ไม่สมดุลด้วยวิธี SMOTE พบว่า ประสิทธิภาพในการทำนายไม่ปรากฏว่าวิธีการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพแบบใดแบบหนึ่งที่มีประสิทธิภาพสูงสุดอย่างชัดเจน


การพัฒนาเวิร์กโฟลว์สําหรับตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุด, พงศ์ทวัส ฮั่นวัฒนวงศ์ Jan 2022

การพัฒนาเวิร์กโฟลว์สําหรับตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุด, พงศ์ทวัส ฮั่นวัฒนวงศ์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาเวิร์กโฟลว์สำหรับสร้างต้นไม้จำแนกประเภทที่ดีที่สุด ด้วยตัวแบบเชิงเส้นจำนวนเต็มแบบผสม ทำการประเมินประสิทธิภาพของตัวแบบต้นไม้จำแนกประเภทที่ดีที่สุดบนชุดข้อมูลเยอรมันเครดิต และขยายตัวแบบให้รองรับชุดข้อมูลที่ตัวแปรต้นมีค่าสูญหายจำนวนมาก จากการพัฒนาเวิร์กโฟลว์พบว่าการสร้างต้นไม้จำแนกประเภทที่ดีที่สุดโดยใช้ตัวแบบเชิงเส้นจำนวนเต็มแบบผสมในงานวิจัยของ Lin และ Tang (2021) และกำหนดค่าพารามิเตอร์ความซับซ้อนตั้งต้นเป็นค่าบวกใกล้เคียงศูนย์ให้ผลลัพธ์เป็นที่น่าพอใจ จากการเปรียบเทียบประสิทธิภาพระหว่างตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุดกับต้นไม้ตัดสินใจบนชุดข้อมูลเยอรมันเครดิต พบว่าต้นไม้จำแนกประเภทที่ดีที่สุดให้อัตราความถูกต้องสูงกว่าต้นไม้ตัดสินใจทั้งบนชุดข้อมูลสร้างตัวแบบและบนชุดข้อมูลทวนสอบ 0.4% ถึง 3.2% ข้อดีของการพัฒนาเวิร์กโฟลว์โดยใช้โปรแกรมหาคำตอบสำหรับปัญหาเชิงเส้นจำนวนเต็มแบบผสม คือความสามารถในการขยายตัวแบบให้รองรับเงื่อนไขเพิ่มเติมได้ ในงานวิจัยนี้จึงเสนอตัวแบบต้นไม้จำแนกประเภทที่ดีที่สุดที่ถูกขยายให้รองรับชุดข้อมูลที่มีตัวแปรต้นสูญหายจำนวนมาก และแสดงให้เห็นว่าตัวแบบที่ถูกขยายสามารถทำงานอย่างมีประสิทธิผลบนเวิร์กโฟลว์ที่พัฒนาขึ้น


การวิเคราะห์ความคงทนของตัวแบบการเรียนรู้เชิงลึกต่อการโจมตีแบบพอยซันนิ่งแบบแกนส์ในงานภาพทางการแพทย์, ภาคภูมิ สิงขรภูมิ Jan 2022

การวิเคราะห์ความคงทนของตัวแบบการเรียนรู้เชิงลึกต่อการโจมตีแบบพอยซันนิ่งแบบแกนส์ในงานภาพทางการแพทย์, ภาคภูมิ สิงขรภูมิ

Chulalongkorn University Theses and Dissertations (Chula ETD)

ปัจจุบันเทคโนโลยี deep learning ได้เข้ามีส่วนช่วยในการพัฒนางานทางด้านการแพทย์และสาธารณสุขเป็นอย่างมาก ด้วยการใช้สถาปัตยกรรมที่ล้ำสมัยและพารามิเตอร์ที่ถูกสอนด้วยข้อมูลขนาดใหญ่ แต่ทว่า model เหล่านี้สามารถถูกโจมตีได้ด้วย adversarial attack เพราะว่า model เหล่านี้ยังต้องพึ่งพารามิเตอร์ในการสร้างเอาต์พุตและลักษณะที่ไม่สามารถอธิบายได้ของ model นั้นก็ทำให้ยากที่จะหาทางแก้หากถูกโจมตีแล้ว ในทุกๆวันมีการใช้ model เหล่านี้เยอะมากขึ้นเพื่อช่วยบุคลากรทางการแพทย์ แต่ด้วยงานที่ต้องคำนึงถึงชีวิตของผู้คนเป็นหลักการทดสอบความปลอดภัยและความคงทนของตัว model จึงจำเป็น การโจมตีสามารถแบ่งได้ออกเป็นสองประเภทคือ evasion atttack และ poisoning attack ที่มีความยืดหยุ่นกว่า evasion attack ทั้งในเรื่องของการสร้างข้อมูลแปลกปลอมใหม่ขึ้นมาและวิธีการโจมตีทำให้การทดสอบความคงทนต่อ poisoning attack ในงานทางการแพทย์นั้นสำคัญเป็นอย่างยิ่ง วิทยานิพนธ์ฉบับนี้ศึกษาความคงทนของ deep learning model ที่มีสถาปัตยกรรมล้ำสมัยที่ถูกพัฒนามาเพื่องานจำแนกภาพเอกซเรย์ปอดแบบไบนารีภายใต้การโจมตีแบบ poisoninng attack การโจมตีนั้นจะใช้ GANs ในการสร้างข้อมูลสังเคราะห์ปลอมขึ้นมาและทำการติดป้ายกำกับที่ผิดให้ในรูปแบบของ black box และใช้ปริมาณของตัววัดที่ลดลงเมื่อนำข้อมูลนี้ไปอัพเดท model เป็นตัวบ่งชี้ถึงคความคงทนของแต่ละสถาปัตยกรรมที่่แตกต่างกันออกไป จากการทดลองเราพบว่าสถาปัตยกรรม ConvNext นั้นมีความคงทนมากที่สุดและอาจจะสื่อได้ว่าเทคโนโลยีที่มาจาก Transformer นั้นมีส่วนช่วยสนับสนุนความคงทนของ model


การเปรียบเทียบวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกในข้อมูลที่มีมิติสูง, รัชพงศ์ ปรัชญาเศรษฐ Jan 2022

การเปรียบเทียบวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกในข้อมูลที่มีมิติสูง, รัชพงศ์ ปรัชญาเศรษฐ

Chulalongkorn University Theses and Dissertations (Chula ETD)

Regularization เป็นวิธีการป้องกันปัญหา overfitting ด้วยการเพิ่มฟังก์ชันการลงโทษไปในตัวแบบเพื่อให้เกิดการคัดกรองตัวแปรเข้าสู่ตัวแบบ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพของวิธีการคัดกรองตัวแปรสำหรับการวิเคราะห์การถดถอยโลจิสติกในข้อมูลที่มีมิติสูง ด้วยการใช้ฟังก์ชันการลงโทษในรูปแบบ (1) L0-regularization (2) L1-regularization (3) L0L2-regularization การวิจัยนี้ใช้การจำลองข้อมูลเพื่อทำการทดสอบ 18 กรณี โดยกำหนดค่าที่ต่างกันประกอบด้วย จำนวนตัวแปรอิสระมีจำนวน 200, 500 และ 1000 ตัวแปร ความสัมพันธ์ของตัวแปรอิสระมีค่าเท่ากับ 0, 0.5 และ 0.9 อัตราส่วนสัญญาณต่อสัญญาณรบกวนมีค่าเท่ากับ 1 และ 6 โดยจำลองข้อมูลแต่ละกรณีจำนวน 100 ชุด ในการศึกษานี้มุ่งเน้นที่การเปรียบเทียบประสิทธิภาพในการคัดกรองตัวแปรของตัวแบบ และประสิทธิภาพในการทำนายของตัวแบบ ซึ่งเปรียบเทียบประสิทธิภาพในแต่ละวิธีด้วย ความผิดพลาดในการตรวจจับเชิงบวก ค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว และ พื้นที่ใต้เส้นโค้ง จากการศึกษาพบว่าวิธี L0 มีความแม่นยำในการคัดกรองตัวแปรมากที่สุดเมื่อพิจารณาด้วยความผิดพลาดในการตรวจจับเชิงบวก เมื่อพิจารณาด้วยค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว พบว่าวิธี L1 และ L0L2 มีประสิทธิภาพในการคัดกรองตัวแปรใกล้เคียงกัน แต่วิธี L0L2 จะมีประสิทธิภาพสูงกว่าเมื่อความสัมพันธ์ระหว่างตัวแปรอิสระมีค่าสูง และเมื่อพิจารณาประสิทธิภาพในการทำนายของตัวแบบด้วยพื้นที่ใต้เส้นโค้ง พบว่าวิธี L1 จะมีประสิทธิภาพสูงที่สุดในทุกกรณี


การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน, ศศิวิมล ศรีโรจน์ Jan 2022

การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน, ศศิวิมล ศรีโรจน์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบการเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนาน (Bagging Heterogeneous Ensemble) และหาวิธีการลดมิติข้อมูลและวิธีการสุ่มตัวอย่างซ้ำที่เหมาะสมกับข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลแตกต่างกัน 3 ค่าคือ 2.3, 10 และ 14 โดยวัดประสิทธิภาพด้วยตัวชี้วัด Accuracy, The area under the curve, F1-score, Precision, Brier score และ Kolmogorov-Smirnov และทดสอบทางสถิติเพื่อแสดงว่าประสิทธิภาพของตัวแบบมีความแตกต่างกัน ที่ระดับนัยสำคัญ 0.05 ผลการศึกษาพบว่าข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลต่ำ (IR = 2.3) ตัวแบบ Logistic Regression ที่ใช้เทคนิค Linear Discriminant Analysis (LDA) และ Systematic Minority Over-Sampling Technique (SM) จะมีประสิทธิภาพเฉลี่ยดีที่สุดในการจำแนกประเภท ในส่วนของอัตราส่วนความไม่สมดุลกลาง (IR = 10) และ อัตราส่วนความไม่สมดุลสูง (IR = 14) วิธีการลดมิติข้อมูลและการสุ่มตัวอย่างซ้ำที่มีประสิทธิภาพคือ Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS) และ Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) ตามลำดับ โดยที่การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานมีประสิทธิภาพเฉลี่ยดีที่สุด ทั้งในกรณีที่มีและไม่มีวิธีการลดมิติข้อมูลและสุ่มตัวอย่างซ้ำของอัตราส่วนความไม่สมดุลกลางและสูง


การเปรียบเทียบวิธีการใส่ค่าสูญหาย ในตัวแบบการถดถอยเชิงเส้นพหุที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่สัมพันธ์กัน, ศุภสันติ์ ดีมาก Jan 2022

การเปรียบเทียบวิธีการใส่ค่าสูญหาย ในตัวแบบการถดถอยเชิงเส้นพหุที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่สัมพันธ์กัน, ศุภสันติ์ ดีมาก

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีจุดประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ ที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่มีความสัมพันธ์กัน ในการศึกษานี้มีวิธีการที่ถูกพัฒนาขึ้นคือ Expected Regression Imputation (ERI) และ Conditional Expected Regression Imputation (CERI) โดยจะเปรียบเทียบประสิทธิภาพวิธีการที่พัฒนาขึ้นมากับอีก 3 วิธีการ ได้แก่ วิธี K-Nearest Neighbor Imputation (KNN), วิธี Expectation Maximization Algorithm (EM) และ วิธี Predictive Mean Matching Imputation (PMM) ) การศึกษานี้ได้ควบคุมปัจจัยความแปรปรวนของตัวแปรอิสระ, ความสัมพันธ์ของตัวแปรอิสระ, ส่วนเบี่ยงเบนมาตรฐานค่าความคลาดเคลื่อน, ร้อยละการสูญหายและระดับ Nonignorability โดยวิธีการที่ให้ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average mean square error) น้อยที่สุดจะเป็นวิธีการที่มีประสิทธิภาพสูงที่สุด ผลการวิจัยพบว่า เมื่อข้อมูลมีการกระจายตัวสูงและกลางวิธี KNN มีประสิทธิภาพสูงสุดในทุกกรณีที่ศึกษา แต่ถ้าข้อมูลกระจายตัวต่ำ วิธี KNN จะดีเมื่อกรณีตัวแปรมีความสัมพันธ์กันสูงและร้อยละการสูญหายต่ำ วิธี EM จะประสิทธิภาพสูงเมื่อร้อยละการสูญหายสูงในทุกระดับความสัมพันธ์ วิธี ERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงบวกในระดับกลางลงไปในเกือบทุกกรณีที่ศึกษา วิธี CERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงลบในระดับกลางลงไปและร้อยละการสูญหายต่ำ


An Application Of Reinforcement Learning To Credit Scoring Based On The Logistic Bandit Framework, Kantapong Visantavarakul Jan 2022

An Application Of Reinforcement Learning To Credit Scoring Based On The Logistic Bandit Framework, Kantapong Visantavarakul

Chulalongkorn University Theses and Dissertations (Chula ETD)

This study applies reinforcement learning to credit scoring by using the logistic bandit framework. The credit scoring and the credit underwriting are modeled into a single sequential decision problem where the credit underwriter takes a sequence of actions over an indefinite number of time steps. The traditional credit scoring approach considers the model construction separately from the underwriting process. This approach is identified as a greedy algorithm in the reinforcement learning literature, which is commonly believed to be inferior to an efficient reinforcement learning approach such as Thompson sampling. This is true under the simple setting, i.e., granting credit to …


A Comparison Of Imbalanced Data Handling Methods For Pre-Trained Model In Multi-Label Classification Of Stack Overflow, Arisa Umparat Jan 2022

A Comparison Of Imbalanced Data Handling Methods For Pre-Trained Model In Multi-Label Classification Of Stack Overflow, Arisa Umparat

Chulalongkorn University Theses and Dissertations (Chula ETD)

Tag classification is essential in Stack Overflow. Instead of combining through pages or replies of irrelevant information, users can easily and quickly pinpoint relevant posts and answers using tags. Since User-submitted posts can have multiple tags, classifying tags in Stack Overflow can be challenging. This results in an imbalance problem between labels in the whole labelset. Pretrained deep learning models with small datasets can improve tag classification accuracy. Common multi-label resampling techniques with machine learning classifiers can also fix this issue. Still, few studies have explored which resampling technique can improve the performance of pre-trained deep models for predicting tags. …


Multi-Output Learning For Predicting Evaluation And Reopening Of Github Pull Requests On Open-Source Projects, Peerachai Banyongrakkul Jan 2022

Multi-Output Learning For Predicting Evaluation And Reopening Of Github Pull Requests On Open-Source Projects, Peerachai Banyongrakkul

Chulalongkorn University Theses and Dissertations (Chula ETD)

GitHub's pull-based development model is widely used by software development teams to manage software complexity. Contributors create pull requests for merging changes into the main codebase, and integrators review these requests to maintain quality and stability. However, a high volume of pull requests can overburden integrators, causing feedback delays. Previous studies have used machine learning and statistical techniques with tabular data as features, but these may lose meaningful information. Additionally, acceptance and latency may not be sufficient for the pull request evaluation. Moreover, reopened pull requests can add maintenance costs and burden already-busy developers. This thesis proposes a novel multi-output …


การวิเคราะห์ข้อมูลด้วยภาพเพื่อการจัดซื้อหนังสือด้วยข้อมูลบรรณานุกรมของสำนักงานวิทยทรัพยากร จุฬาลงกรณ์มหาวิทยาลัย, ธนศาสตร์ ทักษิณ Jan 2021

การวิเคราะห์ข้อมูลด้วยภาพเพื่อการจัดซื้อหนังสือด้วยข้อมูลบรรณานุกรมของสำนักงานวิทยทรัพยากร จุฬาลงกรณ์มหาวิทยาลัย, ธนศาสตร์ ทักษิณ

Chulalongkorn University Theses and Dissertations (Chula ETD)

ปัจจุบันการจัดซื้อหนังสือของสำนักงานวิทยทรัพยากร จุฬาลงกรณ์มหาวิทยาลัยจะจัดซื้อตามคำแนะนำของผู้ใช้งานและประสบการณ์ของบรรณารักษ์ โดยส่วนมากจะจัดซื้อหนังสือที่สอดคล้องกับหลักสูตรการเรียนการสอนซึ่งยังไม่ตรงตามความต้องการของผู้ใช้งาน การวิจัยนี้เป็นการเปรียบเทียบประสิทธิภาพการจัดซื้อหนังสือก่อนและหลังการใช้โปรแกรมเพื่อตัดสินใจซื้อ ซึ่งสามารถวางแผนการจัดซื้อหนังสือได้อย่างมีประสิทธิภาพ โดยแสดงภาพปริมาณและราคาที่เหมาะสมของหนังสือแต่ละเล่มที่ตรงกับความต้องการของผู้ใช้จริง ผู้วิจัยได้คัดเลือกบรรณารักษ์ของสำนักงานวิทยทรัพยากรฯ แบบเจาะจงในการทําวิจัยและศึกษาความต้องการของผู้ใช้งานในการซื้อหนังสือของสำนักงานวิทยทรัพยากรฯ และพัฒนาโปรแกรมการแนะนำหนังสือโดยให้บรรณารักษ์เป็นผู้ทดสอบคุณภาพโปรแกรม การทดสอบใช้ข้อมูลหนังสือจากสำนักงานวิทยทรัพยากรฯ ที่ตีพิมพ์ในช่วงปี ค.ศ. 2010-2019 โดยใช้ค่าดัชนีแจ็คการ์ดวัดประสิทธิภาพการแนะนำหนังสือของโปรแกรมซึ่งคือค่าความคล้ายคลึงของการเลือกหนังสือก่อนและหลังใช้ภาพแสดงข้อมูลจากโปรแกรมในสถานการณ์ต่าง ๆ 8 สถานการณ์ ผลการทดสอบคือบรรณารักษ์สามารถเลือกหนังสือคล้ายคลึงกับภาพที่โปรแกรมแนะนำคือการใช้ภาพแสดงข้อมูลสามารถบอกข้อดีและข้อเสียของการเลือกซื้อหนังสือด้วยวิธีปัจจุบันและสามารถแนะนำเงื่อนไขเพิ่มเติมเพื่อให้วิธีการเลือกซื้อหนังสือในปัจจุบันมีประสิทธิภาพมากขึ้น


การเปรียบเทียบวิธีในการพยากรณ์ราคาหุ้นด้วยแบบจำลองอารีม่า, โครงข่ายประสาทเทียม และตัวแบบผสม, กาญจน์ภิวรรณ จงศิริวิโรจ Jan 2021

การเปรียบเทียบวิธีในการพยากรณ์ราคาหุ้นด้วยแบบจำลองอารีม่า, โครงข่ายประสาทเทียม และตัวแบบผสม, กาญจน์ภิวรรณ จงศิริวิโรจ

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการพยากรณ์ราคาปิดหุ้นรายวันในอนาคต โดยใช้ตัวแบบอารีม่าซึ่งสร้างจากวิธีการค้นหาแบบกริด โครงข่ายประสาทเทียมและตัวแบบผสมในการพยากรณ์ราคาของหุ้น ภายใต้ตัวอย่างหุ้นที่ถูกเลือกมาตามระดับความผันผวนจากสูงไปต่ำ ในกลุ่มอุตสาหกรรมเทคโนโลยีและชิ้นส่วนอิเล็กทรอนิกส์ ได้แก่ HANA, DELTA และ SVI ตามลำดับ โดยเก็บข้อมูลราคาปิดรายวันของหุ้นตั้งแต่เดือนตุลาคม พ.ศ. 2559 ถึงเดือนตุลาคม พ.ศ. 2564 ( 5 ปีย้อนหลัง ) ซึ่งอาศัยการแบ่งชุดข้อมูลฝึกสอนด้วยวิธี ตรวจสอบไขว้ (rolling forward validation) ทั้งวิธีตรวจสอบไขว้แบบสะสม และวิธีตรวจสอบไขว้แบบ moving window ซึ่งผลการวิจัยพบว่า เมื่อใช้ค่าเฉลี่ยของร้อยละความผิดพลาดสัมบูรณ์เป็นเกณฑ์ในการคัดเลือกตัวแบบ ทั้งสองวิธีการแบ่งชุดข้อมูลย่อยนั้น โครงข่ายประสาทเทียมมีความแม่นยำมากที่สุดในการพยากรณ์ราคาปิดของหุ้น HANA, DELTA และ SVI รวมถึงตัวแบบผสมดังกล่าวไม่จำเป็นต้องมีประสิทธิภาพดีกว่าการใช้แต่ละตัวแบบเพียงลำพังเสมอไป ตัวแบบอารีม่าซึ่งสร้างจากวิธีการค้นหาแบบกริดสามารถพยากรณ์ได้ดีกว่าในหุ้นที่มีระดับความผันผวนกลางและระดับต่ำ ในขณะที่โครงข่ายประสาทเทียมสามารถพยากรณ์ได้ดีในทุกระดับความผันผวนราคาหุ้น


การพยากรณ์ปริมาณน้ำฝนระยะสั้นในบริเวณพื้นที่สนามบินสุวรรณภูมิด้วยโครงข่ายระบบประสาทแบบย้อนกลับ, รักษ์คณา ภูสีเขียว Jan 2021

การพยากรณ์ปริมาณน้ำฝนระยะสั้นในบริเวณพื้นที่สนามบินสุวรรณภูมิด้วยโครงข่ายระบบประสาทแบบย้อนกลับ, รักษ์คณา ภูสีเขียว

Chulalongkorn University Theses and Dissertations (Chula ETD)

ปริมาณน้ำฝนนับเป็นปัจจัยสำคัญอย่างหนึ่งที่มีผลต่อการดำเนินชีวิตของมนุษย์ การพยากรณ์ปริมาณน้ำฝนที่มีความแม่นยำช่วยให้มนุษย์เตรียมพร้อมสำหรับกิจกรรมต่างๆ ที่จะเกิดขึ้นในอนาคตได้ดี อย่างไรก็ตามในบางสถานการณ์ความพร้อมใช้งานของข้อมูลสภาพอากาศมีจำกัด ทำให้การพยากรณ์ปริมาณน้ำฝนอย่างแม่นยำนั้นเป็นเรื่องที่ยาก ปัจจุบันหลายๆ งานวิจัยที่เกี่ยวข้องได้เลือกโครงข่ายประสาทเทียมเชิงลึกเป็นอัลกอริทึมในการฝึกแบบจำลองเพื่อใช้ในการพยากรณ์ แนวคิดหลักคือการสร้างตัวแปรคุณลักษณะ (Feature) ที่เกี่ยวข้องในระดับสถาปัตยกรรม จากหลักการนี้สถาปัตยกรรมโครงข่ายประสาทเทียมเชิงลึกที่เหมาะสมสามารถผสมผสานและจับคู่คุณลักษณะที่เกี่ยวข้องในการพยากรณ์ได้อย่างเหมาะสม ผลที่ตามมางานวิจัยที่มีอยู่ส่วนใหญ่จึงมุ่งเน้นไปที่เทคนิคบางอย่างเพื่อปรับปรุงประสิทธิภาพของแบบจำลองโดยไม่ได้ให้ความสำคัญกับการเพิ่มคุณลักษณะให้กับตัวแบบมากนัก อย่างไรก็ตามเมื่อข้อมูลการฝึกฝนมีจำนวนจำกัดโครงข่ายประสาทเทียมเชิงลึกอาจจะทำงานได้ไม่เต็มประสิทธิภาพมากนัก ทำให้การผสมผสานและจับคู่คุณลักษณะที่เกี่ยวข้องในการพยากรณ์ทำได้ไม่ดีตามไปด้วย สิ่งนี้ทำให้เกิดคำถามงานวิจัยว่าแบบจำลองการพยากรณ์ปริมาณน้ำฝนที่ได้ถูกนำเสนอมีประสิทธิภาพที่ดีเพียงพอหรือไม่ เมื่อไม่ได้มีการเพิ่มคุณสมบัติที่เกี่ยวข้องให้กับแบบจำลอง งานวิจัยนี้จึงมีวัตถุประสงค์เพื่อพัฒนาและเปรียบเทียบประสิทธิภาพของแบบจำลองต่างๆ ในการพยากรณ์ปริมาณน้ำฝนสะสมในระยะสั้นที่มีและไม่มีการเพิ่มตัวแปรคุณสมบัติที่เกี่ยวข้อง โดยได้แบ่งการทดลองออกเป็น 2 ส่วนเพื่อวัดประสิทธิภาพ คือ 1) การเปรียบเทียบประสิทธิภาพของตัวแบบที่มีการเพิ่มตัวแปรคุณลักษณะที่เกี่ยวข้องว่ามีความถูกต้องแม่นยำดีขึ้นหรือไม่เมื่อเทียบกับแบบจำลองที่ไม่ได้มีการเพิ่มตัวแปรคุณลักษณะในสภาพแวดล้อมที่เทียบเท่ากัน และ 2) การเปรียบเทียบประสิทธิภาพในการพยากรณ์ปริมาณน้ำฝนสะสมของแบบจำลองที่สนใจศึกษา ได้แก่ ARIMA ARIMAX RNN LSTM และ GRU ข้อมูลที่นำมาใช้ในงานวิจัยนี้เป็นข้อมูลสภาพอากาศและปริมาณน้ำฝนสะสมที่รวบรวบมาจากพื้นที่สนามบินสุวรรณภูมิ จากผลการศึกษาทั้ง 2 ส่วนพบว่าการเพิ่มตัวแปรคุณลักษณะสามารถเพิ่มประสิทธิภาพการพยากรณ์ให้กับตัวแบบได้ในกรณีที่ข้อมูลที่นำมาฝึกฝนตัวแบบมีจำนวนจำกัด โดย แบบจำลอง GRU ให้ประสิทธิภาพในการพยากรณ์มากที่สุด


การพยากรณ์อนุกรมเวลาด้วยตัวแบบผสมระหว่าง Arimax และการถดถอยพหุนาม, วนิดา วงศ์วัฒนบัณฑิต Jan 2021

การพยากรณ์อนุกรมเวลาด้วยตัวแบบผสมระหว่าง Arimax และการถดถอยพหุนาม, วนิดา วงศ์วัฒนบัณฑิต

Chulalongkorn University Theses and Dissertations (Chula ETD)

การศึกษาครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบความถูกต้องของการพยากรณ์อนุกรมเวลาที่ได้จาก 3 ตัวแบบ คือ ตัวแบบ ARIMA, ตัวแบบ ARIMAX และตัวแบบผสมระหว่าง ARIMAX และการถดถอยพหุนาม ซึ่งใช้ชุดข้อมูลจริงของราคาหุ้น AMATA และหุ้น KBANK ในการศึกษา ครั้งนี้ได้ทำการแบ่งข้อมูลออกเป็น 2 ชุด คือ ชุดที่ 1 สำหรับการสร้างตัวแบบการพยากรณ์ และชุดที่ 2 สำหรับการตรวจสอบความถูกต้องของตัวแบบพยากรณ์ โดยเกณฑ์ที่ใช้เปรียบเทียบความถูกต้องของตัวแบบ คือ รากที่สองของค่าคลาดเคลื่อนกำลังสองเฉลี่ย (Root Mean Square Error: RMSE) โดยตัวแบบที่ให้ค่า RMSE ต่ำที่สุด จะเป็นตัวแบบที่เหมาะสมที่สุด จากผลการศึกษาพบว่า ตัวแบบผสมระหว่าง ARIMAX และการถดถอยพหุนาม เป็นตัวแบบที่เหมาะสมที่สุดในการพยากรณ์ราคาหุ้น AMATA และหุ้น KBANK


การศึกษาเปรียบเทียบการประมาณค่าจากตัวแบบการถดถอย สำหรับข้อมูลที่มีการแจกแจงแบบล็อกนอร์มอล ที่ถูกตัดปลายทางขวาแบบสุ่มที่มีการแจกแจงแบบเบตา, ธัญพิชชา ยอดแก้ว Jan 2021

การศึกษาเปรียบเทียบการประมาณค่าจากตัวแบบการถดถอย สำหรับข้อมูลที่มีการแจกแจงแบบล็อกนอร์มอล ที่ถูกตัดปลายทางขวาแบบสุ่มที่มีการแจกแจงแบบเบตา, ธัญพิชชา ยอดแก้ว

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบการประมาณค่าจากตัวแบบการถดถอย สำหรับข้อมูลที่มีการแจกแจงแบบล็อกนอร์มอล ที่ถูกตัดปลายทางขวาแบบสุ่มที่มีการแจกแจงแบบเบตา ด้วยวิธีการประมาณค่าแบบกำลังสองต่ำสุด (OLS) วิธีของแชตเทอร์จีและแมคลีช (CM) วิธีภาวะน่าจะเป็นสูงสุดด้วยขั้นตอนวิธีอีเอ็ม (MLE_EM) วิธีภาวะน่าจะเป็นสูงสุดด้วยขั้นตอนอีเอ็ม เมื่อมีการปรับค่าข้อมูลก่อนคำนวณด้วยค่าเฉลี่ย (MLE_EM_MEAN) และวิธีภาวะน่าจะเป็นสูงสุดด้วยขั้นตอนอีเอ็ม เมื่อมีการปรับค่าข้อมูลก่อนคำนวณด้วยค่ามัธยฐาน (MLE_EM_MED) เปรียบเทียบจากค่าประสิทธิภาพสัมพัทธ์ของค่าเฉลี่ยของค่าคลาดเคลื่อนกำลังสอง โดยจำลองข้อมูลทั้งหมด 2187 สถานการณ์ จากการศึกษาพบว่า 1) เมื่อข้อมูลมีขนาดเล็กหรือปานกลาง (n=30,50) และมีเปอร์เซ็นต์ในการถูกตัดปลายทางขวาน้อย (r1=10) วิธี OLS และ CM เป็นวิธีที่มีประสิทธิภาพสูงสุด แตกต่างกันตามลักษณะการกระจายตัวของตัวแปรอิสระและความคลาดเคลื่อน 2) วิธีในกลุ่ม MLE_EM มีประสิทธิภาพสูงสุด เมื่อตัวอย่างขนาดปานกลาง (n=50) ถูกตัดปลายทางขวาปานกลางหรือมาก (r1=20,30) และตัวอย่างขนาดใหญ่ (n=100) โดยแบ่งตามช่วงการเข้ามาของข้อมูล เมื่อข้อมูลเข้ามาในช่วงต้นของการเปิดรับ วิธี MLE_EM_MED มีประสิทธิภาพสูงสุด ในขณะที่เมื่อข้อมูลเข้ามาในช่วงกลางของการเปิดรับ วิธีในกลุ่ม MLE_EM จะมีประสิทธิภาพสูงสุด และเมื่อข้อมูลเข้ามาในช่วงท้ายของการเปิดรับ วิธี MLE_EM และ MLE_EM_MEAN เป็นวิธีที่มีประสิทธิภาพสูงสุด 3) ทุกวิธีมีประสิทธิภาพมากขึ้นเมื่อตัวอย่างมีขนาดใหญ่ขึ้น หรือข้อมูลถูกตัดปลายทางขวาน้อยลง หรือสัดส่วนของช่วงเวลาที่เปิดรับข้อมูลเข้ามาเพื่อศึกษาต่อช่วงเวลาที่ศึกษาข้อมูลลดลง หรือความคลาดเคลื่อนกระจายตัวน้อยกว่าตัวแปรอิสระ


การวิเคราะห์โครงข่ายของโรคที่เกิดร่วมกันในผู้สูงอายุไทย, อรพินท์ สิงห์โตทอง Jan 2021

การวิเคราะห์โครงข่ายของโรคที่เกิดร่วมกันในผู้สูงอายุไทย, อรพินท์ สิงห์โตทอง

Chulalongkorn University Theses and Dissertations (Chula ETD)

ภาวะโรคร่วม หรือ Comorbidity คือการเกิดโรคร่วมกันตั้งแต่สองโรคขึ้นไปในผู้ป่วยรายเดียวและเป็นประเด็นที่น่าสนใจทางด้านสาธารณสุข ผู้วิจัยจึงมีความสนใจศึกษาการวิเคราะห์โครงข่ายของภาวะโรคร่วมในผู้สูงอายุไทยโดยมีการเปรียบเทียบรูปแบบของโครงข่ายของภาวะโรคร่วม โดยใช้ข้อมูลประวัติการเข้ารับการรักษาของผู้ป่วยที่มีอายุตั้งแต่ 60 ปีขึ้นไป ในปี พ.ศ.2562 ที่ได้จากฐานข้อมูลผู้ป่วยภายใต้สำนักงานหลักประกันสุขภาพแห่งชาติ จากการศึกษาพบว่า การกำหนดรูปแบบและเกณฑ์ในการแบ่งรูปแบบปฏิสัมพันธ์ที่แตกต่างกันสำหรับการแสดงผลของโครงข่ายนั้นจะมีข้อดี ข้อเสียแตกต่างกัน สำหรับกรณีที่ผู้ศึกษาต้องการดูภาพรวมของโครงข่ายทั้งหมดว่ามีโรคใดบ้างที่พบมากเป็นลำดับแรก ๆ ควรกำหนดให้เกณฑ์ค่าความชุกในตำแหน่งเปอร์เซ็นไทล์ที่ต่ำ เพื่อให้โครงข่ายแสดงโหนดออกมาในจำนวนมากแต่ทั้งนี้อาจจะไม่เหมาะสำหรับการดูประเภทของรูปแบบปฏิสัมพันธ์เนื่องจากอาจเกิดเส้นเชื่อมจำนวนมากทำให้มีโครงข่ายความซับซ้อน สำหรับกรณีที่ต้องการทราบว่า โรคใดบ้างที่มีความสัมพันธ์กันสูง ควรจะกำหนดเกณฑ์ค่าลิฟต์ให้มีค่าสูง เนื่องจากค่าลิฟต์เป็นค่าที่บ่งบอกถึงระดับความสัมพันธ์ระหว่างคู่โหนดนั่นเอง และการกำหนดคุณลักษณะที่เหมาะสมให้กับส่วนประกอบของโครงข่ายจะทำให้เข้าใจถึงภาวะโรคร่วมได้ดี และโดยทั่วไปแล้วผู้วิจัยแนะนำให้ใช้การแสดงผลแบบ Fruchterman-Reingold เนื่องจากเป็นรูปแบบที่มีการกำหนดให้แต่ละเส้นเชื่อมตัดกันน้อยที่สุด รวมถึงการกระจายของโหนดอย่างเท่าเทียมทำให้โครงข่ายที่ได้มีความสวยงามและเข้าใจง่าย หรือทั้งนี้ผู้ใช้งานอาจจะพิจารณาจากหลายโครงข่ายประกอบกัน


การเปรียบเทียบวิธีบูตแสตรปในการประมาณช่วงความเชื่อมั่นของค่าสัมประสิทธิ์การถดถอยเชิงเส้นที่มีมิติสูงด้วยวิธีลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์, พริษฐ์ ชาญเชิงพานิช Jan 2021

การเปรียบเทียบวิธีบูตแสตรปในการประมาณช่วงความเชื่อมั่นของค่าสัมประสิทธิ์การถดถอยเชิงเส้นที่มีมิติสูงด้วยวิธีลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์, พริษฐ์ ชาญเชิงพานิช

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเสนอวิธีบูตแสตรปตัวประมาณสัมประสิทธิ์การถดถอยลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์ ซึ่งเป็นตัวประมาณแบบ 2 ขั้นตอน คือใช้วิธีลาสโซ่แบบปรับปรุงในการคัดเลือกตัวแปรอิสระจากนั้นใช้วิธีริดจ์ในการประมาณค่าสัมประสิทธิ์การถดถอย และเปรียบเทียบกับวิธีบูตแสตรปตัวประมาณสัมประสิทธิ์การถดถอยลาสโซ่และพาร์เชียลริดจ์ โดยทดลองบูตแสตรป 2 วิธีคือ วิธีสุ่มส่วนเหลือและวิธีสุ่มตัวแปรตามพร้อมกับตัวแปรอิสระ ซึ่งเกณฑ์ที่ใช้วัดประสิทธิภาพคือ ความกว้างของช่วงความเชื่อมั่น ความน่าจะเป็นครอบคลุม อัตราผลบวกเทียม และอัตราผลลบเทียม งานวิจัยนี้ศึกษาสัมประสิทธิ์การถดถอยใน 2 ลักษณะได้แก่ บางเบาอย่างอ่อนและบางเบาอย่างรุนแรง และจำลองข้อมูลจากการแจกแจงแบบปกติหลายตัวแปรโดยใช้เมทริกซ์ความแปรปรวนร่วมของค่าคลาดเคลื่อนที่แตกต่างกัน ทั้งหมด 8 กรณี ผลการศึกษาพบว่าวิธีบูตแสตรปแบบสุ่มส่วนเหลือตัวประมาณลาสโซ่แบบปรับปรุงและพาร์เชียลริดจ์มีประสิทธิภาพสูงสุดในแง่การให้ความกว้างของช่วงความเชื่อมั่นโดยเฉลี่ยสั้นที่สุดในเกือบทุกกรณี และวิธีบูตแสตรปแบบสุ่มตัวแปรตามพร้อมกับตัวแปรอิสระตัวประมาณลาสโซ่และพาร์เชียลริดจ์มีประสิทธิภาพสูงสุดเมื่อพิจารณาด้วยเกณฑ์อัตราผลบวกเทียม อย่างไรก็ตาม เมื่อพิจารณาด้วยเกณฑ์ความน่าจะเป็นครอบคลุมและอัตราผลลบเทียมพบว่าไม่ปรากฏวิธีการบูตแสตรปแบบใดแบบหนึ่งที่มีประสิทธิภาพสูงสุดอย่างชัดเจน


การเปรียบเทียบประสิทธิภาพของโมเดลการถดถอยเชิงลำดับชั้นที่มีอัตสหสัมพันธ์เชิงพื้นที่และโมเดลการถดถอยพหุระดับสำหรับการทำนายความอยู่ดีมีสุขของนักเรียน, ประภาพรรณ ยดย้อย Jan 2021

การเปรียบเทียบประสิทธิภาพของโมเดลการถดถอยเชิงลำดับชั้นที่มีอัตสหสัมพันธ์เชิงพื้นที่และโมเดลการถดถอยพหุระดับสำหรับการทำนายความอยู่ดีมีสุขของนักเรียน, ประภาพรรณ ยดย้อย

Chulalongkorn University Theses and Dissertations (Chula ETD)

ความอยู่ดีมีสุขของนักเรียนเป็นสิ่งสำคัญทางการศึกษาเชิงบวกและโรงเรียนมีบทบาทสำคัญในการสร้างเสริมให้นักเรียนทุกคนมีความอยู่ดีมีสุข การวิจัยครั้งนี้มีวัตถุประสงค์ 2 ประการ คือ (1) เพื่อวิเคราะห์ลักษณะความอยู่ดีมีสุขของนักเรียน บรรยากาศโรงเรียน และความร่วมมือระหว่างโรงเรียนจำแนกตามภูมิหลังและพื้นที่ (2) เพื่อเปรียบเทียบและวิเคราะห์ปัจจัยเชิงสาเหตุของความอยู่ดีมีสุขของนักเรียนระหว่างโมเดลการถดถอยเชิงลำดับชั้นที่มีอัตสหสัมพันธ์เชิงพื้นที่ (Hierarchical Spatial Autoregressive Model: HSAR) กับโมเดลการถดถอยพหุระดับ (Multilevel Regression Model: MLM) ด้วยวิธีการประมาณค่าแบบเบย์ (Bayesian estimation) และใช้อัลกอรึทึมการสุ่มตัวอย่างด้วยลูกโซ่มาร์คอฟมอนติคาร์โล (Markov Chain Monte Carlo) โดยใช้ข้อมูลจริงจากนักเรียน 1,981 คน และคุณครู 282 คน ของโรงเรียนในจังหวัดเชียงใหม่จำนวน 55 โรงเรียน ด้วยวิธีการสุ่มตัวอย่างแบบหลายขั้นตอน มีตัวแปรทำนายสำคัญ คือ บรรยากาศโรงเรียน และความร่วมมือระหว่างโรงเรียนซึ่งมีปฏิสัมพันธ์ข้ามระดับ (cross-level interaction term) ของความร่วมมือระหว่างโรงเรียนกับบรรยากาศโรงเรียนโดยความร่วมมือระหว่างโรงเรียนเป็นตัวแปรปรับ (moderator) และมีผลสัมฤทธิ์ทางการเรียนเป็นตัวแปรควบคุม (covariate) ผลการวิจัยพบว่า โมเดลทั้งสองมีประสิทธิภาพในการทำนายความอยู่ดีมีสุขของนักเรียนใกล้เคียงกัน (R2 MLM = 0.534, R2 HSAR = 0.529, LLMLM = -2039.6, LLHSAR = -2389.75, DICMLM = 4151.91, DICHSAR = 4955.43) แต่ให้สารสนเทศในมุมมองที่แตกต่างกัน โดยโมเดล HSAR จะให้รายละเอียดได้มากกว่าโดยเฉพาะการแสดงให้เห็นถึงอิทธิพลของความสัมพันธ์เชิงพื้นที่อย่างมีนัยสำคัญ (Lambda = 0.70 , SE = 0.30) ในขณะที่โมเดล MLM ไม่สามารถให้ผลวิเคราะห์ส่วนนี้ได้อีกทั้งยังตรวจพบอัตสหสัมพันธ์เชิงพื้นที่ในเศษเหลือของโมเดล MLM (Moran’s I = 0.09, p-value = 0.031) ซึ่งเป็นการละเมิดข้อตกลงเบื้องต้นของการวิเคราะห์ถดถอยอีกด้วย โมเดล HSAR จึงเป็นโมเดลที่เหมาะสมในการอธิบายปัจจัยเชิงสาเหตุของความอยู่ดีมีสุขของนักเรียนมากกว่า ผลการวิเคราะห์จากโมเดล HSAR …


แนวทางการส่งเสริมความฉลาดรู้ทางการเงินของนักเรียนมัธยมศึกษาตอนปลาย: การวิเคราะห์โมเดล สมการโครงสร้างพหุระดับ, ประกายแก้ว ไกรสงคราม Jan 2021

แนวทางการส่งเสริมความฉลาดรู้ทางการเงินของนักเรียนมัธยมศึกษาตอนปลาย: การวิเคราะห์โมเดล สมการโครงสร้างพหุระดับ, ประกายแก้ว ไกรสงคราม

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยนี้มีวัตถุประสงค์เพื่อ 1) พัฒนาโมเดลสมการโครงสร้างพหุระดับของความฉลาดรู้ทางการเงินของนักเรียน 2) ตรวจสอบความสอดคล้องเชิงประจักษ์ของโมเดลสมการโครงสร้างพหุระดับของความฉลาดรู้ทางการเงินของนักเรียน และ 3) นำเสนอแนวทางการส่งเสริมและสนับสนุนการจัดการเรียนรู้เกี่ยวกับความฉลาดรู้ทางการเงินให้แก่นักเรียน ผู้วิจัยดำเนินการวิจัย 2 ระยะ ระยะที่ 1 การพัฒนาโมเดลสมการโครงสร้างพหุระดับความฉลาดรู้ทางการเงินของนักเรียน ตัวอย่างที่ใช้ในการวิจัยประกอบด้วย นักเรียน ครู และผู้บริหารโรงเรียน รวมทั้งสิ้น 2,073 คน ใช้การสุ่มแบบแบ่งชั้น ตามภูมิภาคและขนาดโรงเรียน เก็บรวบรวมข้อมูลโดยใช้แบบสอบถามออนไลน์ที่พัฒนาขึ้นให้มีคุณสมบัติการวัดเชิงจิตมิติ ส่วนระยะที่ 2 การศึกษาแนวทางการส่งเสริมความฉลาดรู้ทางการเงินของนักเรียน เก็บข้อมูลโดยการสัมภาษณ์ นักเรียน ครู และผู้บริหาร รวม 22 คน วิเคราะห์ข้อมูลโดยใช้สถิติเชิงบรรยายประกอบด้วย ความถี่ ร้อยละ ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ค่าความเบ้ ความโด่ง และค่าสัมประสิทธิ์ สหสัมพันธ์ ส่วนการวิเคราะห์อิทธิพลระหว่างตัวแปรในการศึกษาครั้งนี้จะวิเคราะห์ด้วยโมเดลสมการโครงสร้างพหุระดับ (3 ระดับ) โดยใช้โปรแกรม MPLUS ผลการวิจัยมีดังนี้ 1.โมเดลสมการโครงสร้างพหุระดับของความฉลาดรู้ทางการเงินของนักเรียนแบ่งออกเป็น 3 ระดับ ประกอบด้วยโมเดลระดับนักเรียน ระดับห้องเรียน และระดับโรงเรียน ตัวแปรระดับนักเรียนประกอบด้วย การปลูกฝังด้านการเงินจากครอบครัว ประสบการณ์ทางการเงินของนักเรียน และความฉลาดรู้ทางการเงินของนักเรียน โดยการปลูกฝังด้านการเงินจากครอบครัวเป็นปัจจัยที่มีอิทธิพลทางตรงต่อความฉลาดรู้ทางการเงินของนักเรียนและอ้อมผ่านประสบการณ์ทางการเงินของนักเรียน ตัวแปรระดับห้องเรียน ประกอบด้วยความฉลาดรู้ทางการเงินของครูและกระบวนการจัดการเรียนรู้ของครูด้านการเงิน โดยความฉลาดรู้ทางการเงินของครูมีอิทธิพลต่อกระบวนการจัดการเรียนรู้ของครูด้านการเงิน ในขณะที่ตัวแปรระดับโรงเรียนมีเพียงปัจจัยเดียวคือ การสนับสนุนของโรงเรียนด้านการจัดการเรียนรู้ทางการเงิน ซึ่งมีอิทธิพลต่อความฉลาดรู้ทางการเงินของครูและกระบวนการจัดการเรียนรู้ของครูด้านการเงินในระดับห้องเรียน นอกจากนี้กระบวนการจัดการเรียนรู้ของครูด้านการเงินมีอิทธิพลต่อความฉลาดรู้ทางการเงินของนักเรียนในระดับนักเรียนด้วย 2.โมเดลสมการโครงสร้างพหุระดับของความฉลาดรู้ทางการเงินของนักเรียนสอดคล้องกับข้อมูลเชิงประจักษ์ (chi² = 266.25, df = 140, p = .000, CFI = 0.979, TLI = 0.972, RMSEA = 0.021) ผลการวิเคราะห์พบว่า การปลูกฝังด้านการเงินจากครอบครัวมีอิทธิพลทางตรงต่อความฉลาดรู้ ทางการเงินของนักเรียนและประสบการณ์ทางการเงินของนักเรียนด้วยขนาด .616 และ .368 ตามลำดับ อย่างมีนัยสำคัญทางสถิติที่ระดับ .05 นอกจากนี้การปลูกฝังด้านการเงินจากครอบครัวยังส่งอิทธิพล โดยอ้อมผ่านประสบการณ์ทางการเงินของนักเรียนไปยังความฉลาดรู้ทางการเงินของนักเรียนด้วยขนาด .337 โดยสรุปแล้วมีค่าอิทธิพลโดยรวมขนาด .953 …


การฝึกปรปักษ์เสมือนด้วยการรบกวนแบบถ่วงน้ำหนักโทเค็นในการจัดประเภทข้อความ, ธีรพงศ์ แซ่ลิ้ม Jan 2021

การฝึกปรปักษ์เสมือนด้วยการรบกวนแบบถ่วงน้ำหนักโทเค็นในการจัดประเภทข้อความ, ธีรพงศ์ แซ่ลิ้ม

Chulalongkorn University Theses and Dissertations (Chula ETD)

การจัดประเภทข้อความ (Text classification) เป็นกระบวนการคัดแยกข้อความให้เป็นหมวดหมู่อย่างถูกต้อง ตัวแบบจำลองการฝึกอบรมล่วงหน้าโดยใช้ตัวเข้ารหัสแบบสองทิศจากทรานฟอร์เมอร์ หรือเรียกว่า BERT ช่วยทำให้ตัวแบบจำลองเรียนรู้บริบทของคำแบบสองทิศทาง ส่งผลให้สามารถจัดประเภทข้อความได้อย่างมีประสิทธิภาพและแม่นยำ ถึงแม้ว่าตัวแบบจำลอง BERT และตัวแบบจำลองที่เกิดขึ้นจากสถาปัตยกรรมนี้ จะสามารถจัดการงานด้านการประมวลผลทางธรรมชาติได้อย่างยอดเยี่ยม แต่กลับพบว่าตัวแบบจำลองนี้ยังพบเจอปัญหา Overfitting กล่าวคือ เมื่ออยู่ในสถานการณ์ที่ชุดข้อมูลในการฝึกอบรมมีจำนวนตัวอย่างน้อย ตัวแบบจำลอง BERT จะให้ความสนใจไปที่คำบางคำมากเกินไปจนไม่สนใจบริบทของประโยค จนทำให้ตัวแบบจำลองไม่สามารถทำนายข้อมูลในชุดการทดสอบได้ถูกต้อง ซึ่งส่งผลในประสิทธิของตัวแบบจำลองลดลง ดังนั้นในงานวิทยานิพนธ์ฉบับนี้จึงเสนอแนวทาง วิธีการฝึกปรปักษ์เสมือนด้วยการรบกวนแบบถ่วงน้ำหนักโทเค็น ซึ่งรวมการรบกวนสองระดับเข้าด้วยกัน ได้แก่ การรบกวนระดับประโยค และการรบกวนแบบถ่วงน้ำหนักโทเค็น เพื่อสร้างการรบกวนที่มีความละเอียดกว่าการฝึกปรปักษ์เสมือนแบบดั้งเดิม ที่อาศัยเพียงการรบกวนระดับประโยคเท่านั้น วิธีการนี้จะช่วยให้ตัวแบบจำลองสามารถเรียนรู้โทเค็นที่สำคัญในประโยค จากการทดลองบนเกณฑ์มาตรฐานการประเมินความเข้าใจภาษาทั่วไป (GLUE) แสดงให้เห็นว่าวิธีการที่นำเสนอสามารถเพิ่มประสิทธิภาพของตัวแบบจำลองโดยได้คะแนนเฉลี่ยร้อยละ 79.5 ซึ่งมีประสิทธิภาพเหนือกว่าตัวแบบจำลอง BERT และสามารถแก้ไขปัญหา Overfitting ในชุดข้อมูลขนาดเล็ก


การทดสอบประสิทธิภาพการแบ่งข้อมูลตัวแปรเดียวด้วยการใช้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำ, วิชญ์ยุตม์ สุขแพทย์ Jan 2021

การทดสอบประสิทธิภาพการแบ่งข้อมูลตัวแปรเดียวด้วยการใช้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำ, วิชญ์ยุตม์ สุขแพทย์

Chulalongkorn University Theses and Dissertations (Chula ETD)

การแบ่งช่วงธรรมชาติเจงค์เป็นวิธีการจัดกลุ่มข้อมูลที่ได้รับความนิยม งานวิจัยนี้ได้นำการแบ่งช่วงธรรมชาติเจงค์มาปรับใช้ด้วยการเพิ่มจำนวนกลุ่มที่ใช้แบ่งเรื่อย ๆ จนกว่าจุดแบ่งแรกของการแบ่งช่วงธรรมชาติเจงค์จะเปลี่ยนแปลงไปน้อยกว่าค่าร้อยละที่กำหนดและใช้จุดแบ่งแรกนั้นในการแบ่งข้อมูลออกเป็น 2 กลุ่ม จากการทดสอบประสิทธิภาพด้วยการจำลองข้อมูลตัวแปรเดียวที่มีการแจกแจงในรูปแบบการแจกแจงปกติแบบผสมและการแจกแจงล็อกปกติแบบผสม 2 กลุ่มและเปรียบเทียบกับวิธีการแบ่งกลุ่มข้อมูลอื่น ๆ พบว่าการแบ่งช่วงธรรมชาติเจงค์แบบซ้ำนั้นไม่มีประสิทธิภาพในการแบ่งข้อมูลแจกแจงปกติแบบผสมเมื่อต้องการให้ได้ความแม่นยำสูงสุด และเหมาะสมกับการใช้ในข้อมูลแจกแจงล็อกปกติแบบผสมเมื่อข้อมูล 2 กลุ่มมีจำนวนใกล้เคียงกันหรือกลุ่มที่ค่าเฉลี่ยสูงกว่ามีจำนวนมากกว่า นอกจากนี้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำใช้เวลาในการแบ่งกลุ่มกว่าวิธีอื่นมาก จึงไม่เหมาะสมที่จะนำมาใช้หากข้อมูลมีจำนวนมาก