Open Access. Powered by Scholars. Published by Universities.®

Physical Sciences and Mathematics Commons

Open Access. Powered by Scholars. Published by Universities.®

Theses/Dissertations

Statistics and Probability

Chulalongkorn University

Articles 1 - 30 of 56

Full-Text Articles in Physical Sciences and Mathematics

Spatio-Temporal Copula-Based Graph Neural Networks For Traffic Forecasting, Pitikorn Khlaisamniang Jan 2022

Spatio-Temporal Copula-Based Graph Neural Networks For Traffic Forecasting, Pitikorn Khlaisamniang

Chulalongkorn University Theses and Dissertations (Chula ETD)

Modern cities heavily rely on complex transportation, making accurate traffic speed prediction crucial for traffic management authorities. Classical methods, including statistical techniques and traditional machine learning techniques, fail to capture complex relationships, while deep learning approaches may have weaknesses such as error accumulation, difficulty in handling long sequences, and overlooking spatial correlations. Graph neural networks (GNNs) have shown promise in extracting spatial features from non-Euclidean graph structures, but they usually initialize the adjacency matrix based on distance and may fail to detect hidden statistical correlations. The choice of correlation measure can have a significant impact on the resulting adjacency matrix …


Multi-Output Learning For Predicting Evaluation And Reopening Of Github Pull Requests On Open-Source Projects, Peerachai Banyongrakkul Jan 2022

Multi-Output Learning For Predicting Evaluation And Reopening Of Github Pull Requests On Open-Source Projects, Peerachai Banyongrakkul

Chulalongkorn University Theses and Dissertations (Chula ETD)

GitHub's pull-based development model is widely used by software development teams to manage software complexity. Contributors create pull requests for merging changes into the main codebase, and integrators review these requests to maintain quality and stability. However, a high volume of pull requests can overburden integrators, causing feedback delays. Previous studies have used machine learning and statistical techniques with tabular data as features, but these may lose meaningful information. Additionally, acceptance and latency may not be sufficient for the pull request evaluation. Moreover, reopened pull requests can add maintenance costs and burden already-busy developers. This thesis proposes a novel multi-output …


การเปรียบเทียบวิธีการคัดเลือกตัวแปรแบบรวมกลุ่ม สำหรับข้อมูลที่มีลักษณะการจำแนกแบบไบนารี, กรชนก ชมเชย Jan 2022

การเปรียบเทียบวิธีการคัดเลือกตัวแปรแบบรวมกลุ่ม สำหรับข้อมูลที่มีลักษณะการจำแนกแบบไบนารี, กรชนก ชมเชย

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานศึกษานี้เปรียบเทียบวิธีการคัดเลือกตัวแปรแบบเดียว (Single-Feature Selection) และแบบรวมกลุ่ม (Ensemble Feature Selection) ซึ่งแบ่งเป็น 2 รูปแบบคือ รูปแบบการรวมลำดับความสำคัญของตัวแปรแล้วตามด้วยการเลือกจำนวนตัวแปรที่มีความสำคัญตามเกณฑ์ที่ระบุ (Design CT: Combination followed by Thresholding) และรูปแบบการการเลือกจำนวนตัวแปรที่มีความสำคัญตามเกณฑ์ที่ระบุแล้วตามด้วยการรวมเซตของตัวแปรที่มีความสำคัญดังกล่าว (Design TC: Thresholding followed by Combination) ผู้ศึกษาได้ใช้การคัดเลือกตัวแปรจากประเภท Filter Wrapper และ Embedded โดยใช้ 10-fold cross validation ในการเปรียบเทียบค่าเฉลี่ยของ F1-score แทนประสิทธิภาพการทำนายและค่าเบี่ยงเบนของ F1-score แทนค่าความเสถียรของการทำนาย ผ่านข้อมูล 3 ชุดได้แก่ Parkinson's Disease dataset (จำนวนตัวแปรต้น(P)=ขนาดข้อมูล(N)), LSVT Voice Rehabilitation dataset (P>N) และ Colon Cancer dataset (P>>N) ใช้ XGBoost เป็นตัวแบบทำนาย จากการศึกษาภายใต้ขอบเขตดังกล่าวพบว่า การคัดเลือกตัวแปรแบบวิธีเดียวด้วย RFE จะให้ผลดีในชุดข้อมูลที่มีมิติมาก P>>N ในเกณฑ์ 2.5% 5% และ 10% แต่การคัดเลือกแบบรวมกลุ่มจะให้ผลการทำนายที่ต่างกันภายใต้ลักษณะมิติของชุดข้อมูลและเกณฑ์ที่เลือกใช้ สำหรับการรวมลำดับความสำคัญของตัวแปรในรูปแบบ Design CT ด้วยค่ากลางและค่าเฉลี่ยเลขคณิตที่เกณฑ์ log2(P) จะให้ผลการทำนายดีกว่าวิธีอื่นใน Design CT ในชุดข้อมูล P>>N แต่สำหรับชุดข้อมูล P=N และ P>N ผลการทำนายจากแต่ละวิธีใน Design CT เพิ่มประสิทธิภาพการทำนายเล็กน้อย และสำหรับ Design TC การรวมเซตของตัวแปรต้นที่มีความสำคัญด้วยวิธีอินเตอร์เซกและมัลติอินเตอร์เซกจะให้ผลดีกว่าวิธียูเนียน สำหรับชุดข้อมูล P>>N ในทุกเกณฑ์ …


การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง, ชานนท์ วรโชติสืบตระกูล Jan 2022

การเปรียบเทียบสถาปัตยกรรมโครงข่ายประสาทคอนโวลูชัน 3 มิติ โดยการจำแนกโรคหลอดเลือดสมองจากภาพการฉายรังสีเอกซเรย์สมอง, ชานนท์ วรโชติสืบตระกูล

Chulalongkorn University Theses and Dissertations (Chula ETD)

แบบจำลองโครงข่ายคอนโวลูชัน หรือ ซีเอ็นเอ็น (Convolutional Neural Networks หรือ CNN) ได้รับการนำมาใช้กันอย่างแพร่หลายในการจำแนกภาพ โดยเฉพาะในทางการแพทย์ ซึ่งปกติการจำแนกภาพทางการแพทย์นิยมใช้โครงข่ายคอนโวลูชั่น 2 มิติ แต่เนื่องจากข้อมูลภาพบางประเภท เช่น ภาพการฉายรังสีเอกซเรย์สมองมีลักษณะมองภาพ 3 มิติ ให้เป็นภาพ 2 มิติ ดังนั้นในงานวิจัยนี้จึงมีแนวคิดในการใช้โครงข่ายคอนโวลูชัน 3 มิติมาใช้ในการจำแนกภาพเพื่อนำเอาจุดเด่นจากความสามารถในการดึงคุณลักษณะความสัมพันธ์ในชั้นความลึกที่เพิ่มเข้ามาซึ่งมีความแตกต่างจากรูปแบบ 2 มิติ เพื่อเพิ่มประสิทธิภาพให้แบบจำลองสามารถดึงคุณลักษณะสำคัญของภาพให้มีความหลากหลายมากขึ้น งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพโครงข่ายคอนโวลูชัน 3 มิติ ร่วมกับแบบจำลองที่ถูกฝึกมาเรียบร้อยแล้ว (pre-trained model) 4 แบบจำลอง ประกอบไปด้วย อเล็กซ์เน็ต (Alexnet) วีจีจี-16 (Vgg-16) กูเกิลเน็ต (Googlenet) และเรสเน็ต (Resnet) เพื่อจำแนกข้อมูลภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง และผู้ป่วยที่มีสุขภาพปกติ จากภาพฉายรังสีเอกซเรย์สมอง (CT-Scan) จากฐานข้อมูลเว็บไซด์ Kaggle ชุดข้อมูลประกอบด้วยภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมอง 950 ภาพ จาก 40 คน และภาพผู้ป่วยสุขภาพปกติ 1551 ภาพ จาก 82 คน ซึ่งงานวิจัยนี้มีการปรับรายละเอียดโดยการนำจุดเด่นของแต่ละแบบจำลองมาใช้ และเพิ่มชั้นความลึกที่เป็นจุดเด่นของการค้นหาคุณลักษณะสำคัญของรูปแบบ 3 มิติ ร่วมกับการประมวลผลภาพล่วงหน้า (Image Preprocessing) และการทำการเพิ่มจำนวนข้อมูล (Data augmentation) เพื่อเพิ่มประสิทธิภาพของแบบจำลอง จากนั้นเพื่อไม่ให้การทดลองโน้มเอียงต่อแต่ละแบบจำลอง มีการนำเทคนิค K-Fold Cross validation (K=5) มาเพื่อแก้ปัญหาในงานวิจัยชิ้นนี้ ในส่วนของการวัดประสิทธิภาพผลการทดลองใช้ Confusion matrix เป็นเครื่องมือในการประเมินประสิทธิภาพของแบบจำลอง ซึ่งพบว่าสมรรถนะแบบจำลองโครงข่ายคอนโวลูชันกูเกิลเน็ต 3 มิติ ให้ผลลัพธ์ที่ดีที่สุด โดยผลการทดสอบการจำแนกภาพผู้ป่วยที่เป็นโรคหลอดเลือดสมองจากภาพฉายรังสีเอกซเรย์ ให้ค่าความแม่นยำ ความเที่ยงตรง ค่าความครบถ้วน และ F1-Score ที่ 92.00% 94.01% 83.96% และ 88.70% …


การเปรียบเทียบอัลกอริทึมระหว่างการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน สำหรับการเรียนรู้แบบเสริมแรงในเกมเป่ายิ้งฉุบ, ธันยวุฒิ อักขระสมชีพ Jan 2022

การเปรียบเทียบอัลกอริทึมระหว่างการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน สำหรับการเรียนรู้แบบเสริมแรงในเกมเป่ายิ้งฉุบ, ธันยวุฒิ อักขระสมชีพ

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพระหว่างอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันและอัลกอริทึมความเชื่อมั่นขอบเขตบน ในตัวแบบการเรียนรู้แบบเสริมแรงกับการตัดสินใจเชิงพฤติกรรมของมนุษย์ ทั้งสองอัลกอริทึมเป็นอัลกอริทึมที่มีประสิทธิภาพในการแก้ไขปัญหาแบนดิทหลายแขน แต่ไม่ชัดเจนว่าทั้งสองอัลกอริทึมจะมีประสิทธิภาพอย่างไรกับปัญหาการตัดสินใจเชิงพฤติกรรมของมนุษย์ที่ความซับซ้อนทางด้านพฤติกรรม งานวิจัยนี้จำลองเกมเป่ายิ้งฉุบแทนปัญหาการตัดสินใจของมนุษย์ โดยมีองค์ประกอบเชิงพฤติกรรม 2 องค์ประกอบ คือ พฤติกรรมการใช้กลยุทธตามเข็มนาฬิกาแบบผสม และพฤติกรรมการใช้กลยุทธยุติการสูญเสีย โดยตัวแบบเกมเป่ายิ้งฉุบถูกจำลองขึ้นตามกระบวนการตัดสินใจแบบมาร์คอฟ ตัวแทนตัวแบบจากทั้งสองอัลกอริทึมจะแก้ไขปัญหาดังกล่าวและวัดประสิทธิภาพด้วยผลรางวัลสะสมภายใต้เงื่อนไขการจำลองในรูปแบบต่าง ๆ ผลการเปรียบเทียบประสิทธิภาพพบว่า ตัวแทนตัวแบบจากอัลกอริทึมความเชื่อมั่นขอบเขตบนมีประสิทธิภาพดีกว่าตัวแทนตัวแบบจากอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันในการจำลองส่วนใหญ่ ยกเว้นกรณีการจำลองที่รูปแบบพฤติกรรมของมนุษย์มีความชัดเจนเป็นระยะเวลายาว ตัวแทนตัวแบบจากอัลกอริทึมการสุ่มตัวอย่างแบบทอมสันมีประสิทธิภาพดีกว่าตัวแทนตัวแบบจากอัลกอริทึมความเชื่อมั่นขอบเขตบน


การจำลองข้อมูลเพื่อประเมินประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบชนิดผสม, นภสร รัตนวุฒิขจร Jan 2022

การจำลองข้อมูลเพื่อประเมินประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบชนิดผสม, นภสร รัตนวุฒิขจร

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของตัวประมาณค่าเฉลี่ยที่ได้จากการเลือกตัวอย่างแบบมีระบบชนิดผสม (Mixed Systematic Random Sampling : MRSS) กับการเลือกตัวอย่างแบบมีระบบชนิดวงกลม (Circular Systematic Sampling : CSS) และการเลือกตัวอย่างแบบมีระบบโดยใช้ช่วงเศษส่วน (Fractional Interval) สำหรับกรณีช่วงของการเลือกตัวอย่างไม่เป็นจำนวนเต็ม เมื่อประชากรมีแนวโน้มเชิงเส้น ด้วยค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (Mean Square Error : MSE) และเปรียบเทียบประสิทธิภาพของการเลือกตัวอย่างแบบมีระบบทั้ง 3 วิธีด้วยค่าประสิทธิภาพสัมพัทธ์ (Relative Efficiency : RE) โดยการจำลองข้อมูลของประชากรเป็น 3 ขนาด แบ่งเป็น ขนาดเล็กหลักร้อย ได้แก่ 300, 500 และ 700 ขนาดกลางหลักพัน ได้แก่ 3,000, 5,000 และ 7,000 ขนาดใหญ่หลักหมื่น ได้แก่ 30,000, 50,000 และ 70,000 ด้วยโปรแกรม R กำหนดขนาดตัวอย่างที่ทำให้สัดส่วนระหว่างขนาดประชากรและขนาดตัวอย่างไม่เป็นจำนวนเต็ม ทำซ้ำทั้งหมด 1,000 ครั้ง พบว่าการเลือกตัวอย่างแบบมีระบบด้วยวิธี MRSS มีค่า MSE สูงกว่าการเลือกตัวอย่างอีกทั้ง 2 วิธี แต่เมื่อค่า g = 2 จะทำให้ค่าของ MSE ของการเลือกตัวอย่างทั้ง 3 วิธีมีค่ามากขึ้น โดยที่ค่า MSE ของการเลือกตัวอย่างแบบมีระบบชนิดผสมมีค่าต่ำกว่าการเลือกตัวอย่างแบบมีระบบชนิดวงกลมและวิธีใช้ช่วงเศษส่วน ทั้งนี้เป็นผลเนื่องมาจากค่า g เป็นค่าที่กำหนดความเป็นเชิงเส้น เมื่อค่า g เพิ่มมากขึ้น ความเป็นเชิงเส้นของประชากรจะลดลง ทำให้ตัวประมาณค่าเฉลี่ยตัวอย่างที่คำนวณได้มีค่าต่างจากค่าเฉลี่ยประชากรมากตามไปด้วย จึงสามารถสรุปได้ว่าตัวประมาณค่าเฉลี่ยที่ได้จากวิธีการเลือกตัวอย่างแบบมีระบบชนิดผสม มีแนวโน้มที่จะให้ค่า MSE สูงที่สุด เมื่อเทียบกับการเลือกตัวอย่างแบบมีระบบชนิดวงกลมและการเลือกตัวอย่างแบบมีระบบโดยใช้ช่วงเศษส่วน


การปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย, ธารินทร์ สุขเนาว์ Jan 2022

การปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย, ธารินทร์ สุขเนาว์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาปัจจัยที่มีความสัมพันธ์กับความยากจนในระดับครัวเรือนและเสนอวิธีการเปรียบเทียบและปรับปรุงความสามารถในการพยากรณ์แบบไบนารี่โดยใช้การเรียนรู้เมตาแบบถ่วงน้ำหนักแบบปรับจากการคำนวนค่าถ่วงน้ำหนักวิธีที่ดีที่สุดสำหรับการจำแนกความยากจนระดับครัวเรือนในประเทศไทย โดยนำเสนอวิธีการสองขั้นตอน คือนำตัววัดประสิทธิภาพการทำนายมาใช้ในการคำนวณค่าถ่วงน้ำหนักแบบปรับ ซึ่งนำมาใช้เสมือนเป็นค่าถ่วงน้ำหนักเริ่มต้นที่ให้กับแต่ละตัวแบบ จากนั้นจึงทำนายผลด้วยวิธีการวิเคราะห์การถดถอยลอจิสติกอีกขั้นตอนหนึ่ง งานวิจัยนี้ศึกษาการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพการทำนายใน 3 กรณี ได้แก่ 1. การใช้ค่า AUC 2. การใช้ค่า F1-Score โดยพิจารณาจุดตัด 0.5 และ 3. การใช้ค่า F1-Score โดยพิจารณาค่าจุดตัดที่เหมาะสมที่สุดจากดัชนีโยเดนที่สูงสุด นอกจากนี้ เนื่องจากชุดข้อมูลสำรวจประชากรรายครัวเรือนในระดับพื้นที่มีความไม่สมดุลของระดับความยากจน จึงใช้เทคนิค SMOTE ในการจัดการกับข้อมูลที่ไม่สมดุล ทั้งนี้ ผู้วิจัยได้ทำการเปรียบเทียบผลลัพธ์จากชุดข้อมูลก่อนและหลังใช้เทคนิค SMOTE ผลการศึกษาพบว่า ปัจจัยที่มีความสัมพันธ์กับความยากจนในระดับครัวเรือนสูงมีหลายปัจจัย อาทิ อายุของหัวหน้าครัวเรือน จำนวนผู้ที่ได้รับบัตรสวัสดิการแห่งรัฐในครัวเรือน,ค่าใช้จ่ายเพื่อการบริโภคในครัวเรือน เป็นต้น และวิธีการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพ F1-Score ที่จุดตัด 0.5 มีประสิทธิภาพสูงสุดจากการพิจารณาด้วยค่าความแม่นยำในชุดข้อมูลตั้งต้นก่อนใช้เทคนิค SMOTE อย่างไรก็ตาม จากการทดสอบในชุดข้อมูลที่มีการจัดการกับข้อมูลที่ไม่สมดุลด้วยวิธี SMOTE พบว่า ประสิทธิภาพในการทำนายไม่ปรากฏว่าวิธีการคำนวณค่าถ่วงน้ำหนักแบบปรับจากตัววัดประสิทธิภาพแบบใดแบบหนึ่งที่มีประสิทธิภาพสูงสุดอย่างชัดเจน


การศึกษาเปรียบเทียบตัวแบบจำลองการถดถอยโดยความไม่แน่นอนเพื่อลดเวลาในกระบวนการทดสอบวัดค่ากระแสไฟฟ้าเขียนที่เหมาะสมที่สุดของฮาร์ดไดรฟ์, ภัทรดิศ ดำรงค์ศักดิ์ Jan 2022

การศึกษาเปรียบเทียบตัวแบบจำลองการถดถอยโดยความไม่แน่นอนเพื่อลดเวลาในกระบวนการทดสอบวัดค่ากระแสไฟฟ้าเขียนที่เหมาะสมที่สุดของฮาร์ดไดรฟ์, ภัทรดิศ ดำรงค์ศักดิ์

Chulalongkorn University Theses and Dissertations (Chula ETD)

ฮาร์ดไดรฟ์ (HDD) เป็นอุปกรณ์บันทึกข้อมูลแม่เหล็กที่มีความแม่นยำสูง ดังนั้นจึงมีค่าใช้จ่ายสูง และเสียเวลาในการวัดค่ากระแสไฟฟ้าเขียนที่เหมาะสมที่สุดฮาร์ดไดรฟ์ หากจ่ายกระแสไฟฟ้าเขียนไม่เหมาะสมจะส่งผลกระทบต่อประสิทธิภาพการทำงานของฮาร์ดไดรฟ์ ซึ่งเราใช้วิธีการเงื่อนไขการทดสอบแบบปรับตัว (Adaptive Test Condition) เป็นเทคนิคที่ปรับวิธีการทดสอบแบบดั้งเดิม ตามรูปแบบข้อมูลพารามิเตอร์ เพื่อปรับปรุงวิธีการทดสอบปัจจุบัน และลดเวลาการทดสอบ งานวิทยานิพนธ์นี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการใช้ตัวแบบจำลองการถดถอยโดยความไม่แน่นอนสำหรับการลดช่วงการวัดค่ากระไฟฟ้าเขียนที่เหมาะสมที่สุด สำหรับการลดเวลาการทดสอบวัคค่ากระแสไฟฟ้าเขียน (write current test) โดยการคำนวณช่วงความเชื่อมั่นของผลทำนายที่ระดับความเชื่อมั่นที่ยอมรับได้ โดยใช้ค่าความไม่แน่นอนของข้อมูล (Data uncertainty) ที่ผ่านวิธีปรับการเทียบมาตรฐาน (Recalibration) แล้วนำมาลดช่วงวัดที่ได้จากการทดสอบฮาร์ดไดรฟ์ จากนั้นนำช่วงเชื่อมั่นของผลทำนายนั้นมาลดช่วงการวัดค่ากระแสไฟฟ้าเขียน โดยการศึกษา และเปรียบเทียบใช้ตัวแบบจำลองการถดถอยโดยความไม่แน่นอน ได้แก่ NGBoost, XGB-Distribution และ CatBoost ซึ่งผลลัพธ์ของงานวิทยานิพนธ์คือ CatBoost สามารถลดเวลาในการทดสอบวัคค่ากระแสไฟฟ้าเขียนสูงสุดที่ช่วงความเชื่อมั่นของผลทำนาย ณ ระดับความเชื่อมั่นที่ยอมรับได้ ซึ่งครอบคลุมสัดส่วน 0.9 ของทุกชุดการทดสอบ


ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง, มนัสพร ตรีรุ่งโรจน์ Jan 2022

ตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมสำหรับการวิเคราะห์การรอดชีพเวลาไม่ต่อเนื่อง, มนัสพร ตรีรุ่งโรจน์

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิเคราะห์การรอดชีพไม่ต่อเนื่องจะศึกษาบนข้อมูลตามยาวซึ่งชุดข้อมูลตามยาวมักถูกจัดเก็บเป็นตารางโดยข้อมูลแต่ละแถวแสดงถึงการจัดเก็บข้อมูลของบุคคลหนึ่ง ณ เวลาหนึ่งๆ ดังนั้น ข้อมูลจากบุคคลเดียวกันจึงประกอบไปด้วยข้อมูลหลายแถวซึ่งมีความสัมพันธ์กัน การใช้อัลกอริทึมการเรียนรู้ของเครื่องสำหรับการวิเคราะห์ชุดข้อมูลดังกล่าวมักมองข้ามความสัมพันธ์ของข้อมูลที่เกิดจากคนเดียวกัน แต่จะสมมติว่าข้อมูลแต่ละแถวเป็นอิสระต่อกัน งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการวิเคราะห์การรอดชีพไม่ต่อเนื่องโดยเปรียบเทียบผลลัพธ์จากการพิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกัน โดยใช้ตัวแบบการสุ่มป่าไม้, CatBoost และโครงข่ายประสาทเทียม ที่พิจารณาเฉพาะอิทธิพลคงที่ และตัวแบบการเรียนรู้ของเครื่องอิทธิพลผสมที่พิจารณาทั้งอิทธิพลคงที่และอิทธิพลสุ่ม เพื่อพยากรณ์การเกิดเหตุการณ์บนข้อมูลการรอดชีพ 2 ชุด คือ ข้อมูลท่อน้ำดีอักเสบปฐมภูมิ และข้อมูลการคัดกรองและผลการคัดกรองโรคเบาหวานของประชากรไทย ซึ่งเป็นข้อมูลที่ขาดความสมดุลสูง ผลการศึกษาพบว่าสำหรับตัวแบบอิทธิพลคงที่ การพิจารณาความสัมพันธ์ของข้อมูลระหว่างบุคคลคนเดียวกันให้ประสิทธิภาพการพยากรณ์ที่ดีขึ้นเฉพาะเมื่อใช้ตัวแบบ CatBoost ในขณะที่ตัวแบบอิทธิพลผสมไม่ได้ให้ประสิทธิภาพการพยากรณ์ที่ดีขึ้นเสมอไปเมื่อเทียบกับตัวแบบที่พิจารณาเฉพาะอิทธิพลคงที่ โดยสรุป งานวิจัยนี้ได้แสดงให้เห็นว่าการพิจารณาความสัมพันธ์ของข้อมูลไม่ได้ส่งผลให้ประสิทธิภาพการพยากรณ์ดีขึ้นเสมอไป ทั้งบนตัวแบบอิทธิพลคงที่และตัวแบบอิทธิพลผสม ขึ้นอยู่ข้อจำกัดและปัจจัยต่างๆ เช่น ลักษณะข้อมูล ตัวแบบ การกำหนดตัวแปรอิทธิพลสุ่ม และวิธีการสกัดอิทธิพลคงที่จากตัวแบบ อย่างไรก็ตาม การใช้ตัวแบบอิทธิพลผสมร่วมกับการเรียนรู้ของเครื่องเป็นอีกหนึ่งวิธีการที่น่าลอง และสามารถทำให้ประสิทธิภาพการทำงานดีขึ้นจากการใช้เทคนิคการเรียนรู้ของเครื่องเพียงอย่างเดียว


การเปรียบเทียบวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกในข้อมูลที่มีมิติสูง, รัชพงศ์ ปรัชญาเศรษฐ Jan 2022

การเปรียบเทียบวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกในข้อมูลที่มีมิติสูง, รัชพงศ์ ปรัชญาเศรษฐ

Chulalongkorn University Theses and Dissertations (Chula ETD)

Regularization เป็นวิธีการป้องกันปัญหา overfitting ด้วยการเพิ่มฟังก์ชันการลงโทษไปในตัวแบบเพื่อให้เกิดการคัดกรองตัวแปรเข้าสู่ตัวแบบ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพของวิธีการคัดกรองตัวแปรสำหรับการวิเคราะห์การถดถอยโลจิสติกในข้อมูลที่มีมิติสูง ด้วยการใช้ฟังก์ชันการลงโทษในรูปแบบ (1) L0-regularization (2) L1-regularization (3) L0L2-regularization การวิจัยนี้ใช้การจำลองข้อมูลเพื่อทำการทดสอบ 18 กรณี โดยกำหนดค่าที่ต่างกันประกอบด้วย จำนวนตัวแปรอิสระมีจำนวน 200, 500 และ 1000 ตัวแปร ความสัมพันธ์ของตัวแปรอิสระมีค่าเท่ากับ 0, 0.5 และ 0.9 อัตราส่วนสัญญาณต่อสัญญาณรบกวนมีค่าเท่ากับ 1 และ 6 โดยจำลองข้อมูลแต่ละกรณีจำนวน 100 ชุด ในการศึกษานี้มุ่งเน้นที่การเปรียบเทียบประสิทธิภาพในการคัดกรองตัวแปรของตัวแบบ และประสิทธิภาพในการทำนายของตัวแบบ ซึ่งเปรียบเทียบประสิทธิภาพในแต่ละวิธีด้วย ความผิดพลาดในการตรวจจับเชิงบวก ค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว และ พื้นที่ใต้เส้นโค้ง จากการศึกษาพบว่าวิธี L0 มีความแม่นยำในการคัดกรองตัวแปรมากที่สุดเมื่อพิจารณาด้วยความผิดพลาดในการตรวจจับเชิงบวก เมื่อพิจารณาด้วยค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว พบว่าวิธี L1 และ L0L2 มีประสิทธิภาพในการคัดกรองตัวแปรใกล้เคียงกัน แต่วิธี L0L2 จะมีประสิทธิภาพสูงกว่าเมื่อความสัมพันธ์ระหว่างตัวแปรอิสระมีค่าสูง และเมื่อพิจารณาประสิทธิภาพในการทำนายของตัวแบบด้วยพื้นที่ใต้เส้นโค้ง พบว่าวิธี L1 จะมีประสิทธิภาพสูงที่สุดในทุกกรณี


การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน, ศศิวิมล ศรีโรจน์ Jan 2022

การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน, ศศิวิมล ศรีโรจน์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบการเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนาน (Bagging Heterogeneous Ensemble) และหาวิธีการลดมิติข้อมูลและวิธีการสุ่มตัวอย่างซ้ำที่เหมาะสมกับข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลแตกต่างกัน 3 ค่าคือ 2.3, 10 และ 14 โดยวัดประสิทธิภาพด้วยตัวชี้วัด Accuracy, The area under the curve, F1-score, Precision, Brier score และ Kolmogorov-Smirnov และทดสอบทางสถิติเพื่อแสดงว่าประสิทธิภาพของตัวแบบมีความแตกต่างกัน ที่ระดับนัยสำคัญ 0.05 ผลการศึกษาพบว่าข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลต่ำ (IR = 2.3) ตัวแบบ Logistic Regression ที่ใช้เทคนิค Linear Discriminant Analysis (LDA) และ Systematic Minority Over-Sampling Technique (SM) จะมีประสิทธิภาพเฉลี่ยดีที่สุดในการจำแนกประเภท ในส่วนของอัตราส่วนความไม่สมดุลกลาง (IR = 10) และ อัตราส่วนความไม่สมดุลสูง (IR = 14) วิธีการลดมิติข้อมูลและการสุ่มตัวอย่างซ้ำที่มีประสิทธิภาพคือ Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS) และ Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) ตามลำดับ โดยที่การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานมีประสิทธิภาพเฉลี่ยดีที่สุด ทั้งในกรณีที่มีและไม่มีวิธีการลดมิติข้อมูลและสุ่มตัวอย่างซ้ำของอัตราส่วนความไม่สมดุลกลางและสูง


ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน, กาญธนา ลออสิริกุล Jan 2022

ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน, กาญธนา ลออสิริกุล

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยนี้มีจุดประสงค์เพื่อศึกษาปฏิสัมพันธ์ของวิธีการปรับสมดุลข้อมูลกับเงื่อนไขด้านขนาดตัวอย่าง เทคนิคการจำแนกข้อมูล จำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง อัตราออด และร้อยละของจำนวนข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรองที่มีต่อประสิทธิภาพของการจำแนกกลุ่ม การปรับสมดุลของข้อมูลแบ่งออกเป็น 3 วิธี ได้แก่ (1) ไม่ปรับสมดุล (2) วิธี random oversampling และ (3) วิธีผสมผสานระหว่างรูปแบบสุ่มเกินและสุ่มลด (hybrid) โดยใช้แพคเกจ ROSE ส่วนเงื่อนไขด้านขนาดตัวอย่างแบ่งออกเป็น ขนาดตัวอย่างเท่ากับ 100 300 และ 500 หน่วย ด้านเทคนิคการจำแนกข้อมูล แบ่งออกเป็น 4 วิธี ได้แก่ (1) เคเนียร์เรสเนเบอร์ (2) การถดถอยโลจิสติก (3) แรนดอมฟอร์เรส และ (4) ซัพพอร์ตเวกเตอร์แมชชีน ตัวแปรจากการจำลองแบ่งออกเป็นตัวแปรตามซึ่งจำลองด้วยการถดถอยโลจิสติก ส่วนตัวแปรอิสระในการจำลองข้อมูลครั้งนี้จะกำหนดให้ใช้ตัวแปรอิสระจำลองทั้งหมด 8 ตัว โดยกำหนดให้มีจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง 3 กรณี คือ 4:4 5:3 และ 6:2 ในขณะที่ระดับของอัตราออด จะสุ่มค่าจากช่วง [1,2) หรือ [2,3) และร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง แบ่งออกเป็น 2 กรณี ได้แก่ 60:40 และ 70:30 พิจารณาเกณฑ์ประสิทธิภาพของข้อมูลด้วยตัวชี้วัดความถูกต้องในการจำแนก ความไว และความจำเพาะ การจำลองแต่ละสถานการณ์จะทำซ้ำสถานการณ์ละ 500 รอบ การวิเคราะห์ปฏิสัมพันธ์ระหว่างวิธีการปรับสมดุลข้อมูลกับเงื่อนไขต่าง ๆ ใช้การวิเคราะห์ความแปรปรวนพหุคูณหลายทาง (n-way MANOVA) ผลการวิจัยพบว่า วิธีการปรับสมดุลข้อมูลมีปฏิสัมพันธ์แบบสองทางกับเงื่อนไขด้านขนาดตัวอย่าง ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง อัตราออด และเทคนิคการจำแนกข้อมูล และพบปฏิสัมพันธ์แบบสามทางกับเงื่อนไขต่อไปนี้ (1) ขนาดตัวอย่างและจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง (2) ขนาดตัวอย่างและเทคนิคการจำแนกข้อมูล และ (3) ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง และเทคนิคการจำแนกข้อมูล ดังนั้นนักวิเคราะห์ข้อมูลควรเลือกใช้วิธีการปรับสมดุลข้อมูลโดยพิจารณาให้เหมาะสมกับสภาพของข้อมูลที่ใช้ในการวิเคราะห์


สมรรถนะดิจิทัลขององค์กรทหาร: การวิเคราะห์องค์ประกอบเชิงสำรวจและเชิงยืนยันพหุระดับ, รัมณรา สมประสงค์ Jan 2022

สมรรถนะดิจิทัลขององค์กรทหาร: การวิเคราะห์องค์ประกอบเชิงสำรวจและเชิงยืนยันพหุระดับ, รัมณรา สมประสงค์

Chulalongkorn University Theses and Dissertations (Chula ETD)

สมรรถนะดิจิทัลขององค์กรทหารในปัจจุบันมีความสำคัญต่อการปฏิบัติงานในยุคของการเปลี่ยนแปลงทางดิจิทัลที่เกิดขึ้นอย่างรวดเร็ว งานวิจัยนี้เป็นงานวิจัยเชิงบรรยาย มีวัตถุประสงค์ดังนี้ 1) เพื่อสังเคราะห์ตัวชี้วัดสมรรถนะดิจิทัลขององค์กรทหาร 2) เพื่อสำรวจองค์ประกอบพหุระดับสมรรถนะดิจิทัลขององค์กรทหาร 3) เพื่อตรวจสอบความสอดคล้องเชิงประจักษ์ขององค์ประกอบพหุระดับสมรรถนะดิจิทัลขององค์กรทหาร ตัวอย่างวิจัย เป็นบุคลากรระดับปฏิบัติการในองค์กรทหารสังกัดกระทรวงกลาโหม 50 หน่วยงาน จำนวน 860 คน สำหรับใช้ในการวิเคราะห์องค์ประกอบเชิงสำรวจพหุระดับ และจำนวน 863 คน สำหรับใช้ในการวิเคราะห์องค์ประกอบเชิงยืนยันพหุระดับ เครื่องมือที่ใช้ในการวิจัยเพื่อการวิเคราะห์องค์ประกอบพหุระดับ คือแบบวัดสมรรถนะดิจิทัลขององค์กรทหาร ประกอบไปด้วย 2 ตอน คือ ข้อมูลพื้นฐานของกำลังพลผู้ตอบแบบสอบถาม และแบบวัดสมรรถนะดิจิทัลขององค์กรทหาร จำนวน 69 ข้อคำถาม วิเคราะห์ข้อมูลด้วยโปรแกรม IBM SPSS Statistics 22 และ MPlus6 ผลการวิจัยพบว่า (1) ตัวชี้วัดสมรรถนะดิจิทัลขององค์กรทหาร ประกอบไปด้วย 16 ตัวชี้วัด ได้แก่ 1) การวางแผนการใช้งานอุปกรณ์เทคโนโลยีดิจิทัลแบบบูรณาการ 2) การสืบค้นข้อมูลทางดิจิทัล 3) การประเมินความน่าเชื่อถือของข้อมูล 4) การใช้งานเทคโนโลยีเบื้องต้น 5) การแก้ปัญหาจากการใช้เทคโนโลยีดิจิทัล 6) การใช้อินทราเน็ตขององค์กร 7) การรักษาความลับในโลกไซเบอร์ 8) การจัดการไฟล์ดิจิทัลทางการทหาร 9) การเข้าถึงไฟล์ดิจิทัลในกรณีปฏิบัติงานนอกสถานที่ 10) การจัดการฐานข้อมูลทางการทหาร 11) การใช้สื่อดิจิทัลทางไกลเพื่อการสื่อสารทางการทหาร 12) การนำเสนอข้อมูลทางทหารในรูปแบบดิจิทัล 13) การสร้างสิ่งแวดล้อมทางดิจิทัลเพื่อการทำงาน 14) การตระหนักถึงความปลอดภัยบนโลกไซเบอร์ 15) การรักษามารยาทในสังคมดิจิทัล 16) เจตคติต่อการใช้เทคโนโลยีดิจิทัลในองค์กร (2) องค์ประกอบเชิงสำรวจพหุระดับสมรรถนะดิจิทัลขององค์กรทหาร มีจำนวน 3 โมเดล คือ 1) องค์ประกอบระดับระดับบุคคล 4 องค์ประกอบ ระดับองค์กร 1 องค์ประกอบ 2) องค์ประกอบระดับบุคคล 4 องค์ประกอบ ระดับองค์กร 2 องค์ประกอบ 3) องค์ประกอบระดับบุคคล …


การเปรียบเทียบวิธีการใส่ค่าสูญหาย ในตัวแบบการถดถอยเชิงเส้นพหุที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่สัมพันธ์กัน, ศุภสันติ์ ดีมาก Jan 2022

การเปรียบเทียบวิธีการใส่ค่าสูญหาย ในตัวแบบการถดถอยเชิงเส้นพหุที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่สัมพันธ์กัน, ศุภสันติ์ ดีมาก

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีจุดประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ ที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่มีความสัมพันธ์กัน ในการศึกษานี้มีวิธีการที่ถูกพัฒนาขึ้นคือ Expected Regression Imputation (ERI) และ Conditional Expected Regression Imputation (CERI) โดยจะเปรียบเทียบประสิทธิภาพวิธีการที่พัฒนาขึ้นมากับอีก 3 วิธีการ ได้แก่ วิธี K-Nearest Neighbor Imputation (KNN), วิธี Expectation Maximization Algorithm (EM) และ วิธี Predictive Mean Matching Imputation (PMM) ) การศึกษานี้ได้ควบคุมปัจจัยความแปรปรวนของตัวแปรอิสระ, ความสัมพันธ์ของตัวแปรอิสระ, ส่วนเบี่ยงเบนมาตรฐานค่าความคลาดเคลื่อน, ร้อยละการสูญหายและระดับ Nonignorability โดยวิธีการที่ให้ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average mean square error) น้อยที่สุดจะเป็นวิธีการที่มีประสิทธิภาพสูงที่สุด ผลการวิจัยพบว่า เมื่อข้อมูลมีการกระจายตัวสูงและกลางวิธี KNN มีประสิทธิภาพสูงสุดในทุกกรณีที่ศึกษา แต่ถ้าข้อมูลกระจายตัวต่ำ วิธี KNN จะดีเมื่อกรณีตัวแปรมีความสัมพันธ์กันสูงและร้อยละการสูญหายต่ำ วิธี EM จะประสิทธิภาพสูงเมื่อร้อยละการสูญหายสูงในทุกระดับความสัมพันธ์ วิธี ERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงบวกในระดับกลางลงไปในเกือบทุกกรณีที่ศึกษา วิธี CERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงลบในระดับกลางลงไปและร้อยละการสูญหายต่ำ


An Application Of Reinforcement Learning To Credit Scoring Based On The Logistic Bandit Framework, Kantapong Visantavarakul Jan 2022

An Application Of Reinforcement Learning To Credit Scoring Based On The Logistic Bandit Framework, Kantapong Visantavarakul

Chulalongkorn University Theses and Dissertations (Chula ETD)

This study applies reinforcement learning to credit scoring by using the logistic bandit framework. The credit scoring and the credit underwriting are modeled into a single sequential decision problem where the credit underwriter takes a sequence of actions over an indefinite number of time steps. The traditional credit scoring approach considers the model construction separately from the underwriting process. This approach is identified as a greedy algorithm in the reinforcement learning literature, which is commonly believed to be inferior to an efficient reinforcement learning approach such as Thompson sampling. This is true under the simple setting, i.e., granting credit to …


A Comparison Of Imbalanced Data Handling Methods For Pre-Trained Model In Multi-Label Classification Of Stack Overflow, Arisa Umparat Jan 2022

A Comparison Of Imbalanced Data Handling Methods For Pre-Trained Model In Multi-Label Classification Of Stack Overflow, Arisa Umparat

Chulalongkorn University Theses and Dissertations (Chula ETD)

Tag classification is essential in Stack Overflow. Instead of combining through pages or replies of irrelevant information, users can easily and quickly pinpoint relevant posts and answers using tags. Since User-submitted posts can have multiple tags, classifying tags in Stack Overflow can be challenging. This results in an imbalance problem between labels in the whole labelset. Pretrained deep learning models with small datasets can improve tag classification accuracy. Common multi-label resampling techniques with machine learning classifiers can also fix this issue. Still, few studies have explored which resampling technique can improve the performance of pre-trained deep models for predicting tags. …


An Analysis On Trends Of Research Topics In Civic Education Using Dynamic Topic Model, Poon Thongsai Jan 2022

An Analysis On Trends Of Research Topics In Civic Education Using Dynamic Topic Model, Poon Thongsai

Chulalongkorn University Theses and Dissertations (Chula ETD)

The aim of this thesis is to study the trend of civic and citizenship education research from 2000 to 2020 and the influence the regional background of researches has on the research discussion. Relevant data is collected from ERIC and SCOPUS database. This includes abstracts, published year, regional background of researchers, and author h-index. The keywords used are “civic education” or “citizenship education” or “civics”. There are 4917 papers extracted in total. Upon doing further preparation, 4854 articles are prepared for analysis. We apply Structural Topic model (STM) technique to the abstracts with covariates including the published year and the …


การพัฒนาเวิร์กโฟลว์สําหรับตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุด, พงศ์ทวัส ฮั่นวัฒนวงศ์ Jan 2022

การพัฒนาเวิร์กโฟลว์สําหรับตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุด, พงศ์ทวัส ฮั่นวัฒนวงศ์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาเวิร์กโฟลว์สำหรับสร้างต้นไม้จำแนกประเภทที่ดีที่สุด ด้วยตัวแบบเชิงเส้นจำนวนเต็มแบบผสม ทำการประเมินประสิทธิภาพของตัวแบบต้นไม้จำแนกประเภทที่ดีที่สุดบนชุดข้อมูลเยอรมันเครดิต และขยายตัวแบบให้รองรับชุดข้อมูลที่ตัวแปรต้นมีค่าสูญหายจำนวนมาก จากการพัฒนาเวิร์กโฟลว์พบว่าการสร้างต้นไม้จำแนกประเภทที่ดีที่สุดโดยใช้ตัวแบบเชิงเส้นจำนวนเต็มแบบผสมในงานวิจัยของ Lin และ Tang (2021) และกำหนดค่าพารามิเตอร์ความซับซ้อนตั้งต้นเป็นค่าบวกใกล้เคียงศูนย์ให้ผลลัพธ์เป็นที่น่าพอใจ จากการเปรียบเทียบประสิทธิภาพระหว่างตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุดกับต้นไม้ตัดสินใจบนชุดข้อมูลเยอรมันเครดิต พบว่าต้นไม้จำแนกประเภทที่ดีที่สุดให้อัตราความถูกต้องสูงกว่าต้นไม้ตัดสินใจทั้งบนชุดข้อมูลสร้างตัวแบบและบนชุดข้อมูลทวนสอบ 0.4% ถึง 3.2% ข้อดีของการพัฒนาเวิร์กโฟลว์โดยใช้โปรแกรมหาคำตอบสำหรับปัญหาเชิงเส้นจำนวนเต็มแบบผสม คือความสามารถในการขยายตัวแบบให้รองรับเงื่อนไขเพิ่มเติมได้ ในงานวิจัยนี้จึงเสนอตัวแบบต้นไม้จำแนกประเภทที่ดีที่สุดที่ถูกขยายให้รองรับชุดข้อมูลที่มีตัวแปรต้นสูญหายจำนวนมาก และแสดงให้เห็นว่าตัวแบบที่ถูกขยายสามารถทำงานอย่างมีประสิทธิผลบนเวิร์กโฟลว์ที่พัฒนาขึ้น


การวิเคราะห์ความคงทนของตัวแบบการเรียนรู้เชิงลึกต่อการโจมตีแบบพอยซันนิ่งแบบแกนส์ในงานภาพทางการแพทย์, ภาคภูมิ สิงขรภูมิ Jan 2022

การวิเคราะห์ความคงทนของตัวแบบการเรียนรู้เชิงลึกต่อการโจมตีแบบพอยซันนิ่งแบบแกนส์ในงานภาพทางการแพทย์, ภาคภูมิ สิงขรภูมิ

Chulalongkorn University Theses and Dissertations (Chula ETD)

ปัจจุบันเทคโนโลยี deep learning ได้เข้ามีส่วนช่วยในการพัฒนางานทางด้านการแพทย์และสาธารณสุขเป็นอย่างมาก ด้วยการใช้สถาปัตยกรรมที่ล้ำสมัยและพารามิเตอร์ที่ถูกสอนด้วยข้อมูลขนาดใหญ่ แต่ทว่า model เหล่านี้สามารถถูกโจมตีได้ด้วย adversarial attack เพราะว่า model เหล่านี้ยังต้องพึ่งพารามิเตอร์ในการสร้างเอาต์พุตและลักษณะที่ไม่สามารถอธิบายได้ของ model นั้นก็ทำให้ยากที่จะหาทางแก้หากถูกโจมตีแล้ว ในทุกๆวันมีการใช้ model เหล่านี้เยอะมากขึ้นเพื่อช่วยบุคลากรทางการแพทย์ แต่ด้วยงานที่ต้องคำนึงถึงชีวิตของผู้คนเป็นหลักการทดสอบความปลอดภัยและความคงทนของตัว model จึงจำเป็น การโจมตีสามารถแบ่งได้ออกเป็นสองประเภทคือ evasion atttack และ poisoning attack ที่มีความยืดหยุ่นกว่า evasion attack ทั้งในเรื่องของการสร้างข้อมูลแปลกปลอมใหม่ขึ้นมาและวิธีการโจมตีทำให้การทดสอบความคงทนต่อ poisoning attack ในงานทางการแพทย์นั้นสำคัญเป็นอย่างยิ่ง วิทยานิพนธ์ฉบับนี้ศึกษาความคงทนของ deep learning model ที่มีสถาปัตยกรรมล้ำสมัยที่ถูกพัฒนามาเพื่องานจำแนกภาพเอกซเรย์ปอดแบบไบนารีภายใต้การโจมตีแบบ poisoninng attack การโจมตีนั้นจะใช้ GANs ในการสร้างข้อมูลสังเคราะห์ปลอมขึ้นมาและทำการติดป้ายกำกับที่ผิดให้ในรูปแบบของ black box และใช้ปริมาณของตัววัดที่ลดลงเมื่อนำข้อมูลนี้ไปอัพเดท model เป็นตัวบ่งชี้ถึงคความคงทนของแต่ละสถาปัตยกรรมที่่แตกต่างกันออกไป จากการทดลองเราพบว่าสถาปัตยกรรม ConvNext นั้นมีความคงทนมากที่สุดและอาจจะสื่อได้ว่าเทคโนโลยีที่มาจาก Transformer นั้นมีส่วนช่วยสนับสนุนความคงทนของ model


โครงข่ายประสาทเทียมสำหรับการวิเคราะห์การถดถอยเชิงเส้นตามบริบทนัยทั่วไป, ชยานนท์ ขัตติยาภิรักษ์ Jan 2021

โครงข่ายประสาทเทียมสำหรับการวิเคราะห์การถดถอยเชิงเส้นตามบริบทนัยทั่วไป, ชยานนท์ ขัตติยาภิรักษ์

Chulalongkorn University Theses and Dissertations (Chula ETD)

ปัญหาความสัมพันธ์เชิงเส้นตามบริบท คือปัญหาที่มีตัวแปรต้นที่แบ่งข้อมูลออกเป็นกลุ่มต่าง ๆ โดยในแต่ละกลุ่มจะมีความสัมพันธ์กับผลเฉลยในลักษณะเชิงเส้นที่แตกต่างกัน ทางผู้วิจัยได้สนใจที่จะนำวิธีโครงข่ายประสาทเทียม (Neural Networks) มาแก้ไขปัญหาประเภทดังกล่าว โดยพัฒนาโครงสร้างที่ชื่อว่า Generalized Contextual Regression (GCR) และเปรียบเทียบกับโครงสร้างที่เคยมีมาก่อน ได้แก่ Feedforward Neural Networks (FNN) ซึ่งเป็นโครงสร้างพื้่นฐาน และ Contextual Regression (CR) ซึ่งนำเสนอโดย Liu และ Wang (2017) งานวิจัยนี้จะศึกษาเฉพาะปัญหาการถดถอยเชิงเส้น ที่ตัวแปรต้นไม่เกิน 10 ตัว ซึ่งมีตัวแปรเชิงบริบทไม่เกิน 3 ตัวเท่านั้น โดยจากผลการวิจัยพบว่าวิธี GCR มีประสิทธิภาพสูงที่สุดในการแก้ไขปัญหาความสัมพันธ์เชิงเส้นตามบริบทเมื่อเปรียบเทียบกับวิธี FNN และ CR


การเปรียบเทียบวิธีในการพยากรณ์ราคาหุ้นด้วยแบบจำลองอารีม่า, โครงข่ายประสาทเทียม และตัวแบบผสม, กาญจน์ภิวรรณ จงศิริวิโรจ Jan 2021

การเปรียบเทียบวิธีในการพยากรณ์ราคาหุ้นด้วยแบบจำลองอารีม่า, โครงข่ายประสาทเทียม และตัวแบบผสม, กาญจน์ภิวรรณ จงศิริวิโรจ

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการพยากรณ์ราคาปิดหุ้นรายวันในอนาคต โดยใช้ตัวแบบอารีม่าซึ่งสร้างจากวิธีการค้นหาแบบกริด โครงข่ายประสาทเทียมและตัวแบบผสมในการพยากรณ์ราคาของหุ้น ภายใต้ตัวอย่างหุ้นที่ถูกเลือกมาตามระดับความผันผวนจากสูงไปต่ำ ในกลุ่มอุตสาหกรรมเทคโนโลยีและชิ้นส่วนอิเล็กทรอนิกส์ ได้แก่ HANA, DELTA และ SVI ตามลำดับ โดยเก็บข้อมูลราคาปิดรายวันของหุ้นตั้งแต่เดือนตุลาคม พ.ศ. 2559 ถึงเดือนตุลาคม พ.ศ. 2564 ( 5 ปีย้อนหลัง ) ซึ่งอาศัยการแบ่งชุดข้อมูลฝึกสอนด้วยวิธี ตรวจสอบไขว้ (rolling forward validation) ทั้งวิธีตรวจสอบไขว้แบบสะสม และวิธีตรวจสอบไขว้แบบ moving window ซึ่งผลการวิจัยพบว่า เมื่อใช้ค่าเฉลี่ยของร้อยละความผิดพลาดสัมบูรณ์เป็นเกณฑ์ในการคัดเลือกตัวแบบ ทั้งสองวิธีการแบ่งชุดข้อมูลย่อยนั้น โครงข่ายประสาทเทียมมีความแม่นยำมากที่สุดในการพยากรณ์ราคาปิดของหุ้น HANA, DELTA และ SVI รวมถึงตัวแบบผสมดังกล่าวไม่จำเป็นต้องมีประสิทธิภาพดีกว่าการใช้แต่ละตัวแบบเพียงลำพังเสมอไป ตัวแบบอารีม่าซึ่งสร้างจากวิธีการค้นหาแบบกริดสามารถพยากรณ์ได้ดีกว่าในหุ้นที่มีระดับความผันผวนกลางและระดับต่ำ ในขณะที่โครงข่ายประสาทเทียมสามารถพยากรณ์ได้ดีในทุกระดับความผันผวนราคาหุ้น


การเปรียบเทียบประสิทธิภาพของวิธีการสร้างช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอยลอจิสติกในข้อมูลที่มีมิติสูง โดยใช้การประมาณสองขั้นตอนด้วยวิธี Lasso + Mle And A Bootstrap Lasso + Partial Ridge, ณิชากร ไทยวงษ์ Jan 2021

การเปรียบเทียบประสิทธิภาพของวิธีการสร้างช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอยลอจิสติกในข้อมูลที่มีมิติสูง โดยใช้การประมาณสองขั้นตอนด้วยวิธี Lasso + Mle And A Bootstrap Lasso + Partial Ridge, ณิชากร ไทยวงษ์

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการสร้างช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอยลอจิสติกในข้อมูลที่มีมิติสูง โดยใช้การประมาณสองขั้นตอนด้วยวิธี Lasso+MLE และวิธี Lasso+ Partial Ridge ซึ่งในการศึกษานี้จะจำลองข้อมูลทั้งหมด 8 ชุด และเปรียบเทียบประสิทธิภาพของช่วงความเชื่อมั่นที่ได้จากการสร้างช่วงความเชื่อมั่นทั้งหมด 4 วิธี ได้แก่ วิธี Parametric Bootstrap Lasso+MLE, วิธี Parametric Bootstrap Lasso+Partial Ridge, วิธี Paired Bootstrap Lasso+MLE และวิธี Paired Bootstrap Lasso+Partial Ridge โดยใช้เกณฑ์ในการเปรียบเทียบประสิทธิภาพของช่วงความเชื่อมั่น คือ ความกว้างเฉลี่ยของช่วงความเชื่อมั่น ค่าความน่าจะเป็นครอบคลุม ค่าความแม่นยำ และค่าความไว จากการศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่า วิธี Parametric Bootstrap Lasso+Partial Ridge มีประสิทธิภาพในการสร้างช่วงความเชื่อมั่นมากที่สุด รองลงมาคือ วิธี Paired Bootstrap Lasso+Partial Ridge และวิธี Paired Bootstrap Lasso+MLE ตามลำดับ และวิธีที่มีประสิทธิภาพในการสร้างช่วงความเชื่อมั่นน้อยที่สุด ก็คือ วิธี Parametric Bootstrap Lasso+MLE ดังนั้นจึงสรุปได้ว่า การสร้างช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอยลอจิสติกโดยใช้การประมาณสองขั้นตอนด้วยวิธี Lasso+Partial Ridge มีประสิทธิภาพมากกว่าวิธี Lasso+MLE


การแบ่งส่วนรูปภาพดอกไม้ด้วยการใช้ซาเลียนซีแมปร่วมกับการประยุกต์ใช้ปริภูมิสีเอชเอสวีและหน้ากากสี, ธนณัฏฐ์ หงษ์ทอง Jan 2021

การแบ่งส่วนรูปภาพดอกไม้ด้วยการใช้ซาเลียนซีแมปร่วมกับการประยุกต์ใช้ปริภูมิสีเอชเอสวีและหน้ากากสี, ธนณัฏฐ์ หงษ์ทอง

Chulalongkorn University Theses and Dissertations (Chula ETD)

การจำแนกประเภทรูปภาพดอกไม้เป็นสิ่งที่ท้าทาย เนื่องจากความคล้ายคลึงกันทางกายภาพของดอกไม้ เทคนิคการแบ่งส่วนรูปภาพ (Image segmentation) สามารถลดความซับซ้อนขององค์ประกอบภายในพื้นหลังภาพ ทำให้การจำแนกประเภทรูปภาพดอกไม้มีประสิทธิภาพมากขึ้น งานวิจัยชิ้นนี้ได้นำเสนอแนวคิดการแบ่งส่วนรูปภาพ โดยอิงการใช้ประโยชน์จากซาเลียนซีแมป (Saliency map) ในการเลือกบริเวณที่สนใจภายในภาพ และการใช้ปริภูมิสีเอชเอสวี (HSV) ผนวกกับการใช้หน้ากากสี (Color mask) ในการช่วยลดรายละเอียดที่ไม่สำคัญภายในพื้นหลังของรูปภาพ ผลการทดลองแสดงให้เห็นว่าวิธีการที่นำเสนอให้ผลลัพธ์การแบ่งส่วนรูปภาพโดยวัดจากค่าเฉลี่ย IoU เท่ากับ 54% (ซึ่งมากกว่างานวิจัยก่อนหน้า 13 %) ในขณะที่ค่าความถูกต้อง ความแม่นยำ ค่าความครบถ้วน และค่า F1 เมื่อจำแนกประเภทดอกไม้ด้วยแบบจำลอง VGG16 ที่ผ่านการปรับโครงสร้างเท่ากับ 87 %


การเรียนรู้การถ่ายทอดสำหรับการจำแนกภาพด้วยโครงข่ายคอนโวลูชัน: กรณีศึกษาภาพถ่ายรังสีทรวงอกของผู้ป่วยที่ติดเชื้อโควิด19, ธัญญ์ชวิน โพธิวัฒน์ธนัต Jan 2021

การเรียนรู้การถ่ายทอดสำหรับการจำแนกภาพด้วยโครงข่ายคอนโวลูชัน: กรณีศึกษาภาพถ่ายรังสีทรวงอกของผู้ป่วยที่ติดเชื้อโควิด19, ธัญญ์ชวิน โพธิวัฒน์ธนัต

Chulalongkorn University Theses and Dissertations (Chula ETD)

เทคนิคการประมวลผลจากภาพถูกนำมาใช้กันอย่างแพร่หลายในหลากหลายอุตสาหกรรมในปัจจุบัน โดยการนำมาประยุกต์ใช้กับทางการแพทย์ก็เป็นอีกหนึ่งอุสาหกรรมที่ได้รับความนิยม ทั้งนี้ปัญหาในการจำแนกภาพสามารถทำได้หลายวิธีด้วยกัน หนึ่งในนั้น คือการนำการเรียนรู้เชิงลึกมาประยุกต์ใช้ในการแก้ไขปัญหา โดยการจำแนกประเภทผ่านการเรียนรู้เชิงลึกสามารถแก้ไขได้อย่างรวดเร็วและแม่นยำผ่านการนำโครงข่ายการเรียนรู้เชิงลึกแบบคอนโวลูชั่น หรือ ซีเอ็นเอ็น (Convolutional Neural Networks หรือ CNN) มาใช้กับเทคนิคการเรียนรู้ถ่ายทอด (Transfer Learning) งานวิจัยนี้จึงนำเสนอวิธีการประยุกต์ใช้เทคนิคการเรียนรู้ถ่ายทอดในการฝึกสอนแบบจำลองโครงข่ายคอนโวลูชั่นเชิงลึกเพื่อจำแนกภาพถ่ายรังสีทรวงอกออกเป็น 3 ประเภท คือ 1) ภาพถ่ายรังสีทรวงอกของผู้ป่วยปกติ 2) ภาพถ่ายรังสีทรวงอกของผู้ป่วยที่ติดเชื้อโควิด19 3) ภาพถ่ายรังสีทรวงอกของผู้ติดเชื้อปอดอักเสบจากไวรัส ผ่านแบบจำลองที่ถูกฝึกมาเรียบร้อย (Pre-trained Model) แล้วสามแบบจำลอง ประกอบด้วย โมไบล์เน็ตวี2 (MobileNetV2) เรสเน็ต50 (Resnet50) และอินเซปชันวี3 (InceptionV3) ซึ่งได้ถูกเลือกมาใช้ในการทดสอบเพื่อสร้างแบบจำลองทั้งหมด 3 ตัว ประกอบด้วย ซีเอ็นเอ็น+โมไบล์เน็ตวี2 ซีเอ็นเอ็น+เรสเน็ต50 และ ซีเอ็นเอ็น+อินเซปชันวี3 ซึ่งพบว่า สมรรถนะแบบจำลองซีเอ็นเอ็น+อินเซปชันวี3 ให้ผลลัพธ์ที่ดีที่สุด จึงถูกเลือกนำไปปรับรายละเอียด การประเมินผลบนชุดข้อมูลทดสอบของแบบจำลองซีเอ็นเอ็น+อินเซปชันวี3 หลังจากทำการปรับรายละเอียด (Fine Tuning) ทั้งหมดด้วยกัน 8 ชั้น คือ ชั้นที่ 280, 250, 230, 200, 160, 150, 130 และ 120 ซึ่งแตกต่างจากบทความวิจัยส่วนใหญ่ที่ทำการละทิ้งการตรึงเพียงชั้นเดียว โดยเห็นได้ว่าการปรับรายละเอียดของแบบจำลองที่ทำการละทิ้งการตรึงตั้งแต่ชั้น 150 ให้ผลการทดสอบการจำแนกภาพถ่ายรังสีทรวงอกของผู้ป่วยที่ติดเชื้อโควิด19 ได้ความแม่นยำที่ดีที่สุดที่ 95% ซึ่งเห็นได้ว่าแนวทางการจำแนกประเภทภาพที่นำเสนอมีความหวังสามารถนำไปพัฒนาต่อยอด เพื่อเป็นประโยชน์ต่ออุตสาหกรรมการแพทย์ได้


การเปรียบเทียบความแม่นยำการจำแนกประเภทข้อมูลอนุกรมเวลาในปริภูมิเวกเตอร์ระหว่างวิธีแซ็คและวิธีบอส: กรณีศึกษา ข้อมูลคลื่นไฟฟ้าหัวใจ, นภัสสร แก้วกล้า Jan 2021

การเปรียบเทียบความแม่นยำการจำแนกประเภทข้อมูลอนุกรมเวลาในปริภูมิเวกเตอร์ระหว่างวิธีแซ็คและวิธีบอส: กรณีศึกษา ข้อมูลคลื่นไฟฟ้าหัวใจ, นภัสสร แก้วกล้า

Chulalongkorn University Theses and Dissertations (Chula ETD)

การตรวจคลื่นไฟฟ้าหัวใจ เป็นหัตถการสำคัญที่ใช้วินิจฉัยความผิดปกติของหัวใจ แต่การตรวจวัดคลื่นไฟฟ้าหัวใจนั้นก็อาจมีสัญญาณรบกวนแบบต่าง ๆ ที่เกิดขึ้นได้จากหลายสาเหตุ ซึ่งอาจทำให้ผลการวินิจฉัยทางการแพทย์ผิดพลาด งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบอัลกอริทึมสำหรับการจำแนกประเภทข้อมูลคลื่นไฟฟ้าหัวใจที่มีสัญญาณรบกวนด้วย Symbolic Aggregate Approximation in Vector Space (SAXVSM) และ Bag of Symbolic Fourier Approximation Symbols in Vector Space (BOSSVS) เพื่อให้สามารถเลือกใช้อัลกอริทึมในการจำแนกประเภทข้อมูลคลื่นไฟฟ้าหัวใจได้อย่างเหมาะสม โดยใช้ข้อมูลคลื่นไฟฟ้าหัวใจ ECG5000 ซึ่งอยู่ในฐานข้อมูล Physionet ซึ่งข้อมูลชุดนี้ถูกบันทึกโดยศูนย์การแพทย์ Beth Israel Deaconess Medical Center (BIDMC) ที่เมืองบอสตัน ประเทศสหรัฐอเมริกา และผู้วิจัยได้จำลองการสัญญาณรบกวนในคลื่นไฟฟ้าหัวใจ 4 แบบ ได้แก่ 1) Electromyography (EMG) 2) Powerline Interference 3) Baseline Wander และ 4) Composite ที่ระดับ 25% 50% และ 100% เพื่อเปรียบเทียบประสิทธิภาพของการจำแนกประเภทจังหวะการเต้นของหัวใจปกติและผิดปกติด้วย SAXVSM และ BOSSVS จากการวิจัยสามารถสรุปได้ว่า สำหรับข้อมูลทั้ง 13 ชุด ทั้ง SAXVSM และ BOSSVSM มีประสิทธิภาพดีใกล้เคียงกัน โดยมีค่าความถูกต้องและคะแนน F1 อยู่ที่ 97-99% ค่าความแม่นยำอยู่ที่ 95-99% และค่าความระลึกอยู่ที่ 97-100% แต่ BOSSVS ใช้เวลาในการประมวลผลนานกว่า SAXVSM


การทดสอบประสิทธิภาพการแบ่งข้อมูลตัวแปรเดียวด้วยการใช้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำ, วิชญ์ยุตม์ สุขแพทย์ Jan 2021

การทดสอบประสิทธิภาพการแบ่งข้อมูลตัวแปรเดียวด้วยการใช้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำ, วิชญ์ยุตม์ สุขแพทย์

Chulalongkorn University Theses and Dissertations (Chula ETD)

การแบ่งช่วงธรรมชาติเจงค์เป็นวิธีการจัดกลุ่มข้อมูลที่ได้รับความนิยม งานวิจัยนี้ได้นำการแบ่งช่วงธรรมชาติเจงค์มาปรับใช้ด้วยการเพิ่มจำนวนกลุ่มที่ใช้แบ่งเรื่อย ๆ จนกว่าจุดแบ่งแรกของการแบ่งช่วงธรรมชาติเจงค์จะเปลี่ยนแปลงไปน้อยกว่าค่าร้อยละที่กำหนดและใช้จุดแบ่งแรกนั้นในการแบ่งข้อมูลออกเป็น 2 กลุ่ม จากการทดสอบประสิทธิภาพด้วยการจำลองข้อมูลตัวแปรเดียวที่มีการแจกแจงในรูปแบบการแจกแจงปกติแบบผสมและการแจกแจงล็อกปกติแบบผสม 2 กลุ่มและเปรียบเทียบกับวิธีการแบ่งกลุ่มข้อมูลอื่น ๆ พบว่าการแบ่งช่วงธรรมชาติเจงค์แบบซ้ำนั้นไม่มีประสิทธิภาพในการแบ่งข้อมูลแจกแจงปกติแบบผสมเมื่อต้องการให้ได้ความแม่นยำสูงสุด และเหมาะสมกับการใช้ในข้อมูลแจกแจงล็อกปกติแบบผสมเมื่อข้อมูล 2 กลุ่มมีจำนวนใกล้เคียงกันหรือกลุ่มที่ค่าเฉลี่ยสูงกว่ามีจำนวนมากกว่า นอกจากนี้การแบ่งช่วงธรรมชาติเจงค์แบบซ้ำใช้เวลาในการแบ่งกลุ่มกว่าวิธีอื่นมาก จึงไม่เหมาะสมที่จะนำมาใช้หากข้อมูลมีจำนวนมาก


การศึกษาเปรียบเทียบการประมาณค่าจากตัวแบบการถดถอย สำหรับข้อมูลที่มีการแจกแจงแบบล็อกนอร์มอล ที่ถูกตัดปลายทางขวาแบบสุ่มที่มีการแจกแจงแบบเบตา, ธัญพิชชา ยอดแก้ว Jan 2021

การศึกษาเปรียบเทียบการประมาณค่าจากตัวแบบการถดถอย สำหรับข้อมูลที่มีการแจกแจงแบบล็อกนอร์มอล ที่ถูกตัดปลายทางขวาแบบสุ่มที่มีการแจกแจงแบบเบตา, ธัญพิชชา ยอดแก้ว

Chulalongkorn University Theses and Dissertations (Chula ETD)

งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบการประมาณค่าจากตัวแบบการถดถอย สำหรับข้อมูลที่มีการแจกแจงแบบล็อกนอร์มอล ที่ถูกตัดปลายทางขวาแบบสุ่มที่มีการแจกแจงแบบเบตา ด้วยวิธีการประมาณค่าแบบกำลังสองต่ำสุด (OLS) วิธีของแชตเทอร์จีและแมคลีช (CM) วิธีภาวะน่าจะเป็นสูงสุดด้วยขั้นตอนวิธีอีเอ็ม (MLE_EM) วิธีภาวะน่าจะเป็นสูงสุดด้วยขั้นตอนอีเอ็ม เมื่อมีการปรับค่าข้อมูลก่อนคำนวณด้วยค่าเฉลี่ย (MLE_EM_MEAN) และวิธีภาวะน่าจะเป็นสูงสุดด้วยขั้นตอนอีเอ็ม เมื่อมีการปรับค่าข้อมูลก่อนคำนวณด้วยค่ามัธยฐาน (MLE_EM_MED) เปรียบเทียบจากค่าประสิทธิภาพสัมพัทธ์ของค่าเฉลี่ยของค่าคลาดเคลื่อนกำลังสอง โดยจำลองข้อมูลทั้งหมด 2187 สถานการณ์ จากการศึกษาพบว่า 1) เมื่อข้อมูลมีขนาดเล็กหรือปานกลาง (n=30,50) และมีเปอร์เซ็นต์ในการถูกตัดปลายทางขวาน้อย (r1=10) วิธี OLS และ CM เป็นวิธีที่มีประสิทธิภาพสูงสุด แตกต่างกันตามลักษณะการกระจายตัวของตัวแปรอิสระและความคลาดเคลื่อน 2) วิธีในกลุ่ม MLE_EM มีประสิทธิภาพสูงสุด เมื่อตัวอย่างขนาดปานกลาง (n=50) ถูกตัดปลายทางขวาปานกลางหรือมาก (r1=20,30) และตัวอย่างขนาดใหญ่ (n=100) โดยแบ่งตามช่วงการเข้ามาของข้อมูล เมื่อข้อมูลเข้ามาในช่วงต้นของการเปิดรับ วิธี MLE_EM_MED มีประสิทธิภาพสูงสุด ในขณะที่เมื่อข้อมูลเข้ามาในช่วงกลางของการเปิดรับ วิธีในกลุ่ม MLE_EM จะมีประสิทธิภาพสูงสุด และเมื่อข้อมูลเข้ามาในช่วงท้ายของการเปิดรับ วิธี MLE_EM และ MLE_EM_MEAN เป็นวิธีที่มีประสิทธิภาพสูงสุด 3) ทุกวิธีมีประสิทธิภาพมากขึ้นเมื่อตัวอย่างมีขนาดใหญ่ขึ้น หรือข้อมูลถูกตัดปลายทางขวาน้อยลง หรือสัดส่วนของช่วงเวลาที่เปิดรับข้อมูลเข้ามาเพื่อศึกษาต่อช่วงเวลาที่ศึกษาข้อมูลลดลง หรือความคลาดเคลื่อนกระจายตัวน้อยกว่าตัวแปรอิสระ


การเปรียบเทียบประสิทธิภาพของวิธีทดแทนค่าสูญหายในข้อมูลพหุระดับ: การประยุกต์ใช้กับการวิเคราะห์ความเหลื่อมล้ำทางการศึกษา, นวลรัตน์ ฉิมสุด Jan 2021

การเปรียบเทียบประสิทธิภาพของวิธีทดแทนค่าสูญหายในข้อมูลพหุระดับ: การประยุกต์ใช้กับการวิเคราะห์ความเหลื่อมล้ำทางการศึกษา, นวลรัตน์ ฉิมสุด

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อ (1) เพื่อเปรียบเทียบประสิทธิภาพของวิธีทดแทนค่าข้อมูลสูญหาย 3 วิธี ได้แก่วิธี MI-FCS, วิธี RF และวิธี Opt.impute ซึ่งประกอบด้วย วิธี Opt.knn , Opt.tree, วิธี Opt.svm, และวิธี Opt.cv โดยใช้การจำลองข้อมูลและนำผลที่ได้มาประยุกต์ใช้กับข้อมูลจริง (2) เพื่อวิเคราะห์ความเหลื่อมล้ำทางการศึกษา ด้วยโมเดลพหุระดับโดยใช้ข้อมูลที่มีการทดแทนค่าสูญหาย และเปรียบเทียบผลที่ได้ กับการวิเคราะห์ความเหลื่อมล้ำทางการศึกษาที่ไม่ได้ทดแทนค่าสูญหาย ผลการวิจัยพบว่า (1) จากการพิจารณาผลการเปรียบเทียบประสิทธิภาพของวิธีทดแทนค่าสูญหายโดยใช้การจำลองข้อมูลในภาพรวม จะพบว่าส่วนใหญ่วิธีทดแทนค่าสูญหาย Otp.impute มีแนวโน้มให้ประสิทธิภาพสูงที่สุด รองลงมาคือ วิธีทดแทนค่าสูญหาย RF และวิธีทดแทนค่าสูญหาย MI – FCS ตามลำดับ (2) ผู้วิจัยรวบรวมข้อมูลทุติยภูมิของนักเรียนชั้นมัธยมศึกษาปีที่ 3 จากสถาบันทดสอบทางการศึกษาแห่งชาติ (สทศ.) ปีการศึกษา 2563 จำนวน 2,109 โรงเรียนที่อยู่ในสังกัดสำนักเขตพื้นที่การศึกษามัธยมศึกษา(สพม.) นำวิธีทดแทนค่าสูญหายที่ได้จากการจำลองข้อมูลมาประยุกต์ใช้กับข้อมูลทุติยภูมิดังกล่าว ผลการวิจัย จะพบว่าสัดส่วนของนักเรียนที่ครอบครัวขาดแคลนทุนทรัพย์และไม่ได้พักอาศัยอยู่กับบิดามารดาระดับโรงเรียน ส่งผลกระทบต่อผลสัมฤทธิ์ ทางการเรียนของนักเรียนระดับโรงเรียน อย่างมีนัยสำคัญทางสถิติ โดยผลกระทบที่เกิดขึ้นสะท้อนให้เห็นถึงความเหลื่อมล้ำทางการศึกษา และเมื่อเปรียบเทียบผลที่ได้กับการวิเคราะห์ความเหลื่อมล้ำทางการศึกษาที่ไม่ได้ทดแทนค่าสูญหาย แสดงให้เห็นว่าหากนำข้อมูลวิเคราะห์ผลการวิจัยโดยไม่คำนึงถึงค่าสูญหาย หรือตัดค่าสูญหายทิ้ง อาจจะส่งผลกระทบต่อการประมาณค่าพารามิเตอร์ที่แท้จริง อย่างมีนัยสำคัญทางสถิติ หรือไม่สามารถอนุมานไปสู่ประชากรได้อย่างถูกต้องและแม่นยำ


ความเหมาะสมของโมเดลการวัดความเป็นพลเมืองดิจิทัลของนักเรียนแบบสะท้อนและแบบก่อตัว : การวิเคราะห์ด้วยสถิติแบบเบส์, พิมพ์ลักษณ์ เจริญวานิชกูร Jan 2021

ความเหมาะสมของโมเดลการวัดความเป็นพลเมืองดิจิทัลของนักเรียนแบบสะท้อนและแบบก่อตัว : การวิเคราะห์ด้วยสถิติแบบเบส์, พิมพ์ลักษณ์ เจริญวานิชกูร

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อ 1) เปรียบเทียบความเหมาะสมของโมเดลการวัดความเป็นพลเมืองดิจิทัลของนักเรียนระหว่างโมเดลการวัดแบบสะท้อนและแบบก่อตัว 2) เปรียบเทียบความเป็นพลเมืองดิจิทัลและองค์ประกอบของความเป็นพลเมืองดิจิทัลของนักเรียนที่มีภูมิหลังต่างกัน โดยกลุ่มตัวอย่างที่ใช้ในการวิจัย คือ นักเรียนระดับชั้นมัธยมศึกษาตอนปลายในโรงเรียนสังกัดสำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน (สพฐ.) เขตกรุงเทพมหานคร จำนวน 450 คน ได้มาจากการสุ่มตัวอย่างแบบสองขั้นตอน เครื่องมือที่ใช้ในการวิจัยเป็นแบบวัดความเป็นพลเมืองดิจิทัล จำนวน 46 ข้อ วิเคราะห์ข้อมูลใช้สถิติบรรยาย การวิเคราะห์ความแปรปรวน การวิเคราะห์ด้วยสถิติแบบเบส์ และการวิเคราะห์ด้วยสถิติแบบความถี่ ด้วยโปรแกรม Mplus ผลการวิจัยพบว่า 1) โมเดลการวัดความเป็นพลเมืองดิจิทัลของนักเรียนแบบสะท้อน (Reflective-Reflective) มีความเหมาะสมมากกว่าโมเดลการวัดแบบก่อตัว (Reflective-Formative) 2) ความเป็นพลเมืองดิจิทัลของนักเรียน เมื่อเปรียบเทียบตามเพศ ระดับชั้น ระยะเวลาที่ใช้อินเทอร์เน็ตเพื่อการพักผ่อน และระยะเวลาที่ใช้อินเทอร์เน็ตเพื่อพบปะกับเพื่อนฝูง พบว่ามีความเป็นพลเมืองดิจิทัลแตกต่างกันอย่างไม่มีนัยสำคัญทางสถิติที่ระดับ .05 แต่เมื่อเปรียบเทียบตามแผนการเรียน ขนาดโรงเรียน และระยะเวลาที่ใช้อินเทอร์เน็ตเพื่อการศึกษา พบว่ามีความเป็นพลเมืองดิจิทัลแตกต่างกันอย่างมีนัยสำคัญทางสถิติที่ระดับ .05 เมื่อเปรียบเทียบปฏิสัมพันธ์ระหว่างขนาดโรงเรียนและแผนการเรียน พบว่า โรงเรียนขนาดกลาง นักเรียนที่ศึกษาในแผนการเรียนวิทย์–คณิตและศิลป์–คำนวณมีความเป็นพลเมืองดิจิทัลสูงกว่านักเรียนที่ศึกษาในแผนการเรียนศิลป์–ภาษา อย่างมีนัยสำคัญทางสถิติที่ระดับ .05 พิจารณาองค์ประกอบของความเป็นพลเมืองดิจิทัล พบว่า องค์ประกอบที่ 1 การรู้ดิจิทัล นักเรียนที่ศึกษาในแผนการเรียนวิทย์–คณิตและศิลป์–คำนวณมีคะแนนเฉลี่ยสูงกว่านักเรียนที่ศึกษาในแผนการเรียนศิลป์–ภาษา นักเรียนที่ศึกษาในโรงเรียนขนาดใหญ่และขนาดใหญ่พิเศษมีคะแนนเฉลี่ยสูงกว่านักเรียนที่ศึกษาในโรงเรียนขนาดกลาง และนักเรียนที่ใช้อินเทอร์เน็ตเพื่อการศึกษา 5-6 ชั่วโมง มีคะแนนเฉลี่ยสูงกว่านักเรียนที่ใช้เวลา 3-4 ชั่วโมงอย่างมีนัยสำคัญทางสถิติที่ระดับ .05 องค์ประกอบที่ 2 การมีส่วนร่วมทางดิจิทัล นักเรียนหญิงมีคะแนนเฉลี่ยสูงกว่านักเรียนชาย นักเรียนที่ศึกษาในแผนการเรียนวิทย์–คณิตและศิลป์–คำนวณมีคะแนนเฉลี่ยสูงกว่านักเรียนที่ศึกษาในแผนการเรียนศิลป์–ภาษา นักเรียนที่ศึกษาในโรงเรียนขนาดใหญ่พิเศษมีคะแนนเฉลี่ยสูงกว่านักเรียนที่ศึกษาในโรงเรียนขนาดกลางอย่างมีนัยสำคัญทางสถิติที่ระดับ .05 องค์ประกอบที่ 3 การรักษาอัตลักษณ์ในโลกดิจิทัล นักเรียนที่ศึกษาในแผนการเรียนวิทย์–คณิตและศิลป์–คำนวณมีคะแนนเฉลี่ยสูงกว่านักเรียนที่ศึกษาในแผนการเรียนศิลป์–ภาษา นักเรียนที่ศึกษาในโรงเรียนขนาดใหญ่พิเศษมีคะแนนเฉลี่ยสูงกว่านักเรียนที่ศึกษาในโรงเรียนขนาดกลาง และนักเรียนที่ใช้อินเทอร์เน็ตเพื่อการศึกษา 5-6 ชั่วโมง มีคะแนนเฉลี่ยสูงกว่านักเรียนที่ใช้เวลาน้อยกว่า 1 ชั่วโมง 1-2 ชั่วโมง และ 3-4 ชั่วโมง และนักเรียนที่ใช้อินเทอร์เน็ตเพื่อการศึกษามากกว่า 6 ชั่วโมง มีคะแนนเฉลี่ยสูงกว่านักเรียนที่ใช้เวลาน้อยกว่า 1 ชั่วโมง และ 3-4 ชั่วโมง อย่างมีนัยสำคัญทางสถิติที่ระดับ .05 องค์ประกอบที่ 4 การมีจริยธรรมในการใช้ดิจิทัล …


การพัฒนาโมเดลสมการโครงสร้างพหุระดับของปัจจัยที่มีอิทธิพลต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียนมัธยมศึกษา, อักษราภัคส์ โกสินรุ่งเรือง Jan 2021

การพัฒนาโมเดลสมการโครงสร้างพหุระดับของปัจจัยที่มีอิทธิพลต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียนมัธยมศึกษา, อักษราภัคส์ โกสินรุ่งเรือง

Chulalongkorn University Theses and Dissertations (Chula ETD)

การวิจัยครั้งนี้มีวัตถุประสงค์ดังนี้ 1) ศึกษาสภาพของทักษะการเรียนรู้และนวัตกรรมของนักเรียน 2) ตรวจสอบความตรงของโมเดลสมการโครงสร้างพหุระดับของปัจจัยที่มีอิทธิพลต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียนมัธยมศึกษากับข้อมูลเชิงประจักษ์ ตัวอย่างประกอบด้วยนักเรียนระดับชั้นมัธยมศึกษาปีที่ 3 จำนวน 893 คน และครูผู้สอนนักเรียนระดับชั้นมัธยมศึกษาปีที่ 3 จำนวน 78 คน ในภาคเรียนที่ 2 ปีการศึกษา 2564 ซึ่งเก็บข้อมูลจากโรงเรียนจำนวน 39 แห่ง สังกัดสำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน จังหวัดกรุงเทพมหานคร สุ่มตัวอย่างโดยใช้วิธีการแบบหลายขั้นตอน (Multi-Stage Random Sampling) เครื่องมือที่ใช้ในการวิจัยประกอบด้วยแบบสอบถามสำหรับนักเรียน และแบบสอบถามสำหรับครู การวิเคราะห์สถิติบรรยายด้วยโปรแกรม SPSS 22.0 และการวิเคราะห์โมเดลสมการโครงสร้างพหุระดับ (The Multilevel Structural Equation Model: MSEM) ด้วยโปรแกรม Mplus 8.8 ผลการวิจัยพบว่า 1) สภาพของทักษะการเรียนรู้และนวัตกรรมของนักเรียนอยู่ในระดับปานกลาง เพศหญิงและเพศชายมีระดับทักษะการเรียนรู้และนวัตกรรมไม่แตกต่างกัน 2) โมเดลสมการโครงสร้างพหุระดับของปัจจัยที่มีอิทธิพลต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียนมัธยมศึกษามีความสอดคล้องกับข้อมูลเชิงประจักษ์ (Chi-square = 86.903, df = 71, p-value = 0.0966 และ RMSEA = 0.016) โดยระดับนักเรียน พบว่า การอบรมเลี้ยงดูแบบประชาธิปไตย เจตคติต่อการเรียน และความเชื่ออำนาจภายในตน มีอิทธิพลทางตรงเชิงบวกต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียน อีกทั้งการอบรมเลี้ยงดูแบบประชาธิปไตยยังส่งอิทธิพลทางอ้อมต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียนโดยส่งผ่านความเชื่ออำนาจภายในตนของนักเรียนอย่างมีนัยสำคัญทางสถิติ สำหรับระดับโรงเรียนพบว่า การจัดกิจกรรมการเรียนการสอน และบรรยากาศในชั้นเรียน มีอิทธิพลทางตรงเชิงบวกต่อทักษะการเรียนรู้และนวัตกรรมของนักเรียนอย่างมีนัยสำคัญทางสถิติ ตัวแปรทำนายทั้งหมดในระดับนักเรียนและระดับโรงเรียนสามารถอธิบายความแปรปรวนของทักษะการเรียนรู้และนวัตกรรมได้ร้อยละ 71 และ 95 ตามลำดับ