Сандық қолдану. Ранжирлеу функциясын сипаттаңыз
Машиналық оқытуда сандық пайдалану машиналық оқыту алгоритмдеріндегі сандық деректермен жұмыс істеуді білдіреді. Көп жағдайда машиналық оқыту алгоритмдері жұмыс істейтін деректер сандық мәндермен көрсетіледі. Бұл сандар, объектілерді сипаттайтын өлшемдер немесе әртүрлі параметрлерді өлшеу нәтижелері болуы мүмкін. Деректердің сандық көрінісі машиналық оқытудағы негізгі қадам болып табылады, өйткені алгоритмдердің көпшілігі сандармен жұмыс істейді және деректерді дұрыс көрсету модельдің өнімділігіне айтарлықтай әсер етеді.
Ранжирлеу функциясы – тізімдер жиынынан тұратын оқу жинағынан ранжирлеу үлгісін автоматты түрде таңдауды және әрбір тізімдегі элементтерге ішінара тапсырыстарды беруді қамтитын бақыланатын машиналық оқыту мәселелерінің сыныбы. Ішінара реттілік әдетте әрбір элемент үшін ұпайды көрсету арқылы көрсетіледі. Ранжирлеу функциясы моделінің мақсаты - жаңа деректерге оқыту жиынындағы ранжирлеу әдісін ең жақсы жуықтау және жалпылау. Ранжирлеу міндеті (learning to rank) жауаптарды бірден көптеген объектілерден алу керек, содан кейін оларды жауаптардың мәндеріне қарай сұрыптау керек. Жіктелу немесе регрессия міндеттеріне әкелуі мүмкін. Мәтіндерді ақпараттық іздеу мен талдауда жиі қолданылады.
27. Тірек векторлар әдісіндегі ажырамайтын жағдайды анықтаңыз
Тірек векторлар (SVM) әдісінің негізгі идеясы оқытушы жиындағы оң және теріс мысалдарды максималды түрде ажырататын шешімдер беті болатын гиперкеңістікті құру болып табылады. Тірек векторларды оқыту алгоритмін құру тірек вектор мен кіріс кеңістіктен алынған вектордың скаляр көбейтіндісінің ядросы түсінігіне негізделеді. Тірек векторлар әдісі - бұл «мұғаліммен» оқытуды қолданатын алгоритм. Яғни, ол нақты кіріс және шығыс деректерінде оқытылады. Әдіс үлкен деректер жиынтығымен жұмыс істеген кезде жоғары дәлдікке ие, бірақ серпінді және күрделі сценарийлерде көмек қажет болуы мүмкін.
Тірек векторлар машиналарындағы (SVM) ажырамайтын жағдай деректерді гипержазықтық арқылы екі сыныпқа тамаша бөлу мүмкін болмаған кезде орын алады. Бұл, мысалы, бір сыныптың объектілері басқа сыныптың объектілерімен ішінара қабаттасатын кезде немесе деректерде шектен тыс мәндер болған кезде орын алуы мүмкін.
27. Titanic.csv деректер жинағын жүктеп алыңыз. Сұраққа жауап беріңіз: бауырластар/қарындастар саны ата-аналар/балалар санымен корреляцияланады ма? SibSp және Parch белгілері арасындағы Пирсон корреляциясын есептеуді көрсетіңіз.
Пирсон корреляция коэффициенті айнымалылар арасындағы сызықтық байланыстың өлшемі болып табылады: оның мәндері екі айнымалы шашырау сызбасындағы нүктелер түзу сызықта жатқанда максималды болады.
import pandas as pd
df = pd.read_csv("titanic.csv")
correlation = df['SibSp'].corr(df['Parch'])
print("{:0.2f}".format(correlation))
Достарыңызбен бөлісу: |