机器学习

2024-05-06 18:28:52 +08:00 · 2024-05-06 18:28:52 +08:00 · 5966b77d66
parent 6af21ee8e4
commit 5966b77d66
10 changed files with 11473 additions and 125 deletions
--- a/system/start/pom.xml
+++ b/system/start/pom.xml
@ -10,7 +10,7 @@
    <modelVersion>4.0.0</modelVersion>

    <artifactId>start</artifactId>
-    
+
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
@ -21,6 +21,26 @@
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.13</artifactId>
            <version>3.2.0</version>
+            <exclusions>
+                <exclusion>
+                    <artifactId>janino</artifactId>
+                    <groupId>org.codehaus.janino</groupId>
+                </exclusion>
+                <exclusion>
+                    <artifactId>commons-compiler</artifactId>
+                    <groupId>org.codehaus.janino</groupId>
+                </exclusion>
+            </exclusions>
+        </dependency>
+        <dependency>
+            <artifactId>janino</artifactId>
+            <groupId>org.codehaus.janino</groupId>
+            <version>3.0.8</version>
+        </dependency>
+        <dependency>
+            <artifactId>commons-compiler</artifactId>
+            <groupId>org.codehaus.janino</groupId>
+            <version>3.0.8</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
--- a/system/start/src/main/java/org/jeecg/sy/java/Controller.java
+++ b/system/start/src/main/java/org/jeecg/sy/java/Controller.java
@ -3,7 +3,6 @@ package org.jeecg.sy.java;
 import com.alibaba.fastjson.JSONArray;
 import com.alibaba.fastjson.JSONObject;
 import org.jeecg.common.api.vo.Result;
-import org.jeecg.sy.scala.WeatherPrediction$;
 import org.jeecg.sy.temp.analysis$;
 import org.jetbrains.annotations.NotNull;
 import org.springframework.data.redis.core.RedisTemplate;
@ -24,6 +23,7 @@ public class Controller {
    @Resource
    private RedisTemplate<String, Object> redisTemplate;

+    // 爬虫
    @RequestMapping("/get")
    public Result test1() throws MalformedURLException {
        return Result.ok(analysis$.MODULE$.analysis2(getData.getDatas("")));
--- a/system/start/src/main/java/org/jeecg/yw/analysis.java
+++ b/system/start/src/main/java/org/jeecg/yw/analysis.java
@ -1,22 +0,0 @@
-package org.jeecg.yw;
-
-import com.alibaba.fastjson.JSONObject;
-import org.jeecg.common.api.vo.Result;
-import org.jeecg.yw.ml.LinearRegression;
-import org.jeecg.yw.spark.index;
-import org.springframework.web.bind.annotation.RequestBody;
-import org.springframework.web.bind.annotation.RequestMapping;
-import org.springframework.web.bind.annotation.RestController;
-import java.util.Map;
-
-@RestController
-@RequestMapping("/analysis")
-public class analysis {
-    @RequestMapping("/data")
-    public Result test(@RequestBody Map<String, Object> map) {
-        JSONObject json = new JSONObject();
-        json.put("healthScore", index.getScore(map));
-        json.put("foodRecommendations", LinearRegression.getResult(map));
-        return Result.ok(json);
-    }
-}
--- a/system/start/src/main/java/org/jeecg/yw/java/index.java
+++ b/system/start/src/main/java/org/jeecg/yw/java/index.java
@ -0,0 +1,29 @@
+package org.jeecg.yw.java;
+
+import com.alibaba.fastjson.JSONObject;
+import org.jeecg.common.api.vo.Result;
+import org.jeecg.yw.spark.analysis$;
+import org.springframework.web.bind.annotation.RequestBody;
+import org.springframework.web.bind.annotation.RequestMapping;
+import org.springframework.web.bind.annotation.RestController;
+
+import java.util.Map;
+
+@RestController
+@RequestMapping("/analysis")
+public class index {
+    @RequestMapping("/data")
+    public Result getData(@RequestBody Map<String, Object> map) {
+        JSONObject json = new JSONObject();
+        json.put("healthScore", analysis$.MODULE$.getScore(map));
+        json.put("foodRecommendations", analysis$.MODULE$.getResult(map));
+        return Result.ok(json);
+    }
+
+    @RequestMapping("/ml")
+    public Result getScore(@RequestBody Map<String, Object> map) {
+        JSONObject json = new JSONObject();
+        json.put("ML", analysis$.MODULE$.getML(map));
+        return Result.ok(json);
+    }
+}
--- a/system/start/src/main/java/org/jeecg/yw/ml/LinearRegression.java
+++ b/system/start/src/main/java/org/jeecg/yw/ml/LinearRegression.java
@ -1,42 +0,0 @@
-package org.jeecg.yw.ml;
-
-import com.alibaba.fastjson.JSONObject;
-
-import java.util.Map;
-import java.util.Set;
-
-public class LinearRegression {
-    // 获取结果
-    public static String getResult(Map<String, Object> map) {
-        String result[] = new String[9];
-        result[0] = "您的饮食缺少蛋白质,请多吃一些肉类、鱼类、蛋类、奶类等食物";
-        result[1] = "您的饮食缺少脂肪,请多吃一些肉类、鱼类、蛋类、奶类等食物";
-        result[2] = "您的饮食缺少碳水化合物,请多吃一些米面类食物";
-        result[3] = "您的饮食缺少维生素,请多吃一些水果、蔬菜等食物";
-        result[4] = "您的饮食缺少矿物质,请多吃一些水果、蔬菜等食物";
-        result[5] = "您的饮食缺少纤维,请多吃一些水果、蔬菜等食物";
-        result[6] = "您的饮食缺少水,请多喝水";
-        result[7] = "您的饮食过多,请适量减少食物摄入";
-        result[8] = "您的饮食过油腻,请适量减少食物摄入";
-        // 每条结果有30%的概率出现
-        Set<Integer> set = new java.util.HashSet<>();
-        // 随机9次，每次都是30%的概率，将结果加入set
-        for (int i = 0; i < 9; i++) {
-            int random = (int) (Math.random() * 10);
-            if (random < 3) {
-                set.add(i);
-            }
-        }
-        //拼接结果
-        String resultStr = "";
-        int j = 0;
-        for (int i : set) {
-            j++;
-            resultStr += j + "." + result[i] + "\n";
-        }
-
-        return resultStr;
-    }
-
-
-}
--- a/system/start/src/main/java/org/jeecg/yw/spark/analysis.scala
+++ b/system/start/src/main/java/org/jeecg/yw/spark/analysis.scala
@ -0,0 +1,118 @@
+package org.jeecg.yw.spark
+
+import org.apache.spark.ml.PipelineModel
+import org.apache.spark.sql.SparkSession
+import org.apache.spark.sql.types.{StringType, StructField, StructType}
+
+import java.util
+import java.util.{HashSet, Map, Set}
+import scala.collection.convert.ImplicitConversions.{`collection AsScalaIterable`, `map AsScala`}
+
+object analysis {
+
+  import org.apache.spark.sql.Row
+
+  // 机器学习预测
+  def getML(map: Map[String, AnyRef]): Double = {
+    val spark = SparkSession.builder()
+      .appName("Weather Temperature Prediction")
+      .master("local[*]")
+      .getOrCreate()
+
+    // 加载模型
+    val model = PipelineModel.load("hdfs://192.168.192.100:8020/Model")
+
+    // 从map中获取键值对，并创建一个新的DataFrame
+    val row = Row.fromSeq(map.values.toSeq)
+    val df = spark.createDataFrame(
+      spark.sparkContext.parallelize(Seq(row)),
+      StructType(map.keys.toSeq.map(fieldName => StructField(fieldName, StringType)))
+    )
+
+    // 使用模型进行预测
+    val predictions = model.transform(df)
+    predictions.select("prediction").show()
+    spark.stop()
+    val prediction = predictions.select("prediction").collect()(0)(0).toString.toDouble
+    prediction
+  }
+
+  def getScore(map: Map[String, AnyRef]): Double = {
+    val age: Int = map.get("age").toString.toInt
+    val weight: Int = map.get("weight").toString.toInt
+    val sleepTime: Int = map.get("sleepTime").toString.toInt
+    val tableDataObject: AnyRef = map.get("tableData")
+    var Score: Double = 100
+
+    import scala.jdk.CollectionConverters._
+
+    val tableDataList: List[Map[String, AnyRef]] = tableDataObject.asInstanceOf[java.util.ArrayList[java.util.Map[String, AnyRef]]].asScala.toList
+    // 遍历列表
+    for (item <- tableDataList) {
+      val `type`: String = item.get("type").toString
+      val num: Int = item.get("num").toString.toInt
+      if (`type` == ("绿叶蔬菜") || `type` == ("红橙色蔬菜") || `type` == ("土豆") || `type` == ("其他蔬菜类") || `type` == ("薯类") || `type` == ("水果") || `type` == ("大豆制品") || `type` == ("新鲜肉类") || `type` == ("鱼虾或其他海鲜") || `type` == ("蛋类") || `type` == ("奶类")) {
+        Score += 3.25 * (10 + num) / 10
+      }
+      else {
+        Score -= 10.25 * (10 + num) / 10
+      }
+    }
+
+    var temp: Double = 0
+    // 计算年龄
+    Score = (Score * (100 + age - 10) / 100).toInt
+    if (weight > 60) {
+      temp = 60 - weight
+    } else if (weight < 40) {
+      temp = 40 - weight
+    } else {
+      temp = 0
+    }
+    Score = (Score * (100 - temp) / 100).toInt
+    if (sleepTime > 12) {
+      temp = sleepTime - 12
+    } else if (sleepTime < 7) {
+      temp = 7 - sleepTime
+    } else {
+      temp = 0
+    }
+    Score = (Score * (100 + sleepTime - 8) / 100).toInt
+    if (Score > 97) {
+      Score = 97
+    }
+    return Score
+  }
+
+  def getResult(map: util.Map[String, AnyRef]): String = {
+    val result: Array[String] = new Array[String](9)
+    result(0) = "您的饮食缺少蛋白质,请多吃一些肉类、鱼类、蛋类、奶类等食物"
+    result(1) = "您的饮食缺少脂肪,请多吃一些肉类、鱼类、蛋类、奶类等食物"
+    result(2) = "您的饮食缺少碳水化合物,请多吃一些米面类食物"
+    result(3) = "您的饮食缺少维生素,请多吃一些水果、蔬菜等食物"
+    result(4) = "您的饮食缺少矿物质,请多吃一些水果、蔬菜等食物"
+    result(5) = "您的饮食缺少纤维,请多吃一些水果、蔬菜等食物"
+    result(6) = "您的饮食缺少水,请多喝水"
+    result(7) = "您的饮食过多,请适量减少食物摄入"
+    result(8) = "您的饮食过油腻,请适量减少食物摄入"
+    val set: util.Set[Integer] = new util.HashSet[Integer]
+    for (i <- 0 until 9) {
+      val random: Int = (Math.random * 10).toInt
+      if (random < 3) set.add(i)
+    }
+    //拼接结果
+    var resultStr: String = ""
+    var j: Int = 0
+    for (i <- 0 until set.size) {
+      j += 1
+      resultStr += j + "." + result(i) + "\n"
+    }
+    resultStr
+  }
+
+  def getRecord(): Double = {
+    // 一个70-90的随机数
+    val random: Double = (Math.random * 10).toInt
+    random
+  }
+}
--- a/system/start/src/main/java/org/jeecg/yw/spark/index.java
+++ b/system/start/src/main/java/org/jeecg/yw/spark/index.java
@ -1,59 +0,0 @@
-package org.jeecg.yw.spark;
-
-import com.alibaba.fastjson.JSONObject;
-
-import java.util.HashMap;
-import java.util.List;
-import java.util.Map;
-
-public class index {
-    // 获取分数
-    public static double getScore(Map<String, Object> map) {
-        // 值分为age，weight，sleepTime，tableData（是一个json数组）
-        //计算规则如下，满分为100，其中年龄只做一个浮动值，从7-18岁，算法为总分*（100+岁数-10）%，即十岁以上的总分会比较高
-        //体重，每减少1kg，总分减少1%，每增加1kg，总分增加1%，便准体重为
-        //睡眠时间，每减少1小时，总分减少1%，每增加1小时，总分增加1%，便准睡眠时间为8小时
-        //获取年龄，体重，睡眠时间
-        int age = Integer.parseInt(map.get("age").toString());
-        int weight = Integer.parseInt(map.get("weight").toString());
-        int sleepTime = Integer.parseInt(map.get("sleepTime").toString());
-        // 检查tableData是否是List类型
-        Object tableDataObject = map.get("tableData");
-        String tableData = map.get("tableData").toString();
-        // 将tableData转为map
-        //遍历循环json数组
-        // 好的
-        // 绿叶蔬菜 红橙色蔬菜 土豆 其他蔬菜类 薯类
-        // 水果 大豆制品 新鲜肉类 鱼虾或其他海鲜 蛋类 奶类
-        // 坏的
-        // 方便面西式快餐 加糖饮料 加糖或盐的零食和甜点 油炸食品 加工肉类
-        // 一共有16个字段，数据结构为[{type=绿叶蔬菜, num=1}，.. 其中数字为1-5
-        // 计算方式为基础分数为100，每个好的食物加N*（1.X）分，每个坏的食物减N*（1.X）分 其中X是num,N是100/16=6.25
-        double Score = 100;
-        if (tableDataObject instanceof List) {
-            List<Map<String, Object>> tableDataList = (List<Map<String, Object>>) tableDataObject;
-            // 遍历列表
-            for (Map<String, Object> item : tableDataList) {
-                // 例如，获取type和num
-                String type = item.get("type").toString();
-                int num = Integer.parseInt(item.get("num").toString());
-                if (type.equals("绿叶蔬菜") || type.equals("红橙色蔬菜") || type.equals("土豆") || type.equals("其他蔬菜类") || type.equals("薯类") || type.equals("水果") || type.equals("大豆制品") || type.equals("新鲜肉类") || type.equals("鱼虾或其他海鲜") || type.equals("蛋类") || type.equals("奶类")) {
-                    Score += 6.25 * (10 + num) / 10;
-                } else {
-                    Score -= 9.25 * (10 + num) / 10;
-                }
-            }
-        }
-        // 计算年龄
-        Score = (int) (Score * (100 + age - 10) / 100);
-        // 计算体重
-        Score = (int) (Score * (100 + weight - 60) / 100);
-        // 计算睡眠时间
-        Score = (int) (Score * (100 + sleepTime - 8) / 100);
-        // 最高不超过97
-        if (Score > 97) {
-            Score = 97;
-        }
-        return Score;
-    }
-}
--- a/system/start/src/main/java/org/jeecg/yw/spark/test.scala
+++ b/system/start/src/main/java/org/jeecg/yw/spark/test.scala
@ -0,0 +1,26 @@
+package org.jeecg.yw.spark
+
+import org.apache.spark.ml.PipelineModel
+import org.apache.spark.sql.SparkSession
+
+object test {
+  def main(args: Array[String]): Unit = {
+    val spark = SparkSession.builder()
+      .appName("Weather Temperature Prediction")
+      .master("local[*]")
+      .getOrCreate()
+
+    // 加载模型
+    val model = PipelineModel.load("hdfs://192.168.192.100:8020/Model")
+
+    val newData = spark.createDataFrame(Seq(
+      (5.0, 3.0, 2.0, 4.0)
+    )).toDF("绿叶蔬菜", "水果", "大豆制品", "新鲜肉类")
+
+    // 使用模型进行预测
+    val predictions = model.transform(newData)
+    predictions.select("prediction").show()
+
+    spark.stop()
+  }
+}
--- a/system/start/src/main/java/org/jeecg/yw/spark/train.scala
+++ b/system/start/src/main/java/org/jeecg/yw/spark/train.scala
@ -0,0 +1,63 @@
+package org.jeecg.yw.spark
+
+import org.apache.spark.sql.SparkSession
+import org.apache.spark.sql.functions.udf
+import org.apache.spark.ml.feature.{VectorAssembler, StandardScaler}
+import org.apache.spark.ml.classification.LogisticRegression
+import org.apache.spark.ml.{Pipeline, PipelineModel}
+import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
+
+object train {
+  def main(args: Array[String]): Unit = {
+    // 设置HADOOP_USER_NAME环境变量
+    System.setProperty("HADOOP_USER_NAME", "root")
+    // 创建Spark会话(win本地)
+    val spark = SparkSession.builder()
+      .appName("Weather Temperature Prediction")
+      .master("local[*]")
+      .getOrCreate()
+    // 加载数据
+    val data = spark.read.option("header", "true").option("inferSchema", "true")
+      .csv("C:\\Users\\23972\\Desktop\\Completion-template-cmd\\system\\start\\src\\main\\java\\org\\jeecg\\yw\\spark\\青少年膳食营养数据集.csv")
+    // 将健康评分转为分类标签的UDF
+    val categorizeHealth = udf((score: Double) => score match {
+      case score if score <= 33 => 0
+      case score if score <= 66 => 1
+      case _ => 2
+    })
+    // 应用UDF
+    val processedData = data.withColumn("HealthCategory", categorizeHealth(data("健康自评")))
+    val assembler = new VectorAssembler()
+      .setInputCols(Array("绿叶蔬菜", "水果", "大豆制品", "新鲜肉类"))
+      .setOutputCol("features")
+    // 特征标准化
+    val scaler = new StandardScaler()
+      .setInputCol("features")
+      .setOutputCol("scaledFeatures")
+    // 初始化逻辑回归模型
+    val lr = new LogisticRegression()
+      .setFeaturesCol("scaledFeatures")
+      .setLabelCol("HealthCategory")
+    // 创建Pipeline
+    val pipeline = new Pipeline()
+      .setStages(Array(assembler, scaler, lr))
+    // 划分数据集
+    val Array(trainingData, testData) = processedData.randomSplit(Array(0.8, 0.2), seed = 1234L)
+    // 训练模型
+    val model = pipeline.fit(trainingData)
+    // 预测
+    val predictions = model.transform(testData)
+    // 模型评估
+    val evaluator = new MulticlassClassificationEvaluator()
+      .setLabelCol("HealthCategory")
+      .setPredictionCol("prediction")
+      .setMetricName("accuracy")
+
+    val accuracy = evaluator.evaluate(predictions)
+    println(s"Accuracy = $accuracy")
+    // 保存在 hdfs路径
+    model.write.overwrite().save("hdfs://192.168.192.100:8020/Model")
+    // 关闭Spark会话
+    spark.stop()
+  }
+}
--- a/system/start/src/main/java/org/jeecg/yw/spark/青少年膳食营养数据集.csv
+++ b/system/start/src/main/java/org/jeecg/yw/spark/青少年膳食营养数据集.csv