校长信箱的一些统计数字

继上次文本分析走了各种弯路之后(见前几篇博文),时值周末,就回家休息了,昨晚回到宿舍,重新换个思路搞,这次的思路就没有那么天马行空了,拿 PHP 从数据库把 HTML 提出来,滤掉标签,中文分词,然后分月统计,事实证明,脚踏实地是管用的,昨晚写了一部分,后来熄灯了,今天早上又要实习,于是中午回来继续改改,就……

阅读全文

今天上午文本分析的各种弯路

昨晚看到有人因为章校长退休了,怕信箱不再,于是在爬数据,反正闲着没事干,于是我也爬,观察了一下 URL ,每个部门或者领导有一个这样的属于自己的 URL http://www.szu.edu.cn/mailbox/list.asp?leader=%CA%A6%D4%BA%B0%EC%B9%AB%CA%D2&page=4 leader 字段后面是名字,编码是 gb2312 ,顺带一提,整个流程的编码都……

阅读全文