<div dir="ltr">Thanks for digging, Rayson.<div><br></div><div>So, /etc/sysconfig/network had HOSTNAME=centos-ami when the problem first occurred.  I tried resetting it to &quot;master&quot; and then retried the SGE commands (qstat, qsub, etc.).  They still failed with the same error at that point, so I switched them back, not knowing for sure if they&#39;d been set to master and node001 to begin with.</div>
<div><br></div><div style>Thanks,</div><div style>Lyn</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Dec 27, 2013 at 2:35 PM, Rayson Ho <span dir="ltr">&lt;<a href="mailto:raysonlogin@gmail.com" target="_blank">raysonlogin@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">(Updating the list...)<br>
<br>
The hostname on the master gets reset to centos-ami, which is not<br>
resolvable. Thus Grid Engine complains about the hostname issue.<br>
<br>
Lyn: what is the value of the HOSTNAME key in &quot;/etc/sysconfig/network&quot;<br>
on your master instance??<br>
<br>
Justin &amp; other devs: set_hostname() in node.py works on Ubuntu because<br>
Ubuntu uses /etc/hostname, but RHEL (and RHEL-based distros like<br>
CentOS, Oracle Linux, Scientific Linux) uses /etc/sysconfig/network,<br>
and yet SuSE uses /etc/HOSTNAME!<br>
<div class="im HOEnZb"><br>
Rayson<br>
<br>
==================================================<br>
Open Grid Scheduler - The Official Open Source Grid Engine<br>
<a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
<a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
<br>
<br>
</div><div class="HOEnZb"><div class="h5">On Fri, Dec 27, 2013 at 6:39 PM, Lyn Gerner &lt;<a href="mailto:schedulerqueen@gmail.com">schedulerqueen@gmail.com</a>&gt; wrote:<br>
&gt; I used the Scientific Linux AMI (been a long time, but I found it from the<br>
&gt; SC site), and 0.94.3 is my SC version.<br>
&gt;<br>
&gt;<br>
&gt; On Fri, Dec 27, 2013 at 1:36 PM, Rayson Ho &lt;<a href="mailto:raysonlogin@gmail.com">raysonlogin@gmail.com</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; Hmm, which AMI did you use, and what&#39;s the version of SC?<br>
&gt;&gt;<br>
&gt;&gt; Rayson<br>
&gt;&gt;<br>
&gt;&gt; ==================================================<br>
&gt;&gt; Open Grid Scheduler - The Official Open Source Grid Engine<br>
&gt;&gt; <a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
&gt;&gt; <a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; On Fri, Dec 27, 2013 at 6:33 PM, Lyn Gerner &lt;<a href="mailto:schedulerqueen@gmail.com">schedulerqueen@gmail.com</a>&gt;<br>
&gt;&gt; wrote:<br>
&gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt; # /opt/sge6/utilbin/linux-x64/gethostname -name<br>
&gt;&gt; &gt; error resolving local host: can&#39;t resolve host name (h_errno =<br>
&gt;&gt; &gt; HOST_NOT_FOUND)<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt; # hostname<br>
&gt;&gt; &gt; centos-ami<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt; # hostname -f<br>
&gt;&gt; &gt; hostname: Unknown host<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; What&#39;s weird is that I have never mucked with any of this under<br>
&gt;&gt; &gt; StarCluster,<br>
&gt;&gt; &gt; and have only recently started having problems.  Can&#39;t pinpoint any<br>
&gt;&gt; &gt; specific<br>
&gt;&gt; &gt; event or thing that changed--except that I started leaving the config up<br>
&gt;&gt; &gt; for<br>
&gt;&gt; &gt; days instead of hours at a stretch.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Thanks,<br>
&gt;&gt; &gt; Lyn<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; On Fri, Dec 27, 2013 at 1:30 PM, Rayson Ho &lt;<a href="mailto:raysonlogin@gmail.com">raysonlogin@gmail.com</a>&gt;<br>
&gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; No problem, and I think that&#39;s why it is failing. Can you also send me<br>
&gt;&gt; &gt;&gt; the output of:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; 1) gethostname -name<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; 2) hostname<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; 3) hostname -f<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Rayson<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; ==================================================<br>
&gt;&gt; &gt;&gt; Open Grid Scheduler - The Official Open Source Grid Engine<br>
&gt;&gt; &gt;&gt; <a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
&gt;&gt; &gt;&gt; <a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; On Fri, Dec 27, 2013 at 6:27 PM, Lyn Gerner &lt;<a href="mailto:schedulerqueen@gmail.com">schedulerqueen@gmail.com</a>&gt;<br>
&gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt; My bad:<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt;&gt; &gt; # /opt/sge6/utilbin/linux-x64/gethostname -all<br>
&gt;&gt; &gt;&gt; &gt; error resolving local host: can&#39;t resolve host name (h_errno =<br>
&gt;&gt; &gt;&gt; &gt; HOST_NOT_FOUND)<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; Thanks for any insights,<br>
&gt;&gt; &gt;&gt; &gt; Lyn<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; On Fri, Dec 27, 2013 at 1:25 PM, Rayson Ho &lt;<a href="mailto:raysonlogin@gmail.com">raysonlogin@gmail.com</a>&gt;<br>
&gt;&gt; &gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; But I need the output of &quot;gethostname&quot;, not &quot;gethostbyname&quot;... :-P<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Rayson<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; ==================================================<br>
&gt;&gt; &gt;&gt; &gt;&gt; Open Grid Scheduler - The Official Open Source Grid Engine<br>
&gt;&gt; &gt;&gt; &gt;&gt; <a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; <a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; On Fri, Dec 27, 2013 at 6:11 PM, Lyn Gerner<br>
&gt;&gt; &gt;&gt; &gt;&gt; &lt;<a href="mailto:schedulerqueen@gmail.com">schedulerqueen@gmail.com</a>&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Thanks for the quick response, Rayson.  Output from gethostbyname<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; is<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; in<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; between the ****s below:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; On Fri, Dec 27, 2013 at 1:04 PM, Rayson Ho &lt;<a href="mailto:raysonlogin@gmail.com">raysonlogin@gmail.com</a>&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; What is the output of &quot;gethostname&quot;? (gethostname is shipped with<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; SGE<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; in the util dir.)<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; Rayson<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; ==================================================<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; Open Grid Scheduler - The Official Open Source Grid Engine<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; <a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; <a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; On Fri, Dec 27, 2013 at 5:34 PM, Lyn Gerner<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &lt;<a href="mailto:schedulerqueen@gmail.com">schedulerqueen@gmail.com</a>&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Hi All,<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Okay, I&#39;m in the Twilight Zone now.  After starting a small<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; cluster<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; on<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; the<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; 23rd, and doing minimal reconfig (qmod -d) to disable the<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; sge_execd<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; on<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; the<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; master and qconf -mq all.q to change some slot counts -- all of<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; which<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; worked<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; fine -- I come back these days later to find an unusable SGE<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; config:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; root@AWS-VTMXmaster-w2b ~<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; # qstat -f<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; error: sge_gethostbyname failed<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; /etc/hosts is correct for all its (internal) host addrs:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; root@AWS-VTMXmaster-w2b ~<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; # cat /etc/hosts<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; 127.0.0.1   localhost localhost.localdomain localhost4<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; localhost4.localdomain4<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; ::1         localhost localhost.localdomain localhost6<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; localhost6.localdomain6<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; 10.250.65.204 master<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; 10.251.30.12 node001<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; *****<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; The gethostbyname utility works correctly (so does<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; gethostbyaddr):<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; # /opt/sge6/utilbin/linux-x64/gethostbyname master<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Hostname: master<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Aliases:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Host Address(es): 10.250.65.204<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; # /opt/sge6/utilbin/linux-x64/gethostbyname node001<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Hostname: node001<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Aliases:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Host Address(es): 10.251.30.12<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; ******<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; # qstat -f<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; error: sge_gethostbyname failed<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; I went so far as to edit the hostname in /etc/sysconfig/network<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; to<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; contain<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; &quot;master&quot; and &quot;node001&quot; on the two nodes.  Same error.<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; I have been all over the &#39;net looking for solutions, but have<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; found<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; nothing<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; with a clear resolution.  <a href="http://gridengine.sunsource.net" target="_blank">gridengine.sunsource.net</a> is gone.<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; The<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; follow-on<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; at <a href="http://gridengine.org/pipermail/users/" target="_blank">http://gridengine.org/pipermail/users/</a> doesn&#39;t seem to be<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; searchable,<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; except on an onerous, month-by-month click-thru basis (which<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; hasn&#39;t<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; yielded<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; anything useful as I slog thru it).<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Short of starcluster restart&#39;ing, I&#39;ll appreciate anyone&#39;s<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; inputs<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; on<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; what to<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; try next.<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Thanks much,<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; Lyn<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; _______________________________________________<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; StarCluster mailing list<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;<br>
&gt;<br>
</div></div></blockquote></div><br></div>